WO2020127422A1 - Dispositif de détection hyperspectrale - Google Patents

Dispositif de détection hyperspectrale Download PDF

Info

Publication number
WO2020127422A1
WO2020127422A1 PCT/EP2019/085847 EP2019085847W WO2020127422A1 WO 2020127422 A1 WO2020127422 A1 WO 2020127422A1 EP 2019085847 W EP2019085847 W EP 2019085847W WO 2020127422 A1 WO2020127422 A1 WO 2020127422A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
scene
hyperspectral
neural network
compressed image
Prior art date
Application number
PCT/EP2019/085847
Other languages
English (en)
Inventor
Gérald GERMAIN
Original Assignee
Lysia
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR1873313A external-priority patent/FR3091382B1/fr
Priority claimed from FR1901202A external-priority patent/FR3091380B1/fr
Priority claimed from FR1905916A external-priority patent/FR3091381B1/fr
Application filed by Lysia filed Critical Lysia
Priority to EP19820789.6A priority Critical patent/EP3714399A1/fr
Priority to US17/416,380 priority patent/US20210383151A1/en
Publication of WO2020127422A1 publication Critical patent/WO2020127422A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Definitions

  • the present invention relates to a device for detecting objects or features in the focal plane of a scene based on a measurement using a method of compressing the hyperspectral scene in three dimensions into a non-homogeneous image in two. dimensions, and a processing of the image obtained making it possible to detect the particularities sought in the scene.
  • the invention finds a particularly advantageous application for on-board systems intended to detect objects or particularities in a scene from their shape, their texture and their light reflectance.
  • the invention can be applied to a large number of technical fields in which hyperspectral detection is sought.
  • the invention can be used, for example, in the medical and dental field, to aid in diagnosis.
  • the invention can also be used to carry out phenotyping, to detect symptoms of stress or disease or to differentiate between species.
  • the invention can also be used to measure concentrations.
  • the invention can be used to discern counterfeiting.
  • a detection with hyperspectral acquisition corresponds to the detection of features in the focal plane of a scene from an acquired two-dimensional image containing a representation of the spatial and spectral information of the focal plane of the scene .
  • CTIS Computer-Tomography Imaging Spectrometer
  • CASSI Coded Aperture Snapshot Spectral Imaging
  • the CTIS method requires an estimation process based on a two-dimensional matrix representing the transfer function of the diffraction optics. This matrix must be inverted to reconstruct the hyperspectral image.
  • the matrix of the transfer function not being completely defined, iterative and costly matrix inversion methods which are costly in computing resources allow to approach the result step by step.
  • CASSI method and its derivatives also require matrix calculations that are not completely defined, and use iterative calculation methods that are costly in computing resources in order to approach the result.
  • the three-dimensional hyperspectral image reconstructed by these calculation methods does not contain additional spatial or spectral information compared to the compressed image in two dimensions obtained by these acquisition methods.
  • the estimation by the calculation of the hyperspectral image in three dimensions is therefore not necessary for a direct detection of the particularities sought in the focal plane of the scene.
  • the technical problem of the invention consists in directly detecting the particularities or objects sought after the acquisition of at least a compressed, non-homogeneous, non-linear representation in two dimensions containing all the spatial and spectral information a hyperspectral scene in three dimensions.
  • the present invention proposes to respond to this technical problem by directly detecting the particularities sought by means of a deep and convolutional formal neural network, the architecture of which is adapted to direct detection, applied to an image compressed in two dimensions of a hyperspectral scene in three dimensions of the scene.
  • the three-dimensional hyperspectral image does not contain more spatial and spectral information than the compressed image obtained by the CTIS or CASSI acquisition methods since the three-dimensional hyperspectral image is reconstructed from the compressed image.
  • the invention proposes to detect directly in the compressed image the particularities sought in the focal plane of a scene.
  • the invention relates to a device for detecting particularities in a hyperspectral scene.
  • the invention is characterized in that the device comprises a system for direct detection of features in said hyperspectral scene which integrates a deep and convolutional neural network structured to detect the feature (s) sought in said hyperspectral scene from at minus a compressed image of the hyperspectral scene.
  • the invention makes it possible to detect particularities in said hyperspectral scene in real time between two acquisitions of the hyperspectral focal plane of the scene observed. In doing so, it is no longer necessary to postpone the processing of the compressed images and it is no longer necessary to store these compressed images after detection. Also it is no longer necessary to reconstruct the hyperspectral image in three dimensions before applying the detection method.
  • the compressed image obtained by the optical system contains the diffracted focal plane and encoded according to the coding scheme of a mask introduced into the optical path before diffraction of the scene.
  • the neural network uses the following information for the direct detection of the specific features sought:
  • a device for capturing an image of a hyperspectral scene and for detecting features in this hyperspectral scene in three dimensions further comprising a system for acquiring the at least one compressed image of the hyperspectral scene in three dimensions.
  • the acquisition system comprises a compact mechanical embodiment which can be integrated into a portable and autonomous device and the detection system is included in said portable and autonomous device.
  • the acquisition system comprises a compact mechanical construction which can be integrated in front of the lens of a camera of a smartphone and the detection system is included in the smartphone.
  • said at least one compressed image is obtained by an infrared sensor of the acquisition system. This embodiment provides information invisible to the human eye.
  • said compressed image is obtained by a sensor of the acquisition system whose wavelength is between 0.001 nanometer and 10 nanometers. This embodiment makes it possible to obtain information on the X-rays present on the observed scene.
  • said compressed image is obtained by a sensor of the acquisition system whose wavelength is between 10,000 nanometers and 20,000 nanometers. This embodiment makes it possible to obtain information on the temperature of the scene observed.
  • said at least one compressed image is obtained by a sensor of the acquisition system whose wavelength is between 300 nanometers and 2000 nanometers. This embodiment makes it possible to obtain information in the field visible and invisible to the human eye.
  • said at least one compressed image is obtained by a sensor of the acquisition system comprising:
  • a first converging lens configured to focus the information of a scene on an aperture
  • a collimator configured to capture the rays passing through said opening and to transmit these rays over a diffraction grating
  • This embodiment is particularly simple to carry out and can be adapted on an existing sensor.
  • said at least one compressed image is obtained by a sensor of the acquisition system comprising:
  • a first converging lens configured to focus the information of a scene on a mask
  • a collimator configured to capture the rays passing through said mask and to transmit these rays over a prism
  • a second converging lens configured to focus the rays from the prism on a collection surface.
  • This embodiment is particularly simple to carry out and can be adapted on an existing sensor.
  • the invention uses a deep and convolutional neural network structured to calculate a probability of the presence of the feature (s) sought in said hyperspectral scene.
  • Learning of said deep and convolutional neural network makes it possible to indicate the probability of the presence of the particularities sought for each x and y coordinates of said hyperspectral scene. For example, backward propagation of the gradient or its derivatives from training data can be used.
  • the neural network is structured to calculate a chemical concentration in said hyperspectral scene from the compressed image.
  • an output of the neural network is scalar or boolean.
  • an output layer of the neural network comprises a CONV layer (u) where u is greater than or equal to 1 and corresponds to the number of specific features sought.
  • the deep and convolutional neural network used for direct detection from the compressed image has an input layer structure suitable for direct detection.
  • the invention has several architectures of the deep layers of said neural network. Among these, an auto-encoding architecture as described in the document “SegNet: A Deep Convolutional Encoder- Décoder Architecture for Image Segmentation”, Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla is adapted in order to indicate the probability presence of the particularities sought for each x and y coordinates of the hyperspectral scene.
  • Said input layer of the neural network is adapted to the structure of the compressed image obtained by the acquisition means.
  • the input layer is a tensor of order three and has two spatial dimensions of size X MA X and Y MA X, and a depth dimension of size D MA X-
  • the invention uses the non-linear relation f (x t , y t , d t ) (x img , yi mg ) defined for x t e [O..X MA x [, y t e [O .. YM A X [and d t e [O..D MA x [allowing to calculate the coordinates x img and y img of the pixel of said compressed image whose intensity is copied in the tensor of order three of said layer of input of the neural network at coordinates (x t , y t , d t ).
  • the compressed image contains the diffractions of the hyperspectral scene obtained with diffraction filters.
  • the compressed image obtained contains an image portion of the non-diffracted scene, as well as the projections diffracted along the axes of the different diffraction filters.
  • the input layer of the neural network contains a copy of the chromatic representations of the hyperspectral scene of the compressed image according to the following non-linear relationship:
  • n floor (M (d t -iyD MA x);
  • d t between 1 and D MA X, the depth of the input layer of the neural network; x t between 0 and X MA X, the width of the input layer of the neural network;
  • the compressed image contains a two-dimensional encoded representation of the hyperspectral scene obtained with a mask and a prism.
  • the compressed image obtained contains a portion of the diffracted and encoded scene.
  • CASSI measured compressed image
  • Img Selected image from which the pixel is copied.
  • the architecture of the deep and convolutional neural network is composed of an encoder making it possible to search for the elementary characteristics specific to the desired detection, followed by a decoder making it possible to generate an image of probabilities of presence of the characteristics to be detected in said compressed image of the hyperspectral focal plane.
  • the encoder / decoder structure makes it possible to search for the elementary characteristics specific to the main characteristic sought in said hyperspectral focal plane.
  • the encoder is composed of a succession of layers of convolutional neurons alternating with layers of pooling (operator of decimation of the previous layer) making it possible to reduce the spatial dimension.
  • the decoder is composed of a succession of layers of deconvolution neurons alternating with layers of unpooling (operation of interpolation of the previous layer) allowing an increase in the spatial dimension.
  • an encoder / decoder structure is described in "SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation", Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla.
  • a set of fully connected neural layers can be positioned between the encoder and the decoder.
  • the convolutional neural network is architectured to detect the characteristic or characteristics sought in said hyperspectral scene from all of said at least one compressed image and at least one non-diffracted standard image of the hyperspectral scene.
  • the invention thus makes it possible to correlate the information contained in the different diffractions of the compressed image with information contained in the non-diffracted central part of the image obtained.
  • the compressed image obtained by the optical system contains the focal plane of the non-diffracted scene in the center, as well as the diffracted projections along the axes of the different diffraction filters.
  • the neural network uses, for the direct detection of the sought-after peculiarities, the information of said at least one following diffracted image:
  • the present invention uses different standard and compressed images of the same hyperspectral focal plane.
  • a neural network image fusion method deep and convolutive is presented in “Multimodal deep learning for robust rgb-d object recognition.
  • IROS Intelligent Robots and Systems
  • This document presents a deep and convolutional neural network structure using two processing paths, one path per type of image of the same scene, supplemented by layers merging the two paths; the function implemented by this deep and convolutional neural network is a classification of images.
  • This structure is not suitable as it is for the present invention, since it is not suitable for compressed images in two dimensions of a hyperspectral focal plane in three dimensions, and having for function the classification of the scene and not the detection of peculiarities in this scene.
  • an embodiment of the invention can also use the central part of the image , not diffracted, and makes it possible to search the complete image for spatial (shape, texture, etc.) and spectral (reflectance) characteristics.
  • the neural network is structured to calculate a probability of the presence of the characteristic (s) sought in said hyperspectral scene from the set of said at least one compressed image and said at least one non standard image -diffracted.
  • said convolutional neural network is structured so as to take into account the shifts of the focal planes of the various image acquisition sensors and integrate the homographic function making it possible to merge the information of the different sensors by taking take into account the parallaxes of the different images.
  • a device for capturing an image of a hyperspectral scene and for detecting features in this hyperspectral scene in three dimensions, further comprising a system for acquiring at least one image. non-diffracted standard of said hyperspectral scene.
  • said at least one standard non-diffracted image is obtained by an infrared sensor of the acquisition system. This embodiment provides information invisible to the human eye.
  • said at least one standard non-diffracted image is obtained by a sensor whose wavelength is between 300 nanometers and 2000 nanometers. This embodiment makes it possible to obtain information in the field visible and invisible to the human eye.
  • said at least one non-diffracted standard image and said at least one compressed image are obtained by a set of semi-transparent mirrors so as to capture the hyperspectral scene on several sensors simultaneously. This embodiment makes it possible to instantly capture identical plans.
  • the acquisition system comprises means for acquiring at least one compressed image of a focal plane of the hyperspectral scene.
  • the compressed image is non-homogeneous.
  • the compressed image is a two-dimensional image.
  • the neural network is structured to generate an image for each particular feature sought, the value of each pixel at the coordinates (x; y) corresponding to the probability of the presence of said particular feature at the same coordinates of the hyperspectral scene.
  • the compressed image obtained contains the image portion of the non-diffracted scene in the center.
  • the direct detection system does not implement the calculation of a hyperspectal cube of the scene for the detection of features.
  • the invention relates to a method for detecting features in a three-dimensional hyperspectral scene, characterized in that a system for direct detection of features in said hyperspectral scene incorporating a convolutional neural network detects the characteristic (s) sought in said hyperspectral scene from at least one compressed image of the hyperspectral scene.
  • M 7.
  • the invention in another aspect, relates to a computer program comprising instructions which, when the program is executed by a computer, cause the computer to carry out the method.
  • FIG. 2 a schematic structural representation of the elements of the device of FIG. 1;
  • FIG. 3 an alternative structural schematic representation of the elements of the device of FIG. 1;
  • FIG. 4 a schematic representation of the diffractions obtained by the acquisition device of FIG. 2;
  • FIG. 5 a schematic representation of the architecture of the neural network of FIG. 2.
  • FIG. 6 a schematic front view of the elements of a capture and detection device in a hyperspectral scene according to a second embodiment of the invention
  • FIG. 7 a schematic structural representation of the elements of the device of FIG. 6;
  • FIG. 8 a schematic representation of the architecture of the neural network of FIG. 7.
  • compressed we refer to a two-dimensional image of a three-dimensional scene comprising spatial and spectral information of the three-dimensional scene.
  • the spatial and spectral information of the three-dimensional scene is thus projected by means of an optical system onto a two-dimensional capture surface.
  • Such a “compressed” image may include one or more diffracted images of the three-dimensional scene, or parts thereof. In addition, it can also include part of a non-diffracted image of the scene.
  • the term “compressed” is used because a two-dimensional representation of three-dimensional spectral information is possible.
  • spectral we understand that we are going beyond, in terms of the number of frequencies detected, a “standard” RGB image of the scene.
  • non-homogeneous we refer to an image whose properties are not identical over the entire image.
  • a “non-homogeneous” image may contain, at certain locations, pixels whose information essentially comprises spectral information at a certain respective wavelength band, as well as, in other locations, pixels the information of which essentially includes non-spectral information.
  • Computer processing of such a “non-homogeneous” image is not possible, because the properties necessary for its processing are not identical depending on the locations in this image.
  • particularity we mean a characteristic of the scene - this characteristic can be spatial, spectral, correspond to a shape, a color, a texture, a spectral signature or a combination of these, and can in particular be interpreted semantically.
  • Object refers to the common meaning used for this term. Object detection on an image corresponds to the location and a semantic interpretation of the presence of the object on the imaged scene. An object can be characterized by its shape, color, texture, spectral signature or a combination of these characteristics.
  • FIG. 1 illustrates a device 2 for capturing a hyperspectral scene 3 comprising a sensor, or acquisition system 4, making it possible to obtain a compressed image in two dimensions 11 of a focal plane 103 of an observed scene.
  • the hyperspectral scene can be identified in space by means of an orthonormal coordinate system (x; y; z), not shown.
  • the x coordinates are for example measured along the axis shown horizontal in Figure 1, while the y coordinates are measured along the axis orthogonal to the sheet on which Figure 1 is shown.
  • the z axis completes the orthonormal coordinate system, and corresponds for example to the optical axis of the capture device 2. However, other orientations are possible.
  • the capture device 2 comprises a first converging lens 21 which focuses the focal plane 103 on an opening 22.
  • a collimator 23 captures the rays passing through the opening 22 and transmits these rays to a diffraction grating 24.
  • a second converging lens 25 focuses these rays from the diffraction grating 24 on a collection surface 26.
  • This optical structure makes it possible to obtain a compressed image 11, illustrated in FIG. 4, having several diffractions R0-R7 of the focal plane 103 arranged around a non-diffracted image of small size C.
  • the compressed image 11 has eight distinct R0-R7 diffractions obtained with two diffraction axes of the diffraction grating 24 arranged as far apart as possible from one another in a plane normal to the optical axis, that is that is to say substantially orthogonal to one another.
  • three diffraction axes can be used on the diffraction grating 24 so as to obtain a compressed image 11 with sixteen diffractions.
  • the three axes of diffraction can be equally distributed, that is to say separated from each other by an angle of 60 °.
  • the compressed image comprises 2 R + 1 diffractions if R scattered gratings are used, that is to say separated by the same angle from each other.
  • the collection surfaces 26 or 46 can correspond to a CCD sensor (for “charge-coupled device” in the English literature, that is to say a charge transfer device ), to a CMOS sensor (for “complementary metal-oxide-semiconductor” in the English literature, a technology for manufacturing electronic components), or to any other known sensor.
  • a CCD sensor for “charge-coupled device” in the English literature, that is to say a charge transfer device
  • CMOS sensor for “complementary metal-oxide-semiconductor” in the English literature, a technology for manufacturing electronic components
  • any other known sensor for example, the scientific publication “Practical Spectral Photography”, published in Euro-graphics, volume 31 (2012) number 2, proposes to associate this optical structure with a standard digital camera to capture the diffracted image.
  • the capture device 2 may include a first converging lens 41 which focuses the focal plane 103 on a mask 42.
  • a collimator 43 captures the rays passing through the mask 42 and transmits these rays to a prism 44.
  • a second converging lens 45 focuses these rays from the prism 44 on a collection surface 46.
  • the mask 42 defines a coding for the image 13.
  • the capture surfaces 26 or 46 may correspond to the photographic acquisition device of a smartphone or any other portable device including a photographic acquisition arrangement, by adding the capture device 2 of the hyperspectral scene 3 in front of the photographic acquisition device.
  • the acquisition system 4 may comprise a compact mechanical embodiment which can be integrated into a portable and autonomous device and the detection system is included in said portable and autonomous device.
  • each pixel of the compressed image 11 is coded in three colors red, green and blue and on 8 bits, thus making it possible to represent 256 levels on each color.
  • the capture surfaces 26 or 46 can be a device whose sensed wavelengths are not in the visible part.
  • the device 2 can integrate sensors whose wavelength is between 0.001 nanometer and 10 nanometers or a sensor whose wavelength is between 10,000 nanometers and 20,000 nanometers, or a sensor whose length wave is between 300 nanometers and 2000 nanometers. It can be an infrared device.
  • the detection system 1 implements a neural network 12 to detect a particular feature in the observed scene from the information of the compressed image 11.
  • This neural network 12 aims to determine the probability of the presence of the particular feature sought for each pixel located at the x and y coordinates of the hyperspectral scene 3 observed.
  • the neural network 12 comprises an input layer 30, capable of extracting the information from the image 11 and an output layer 31, capable of processing this information so as to generate an image whose intensity of each pixel at the x and y coordinates, corresponds to the probability of the presence of the peculiarity at the x and y coordinates of the hyperspectral scene 3.
  • the input layer 30 is populated from the pixels forming the compressed image.
  • the input layer is a tensor of order three, and has two spatial dimensions of size X M AX and Y M AX, and a depth dimension of size D M AX, corresponding to the number of subsets of l compressed image copied to the input layer.
  • the invention uses the nonlinear relation f (x t , y t , d t ) (x im g, y ⁇ g) defined for x t e [0..X M AX [, y t e [0..YMAX [and d t e [0 ..
  • the input layer 30 can be populated as follows:
  • n floor (M (d t -iyD MA x);
  • n between 0 and M, the number of diffractions of the compressed image
  • Mod represents the mathematical operator modulo.
  • each slice, in depth, of the entry tensor of order three of the neural network receives a part of a diffraction lobe corresponding substantially to an interval of wavelengths.
  • the invention makes it possible to correlate the information contained in the different diffractions of the diffracted image with information contained in the non-diffracted central part of the image.
  • the compressed image obtained by the optical system contains the focal plane of the non-diffracted scene in the center, as well as the diffracted projections along the axes of the different diffraction filters.
  • the neural network uses, for the direct detection of the sought-after peculiarities, the information of said at least one following diffracted image:
  • the input layer 30 can be populated as follows:
  • CASSI measured compressed image
  • Img Selected image from which the pixel is copied.
  • the architecture of said neural network 12, 14 is composed of a set of convolutional layers assembled linearly and alternately with decimation (pooling) or interpolation (unpooling) layers.
  • a convolutional layer of depth d is defined by d convolution kernels, each of these convolution kernels being applied to the volume of the input tensor of order three and of size Xi n ut , yi nput , di nput ⁇
  • the convolutional layer thus generates an output volume, tensor of order three, having a depth d.
  • An ACT activation function is applied to the calculated values of the output volume of this convolutional layer.
  • this function can be a ReLu function, defined by the following equation:
  • a decimation layer makes it possible to reduce the width and the height of the input tensor of order three for each depth of said tensor of order three.
  • a MaxPool decimation layer (2,2) selects the maximum value of a sliding tile on the surface of 2x2 values. This operation is applied to all the depths of the input tensor and generates an output tensor having the same depth and a width divided by two, as well as a height divided by two.
  • An interpolation layer makes it possible to increase the width and the height of the input tensor of order three for each depth of said tensor of order three.
  • a MaxUnPool (2,2) interpolation layer copies the input value of a sliding point onto the surface of 2x2 output values. This operation is applied to all the depths of the input tensor and generates an output tensor having the same depth and a width multiplied by two, as well as a height multiplied by two.
  • a neural network architecture allowing the direct detection of particularities in the hyperspectral scene can be as follows:
  • the number of CONV convolution (d) and MaxPool decimation (2.2) layers can be changed to facilitate the detection of features with higher semantic complexity.
  • a higher number of convolution layers makes it possible to process more complex signatures of shape, texture, or spectral of the particularity sought in the hyperspectral scene.
  • the number of CONV deconvolution layers (d) and MaxUnpool interpolation layers (2, 2) can be changed to facilitate reconstruction of the output layer.
  • a higher number of deconvolution layers makes it possible to reconstruct an output with greater precision.
  • the CONV (64) convolution layers can have a depth different from 64 in order to deal with a number of different local features. For example, a depth of 128 allows local processing of 128 different features in a complex hyperspectral scene.
  • the MaxUnpool interpolation layers (2, 2) can be of different interpolation dimensions.
  • a MaxUnpool layer (4, 4) makes it possible to increase the processing dimension of the upper layer.
  • the activation layers ACT of type ReLu (x) inserted following each convolution and deconvolution can be of different type.
  • the MaxPool decimation layers (2, 2) can be of different decimation dimensions.
  • a MaxPool layer (4, 4) makes it possible to reduce the spatial dimension more quickly and to concentrate the semantic research of the neural network on local particularities.
  • fully connected layers can be inserted between the two central convolution layers at line 6 of the description in order to process the detection in a higher mathematical space.
  • three fully connected layers of size 128 can be inserted.
  • the dimensions of the CONV convolution (64), MaxPool decimation (2, 2), and MaxUnpool interpolation (2, 2) layers can be adjusted on one or more layers, in order to adapt the architecture of the neural network as close as possible to the type of features sought in the hyperspectral scene.
  • the weights of said neural network 12 are calculated by means of learning. For example, learning by back-propagation of the gradient or its derivatives from training data can be used to calculate these weights.
  • the neural network 12 can determine the probability of the presence of several distinct features within the same observed scene.
  • the last convolutional layer will have a depth corresponding to the number of distinct features to be detected.
  • the convolutional layer CONV (1) is replaced by a convolutional layer CONV (u), where u corresponds to the number of distinct features to be detected.
  • FIG. 6 illustrates a device 102 for capturing a hyperspectral scene 3 comprising a set of sensors making it possible to obtain at least one compressed image in two dimensions 11 or 13 and at least one standard image 112 of a hyperspectral focal plane 103 of a scene observed.
  • the capture device 102 comprises at least one acquisition device, or sensor, 101 of a compressed image as described above with reference to FIG. 2.
  • the capture surface 32 can correspond to a CCD sensor (for “charge-coupled device” in the English literature, that is to say a charge transfer device), to a CMOS sensor (for “complementary metal-oxide- semiconductor "in the Anglo-Saxon literature, a technology for manufacturing electronic components), or any other known sensor.
  • a CCD sensor for “charge-coupled device” in the English literature, that is to say a charge transfer device
  • CMOS sensor for “complementary metal-oxide- semiconductor "in the Anglo-Saxon literature, a technology for manufacturing electronic components
  • the capture device 102 may further comprise a device for acquiring an “uncompressed” standard image, comprising a converging lens 131 and a capture surface 32.
  • the capture device 102 may further comprise a device acquisition of a compressed image as described above with reference to FIG. 3.
  • the standard image acquisition device and the compressed image acquisition device are arranged juxtaposed with parallel optical axes, and optical beams overlapping at least partially.
  • a portion of the hyperspectral scene is imaged at once by the acquisition devices.
  • the focal planes of the various image acquisition sensors are offset from one another transversely to the optical axes of these sensors.
  • a set of partially reflecting mirrors is used so as to capture said at least one non-diffracted standard image 112 and said at least one compressed image 11, 13 of the same hyperspectral scene 3 on several sensors simultaneously.
  • each pixel of the standard image 112 is coded in three colors red, green and blue and on 8 bits, thus making it possible to represent 256 levels on each color.
  • the capture surface 32 can be a device whose wavelengths captured are not in the visible part.
  • the device 2 can integrate sensors whose wavelength is between 0.001 nanometer and 10 nanometers or a sensor whose wavelength is between 10,000 nanometers and 20,000 nanometers, or a sensor whose length wave is between 300 nanometers and 2000 nanometers.
  • the detection means implements a neural network 14 to detect a particular feature in the observed scene from the information of the compressed images 11 and 13, and the standard image 112.
  • This neural network 14 aims to determine the probability of the presence of the characteristic sought for each pixel located at the x and y coordinates of the hyperspectral scene 3 observed.
  • the neural network 14 includes an encoder 51 for each compressed image and for each uncompressed image; each encoder 51 has an input layer 50, capable of extracting information from the image 11, 112 or 13.
  • the neural network merges the information coming from the various encoders 51 by means of convolution layers or fully connected layers 52 (special case shown in the figure).
  • a decoder 53 and its output layer 131 capable of processing this information so as to generate an image whose intensity of each pixel, at the x and y coordinate, corresponds to the probability of the presence of the feature at the x and y coordinates of the hyperspectral scene 3, is inserted following the fusion of the information.
  • the input layer 50 of an encoder 51 is filled with the different diffractions of the compressed image 11 as described above.
  • the population of the input layer relative to the "standard” image is populated by directly copying the "standard” image into the neural network.
  • the third input "Input3" of the neural network is populated as described above for the compressed image 13.
  • a neural network architecture allowing the direct detection of particularities in the hyperspectral scene can be as follows:
  • the line "CONV (64)" in the fifth line of the architecture operating the information fusion can be replaced by a fully connected layer having as input all of the MaxPool outputs (2, 2) of the processing paths for all of the inputs “inputl”, “input2” and “input3” and at output a tensor of order one serving as input to the next layer "CONV (64)" presented in the sixth line of l 'architecture.
  • the fusion layer of the neural network takes into account the shifts of the focal planes of the various image acquisition sensors, and integrates the homographic function making it possible to merge the information of the different sensors by taking into account the parallaxes of the different images.
  • the weights of said neural network 14 are calculated by means of learning. For example, learning by back-propagation of the gradient or its derivatives from training data can be used to calculate these weights.
  • the neural network 14 can determine the probability of the presence of several distinct features within the same observed scene.
  • the last convolutional layer will have a depth corresponding to the number of features to detect.
  • the convolutional layer CONV (1) is replaced by a convolutional layer CONV (u), where u corresponds to the number of distinct features to be detected.
  • part of the compressed image 11 comprises a “standard” image of the hyperspectral scene. These include the image portion C described above. In this case, this portion of image "C" of the compressed image 11 can be used as the "standard” image for input of the neural network.
  • the neural network 14 uses, for the direct detection of the particular features sought, the information of said at least one compressed image as follows:
  • a detected feature of the hyperspectral scene is a two-dimensional image whose value of each pixel with coordinates x and y corresponds to the probability of the presence of a feature at the same x and y coordinates of the hyperspectral focal plane of scene 3.
  • the detection of other particularities can be obtained from the image from the neural network presented above.
  • the neural network 12, 14, may have a subsequent layer, suitable for processing the image in question and determining the particularity sought.
  • this subsequent layer can for example count the pixels of the image in question for which the probability is greater than a certain threshold.
  • the result obtained is then an area (possibly related to a standard area of the image).
  • the result obtained can then correspond to a concentration of the chemical compound in the hyperspectral scene imaged.
  • this subsequent layer may for example have only one neuron, the value of which (real or boolean) will indicate the presence or absence of an object or a particular feature sought in the hyperspectral scene .
  • This neuron will have a maximum value in the event of the presence of the object or the particularity and a minimum value in the event reverse.
  • This neuron will be fully connected to the previous layer, and the connection weights will be calculated by means of learning.
  • the neural network can also be architectured to determine this feature (for example to detect this concentration) without going through the determination of an image of probabilities of presence of the feature in each pixel.

Abstract

Le dispositif de détection de particularités dans une scène hyperspectrale (3) en trois dimensions, comporte un système de détection directe (1) de particularités dans la scène hyperspectrale (3) qui intègre un réseau de neurones profond et convolutif (12, 14) architecturé pour détecter la ou les particularités recherchées dans la scène hyperspectrale (3) depuis une image compressée de la scène hyperspectrale.

Description

Description
Titre de l’invention : DISPOSITIF DE DÉTECTION HYPERSPECTRALE
[1] DOMAINE TECHNIQUE
[2] La présente invention se rapporte à un dispositif de détection d'objets ou de particularités dans le plan focal d'une scène basé sur une mesure utilisant un procédé de compression de la scène hyperspectrale en trois dimensions en une image non homogène en deux dimensions, et un traitement de l’image obtenue permettant de détecter les particularités recherchées dans la scène.
[3] L'invention trouve une application particulièrement avantageuse pour les systèmes embarqués destinés à détecter des objets ou particularités dans une scène à partir de leur forme, leur texture et leur réflectance lumineuse.
[4] L'invention peut être appliquée à un grand nombre de domaines techniques dans lesquels une détection hyperspectrale est recherchée. De manière non exhaustive, l'invention peut être utilisée, par exemple, dans le domaine médical et dentaire, pour aider au diagnostic. Dans le domaine végétal et mycologique, l'invention peut également être utilisée pour réaliser du phénotypage, détecter des symptômes de stress ou maladie ou différencier des espèces. Dans le domaine de l'analyse chimique, l'invention peut tout autant être utilisée pour mesurer les concentrations. Dans le domaine de la lutte contre la contrefaçon, l'invention peut être utilisée pour discerner une contrefaçon.
[5] ART ANTERIEUR
[6] Au sens de l'invention, une détection à acquisition hyperspectrale correspond à la détection de particularités dans le plan focal d'une scène depuis une image en deux dimensions acquise contenant une représentation des informations spatiales et spectrales du plan focal de la scène.
[7] Différentes méthodes de compression du plan focal d'une scène hyperspectrale sont décrites dans la littérature. L'objet de ces méthodes est d'acquérir le plan focal de la scène hyperspectrale en une seule acquisition sans nécessité de balayer le plan focal de la scène dans les dimensions spatiales ou spectrale.
[8] Par exemple, la thèse « Non-scanning imaging spectrometry », Descour, Michael Robert, 1994, The university of Arizona, propose une façon d'acquérir une seule image en deux dimensions de la scène observée contenant toutes les informations pour différentes longueurs d'onde. Cette méthode, dénommée CTIS (pour « Computed-Tomography Imaging Spectrometer »), propose de capturer une image diffractée du plan focal de la scène observée au moyen d'un réseau de diffraction disposé en amont d'un capteur numérique. Cette image diffractée acquise par le capteur numérique prend la forme de multiples projections. Chaque projection permet de représenter le plan focal de la scène observée et contient l'ensemble des informations spectrales du plan focal.
[9] Une autre méthode, dénommée CASSI (pour « Coded Aperture Snapshot Spectral Imaging »), décrite dans la thèse « Compressive spectral imaging », D. Kittle, 2010, propose une façon d'acquérir une seule image encodée en deux dimensions contenant toutes les informations spatiales et spectrales. Cette méthode, propose de capturer une image diffractée, au moyen d'un prisme de diffraction, et encodée, au moyen d'un masque d'encodage, du plan focal de la scène observée.
[10] Ces méthodes, bien que satisfaisantes pour résoudre la problématique d'acquisition instantanée du plan focal de la scène hyperspectrale, nécessitent des algorithmes complexes et coûteux en ressources de calcul afin d'estimer la scène hyperspectrale non compressée. La publication « Review of snapshot spectral imaging technologies », Nathan Hagen, Michael W. Kudenov, Optical Engineering 52(9), September 2013, présente une comparaison des méthodes d'acquisition hyperspectrales ainsi que les complexités algorithmiques associées à chacune d'elles. Les publications He Mingyi et al., « Multi-scale 3D deep convolutional neural network for hyperspectral image classification », 2017 IEEE International Conférence on Image Processing, IEEE, 17 septembre 2017, pp. 3904-3908, Chen Yushi et al., « Deep feature extraction and classification of hyperspectral images based on Convolutional neural networks », IEEE transactions on Geoscience and remote sensing, IEEE Service Center, col. 54, no. 10, 1er octobre 2016, pp. 6232-6251 , et Qiangqiang Yuan et al., « hyperspectral image denoising employing a spatial -spectral deep residual convolutional neural network », Cornell University Library, 1er juin 2018, sont des exemples de telles publications.
[11] En effet, la méthode CTIS nécessite un processus d'estimation basé sur une matrice en deux dimensions représentant la fonction de transfert de l'optique de diffraction. Cette matrice doit être inversée pour reconstituer l'image hyperspectrale. La matrice de la fonction de transfert n'étant pas complètement définie, des méthodes d'inversion matricielle itératives et coûteuses en ressources de calcul permettent d'approcher le résultat pas à pas.
[12] La méthode CASSI et ses dérivées nécessitent également des calculs matriciels non complètement définis, et utilisent des méthodes de calcul itératives et coûteuses en ressources de calcul afin d'approcher le résultat.
[13] En outre, l'image hyperspectrale en trois dimensions reconstruite par ces méthodes de calcul ne contient pas d'informations spatiales ou spectrale supplémentaires par rapport à l'image compressée en deux dimensions obtenue par ces méthodes d'acquisitions. L'estimation par le calcul de l'image hyperspectrale en trois dimensions n'est donc pas nécessaire pour une détection directe des particularités recherchées dans le plan focal de la scène.
[14] Des méthodes de traitement d'image dans l'objectif de détecter des particularités sont largement décrites dans la littérature scientifique. Par exemple une méthode basée sur des réseaux de neurones est décrite dans « auto-association by multilayer perceptrons and singular value décomposition. » Biological cybernetics, 59(4) :291 -294, 1988. ISSN 0340- 1200, H. Bourlard and Y. Kamp. A.
[15] De nouvelles méthodes basées sur des réseaux de neurones profonds et convolutifs sont également largement employées avec des résultats présentant des taux de fausses détections très bas. Par exemple, une telle méthode est décrite dans « Stacked Autoencoders Using Low-Power Accelerated Architectures for Object Récognition in Autonomous Systems », Neural Processing Letters, vol. 43, no. 2, pp. 445-458,2016, J. Maria, J. Amaro, G. Falcao, L. A. Alexandre.
[16] Ces méthodes sont particulièrement adaptées à détecter des éléments dans une image couleur (possédant généralement 3 canaux - Rouge, Vert et Bleu) d'une scène en prenant en compte les caractéristiques de formes, de textures et de couleurs de la particularité à détecter. Ces méthodes considèrent l'image homogène, et traitent par convolution l'entièreté de l'image par le même procédé.
[17] Le traitement des images compressées en deux dimensions obtenues par les méthodes CTIS et CASSI ne peut donc pas être opéré au moyen d'un réseau de neurones profond et convolutif standard. En effet, l'image obtenue par ces méthodes n’est pas homogène, et contient des particularités non linéaires dans les dimensions soit spectrale, soit spatiales.
[18] Le problème technique de l'invention consiste à détecter directement les particularités ou objets recherchés depuis l'acquisition d’au moins une représentation compressée, non homogène, et non linéaire en deux dimensions contenant toute l'information spatiale et spectrale d'une scène hyperspectrale en trois dimensions.
[19] EXPOSE DE L’INVENTION
[20] La présente invention se propose de répondre à ce problème technique en détectant directement les particularités recherchées au moyen d'un réseau de neurones formels profond et convolutif, dont l'architecture est adaptée à une détection directe, appliqué sur une image compressée en deux dimensions d’une scène hyperspectrale en trois dimensions de la scène. [21] L'image hyperspectrale en trois dimensions ne contient pas plus d'information spatiales et spectrale que l'image compressée obtenue par les méthodes d'acquisition CTIS ou CASSI puisque l'image hyperspectrale en trois dimensions est reconstituée à partir de l'image compressée. Ainsi l'invention propose de détecter directement dans l’image compressée les particularités recherchées dans le plan focal d'une scène.
[22] A cet effet, l'invention concerne un dispositif de détection de particularités dans une scène hyperspectrale.
[23] L'invention se caractérise en ce que le dispositif comporte un système de détection directe de particularités dans ladite scène hyperspectrale qui intègre un réseau de neurones profond et convolutif architecturé pour détecter la ou les particularités recherchées dans ladite scène hyperspectrale depuis l’au moins une image compressée de la scène hyperspectrale.
[24] En pratique, contrairement à l'état de l'art classique de la méthode CTIS, l'invention permet de détecter des particularités dans ladite scène hyperspectrale en temps réel entre deux acquisitions du plan focal hyperspectral de la scène observée. Ce faisant, il n'est plus nécessaire de différer le traitement des images compressées et il n'est plus nécessaire de stocker ces images compressées après la détection. Également il n'est plus nécessaire de reconstituer l'image hyperspectrale en trois dimensions avant d'appliquer la méthode de détection.
[25] En variante, l’image compressée obtenue par le système optique contient le plan focal diffracté et encodé suivant le schéma de codage d'un masque introduit dans le chemin optique avant diffraction de la scène. Ainsi, le réseau de neurones utilise, pour la détection directe des particularités recherchées, les informations suivantes :
le schéma du masque d'encodage utilisé pour encoder les diffractions du plan focal de la scène ; et
des intensités lumineuses dans l'image compressée et diffractée— dont les coordonnées x' et y' sont dépendantes des coordonnées x et y du plan focal de la scène observée.
[26] En pratique, contrairement à l'état de l'art classique de la méthode CASSI, l'invention permet de détecter des particularités dans une scène hyperspectrale en temps réel entre deux acquisitions du plan focal hyperspectral de la scène observée. Ce faisant, il n'est plus nécessaire de différer le traitement des images compressées et il n'est plus nécessaire de stocker ces images compressées après la détection. Également il n'est plus nécessaire de reconstituer l'image hyperspectrale en trois dimensions avant d'appliquer la méthode de détection. [27] Selon un mode de réalisation, on prévoit un dispositif de capture d’une image d’une scène hyperspectrale et de détection de particularités dans cette scène hyperspectrale en trois dimensions comprenant en outre un système d’acquisition de l’au moins une image compressée de la scène hyperspectrale en trois dimensions.
[28] Selon un mode de réalisation, le système d’acquisition comprend une réalisation mécanique compacte et intégrable dans un dispositif portable et autonome et le système de détection est inclus dans ledit dispositif portable et autonome.
[29] Selon un mode de réalisation, le système d’acquisition comprend une réalisation mécanique compacte et intégrable devant l'objectif d’un appareil photographique d'un ordiphone et le système de détection est inclus dans l'ordiphone.
[30] Selon un mode de réalisation, ladite au moins une image compressée est obtenue par un capteur infrarouge du système d’acquisition. Ce mode de réalisation permet d'obtenir une information invisible à l’œil humain.
[31] Selon un mode de réalisation, ladite image compressée est obtenue par un capteur du système d’acquisition dont la longueur d'onde est comprise entre 0,001 nanomètre et 10 nanomètres. Ce mode de réalisation permet d’obtenir une information sur les rayons X présents sur la scène observée.
[32] Selon un mode de réalisation, ladite image compressée est obtenue par un capteur du système d’acquisition dont la longueur d'onde est comprise entre 10000 nanomètres et 20000 nanomètres. Ce mode de réalisation permet d'obtenir une information sur la température de la scène observée.
[33] Selon un mode de réalisation, ladite au moins une image compressée est obtenue par un capteur du système d’acquisition dont la longueur d'onde est comprise entre 300 nanomètres et 2000 nanomètres. Ce mode de réalisation permet d’obtenir une information dans le domaine visible et invisible à l’œil humain.
[34] Selon un mode de réalisation, ladite au moins une image compressée est obtenue par un capteur du système d’acquisition comportant :
une première lentille convergente configurée pour focaliser les informations d'une scène sur une ouverture ;
un collimateur configuré pour capter les rayons traversant ladite ouverture et pour transmettre ces rayons sur un réseau de diffraction ; et
une seconde lentille convergente configurée pour focaliser les rayons issus du réseau de diffraction sur une surface de captation. [35] Ce mode de réalisation est particulièrement simple à réaliser et peut être adapté sur un capteur existant.
[36] Selon un mode de réalisation, ladite au moins une image compressée est obtenue par un capteur du système d’acquisition comportant :
une première lentille convergente configurée pour focaliser les informations d'une scène sur un masque ;
un collimateur configuré pour capter les rayons traversant ledit masque et pour transmettre ces rayons sur un prisme ; et
une seconde lentille convergente configurée pour focaliser les rayons issus du prisme sur une surface de captation.
[37] Ce mode de réalisation est particulièrement simple à réaliser et peut être adapté sur un capteur existant.
[38] En ce qui concerne la détection de particularités depuis ladite image compressée, l'invention utilise un réseau de neurones profond et convolutif architecturé pour calculer une probabilité de présence de la ou les particularités recherchées dans ladite scène hyperspectrale. Un apprentissage dudit réseau de neurones profond et convolutif permet d'indiquer la probabilité de présence des particularités recherchées pour chaque coordonnées x et y de ladite scène hyperspectrale. Par exemple, un apprentissage par rétro- propagation du gradient ou ses dérivés à partir de données d'apprentissage peut être utilisé.
[39] Selon un mode de réalisation, le réseau de neurones est architecturé pour calculer une concentration chimique dans ladite scène hyperspectrale depuis l’image compressée.
[40] Selon un mode de réalisation, une sortie du réseau de neurones est scalaire ou booléenne.
[41] Selon un mode de réalisation, une couche de sortie du réseau de neurones comprend une couche CONV(u) où u est supérieur ou égale à 1 et correspond au nombre de particularités recherchées.
[42] Le réseau de neurones profond et convolutif servant à la détection directe depuis l’image compressée a une structure de couche d'entrée adaptée à la détection directe. L'invention dispose de plusieurs architectures des couches profondes dudit réseau de neurones. Parmi celles-ci, une architecture auto-encodeuse telle que décrite dans le document « SegNet: A Deep Convolutional Encoder- Décoder Architecture for Image Segmentation », Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla est adaptée en vue de permettre d'indiquer la probabilité de présence des particularités recherchées pour chaque coordonnées x et y de la scène hyperspectrale. [43] Ladite couche d'entrée du réseau de neurones est adaptée à la structure de l’image compressée obtenue par le moyen d'acquisition. Ainsi, la couche d'entrée est un tenseur d'ordre trois et possède deux dimensions spatiales de taille XMAX et YMAX, et une dimension de profondeur de taille DMAX-
[44] L'invention utilise la relation non linéaire f(xt, yt, dt) (ximg, yimg) définie pour xt e [O..XMAx[, yt e [O..YMAX[ et dt e [O..DMAx[ permettant de calculer les coordonnées ximg et yimg du pixel de ladite image compressée dont l'intensité est copiée dans le tenseur d'ordre trois de ladite couche d'entrée du réseau de neurones aux coordonnées (xt, yt, dt).
[45] Selon un mode de réalisation, l’image compressée contient les diffractions de la scène hyperspectrale obtenue avec des filtres de diffraction. L’image compressée obtenue contient une portion d’image de la scène non diffractée, ainsi que les projections diffractées suivant les axes des différents filtres de diffraction. La couche d'entrée du réseau de neurones contient une copie des représentations chromatiques de la scène hyperspectrale de l'image compressée selon la relation non linéaire suivante :
Figure imgf000008_0001
[46] avec : n=floor(M(dt-iyDMAx) ;
A=(dr1) mod (DMAX/M) ;
M le nombre de diffractions de l'image compressée ;
dt compris entre 1 et DMAX, la profondeur de la couche d’entrée du réseau de neurones ; xt compris entre 0 et XMAX, la largeur de la couche d’entrée du réseau de neurones ;
yt compris entre 0 et YMAX, la longueur de la couche d’entrée du réseau de neurones ;
XMAX la taille selon l’axe x du tenseur d’ordre trois de la couche d’entrée ;
YMAX la taille selon l’axe y du tenseur d’ordre trois de la couche d’entrée ;
DMAX, la profondeur du tenseur d’ordre trois de ladite couche d'entrée ;
Asiiœx, la constante du pas spectral du pixel selon l’axe x de ladite image compressée ;
Asiicev, la constante du pas spectral du pixel selon l’axe y de ladite image compressée ;
Xoffsetx(n) correspondant au décalage suivant l'axe x de la diffraction n ;
YoffeetY(n) correspondant au décalage suivant l'axe y de la diffraction n. [47] Selon un mode de réalisation, l’image compressée contient une représentation en deux dimensions encodée de la scène hyperspectrale obtenue avec un masque et un prisme. L'image compressée obtenue contient une portion d’image de la scène diffractée et encodée. La couche d'entrée du réseau de neurone contient une copie de l'image compressée selon la relation non linéaire suivante : f(xt,yt,dt)={(Ximg=Xt) ;(yimg=yt)}(lmg=MASK si dt=0 ; lmg=CASSI si dt>0),
avec :
dt compris entre 0 et DMAX ;
xt compris entre 0 et XMAX ;
yt compris entre 0 et UMAc ;
XMAX la taille selon l’axe x du tenseur d’ordre trois de la couche d’entrée ;
YMAX la taille selon l’axe y du tenseur d’ordre trois de la couche d’entrée ;
DMAX, la profondeur du tenseur d’ordre trois de ladite couche d'entrée ;
MASK : image du masque de compression utilisé,
CASSI : image compressée mesurée,
Img : Image sélectionnée dont le pixel est copié.
[48] Ces relations non linéaires permettent de rechercher rapidement l'intensité des pixels d'intérêts dans chaque diffraction. En effet, certains pixels peuvent être négligés si la longueur d'onde de l'image diffractée n'est pas significative.
[49] L'architecture du réseau de neurones profond et convolutif est composé d’un encodeur permettant de rechercher les caractéristiques élémentaires propres à la détection souhaitée, suivi d'un décodeur permettant de générer une image de probabilités de présence des caractéristiques à détecter dans ladite image compressée du plan focal hyperspectral. La structure d'encodeur/décodeur permet de rechercher les caractéristiques élémentaires et propres à la caractéristique principale recherchée dans ledit plan focal hyperspectral.
[50] Selon un mode de réalisation, l’encodeur est composé d'une succession de couches de neurones de convolution en alternance avec des couches de pooling (opérateur de décimation de la couche précédente) permettant de réduire la dimension spatiale.
[51] Selon un mode de réalisation, le décodeur est composé d'une succession de couches de neurones de déconvolution en alternance avec des couches de unpooling (opération d'interpolation de la couche précédente) permettant une augmentation de la dimension spatiale. [52] Par exemple, une telle structure d'encodeur/décodeur est décrite dans « SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation », Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla.
[53] Selon un mode de réalisation, un ensemble de couches de neurones entièrement connectées peut être positionné entre l'encodeur et le décodeur.
[54] Selon un mode de réalisation, le réseau de neurones convolutif est architecturé pour détecter la ou les particularités recherchées dans ladite scène hyperspectrale depuis l’ensemble desdites au moins une image compressée et d’au moins une image standard non-diffractée de la scène hyperspectrale.
[55] L'invention permet ainsi de corréler les informations contenues dans les différentes diffractions de l'image compressée avec des informations contenues dans la partie centrale non-diffractéee de l'image obtenue.
[56] L’image compressée obtenue par le système optique contient le plan focal de la scène non diffractée au centre, ainsi que les projections diffractées suivant les axes des différents filtres de diffractions. Ainsi, le réseau de neurones utilise, pour la détection directe des particularités recherchées, les informations de ladite au moins une image diffractée suivantes :
l'intensité lumineuse dans la partie centrale et non-diffractée du plan focal de la scène aux coordonnées x et y ; et
des intensités lumineuses dans chacune des diffractions de ladite image compressée dont les coordonnées x' et y' sont dépendantes des coordonnées x et y de la partie centrale non diffractée du plan focal de la scène.
[57] Les ensembles d’images standards et images compressées sont ainsi fusionnées au moyen dudit réseau de neurones formels profond et convolutif en tenant compte des décalages de prises d’images des différentes sources optiques, et une détection directe desdites particularités recherchées est faite depuis l’information fusionnées au moyen de ce même réseau de neurones profond et convolutif.
[58] Par exemple, une telle structure d’encodeurs fusionnant différentes images d’un même plan focal est décrit dans « Multimodal deep learning for robust rgb-d object récognition. In Intelligent Robots and Systems (IROS) », Eitel, A., Springenberg, J. T., Spinello, L, Riedmiller, M., and Burgard, W. (2015) IEEE/RSJ International Conférence on , pages 681#687. IEEE.
[59] La présente invention utilise différentes images standards et compressées d’un même plan focal hyperspectral. Une méthode de fusion d’image par réseau de neurones profond et convolutif est présentée dans « Multimodal deep learning for robust rgb-d object récognition. In Intelligent Robots and Systems (IROS) », Eitel, A., Springenberg, J. T., Spinello, L, Riedmiller, M., and Burgard, W. (2015) IEEE/RSJ International Conférence on , pages 681#687. IEEE. Ce document présente une structure de réseau de neurones profond et convolutif utilisant deux chemins de traitement, un chemin par type d’image d’une même scène, complété par des couches fusionnant les deux chemins ; la fonction implémentée par ce réseau de neurones profond et convolutif est une classification des images. Cette structure n’est pas adaptée en l’état pour la présente invention, car non adaptée aux images compressées en deux dimensions d’un plan focal hyperspectral en trois dimensions, et ayant pour fonction la classification de la scène et non la détection de particularités dans cette scène.
[60] Les différentes diffractions de l'image compressée contenant une information spectrale importante mais dont chaque pixel contient une somme des diffractions à différentes longueurs d'onde, un mode de réalisation de l'invention peut également utiliser la partie centrale de l'image, non diffractée, et permet de rechercher dans l'image complète les caractéristiques spatiales (forme, texture, etc.) et spectrale (réflectance).
[61] Selon un mode de réalisation, le réseau de neurones est architecturé pour calculer une probabilité de présence de la ou les particularités recherchées dans ladite scène hyperspectrale depuis l’ensemble des dites au moins une image compressée et desdites au moins une image standard non-diffractée.
[62] Selon un mode de réalisation, ledit réseau de neurones convolutif est architecturé de façon à prendre en compte les décalages des plans focaux des différents capteurs d’acquisition des images et intégrer la fonction homographique permettant de fusionner les informations des différents capteurs en prenant en compte les parallaxes des différentes images.
[63] Selon un mode de réalisation, on prévoit un dispositif de capture d’une image d’une scène hyperspectrale et de détection de particularités dans cette scène hyperspectrale en trois dimensions comprenant en outre un système d’acquisition d’au moins une image standard non-diffractée de ladite scène hyperspectrale.
[64] Selon un mode de réalisation, ladite au moins une image standard non-diffractée est obtenue par un capteur infrarouge du système d’acquisition. Ce mode de réalisation permet d'obtenir une information invisible à l’œil humain.
[65] Selon un mode de réalisation, ladite au moins une image standard non-diffractée est obtenue par un capteur dont la longueur d'onde est comprise entre 300 nanomètres et 2000 nanomètres. Ce mode de réalisation permet d’obtenir une information dans le domaine visible et invisible à l’œil humain.
[66] Selon un mode de réalisation, ladite au une moins image standard non-diffractée et ladite au moins une image compressée sont obtenues par un ensemble de miroirs semi- transparents de sorte à capter la scène hyperspectrale sur plusieurs capteurs simultanément. Ce mode de réalisation permet de capter instantanément des plans identiques.
[67] Selon un mode de réalisation, le système d’acquisition comprend un moyen d’acquisition d’au moins une image compressée d’un plan focal de la scène hyperspectrale.
[68] Selon un mode de réalisation, l’image compressée est non-homogène.
[69] Selon un mode de réalisation, l’image compressée est une image en deux dimensions.
[70] Selon un mode de réalisation, le réseau de neurones est architecturé pour générer une image pour chaque particularité recherchée dont la valeur de chaque pixel aux coordonnées (x ; y) correspond à la probabilité de présence de ladite particularité aux même coordonnées de la scène hyperspectrale.
[71] Selon un mode de réalisation, l’image compressée obtenue contient la portion d’image de la scène non diffractée au centre.
[72] Selon un mode de réalisation, le système de détection directe ne met pas en œuvre de calcul d’un cube hyperspectal de la scène pour la détection de particularités.
[73] Selon un autre aspect, l’invention se rapporte à un procédé de détection de particularités dans une scène hyperspectrale en trois dimensions, caractérisé en ce qu’un système de détection directe de particularités dans ladite scène hyperspectrale intégrant un réseau de neurones convolutif détecte la ou les particularités recherchées dans ladite scène hyperspectrale depuis au moins une image compressée de la scène hyperspectrale.
[74] Selon un mode de réalisation, M=7.
[75] Selon un autre aspect, l’invention se rapporte à un programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre le procédé.
[76] DESCRIPTION SOMMAIRE DES FIGURES
[77] La manière de réaliser l’invention ainsi que les avantages qui en découlent, ressortiront bien du mode de réalisation qui suit, donné à titre indicatif mais non limitatif, à l’appui des figures annexées dans lesquelles les figures 1 à 8représentent : [78] [Fig. 1] : une représentation schématique de face des éléments d’un dispositif de capture et de détection dans une scène hyperspectrale selon un mode de réalisation de l’invention ;
[79] [Fig. 2] : une représentation schématique structurelle des éléments du dispositif de la Fig. 1 ;
[80] [Fig. 3] : une représentation schématique structurelle alternative des éléments du dispositif de la Fig. 1 ;
[81] [Fig. 4] : une représentation schématique des diffractions obtenues par le dispositif d’acquisition de la Fig. 2 ;
[82] [Fig. 5] : une représentation schématique de l’architecture du réseau de neurones de la Fig. 2.
[83] [Fig. 6] : une représentation schématique de face des éléments d’un dispositif de capture et de détection dans une scène hyperspectrale selon un deuxième mode de réalisation de l’invention ;
[84] [Fig. 7] : une représentation schématique structurelle des éléments du dispositif de la Fig. 6 ;
[85] [Fig. 8] : une représentation schématique de l’architecture du réseau de neurones de la Fig. 7.
[86] MANIERE DE DECRIRE L’INVENTION
[87] Par « directe », quand on qualifie la détection de particularité, on décrit ainsi que le résultat de sortie du système de détection est la particularité recherchée. On exclut ici les cas où le résultat de sortie du système de détection ne correspond pas à la particularité recherchée, mais correspond uniquement à un intermédiaire dans le calcul de la particularité. Toutefois, le résultat de sortie du système de détection directe peut, en plus de correspondre à la particularité recherchée, aussi être utilisé pour des traitements ultérieurs. Notamment, par « direct », on entend que le résultat de sortie du système de détection de particularités n’est pas un cube hyperspectral de la scène qui, en soi, ne constitue pas une particularité de la scène.
[88] Par « compressée », on fait référence à une image bi-dimensionnelle d’une scène tri dimensionnelle comprenant des informations spatiales et spectrales de la scène tri dimensionnelle. Les informations spatiales et spectrales de la scène tridimensionnelle sont ainsi projetées au moyen d’un système optique sur une surface de captation bidimensionnelle. Une telle image « compressée » peut comprendre une ou plusieurs images diffractées de la scène tridimensionnelle, ou des parties de celles-ci. En complément, elle peut aussi comprendre une partie d’une image non-diffractée de la scène. Ainsi, le terme « compressé » est utilisé parce qu’une représentation en deux-dimensions d’une information spectrale tri-dimensionnelle est possible. Par « spectral », on comprend qu’on va au-delà, en terme de nombre de fréquences détectées, d’une image RGB « standard » de la scène.
[89] Par « standard », on fait référence, par opposition à une image « compressée », à une image ne présentant pas de diffraction de la scène hyperspectrale. Une telle image peut quand même être obtenue par des manipulations optiques par l’intermédiaire de miroirs réfléchissants ou de lentilles.
[90] Par « non-homogène », on fait référence à une image dont les propriétés ne sont pas identiques sur l’ensemble de l’image. Par exemple, une image « non-homogène » peut contenir, à certaines localisations, des pixels dont l’information comprend essentiellement des informations spectrales à une certaine bande de longueur d’onde respective, ainsi que, en d’autres localisations, des pixels dont l’information comprend essentiellement des informations non spectrales. Un traitement informatique d’une telle image « non-homogène » n’est pas possible, car les propriétés nécessaires à son traitement ne sont pas identiques en fonction des localisations dans cette image.
[91] Par « particularité », on fait référence à une caractéristique de la scène - cette caractéristique peut être spatiale, spectrale, correspondre à une forme, une couleur, une texture, une signature spectrale ou une combinaison de celles-ci, et peut notamment être interprétée de manière sémantique.
[92] Par « objet », on fait référence au sens commun utilisé pour ce terme. Une détection d’objet sur une image correspond à la localisation et à une interprétation sémantique de la présence de l’objet sur la scène imagée. Un objet peut être caractérisé par sa forme, sa couleur, sa texture, sa signature spectrale ou une combinaison de ces caractéristiques.
[93] La Fig. 1 illustre un dispositif de capture 2 d'une scène hyperspectrale 3 comportant un capteur, ou système d’acquisition 4, permettant d'obtenir une image compressée en deux dimensions 11 d'un plan focal 103 d'une scène observée. La scène hyperspectrale peut être repérée dans l’espace au moyen d’un repère orthonormé (x ;y ;z ) non représenté. Pour marquer les idées, les coordonnées x sont par exemple mesurées le long de l’axe représenté horizontal sur la figure 1 , alors que les coordonnées y sont mesurées selon l’axe orthogonal à la feuille sur laquelle la figure 1 est représentée. L’axe z complète le repère orthonormé, et correspond par exemple à l’axe optique du dispositif de capture 2. Toutefois, d’autres orientations sont possibles.
[94] Tel qu'illustré sur la Fig. 2, le dispositif de capture 2 comporte une première lentille convergente 21 qui focalise le plan focal 103 sur une ouverture 22. Un collimateur 23 capte les rayons traversant l'ouverture 22 et transmet ces rayons à un réseau de diffraction 24. Une seconde lentille convergente 25 focalise ces rayons issus du réseau de diffraction 24 sur une surface de captation 26.
[95] La structure de cet assemblage optique est relativement similaire à celle décrite dans la publication scientifique « Computed-tomography imaging spectrometer : experimental calibration and reconstruction results », publiée dans APPLIED OPTICS, volume 34 (1995) nombre 22.
[96] Cette structure optique permet d'obtenir une image compressée 11 , illustrée sur la Fig. 4, présentant plusieurs diffractions R0-R7 du plan focal 103 disposées autour d'une image non diffractée de petite taille C. Dans l'exemple de la Fig. 4, l'image compressée 11 présente huit diffractions R0-R7 distinctes obtenues avec deux axes de diffraction du réseau de diffraction 24 disposés aussi éloignés que possible l’un de l’autre dans un plan normal à l’axe optique, c’est-à-dire sensiblement orthogonaux l’un à l’autre.
[97] En variante, trois axes de diffractions peuvent être utilisés sur le réseau de diffraction 24 de sorte à obtenir une image compressée 11 avec seize diffractions. Les trois axes de diffraction peuvent être équirépartis, c’est-à-dire séparés les uns des autres par un angle de 60°.
[98] Ainsi, de manière générale, l’image compressée comprend 2R+1 diffractions si on utilise R réseaux de diffraction équirépartis, c’est-à-dire séparés par le même angle les uns des autres.
[99] Les surfaces de captation 26 ou 46 (présentée ci-dessous) peuvent correspondre à un capteur CCD (pour « charge-coupled device » dans la littérature anglo-saxonne, c'est-à- dire un dispositif à transfert de charge), à un capteur CMOS (pour « complementary metal- oxide-semiconductor » dans la littérature anglo-saxonne, une technologie de fabrication de composants électroniques), ou à tout autre capteur connus. Par exemple, la publication scientifique « Practical Spectral Photography », publiée dans Euro-graphics, volume 31 (2012) nombre 2, propose d'associer cette structure optique à un appareil photo numérique standard pour capter l'image diffractée.
[100] En variante, tel qu'illustré sur la Fig. 3, le dispositif de capture 2 peut comporter une première lentille convergente 41 qui focalise le plan focal 103 sur un masque 42. Un collimateur 43 capte les rayons traversant le masque 42 et transmet ces rayons à un prisme 44. Une seconde lentille convergente 45 focalise ces rayons issus du prisme 44 sur une surface de captation 46. Le masque 42 définit un codage pour l’image 13. [101] La structure de cet assemblage optique est relativement similaire à celle décrite dans la publication scientifique « Compressive Coded Aperture Spectral Imaging », Gonzalo R. Arce, David J. Brady, Lawrence Carin, Henry Arguello, and David S. Kittle.
[102] En variante, les surfaces de captation 26 ou 46 peuvent correspondre au dispositif d'acquisition photographique d'un ordiphone ou tout autre dispositif portable incluant un disposition d'acquisition photographique, en ajoutant le dispositif de capture 2 de la scène hyperspectrale 3 devant le dispositif d'acquisition photographique.
[103] En variante, le système d’acquisition 4 peut comprendre une réalisation mécanique compacte et intégrable dans un dispositif portable et autonome et le système de détection est inclus dans ledit dispositif portable et autonome.
[104] Par exemple, chaque pixel de l’image compressée 11 est codé sur trois couleurs rouge, vert et bleu et sur 8 bits permettant ainsi de représenter 256 niveaux sur chaque couleur.
[105] En variante, les surfaces de captation 26 ou 46 peuvent être un dispositif dont les longueurs d'ondes captées ne sont pas dans la partie visible. Par exemple, le dispositif 2 peut intégrer des capteurs dont la longueur d'onde est comprise entre 0,001 nanomètre et 10 nanomètres ou un capteur dont la longueur d'onde est comprise entre 10000 nanomètres et 20000 nanomètres, ou un capteur dont la longueur d'onde est comprise entre 300 nanomètres et 2000 nanomètres. Il peut s’agir d’un dispositif infrarouge.
[106] Lorsque l’image 11 du plan focal hyperspectral observé est obtenue, le système de détection 1 met en œuvre un réseau de neurones 12 pour détecter une particularité dans la scène observée à partir des informations de l’image compressée 11.
[107] Ce réseau de neurones 12 vise à déterminer la probabilité de présence de la particularité recherchée pour chaque pixel localisé aux coordonnées x et y de la scène hyperspectrale 3 observée.
[108] Pour ce faire, tel qu'illustré sur la Fig. 5, le réseau de neurones 12 comporte une couche d'entrée 30, apte à extraire les informations de l'image 11 et une couche de sortie 31 , apte à traiter ces informations de sorte à générer une image dont l'intensité de chaque pixel aux coordonnées x et y, correspond à la probabilité de présence de la particularité aux coordonnées x et y de la scène hyperspectrale 3.
[109] La couche d’entrée 30 est peuplée à partir des pixels formant l’image compressée. Ainsi, la couche d'entrée est un tenseur d'ordre trois, et possède deux dimensions spatiales de taille XMAX et YMAX, et une dimension de profondeur de taille DMAX, correspondant au nombre de sous-ensembles de l’image compressée copiés dans la couche d’entrée. L'invention utilise la relation non linéaire f(xt, yt, dt) (ximg, y^g) définie pour xt e [0..XMAX[, yt e [0..YMAX[ et dt e [0.. DMAX[ permettant de calculer les coordonnées ximg et yimg du pixel de l’image compressée dont l'intensité est copiée dans le tenseur d'ordre trois de ladite couche d'entrée du réseau de neurones aux coordonnées (xt, yt, dt).
[110] Par exemple, dans le cas d’une image compressée 11 obtenue à partir du dispositif de capture de la figure 2, la couche d’entrée 30 peut être peuplée de la manière suivante :
Figure imgf000017_0001
[111] avec : n=floor(M(dt-iyDMAx) ;
n compris entre 0 et M, le nombre de diffractions de l'image compressée ;
A=(dr1)mod(DMAx/M) ;
dt compris entre 1 et DMAx ;
xt compris entre 0 et CMAc ;
yt compris entre 0 et YMAX ;
XMAX la taille selon l’axe x du tenseur d’ordre trois de la couche d’entrée ;
YMAX la taille selon l’axe y du tenseur d’ordre trois de la couche d’entrée ;
DMAX la profondeur du tenseur d’ordre trois de la couche d’entrée ;
Asiiœx, la constante du pas spectral selon l’axe x de ladite image compressée ;
Asiicev, la constante du pas spectral selon l’axe y de ladite image compressée ;
Xoffsetx(n) correspondant au décalage suivant l'axe x de la diffraction n ;
y0ffsetY(n) correspondant au décalage suivant l'axe y de la diffraction n.
[112] Floor est un opérateur de troncature bien connu.
[113] Mod représente l’opérateur mathématique modulo.
[114] Comme il est en particulier bien visible sur la figure 5, chaque tranche, en profondeur, du tenseur d’entrée d’ordre trois du réseau de neurones, reçoit une partie d’un lobe de diffraction correspondant sensiblement à un intervalle de longueurs d’onde.
[115] En variante, l’invention permet de corréler les informations contenues dans les différentes diffractions de l’image diffractée avec des informations contenues dans la partie centrale non-diffractée de l’image. [116] Selon cette variante, on peut rajouter une tranche supplémentaire dans la direction de la profondeur de la couche d’entrée, dont les neurones seront peuplés avec l’intensité détectées dans les pixels de l’image compressée correspondant à la détection non- diffractée. Par exemple, si on affecte à cette tranche la coordonnée dt=0, on peut conserver la formule ci-dessus pour le peuplement de la couche d’entrée pour dt supérieur ou égal à 1 , et peupler la couche dt=0 de la manière suivante :
[117] Ximg- (lm9width/2)-X|viAX * Xt ,
[118] Yimg- (lm9height/2)-Y MAX"* Yt ,
[119] Avec :
lmgWidth la taille de l’image compressée selon l’axe x ;
lmgheight la taille de l’image compressée selon l’axe y.
[120] L’image compressée obtenue par le système optique contient le plan focal de la scène non diffractée au centre, ainsi que les projections diffractées suivant les axes des différents filtres de diffractions. Ainsi, le réseau de neurones utilise, pour la détection directe des particularités recherchées, les informations de ladite au moins une image diffractée suivantes :
l'intensité lumineuse dans la partie centrale et non-diffractée du plan focal de la scène aux coordonnées x et y ; et
des intensités lumineuses dans chacune des diffractions de ladite image compressée dont les coordonnées x' et y' sont dépendantes des coordonnées x et y de la partie centrale non diffractée du plan focal de la scène.
[121] En variante, dans le cas d’une image compressée 13 obtenue à partir du dispositif de capture de la figure 4, la couche d’entrée 30 peut être peuplée de la manière suivante :
[122] f(Xt,yt,dt)-{(Ximg-Xt) . (Yimg- Yt)}(lmg=MASK si dt=0 ; lmg=CASSI si dt>0),
[123] Avec :
MASK : image du masque de compression utilisé,
CASSI : image compressée mesurée,
Img : Image sélectionnée dont le pixel est copié.
[124] Sur la tranche 0 du tenseur d’ordre trois de la couche d’entrée est copiée l’image du masque de compression employé.
[125] Sur les autres tranches du tenseur d’ordre trois de la couche d’entrée est copiée l’image compressée de la scène hyperspectrale. [126] L'architecture dudit réseau de neurones 12, 14 est composé d'un ensemble de couches convolutives assemblées linéairement et en alternance avec des couches de décimation (pooling), ou d'interpolation (unpooling).
[127] Une couche convolutive de profondeur d, noté CONV(d), est définie par d noyaux de convolution, chacun de ces noyaux de convolution étant appliqué au volume du tenseur d'entrée d'ordre trois et de taille Xin ut,yinput,dinput· La couche convolutive génère ainsi un volume de sortie, tenseur d'ordre trois, ayant une profondeur d. Une fonction d'activation ACT est appliquée sur les valeurs calculées du volume de sortie de cette couche convolutive.
[128] Les paramètres de chaque noyau de convolution d'une couche convolutive sont spécifiés par la procédure d'apprentissage du réseau de neurones.
[129] Différentes fonctions d'activation ACT peuvent être utilisées. Par exemple, cette fonction peut être une fonction ReLu, définie par l'équation suivante :
ReLu(x) = max 0, x)
[130] En alternance avec les couches convolutives, des couches de décimation (pooling), ou des couches d'interpolation (unpooling) sont insérées.
[131] Une couche de décimation permet de réduire la largeur et la hauteur du tenseur d'ordre trois en entrée pour chaque profondeur dudit tenseur d'ordre trois. Par exemple, une couche de décimation MaxPool(2,2) sélectionne la valeur maximale d'une tuile glissante sur la surface de 2x2 valeurs. Cette opération est appliquée sur l'ensemble des profondeurs du tenseur d'entrée et génère un tenseur de sortie ayant la même profondeur et une largeur divisée par deux, ainsi qu'une hauteur divisée par deux.
[132] Une couche d’interpolation permet d’augmenter la largeur et la hauteur du tenseur d'ordre trois en entrée pour chaque profondeur dudit tenseur d'ordre trois. Par exemple, une couche d’interpolation MaxUnPool(2,2) copie la valeur d’entrée d’un point glissant sur la surface de 2x2 valeurs de sortie. Cette opération est appliquée sur l'ensemble des profondeurs du tenseur d'entrée et génère un tenseur de sortie ayant la même profondeur et une largeur multipliée par deux, ainsi qu'une hauteur multipliée par deux.
[133] Une architecture de réseau de neurones permettant la détection directe de particularités dans la scène hyperspectrale peut être la suivante :
Input
= CONV(64)
= MaxPool(2,2) = CONV(64)
= MaxPool(2,2)
® CONV(64)
= MaxPool(2,2)
® CONV(64)
® CONV(64)
= MaxUnpool(2,2)
® CONV(64)
= MaxUnpool(2,2)
® CONV(64)
= MaxUnpool(2,2)
® CONV(1)
= Output
[134] En variante, le nombre de couches de convolution CONV(d) et de décimation MaxPool(2,2) peut être modifié afin de faciliter la détection de particularités ayant une complexité sémantique supérieure. Par exemple, un nombre plus élevé de couches de convolution permet de traiter des signatures plus complexes de forme, de texture, ou spectrales de la particularité recherchée dans la scène hyperspectrale.
[135] En variante, le nombre de couches de déconvolution CONV(d) et d’interpolation MaxUnpool(2, 2) peut être modifié afin de faciliter la reconstruction de la couche de sortie. Par exemple, un nombre plus élevé de couches de déconvolution permet de reconstruire une sortie avec une précision plus importante.
[136] En variante, les couches de convolution CONV(64), peuvent avoir une profondeur différente de 64 afin de traiter un nombre de particularités locales différent. Par exemple, une profondeur de 128 permet de traiter localement 128 particularités différentes dans une scène hyperspectrale complexe.
[137] En variante, les couches d’interpolation MaxUnpool(2, 2) peuvent être de dimension d’interpolation différente. Par exemple, une couche MaxUnpool (4, 4) permet d’augmenter la dimension de traitement de la couche supérieure. [138] En variante, les couches d’activation ACT de type ReLu(x) insérées suite à chaque convolution et déconvolution, peuvent être de type différent. Par exemple, la fonction softplus définie par l’équation : /(x) = log( 1 + e*)peut être utilisée.
[139] En variante, les couches de décimation MaxPool(2, 2) peuvent être de dimension de décimation différente. Par exemple, une couche MaxPool(4, 4) permet de réduire la dimension spatiale plus rapidement et de concentrer la recherche sémantique du réseau de neurones sur les particularités locales.
[140] En variante, des couches entièrement connectées peuvent être insérées entre les deux couches de convolution centrale à la ligne 6 de la description afin de traiter la détection dans un espace mathématique plus élevé. Par exemple, trois couches entièrement connectées de taille 128 peuvent être insérées.
[141] En variante, les dimensions des couches de convolution CONV(64), de décimation MaxPool(2, 2), et d’interpolation MaxUnpool(2, 2) peuvent être ajustées sur une ou plusieurs couches, afin d’adapter l’architecture du réseau de neurones au plus proche du type de particularités recherchées dans la scène hyperspectrale.
[142] Les poids dudit réseau de neurones 12 sont calculés au moyen d'un apprentissage. Par exemple, un apprentissage par rétro-propagation du gradient ou ses dérivés à partir de données d'apprentissage peut être utilisé pour calculer ces poids.
[143] En variante, le réseau de neurones 12 peut déterminer la probabilité de présence de plusieurs particularités distinctes au sein de la même scène observée. Dans ce cas, la dernière couche convolutive aura une profondeur correspondant au nombre de particularités distinctes à détecter. Ainsi la couche convolutive CONV(1) est remplacée par une couche convolutive CONV(u), où u correspond au nombre de particularités distinctes à détecter.
[144] La Fig. 6 illustre un dispositif de capture 102 d'une scène hyperspectrale 3 comportant un ensemble de capteurs permettant d'obtenir au moins une image compressée en deux dimensions 11 ou 13 et au moins une image standard 112 d'un plan focal hyperspectral 103 d'une scène observée.
[145] Tel qu'illustré sur la Fig. 7, le dispositif de capture 102 comporte au moins un dispositif d’acquisition, ou capteur, 101 d’une image compressée tel que décrit ci-dessus en référence avec la figure 2.
[146] La surface de captation 32 (présentée ci-dessous) peut correspondre à un capteur CCD (pour « charge-coupled device » dans la littérature anglo-saxonne, c'est-à-dire un dispositif à transfert de charge), à un capteur CMOS (pour « complementary metal-oxide- semiconductor » dans la littérature anglo-saxonne, une technologie de fabrication de composants électroniques), ou à tout autre capteur connus.
[147] Le dispositif de capture 102 peut en outre comprendre un dispositif d’acquisition d’une image « standard » non compressée, comprenant une lentille convergente 131 et une surface de captation 32. Le dispositif de capture 102 peut en outre comprendre un dispositif d’acquisition d’une image compressée tel que décrit ci-dessus en référence avec la figure 3.
[148] Dans l’exemple présenté, le dispositif d’acquisition de l’image standard et le dispositif d’acquisition de l’image compressée sont disposés juxtaposés avec des axes optiques parallèles, et des faisceaux optiques se recouvrant au moins partiellement. Ainsi, une portion de la scène hyperspectrale est imagée à la fois par les dispositifs d’acquisition. Ainsi, les plans focaux des différents capteurs d’acquisition des images sont décalés les uns par rapport aux autres transversalement aux axes optiques de ces capteurs.
[149] En variante, on utilise un jeu de miroirs partiellement réfléchissants de sorte à capter ladite au une moins images standards non-diffractées 112 et ladite au moins une image compressée 11 , 13 de la même scène hyperspectrale 3 sur plusieurs capteurs simultanément.
[150] De préférence, chaque pixel de l’image standard 112 est codé sur trois couleurs rouge, vert et bleu et sur 8 bits permettant ainsi de représenter 256 niveaux sur chaque couleur.
[151] En variante, la surface de captation 32 peut être un dispositif dont les longueurs d'ondes captées ne sont pas dans la partie visible. Par exemple, le dispositif 2 peut intégrer des capteurs dont la longueur d'onde est comprise entre 0,001 nanomètre et 10 nanomètres ou un capteur dont la longueur d'onde est comprise entre 10000 nanomètres et 20000 nanomètres, ou un capteur dont la longueur d'onde est comprise entre 300 nanomètres et 2000 nanomètres.
[152] Lorsque les images 11 , 112 ou 13 du plan focal hyperspectral observé sont obtenues, le moyen de détection met en œuvre un réseau de neurones 14 pour détecter une particularité dans la scène observée à partir des informations des images compressées 11 et 13, et de l’image standard 112.
[153] En variante, seules les images compressée 11 et standard 112 sont utilisées et traitées par le réseau de neurones 14.
[154] En variante, seules les images compressée 13 et standard 112 sont utilisées et traitées par le réseau de neurones 14. [155] Ainsi, quand la description se rapporte à un ensemble d’images compressées, il s’agit d’au moins une image compressée.
[156] Ce réseau de neurones 14 vise à déterminer la probabilité de présence de la particularité recherchée pour chaque pixel localisé aux coordonnées x et y de la scène hyperspectrale 3 observée.
[157] Pour ce faire, tel qu'illustré sur la Fig. 8, le réseau de neurones 14 comporte un encodeur 51 pour chaque image compressée et pour chaque image non compressée ; chaque encodeur 51 possède une couche d'entrée 50, apte à extraire les informations de l'image 11 , 112 ou 13. Le réseau de neurones fusionne les informations provenant des différents encodeurs 51 au moyen de couches de convolution ou de couches entièrement connectées 52 (cas particulier représenté sur la figure). Un décodeur 53 et sa couche de sortie 131 , apte à traiter ces informations de sorte à générer une image dont l'intensité de chaque pixel, à la coordonnée x et y, correspond à la probabilité de présence de la particularité aux coordonnées x et y de la scène hyperspectrale 3, est inséré suite à la fusion des informations.
[158] Tel qu’illustré sur la Fig. 5, la couche d’entrée 50 d’un encodeur 51 est remplie avec les différentes diffractions de l’image compressée 11 comme décrit ci-dessus.
[159] Le peuplement décrit ci-dessus correspond au peuplement de la première entrée (« Inputl ») du réseau de neurones, selon l’architecture présentée ci-dessous.
[160] Pour la deuxième entrée (« Input2 ») du réseau de neurones, le peuplement de la couche d’entrée relative à l’image « standard » est peuplée en copiant directement l’image « standard » dans le réseau de neurones.
[161] Selon un exemple de réalisation où on utilise également une image compressée 13, la troisième entrée « Input3 » du réseau de neurones est peuplée comme décrit ci-dessus pour l’image compressée 13.
[162] Une architecture de réseau de neurones permettant la détection directe de particularités dans la scène hyperspectrale peut être la suivante :
Inputl Input2 Input3
= CONV(64) = CONV(64) = CONV(64)
= MaxPool(2,2) = MaxPool(2,2) = MaxPool(2,2)
= CONV(64) ® CONV(64) = CONV(64)
= MaxPool(2,2) = MaxPool(2,2) = MaxPool(2,2) = CONV(64)
= CONV(64)
= MaxUnpool(2,2)
® CONV(64)
= MaxUnpool(2,2)
= CONV(64)
= MaxUnpool(2,2)
® CONV(1)
= Output
[163] Dans cette description, « Inputl » correspond à la portion de la couche d’entrée 50 peuplée à partir de l’image compressée 11. « Input2 » correspond à la portion de la couche d’entrée 50 peuplée à partir de l’image standard 112, et « Input3 » correspond à la portion de la couche d’entrée 50 peuplée à partir de l’image compressée 13. La ligne « CONV(64) » à la cinquième ligne de l’architecture opère la fusion des informations.
[164] En variante, la ligne « CONV(64) » à la cinquième ligne de l’architecture opérant la fusion des informations peut être remplacée par une couche entièrement connectée ayant pour entrée l’ensemble des sorties MaxPool(2, 2) des chemins de traitement de l’ensemble des entrées « inputl », « input2 » et « input3 » et en sortie un tenseur d’ordre un servant d’entrée à la couche suivante « CONV(64) » présentée à la sixième ligne de l’architecture.
[165] Notamment, la couche de fusion du réseau de neurones prend en compte les décalages des plans focaux des différents capteurs d’acquisition des images, et intègre la fonction homographique permettant de fusionner les informations des différents capteurs en prenant en compte les parallaxes des différentes images.
[166] Les variantes présentées ci-dessus pour le premier mode de réalisation peuvent également être appliquées ici.
[167] Les poids dudit réseau de neurones 14 sont calculés au moyen d'un apprentissage. Par exemple, un apprentissage par rétro-propagation du gradient ou ses dérivés à partir de données d'apprentissage peut être utilisé pour calculer ces poids.
[168] En variante, le réseau de neurones 14 peut déterminer la probabilité de présence de plusieurs particularités distinctes au sein de la même scène observée. Dans ce cas, la dernière couche convolutive aura une profondeur correspondant au nombre de particularités distinctes à détecter. Ainsi la couche convolutive CONV(1) est remplacée par une couche convolutive CONV(u), où u correspond au nombre de particularités distinctes à détecter.
[169] Selon une variante de réalisation, comme représenté sur la figure 5, on n’utilise pas nécessairement un dispositif d’acquisition dédié distinct pour obtenir l’image « standard » 112. En effet, comme présenté ci-dessus en relation avec la figure 3, dans certains cas, une partie de l’image compressée 11 comprend une image « standard » de la scène hyperspectrale. Il s’agit notamment de la portion d’image C décrite ci-dessus. Dans ce cas, on peut utiliser cette portion d’image « C » de l’image compressée 11 comme image « standard » d’entrée du réseau de neurones.
[170] Ainsi, le réseau de neurones 14 utilise, pour la détection directe des particularités recherchées, les informations de ladite au moins une image compressée suivantes :
l'intensité lumineuse dans la partie centrale et non-diffractée du plan focal de la scène aux coordonnées x et y ; et
des intensités lumineuses dans chacune des diffractions de ladite image compressée dont les coordonnées x' et y' sont dépendantes des coordonnées x et y de la partie centrale non diffractée du plan focal de la scène.
[171] L’invention a été présentée ci-dessus dans différentes variantes, dans lesquelles une particularité détectée de la scène hyperspectrale est une image bidimensionnelle dont la valeur de chaque pixel aux cordonnées x et y correspond à la probabilité de présence d’une particularité aux mêmes coordonnées x et y du plan focal hyperspectral de la scène 3. On peut, toutefois, en variante, prévoir, selon les modes de réalisation de l’invention, la détection d’autres particularités. Selon un exemple, une telle autre particularité peut être obtenue à partir de l’image issue du réseau de neurones présentée ci-dessus. Pour cela, le réseau de neurones 12, 14, peut présenter une couche ultérieure, adaptée pour traiter l’image en question et déterminer la particularité recherchée. Selon un exemple, cette couche ultérieure peut par exemple compter les pixels de l’image en question pour lesquels la probabilité est supérieure à un certain seuil. Le résultat obtenu est alors une superficie (éventuellement rapportée à une superficie standard de l’image). Selon un exemple d’application, si l’image présente, en chaque pixel, une probabilité de présence d’un composé chimique, le résultat obtenu peut alors correspondre à une concentration du composé chimique dans la scène hyperspectrale imagée.
[172] Selon un autre exemple, cette couche ultérieure peut par exemple n’avoir qu’un neurone dont la valeur (réel ou booléen) indiquera la présence ou l’absence d’un objet ou d’une particularité recherché dans la scène hyperspectrale. Ce neurone aura une valeur maximale en cas de présence de l’objet ou la particularité et une valeur minimale en cas inverse. Ce neurone sera entièrement connecté à la couche précédente, et les poids de connexion seront calculés au moyen d'un apprentissage.
[173] Selon une variante, on comprendra que le réseau de neurones peut également être architecturé pour déterminer cette particularité (par exemple pour détecter cette concentration) sans passer par la détermination d’une image de probabilités de présence de la particularité en chaque pixel.
Système de détection 1
dispositif de capture 2
scène hyperspectrale 3
système d’acquisition 4
image compressée en deux dimensions 11 , 13
réseau de neurones 12, 14
première lentille convergente 21
ouverture 22
collimateur 23
réseau de diffraction 24
seconde lentille convergente 25
surface de captation 26
couche d’entrée 30
couche de sortie 31
surface de captation 32
première lentille convergente 41
masque 42
collimateur 43
prisme 44
seconde lentille convergente 45
surface de captation 46
couche d’entrée 50 encodeur 51
couche de convolution ou couche entièrement connectée 52 décodeur 53
capteur 101
dispositif de capture 102
plan focal 103
image standard 112
lentille 131

Claims

REVENDICATIONS
[Revendication 1] Dispositif de détection de particularités dans une scène hyperspectrale (3) en trois dimensions,
caractérisé en ce qu’il comporte un système de détection directe (1) de particularités dans ladite scène hyperspectrale (3) intégrant un réseau de neurones profond et convolutif (12, 14) architecturé pour détecter la ou les particularités recherchées dans ladite scène hyperspectrale (3) depuis au moins une image compressée de la scène hyperspectrale.
[Revendication 2] Dispositif selon la revendication 1 , dans lequel une couche d’entrée du réseau de neurones comprend un tenseur d’ordre trois dans lequel, aux coordonnées (xt, Yt, dt), on copie l’intensité du pixel de l’image compressée de coordonnées (ximg, yimg) déterminé selon une relation non linéaire f(xt, yt, dt) (ximg, yimg) définie pour xt e [0..XMAX[, yt £ [0 -YMAX[ 6t dt e [0.. DMAX[
avec
dt compris entre 0 et DMAX, la profondeur de la couche d’entrée du réseau de neurones ;
xt compris entre 0 et XMAX, la largeur de la couche d’entrée du réseau de neurones ; yt compris entre 0 et YMAX, la longueur de la couche d’entrée du réseau de neurones ; XMAX la taille selon l’axe x du tenseur d’ordre trois de la couche d’entrée ;
YMAX la taille selon l’axe y du tenseur d’ordre trois de la couche d’entrée ;
DMAX, la profondeur du tenseur d’ordre trois de ladite couche d'entrée.
[Revendication 3] Dispositif selon la revendication 1 ou 2, dans lequel l’image
compressée (11) contient des diffractions de la scène hyperspectrale (3) obtenues avec des filtres de diffraction (24), dans lequel l'image compressée (11) obtenue contient une portion d’image de la scène non diffractée (C), ainsi que des projections diffractées (R0-R7) suivant les axes des différents filtres de diffractions (24), et dans lequel une couche d'entrée du réseau de neurones (30, 50) contient au moins une copie des représentations chromatiques (R0-R7) de ladite scène hyperspectrale (3) de l'image compressée (11) selon la relation non linéaire suivante :
Figure imgf000028_0001
avec :
n=floor(M(driyDMAx) ;
A=(dr1) mod (DMAX/M); n, compris entre 0 et M, le nombre de diffractions de l'image compressée ;
dt compris entre 1 et DMAX, la profondeur de la couche d’entrée du réseau de neurones ;
xt compris entre 0 et XMAX, la largeur de la couche d’entrée du réseau de neurones ; yt compris entre 0 et YMAX, la longueur de la couche d’entrée du réseau de neurones ; XMAX la taille selon l’axe x du tenseur d’ordre trois de la couche d’entrée ;
YMAX la taille selon l’axe y du tenseur d’ordre trois de la couche d’entrée ;
DMAX, la profondeur du tenseur d’ordre trois de ladite couche d'entrée ;
Asiiœx, la constante du pas spectral du pixel selon l’axe x de ladite image compressée >
Asiicev, la constante du pas spectral du pixel selon l’axe y de ladite image compressée
Xoffsetx (n) correspondant au décalage suivant l'axe x de la diffraction n ;
yoffsetv (n) correspondant au décalage suivant l'axe y de la diffraction n.
[Revendication 4] Dispositif selon la revendication 1 ou 2, dans lequel l’image
compressée (13) contient une représentation en deux dimensions encodée de la scène hyperspectrale (3) obtenue avec un masque (42) et un prisme (44), dans lequel l'image compressée (13) obtenue contient une portion d’image de la scène diffractée et encodée, et dans lequel une couche d'entrée du réseau de neurones (50) contient au moins une copie de l'image compressée (13) selon la relation non linéaire suivante :
f(xt,yt,dt)={(ximg=xt) ;(yimg=yt)}(lmg=MASK si dt=0 ; lmg=CASSI si dt>0),
avec :
dt compris entre 0 et DMAX ;
xt compris entre 0 et XMAX ;
yt compris entre 0 et YMAX ;
XMAX la taille selon l’axe x du tenseur d’ordre trois de la couche d’entrée ;
YMAX la taille selon l’axe y du tenseur d’ordre trois de la couche d’entrée ;
DMAX, la profondeur du tenseur d’ordre trois de ladite couche d'entrée ;
MASK : image du masque de compression utilisé,
CASSI : image compressée mesurée,
Img : Image sélectionnée dont le pixel est copié.
[Revendication 5] Dispositif selon l’une des revendications 1 à 4, dans lequel le réseau de neurones (12, 14) est architecturé pour calculer une probabilité de présence de la ou les particularités recherchées dans ladite scène hyperspectrale (3) depuis l’au moins une image compressée.
[Revendication 6] Dispositif selon l’une des revendications 1 à 5, dans lequel le réseau de neurones est architecturé pour calculer une concentration chimique dans ladite scène hyperspectrale (3) depuis l’au moins une image compressée (11 et 13).
[Revendication 7] Dispositif selon l’une des revendications 1 à 6, dans laquelle une sortie du réseau de neurones est scalaire ou booléenne.
[Revendication 8] Dispositif selon l’une des revendications 1 à 7, dans lequel une couche de sortie du réseau de neurones comprend une couche CONV(u), où u est supérieur ou égal à 1 et correspond au nombre de particularités recherchées.
[Revendication 9] Dispositif de capture d’une image (11) d'une scène hyperspectrale (3) et de détection de particularités dans cette scène hyperspectrale (3) en trois dimensions comprenant un dispositif selon l’une quelconque des revendications 1 à 8, et comprenant en outre un système d'acquisition (4) de l'au moins une image compressée (11 , 13) de la scène hyperspectrale (3) en trois dimensions.
[Revendication 10] Dispositif selon la revendication 9 dans lequel le système
d’acquisition (4) comprend une réalisation mécanique compacte et intégrable dans un dispositif portable et autonome et dans lequel le système de détection est inclus dans ledit dispositif portable et autonome.
[Revendication 11] Dispositif selon l'une des revendications 9 à 10, dans lequel au moins une desdites images compressées (11 et 13) est obtenue par un capteur infrarouge du système d’acquisition.
[Revendication 12] Dispositif selon la revendication 9 dans lequel le système
d’acquisition comprend une réalisation mécanique compacte et intégrable devant l'objectif d’un appareil photographique d'un ordiphone et dans lequel le système de détection est inclus dans l'ordiphone.
[Revendication 13] Dispositif selon l'une des revendications 9 à 12, dans lequel au moins une desdites images compressées (11) est obtenue par un capteur du système d’acquisition comportant : - une première lentille convergente (21) configurée pour focaliser les informations d'une scène sur une ouverture (22) ; et
- un collimateur (23) configuré pour capter les rayons traversant ladite ouverture (22) et pour transmettre ces rayons sur un réseau de diffraction (24) ; et
- une seconde lentille convergente (25) configurée pour focaliser les rayons issus du réseau de diffraction (24) sur une surface de captation (26).
[Revendication 14] Dispositif selon l'une des revendications 9 à 13, dans lequel au moins une desdites images compressées (13) est obtenue par un capteur du système d’acquisition comportant :
une première lentille convergente (41) configurée pour focaliser les informations d'une scène sur un masque (42) ; et
un collimateur (43) configuré pour capter les rayons traversant ledit masque (42) et pour transmettre ces rayons sur un prisme (44) ; et
une seconde lentille convergente (45) configurée pour focaliser les rayons issus du prisme (44) sur une surface de captation (46).
[Revendication 15] Dispositif selon l'une des revendications 9 à 14, dans lequel l'image compressée (11) est obtenue par un capteur du système d’acquisition dont la longueur d'onde est comprise entre 0,001 nanomètre et 10 nanomètres.
[Revendication 16] Dispositif selon l'une des revendications 9 à 14, dans lequel l'image compressée (11) est obtenue par un capteur du système d’acquisition dont la longueur d'onde est comprise entre 10000 nanomètres et 20000 nanomètres.
[Revendication 17] Dispositif selon l’une des revendications 9 à 14, dans lequel au moins une desdites images compressées (11 et 13) est obtenue par un capteur du système d’acquisition dont la longueur d'onde est comprise entre 300 nanomètres et 2000 nanomètres.
[Revendication 18] Dispositif selon l’une quelconque des revendications 1 à 17, dans lequel le réseau de neurones convolutif (12, 14) est architecturé pour détecter la ou les particularités recherchées dans ladite scène hyperspectrale (3) depuis l’ensemble desdites au moins une image compressée (11 et 13) et d’au moins une image standard non-diffractée (112, C) de la scène hyperspectrale.
[Revendication 19] Dispositif selon la revendication 18, dans lequel le réseau de neurones est architecturé pour calculer une probabilité de présence de la ou les particularités recherchées dans ladite scène hyperspectrale (3) depuis l’ensemble desdites au moins une image compressée (11 et 13) et desdites au moins une image standard non-diffractées (12).
[Revendication 20] Dispositif selon la revendication 17 ou 18, dans lequel ledit réseau de neurones convolutif (14) est architecturé de façon à prendre en compte les décalages des plans focaux des différents capteurs (11 , 12 et 13) d’acquisition des images, et intégrer la fonction homographique permettant de fusionner les informations des différents capteurs en prenant en compte les parallaxes des différentes images.
[Revendication 21] Dispositif de capture (2) d’une image (11) d'une scène
hyperspectrale (3) et de détection (1) de particularités dans cette scène
hyperspectrale (3) en trois dimensions comprenant un dispositif selon l’une quelconque des revendications 19 à 20, et comprenant en outre un système d'acquisition (2) d’au moins une image standard non-diffractée (12) de ladite scène hyperspectrale (3).
[Revendication 22] Dispositif selon la revendication 21 , dans lequel au moins une desdites images standards non-diffractées (12) est obtenue par un capteur infrarouge du système d’acquisition.
[Revendication 23] Dispositif selon l'une des revendications 21 à 22, dans lequel au moins une desdites images standards non-diffractées (12) est obtenue par un capteur dont la longueur d'onde est comprise entre 300 nanomètres et 2000 nanomètres du système d’acquisition.
[Revendication 24] Dispositif selon l'une des revendications 21 à 23, dans lequel ladite au moins une images standards non-diffractées (12) et ladite au moins une image compressée (11 et 13) sont obtenues par un ensemble de miroirs semi- transparents de sorte à capter la scène hyperspectrale (3) sur plusieurs capteurs simultanément.
[Revendication 25] Dispositif selon l’une quelconque des revendications 1 à 24 comprend en outre l’une et/ou l’autre des caractéristiques suivantes :
. le système d'acquisition (2) comprend un moyen d’acquisition d'au moins une image compressée (11 , 13) d'un plan focal de la scène hyperspectrale (3) ;
. l’image compressée est non-homogène ;
. l’image compressée est une image en deux dimensions ;
. le réseau de neurones (12, 14) est architecturé pour générer une image pour chaque particularité recherchée dont la valeur de chaque pixel aux cordonnées (x ; y) correspond à la probabilité de présence de ladite particularité aux mêmes
coordonnées (x ; y) de la scène hyperspectrale (3) ;
. l'image compressée (11) obtenue contient la portion d’image de la scène non diffractée (C) au centre ;
. le système de détection directe ne met pas en œuvre de calcul d’un cube hyperspectral de la scène pour la détection de particularités ;
M=7.
[Revendication 26] Procédé de détection (1) de particularités dans une scène
hyperspectrale (3) en trois dimensions,
caractérisé en ce qu’ un système de détection directe (1) de particularités dans ladite scène hyperspectrale (3) intégrant un réseau de neurones convolutif (12, 14) détecte la ou les particularités recherchées dans ladite scène hyperspectrale (3) depuis au moins une image compressée (11 , 13) de la scène hyperspectrale.
[Revendication 27] Programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre le procédé selon la revendication 26.
PCT/EP2019/085847 2018-12-19 2019-12-18 Dispositif de détection hyperspectrale WO2020127422A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP19820789.6A EP3714399A1 (fr) 2018-12-19 2019-12-18 Dispositif de détection hyperspectrale
US17/416,380 US20210383151A1 (en) 2018-12-19 2019-12-18 Hyperspectral detection device

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
FR1873313A FR3091382B1 (fr) 2018-12-19 2018-12-19 Dispositif de détection à acquisition hyperspectrale
FR1873313 2018-12-19
FR1901202A FR3091380B1 (fr) 2019-02-07 2019-02-07 Dispositif de détection hyperspectrale par fusion de capteurs
FR1901202 2019-02-07
FR1905916 2019-06-04
FR1905916A FR3091381B1 (fr) 2018-12-19 2019-06-04 Dispositif de détection hyperspectrale

Publications (1)

Publication Number Publication Date
WO2020127422A1 true WO2020127422A1 (fr) 2020-06-25

Family

ID=68887056

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2019/085847 WO2020127422A1 (fr) 2018-12-19 2019-12-18 Dispositif de détection hyperspectrale

Country Status (1)

Country Link
WO (1) WO2020127422A1 (fr)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101514A (zh) * 2020-07-27 2020-12-18 北京航空航天大学 采用金字塔架构衍射层补光的衍射神经网络及实现方法
CN114399684A (zh) * 2022-03-24 2022-04-26 中国科学院西安光学精密机械研究所 一种基于双损失函数的高光谱图像开放性分类方法
EP4012649A1 (fr) * 2020-12-11 2022-06-15 Living Optics Limited Procédé optique
CN116156144A (zh) * 2023-04-18 2023-05-23 北京邮电大学 一种面向高光谱信息采集传输的一体化系统和方法

Non-Patent Citations (19)

* Cited by examiner, † Cited by third party
Title
"Computed-tomography imaging spectrometer : experimental calibration and reconstruction results", APPLIED OPTICS, vol. 34, 1995
"Practical Spectral Photography", EURO-GRAPHICS, vol. 31, 2012
CHEN YUSHI ET AL.: "IEEE transactions on Geoscience and remote sensing", 1 October 2016, IEEE SERVICE CENTER, article "Deep feature extraction and classification of hyperspectral images based on Convolutional neural networks", pages: 6232 - 6251
CHEN YUSHI ET AL: "Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks", IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 54, no. 10, 1 October 2016 (2016-10-01), pages 6232 - 6251, XP011619618, ISSN: 0196-2892, [retrieved on 20160811], DOI: 10.1109/TGRS.2016.2584107 *
D. KITTLE, COMPRESSIVE SPECTRAL IMAGING, 2010
DESCOUR, MICHAEL ROBERT: "Non-scanning imaging spectrometry", 1994, THE UNIVERSITY OF ARIZONA
EITEL, A.SPRINGENBERG, J. T.SPINELLO, L.RIEDMILLER, M.BURGARD, W.: "IEEE/RSJ International Conférence on", 2015, IEEE, article "Multimodal deep learning for robust rgb-d object récognition. In Intelligent Robots and Systems (IROS", pages: 681 - 687
GONZALO R. ARCEDAVID J. BRADYLAWRENCE CARINHENRY ARGUELLODAVID S. KITTLE, COMPRESSIVE CODED APERTURE SPECTRAL IMAGING
H. BOURLARDY. KAMP. A: "auto-association by multilayer perceptrons and singular value décomposition", BIOLOGICAL CYBERNETICS, vol. 59, no. 4, 1988, pages 291 - 294, XP000861877, ISSN: 0340-1200, DOI: 10.1007/BF00332918
HE MINGYI ET AL.: "IEEE International Conférence on Image processing", 17 September 2017, IEEE, article "Multi-scale 3D deep convolutional neural network for hyperspectral image classification", pages: 3904 - 3908
HE MINGYI ET AL: "Multi-scale 3D deep convolutional neural network for hyperspectral image classification", 2017 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), IEEE, 17 September 2017 (2017-09-17), pages 3904 - 3908, XP033323307, DOI: 10.1109/ICIP.2017.8297014 *
J. MARIAJ. AMAROG. FALCAOL. A. ALEXANDRE: "Stacked Autoencoders Using Low-Power Accelerated Architectures for Object Récognition in Autonomous Systems", NEURAL PROCESSING LETTERS, vol. 43, no. 2, 2016, pages 445 - 458
LAURA GALVIS ET AL: "Coded aperture design in compressive spectral imaging based on side information", APPLIED OPTICS, vol. 56, no. 22, 1 August 2017 (2017-08-01), pages 6332, XP055653512, ISSN: 1559-128X, DOI: 10.1364/AO.56.006332 *
NATHAN HAGENMICHAEL W. KUDENOV: "Review of snapshot spectral imaging technologies", OPTICAL ENGINEERING, vol. 52, no. 9, September 2013 (2013-09-01), XP060026022, DOI: 10.1117/1.OE.52.9.090901
QIANGQIANG YUAN ET AL.: "hyperspectral image denoising employing a spatial-spectral deep residual convolutional neural network", 1 June 2018, CORNELL UNIVERSITY LIBRARY
QIANGQIANG YUAN ET AL: "Hyperspectral Image Denoising Employing a Spatial-Spectral Deep Residual Convolutional Neural Network", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 1 June 2018 (2018-06-01), XP081182154, DOI: 10.1109/TGRS.2018.2865197 *
VIJAY BADRINARAYANANALEX KENDALLROBERTO CIPOLLA, SEGNET: A DEEP CONVOLUTIONAL ENCODER-DECODER ARCHITECTURE FOR IMAGE SEGMENTATION
WANG CHEN ET AL: "Deep Residual Convolutional Neural Network for Hyperspectral Image Super-Resolution", 30 December 2017, INTERNATIONAL CONFERENCE ON FINANCIAL CRYPTOGRAPHY AND DATA SECURITY; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER, BERLIN, HEIDELBERG, PAGE(S) 370 - 380, ISBN: 978-3-642-17318-9, XP047459501 *
XIONG ZHIWEI ET AL: "HSCNN: CNN-Based Hyperspectral Image Recovery from Spectrally Undersampled Projections", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW), IEEE, 22 October 2017 (2017-10-22), pages 518 - 525, XP033303494, DOI: 10.1109/ICCVW.2017.68 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101514A (zh) * 2020-07-27 2020-12-18 北京航空航天大学 采用金字塔架构衍射层补光的衍射神经网络及实现方法
EP4012649A1 (fr) * 2020-12-11 2022-06-15 Living Optics Limited Procédé optique
CN114399684A (zh) * 2022-03-24 2022-04-26 中国科学院西安光学精密机械研究所 一种基于双损失函数的高光谱图像开放性分类方法
CN114399684B (zh) * 2022-03-24 2022-08-05 中国科学院西安光学精密机械研究所 一种基于双损失函数的高光谱图像开放性分类方法
CN116156144A (zh) * 2023-04-18 2023-05-23 北京邮电大学 一种面向高光谱信息采集传输的一体化系统和方法
CN116156144B (zh) * 2023-04-18 2023-08-01 北京邮电大学 一种面向高光谱信息采集传输的一体化系统和方法

Similar Documents

Publication Publication Date Title
EP3714399A1 (fr) Dispositif de détection hyperspectrale
WO2020127422A1 (fr) Dispositif de détection hyperspectrale
EP3671176B1 (fr) Cellule holographique incohérente sans lentille et microscopie sur une puce
EP2427752B1 (fr) Procede d'identification d'une scene a partir d'images polarisees multi longueurs d'onde
WO2016189257A1 (fr) Procédé d'observation d'un échantillon
EP3356800A1 (fr) Procédé de détermination de la réflectance d'un objet et dispositif associé
EP3215818A1 (fr) Procédé et système d'imagerie spectrale
FR3071124B1 (fr) Dispositif de capture d'une image hyperspectrale
EP3956712B1 (fr) Dispositif de microscopie holographique hyperspectrale par fusion de capteurs
FR2952217A1 (fr) Dispositif et procede de compensation de relief d'images hyper-spectrales.
FR3091382A1 (fr) Dispositif de détection à acquisition hyperspectrale
FR3091380A1 (fr) Dispositif de détection hyperspectrale par fusion de capteurs
Lv et al. Turn a silicon camera into an ingaas camera
FR3098962A1 (fr) Système de détection d’une particularité hyperspectrale
Picone Model based signal processing techniques for nonconventional optical imaging systems
US20230375462A1 (en) System and method for polarization imaging
WO2023106143A1 (fr) Dispositif et réseau de filtres utilisés dans un système de génération d'image spectrale, système de génération d'image spectrale et procédé de fabrication d'un réseau de filtres
EP2002226B1 (fr) Dispositif de formation de spectre sur un capteur optique a rejet spatial
Raniwala et al. Improved fabrication and calibration for snapshot computational hyperspectral imaging
Sencan Lensfree computational microscopy tools and their biomedical applications
FR3095064A1 (fr) Procédés et dispositifs de levée de doute biométrique
FR3041756A1 (fr) Procede de determination de la reflectance d'un objet et dispositif associe
Mallikarjun COMPREHENSIVE COMPUTATIONAL SPECTRAL DATA COLLECTION SYSTEMS: A REVIEW
FR2940903A1 (fr) Systeme automatise de caracterisation de rides de la peau du visage par analyse d'image realisee dans un spectre colorimetrique eloigne du rouge

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019820789

Country of ref document: EP

Effective date: 20200624

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19820789

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE