WO2021239579A1 - Procédé d'apprentissage, procédé de reconnaissance associé, dispositifs correspondants - Google Patents

Procédé d'apprentissage, procédé de reconnaissance associé, dispositifs correspondants Download PDF

Info

Publication number
WO2021239579A1
WO2021239579A1 PCT/EP2021/063499 EP2021063499W WO2021239579A1 WO 2021239579 A1 WO2021239579 A1 WO 2021239579A1 EP 2021063499 W EP2021063499 W EP 2021063499W WO 2021239579 A1 WO2021239579 A1 WO 2021239579A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
preliminary
neural networks
descriptors
neural network
Prior art date
Application number
PCT/EP2021/063499
Other languages
English (en)
Inventor
Yasser BOUTALEB
Nam-Duong DUONG
Catherine SOLADIÉ
Original Assignee
Fondation B-Com
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fondation B-Com filed Critical Fondation B-Com
Publication of WO2021239579A1 publication Critical patent/WO2021239579A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Definitions

  • the present invention relates to the technical field of computer vision.
  • It relates more particularly to methods of learning and recognizing a class, as well as the corresponding devices.
  • the present invention proposes, according to a first aspect, a method of learning a plurality of classes for a neural network, from so-called learning time sequences, formed of successive representations of a scene, each sequence learning being associated with one of the classes.
  • the method comprises the following steps, for each learning sequence: o obtaining at least two descriptors from the representations of the considered learning sequence, o preliminary learning of a time dependency value for at least two So-called preliminary neural networks each receiving one of the descriptors, each time dependence value characterizing a relationship between at least two values taken by a descriptor at at least two different times, so as to obtain the optimal values of preliminary parameters associated with the neurons of the preliminary neural networks, a learning of the plurality of classes for a neural network so as to obtain optimal values of so-called main parameters associated with the neurons of the neural network, said neural network being coupled to at least two other networks neurons each receiving one of the descriptors, parameters associated with the neurons of the other neural networks being set using the optimal values of the preliminary parameters.
  • the invention overcomes the problem of over-learning.
  • learning can be carried out from a reduced number of learning sequences while maintaining good precision in the results provided.
  • said scene may include part of an articulated body.
  • the learning sequence then comprises, in one embodiment, data representative of a three-dimensional skeleton of the articulated body part.
  • the preliminary learning step may further include:
  • the at least two other neural networks are each capable of delivering a time dependency value corresponding to the descriptor received as input, the learning step further comprising:
  • the representations can be three-dimensional representations.
  • the 3D representations can be defined by 3D geometric information, said descriptors can then be obtained using three distinct methods from the 3D geometric information.
  • At least one descriptor obtained can translate a spatial displacement of at least part of the 3D representation, between a reference instant and another instant.
  • the representations can be two-dimensional representations (for example images).
  • the step of obtaining at least two descriptors can then comprise, for each descriptor, the extraction of a region from a two-dimensional representation of the learning sequence considered, and / or the processing of the region extracted to obtain of the descriptor concerned.
  • This extraction can be performed using a neural network (eg a pre-trained neural network); the treatment of the extracted region can furthermore be carried out by means of a neural network (eg a pre-trained neural network).
  • a neural network eg a pre-trained neural network
  • the treatment of the extracted region can furthermore be carried out by means of a neural network (eg a pre-trained neural network).
  • a method for recognizing a class from among a plurality of classes, from a so-called input time sequence, formed from successive representations of a scene comprises the implementation of the following steps:
  • a device for learning a plurality of classes for a neural network from so-called learning time sequences, formed of successive representations of a scene, each sequence of learning being associated with one of the classes.
  • the device comprises the following means: o means for obtaining at least two descriptors from the representations of the learning sequence considered, o means for preliminary learning of a time dependency value for at least two networks so-called preliminary neurons each receiving one of the descriptors, each time dependence value characterizing a relationship between at least two values taken by a descriptor at at least two different times, so as to obtain the optimal values of preliminary parameters associated with the neurons of the networks preliminary neural, o means for learning the plurality of classes for a neural network so as to obtain optimal values of so-called main parameters associated with the neurons of the neural network, said neural network being coupled to at least two other neural networks each receiving one of the descriptors, parameters associated with the neurons of a other neural networks being fixed using the optimal values of the preliminary parameters.
  • the preliminary neural networks and the other neural networks can be recurrent neural networks.
  • a device for recognizing a class among a plurality of classes, from a so-called input time sequence, formed of successive 3D representations of a scene comprises the following means:
  • FIG. 2 is a flowchart illustrating an embodiment of the methods according to the invention.
  • FIG. 3 is a flowchart showing in more detail an embodiment of certain steps of the learning method
  • FIG. 5 illustrates an example of a first descriptor implemented in the invention
  • FIG. 8 is a flowchart showing in more detail other steps of the learning process
  • FIG. 9 is a flowchart showing in more detail an embodiment of the recognition method.
  • FIG. 11 is a flowchart illustrating another embodiment of the methods according to the invention.
  • FIG. 13 illustrates one implementation among others of the devices according to the invention. It should be noted that, in these figures, the structural and / or functional elements common to the different variants may have the same references.
  • one application of the invention involves the use of an HMD head-mounted display worn by a US user.
  • This HMD head-mounted display is coupled to a SYS system, for example using a wireless network of the Wi-Fi type.
  • the HMD head-mounted display captures a scene comprising the hands of the US user, the latter operating for example on an assembly line.
  • the head-mounted display may be a HoloLens 2 device from the Microsoft company or even AR Google Glass glasses from the Google company, these examples not being limiting. Capturing such a scene can be part of remote editing assistance or user training in editing. These uses involve automatic recognition of the activity performed by the hands of the US user, among a plurality of predetermined activities.
  • a head-mounted display is equipped with a so-called RGB-D camera, so as to deliver image sequences in RGB (“Red Green Blue”) format respectively associated with depth maps. The latter assign a depth value to each pixel of the images.
  • the SYS system integrates a DIS1 device which is configured to extract three-dimensional (3D) representations of the information transmitted by the HMD head-mounted display, using a method for estimating 3D poses such as that described in the article : “V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accu rate 3D Hand and Human Pose Estimation from a Single Depth Map”, by G. Moon, J. Chang, and K. M Lee, (CVPR) 2018.
  • a 3D representation may include a skeletal representation of the user's hands, this type of representation being described in the article mentioned above.
  • the 3D skeleton of the hand is then characterized by a series of key 3D points whose changing positions allow an activity to be identified.
  • the 3D representations can also include depth values associated with an object manipulated by the user or more generally with the context surrounding the hands of the user.
  • the SYS system also integrates the device DIS2 coupled to a memory MEM capable of storing temporal sequences for learning 3D representations, labeled using the classes to be recognized.
  • the device DIS2 is described in more detail below.
  • the scene can be captured using an on-board camera type HER08 from the company GoPro.
  • the captured scene can be on the hands of another person, located in front of the camera wearer.
  • the invention is not limited to the recognition of an activity associated with the hands of a person, but relates to the recognition of a class associated with any part (s) of an articulated body, such as a robotic arm or even a part (for example hand and arm) of a human body performing a gesture.
  • FIG. 2 is a flowchart schematically an embodiment of the invention. It is considered in this example, that the 3D representations here are 3D skeletons of the hands of the wearer of a head-mounted display. They can be determined (steps not shown for the sake of simplification) from a sequence of images captured over a period T using the RGB-D camera of the head-mounted display. These successive skeletons form an input time sequence or a series of input time sequences if several successive activities are to be recognized.
  • the learning method according to the invention comprises three steps E0, E1 and E2.
  • the learning process is based on temporal learning sequences formed by a succession of skeletons as a function of time.
  • the skeletons are defined by geometric information as explained in more detail below.
  • Each learning sequence is associated with a class.
  • the classes considered correspond to labels or annotations linked to activities that can be carried out by the hands of the wearer of a head-mounted display, such as " opening a bottle ”or“ filling a container ”.
  • the first step EO includes, for each learning time sequence, the obtaining of at least two descriptors according to two distinct methods.
  • the descriptors are here calculated from the geometric information defining the skeletal representations. Each descriptor belongs to a separate category of descriptors as described in more detail with reference to Figure 3.
  • the second step E1 implements a preliminary learning of temporal dependency values from the descriptors obtained.
  • the descriptors obtained are used to train at least two so-called preliminary neural networks (step E10), so that these preliminary neural networks learn the temporal dependencies relating to these descriptors.
  • Each time dependence value characterizes a relation between at least two values taken by a descriptor at at least two different instants t, such as t ⁇ [0, T]).
  • a time dependency value defines a correlation between at least two values taken by a descriptor at different times.
  • Each activity is characterized by a particular set of correlations.
  • Preliminary learning is supervised learning.
  • the so-called preliminary learning parameters (weight and bias) assigned to the neurons of the preliminary neural networks are optimized throughout the preliminary learning, sequence after sequence.
  • the optimal values of the preliminary parameters are delivered as output values, step E11.
  • Step E2 comprises a supervised learning of the plurality of classes for a neural network, called the main neural network in the remainder of the text, for the purposes of simplification.
  • the descriptors described above are delivered at the input of at least two other neural networks.
  • the parameters of the other neural networks are set using the optimal values of the preliminary parameters. They therefore deliver the time dependency values corresponding to the descriptors respectively received as input.
  • the learning of the different classes for the network is implemented. main neuronal. This learning of the classes is carried out on the basis of the temporal dependency values delivered by the other neural networks.
  • step E22 a learning model is delivered, as output values.
  • This learning model includes the preliminary parameters and the main parameters respectively at their optimal values.
  • the supervised learning of the plurality of classes is described in more detail below, with reference to Figure 8.
  • a third step E3 includes the implementation of the recognition of the activity, once the learning has been completed. This recognition is performed on the aforementioned input time sequences. It implements neural networks configured using the learning model delivered at the end of the learning.
  • Figure 3 is a flowchart schematizing in more detail the obtaining of descriptors E0 and the preliminary learning E1.
  • each skeleton is made up of 21 points of articulation, representing the configuration of the hand at a given time t:
  • Each of the articulation points is defined by its Cartesian coordinates in 3 dimensions, such as:
  • a temporal learning sequence S (t) is then formalized by the following expression: where t ⁇ ⁇ 0, 1, ..., 7 ⁇ represents an instant and T the maximum duration of the activity sequence, for example 10s.
  • the time step between two instants is for example equal to 1s.
  • the 3D representations have been previously normalized so that the average size of each hand is substantially the same from one representation to another, without modifying the angles between the segments.
  • This standardization step (not shown for the sake of simplification) makes it possible to improve the precision of the two stages of preliminary learning and learning of classes E1 and E2.
  • time descriptors are obtained from each learning sequence S (t).
  • descriptors belonging to at least two different categories are generated, using at least two different methods. Three different methods are described below with reference to Figures 5 to 7. For example, a combination of two of these three methods can be used. Alternatively, all three methods can be used to obtain descriptors belonging to three different categories.
  • the descriptors can be generated beforehand and then be stored in a memory.
  • Figure 5 illustrates a descriptor belonging to a first category obtained using a first method.
  • This descriptor reflects the evolution over time of the shape of the hand, and this during the learning time sequence S (t) considered, dedicated to a given activity.
  • This descriptor is called SoCJ for “Shape of Connected Joints” in English.
  • SoCJ shape of Connected Joints
  • the considered frame of reference is an orthonormal frame of reference centered on the point of articulation of the wrist at each instant of the learning time sequence S (t).
  • this choice of repository is an example, any other choice of repository being possible using a translation between the two repositories.
  • FIG. 5 represents a two-dimensional projection of these vectors.
  • the descriptor SoCJ (F 1 ) can be calculated as follows, at a given time t: If we calculate this descriptor for all the fingers of the hand, it comes for each instant t: where Fi is the / th finger of the hand.
  • FIG. 6 illustrates a descriptor belonging to a second category, obtained using a second method.
  • This descriptor reflects a variation over time, of the distances on the one hand between the points of articulation for the same finger (Intra) and on the other hand between two fingers (Inter). It is named IIFRD for “Intra / lnter Finger Relative Distance” in English.
  • This descriptor is formed from two elements namely RD a to characterize the so-called “intra” distances opposed to each angle between two consecutive segments of the same finger and RD e to characterize the so-called “inter” distances between points of articulation belonging to with two adjacent distinct fingers.
  • FIG. 7 illustrates a descriptor of a third category, obtained using a third method.
  • the frame of reference considered is an orthonormal frame of reference centered on the point of articulation of the wrist at the first instant of the learning time sequence.
  • the GRT descriptor thus provides additional information to that provided by the SoCJ and IIFRD descriptors, given that the position of the barycenter determined for each instant t of the learning time sequence can present significant variations from one activity to another. . k Reference is again made to FIG. 3.
  • several descriptors calculated for each learning time sequence are obtained, for example in three different categories in the remainder of the description.
  • descriptors in two distinct categories are determined, the category of one of the descriptors making it possible to take into account the relative movement of the hand in space, during the sequence, such as the GRT descriptor.
  • each descriptor is obtained using a different method, such as those described with reference to Figures 5 to 7.
  • each descriptor ⁇ 1 , ⁇ 2 , ⁇ 3 is supplied as the input of a recurrent neural network, having a minimum number of layers and neurons per layer (for example, only one layer with 100 neurons).
  • Each of the neural networks is trained separately from its own type of descriptor, E110.
  • ⁇ k (S i ) ⁇ k 1: 3
  • S i is the i th learning time sequence among the set of learning sequences
  • ⁇ k (.) Is the k th descriptor obtained in using one of the three methods described above: SoCJ, IIFRD or GRT.
  • the temporal dependence value existing between different instants is defined by the following composite function: g ⁇ k ( ⁇ k (S i )) where g ⁇ k (.) Is the learning function associated with the k th preliminary neural network, and ⁇ k corresponds to the preliminary learning parameters which are the weights applied to the neurons and the biases (constant added to the output of a neuron), the output of the k th network g ⁇ k (.) referring to the last hidden state of the last layer.
  • a classification step E111 is implemented using an additional layer of fully connected neural network, called dense.
  • This layer implements the following equation: where y k corresponds to the output of the additional layer associated with the k th neural network whose learning function is g ⁇ k (.), k being an integer varying between 1 and 3. It corresponds to one of the classes of the plurality of classes considered. y k is a probability vector of dimension equal to the number of classes considered. N is the total number of classes considered, for example 45 classes in the FPHA database mentioned above.
  • a loss function P k is calculated as follows: where N is the number of classes considered, y corresponds to the class that one seeks to obtain, resulting from the annotation of the learning time sequence considered, y k corresponds to the output of the additional layer associated with the k th neural network, k being an enter varying between 1 and 3.
  • This loss function P k must be minimized during the preliminary learning, for example using the ADAM optimization algorithm for “Adaptive Moment Estimation” in English. This optimizer is described for example in the article “Diederik P. Kingma and Jimmy Lei Ba. Adam: A method for stochastic optimization, 2014 ”.
  • the stopping criterion may be that the last available learning time sequence is processed (for example after 600 sequences) or that a predetermined number of iterations has been performed.
  • optimal preliminary parameters ⁇ * k E11 are delivered. The function associated with each preliminary neural network is then written:
  • Preliminary learning using several neural networks avoids mixing descriptors belonging to spaces of different dimensions and / or comprising data of different types. This reduces the complexity of learning and decreases the generation of disruptive noise.
  • FIG. 8 details an embodiment of the learning of the recognition of classes E2 for a main neural network. This learning step is carried out after the preliminary learning.
  • step E200 other neural networks than the main neural network, receive as input the descriptors obtained for each time learning sequence in step E0.
  • each of the other neural networks receives a descriptor belonging to a given category.
  • the parameters associated with the neurons of these other networks are set using the optimal preliminary parameters ⁇ * k delivered in step E11. These were transferred to other neural networks after the preliminary learning was completed.
  • the optimal preliminary parameters obtained for the preliminary neural networks trained by the SoCJ descriptors are transferred to configure the other neural network which receives the SoCJ descriptors as input.
  • the same transfer is made between the optimal preliminary parameters of the preliminary neural networks respectively associated with the descriptors IIFRD and GRT.
  • the time dependency values delivered by each other neural network whose parameters are fixed, can be written as follows: where S / is the considered learning time sequence from which the descriptors ⁇ k (.) are generated.
  • temporal dependence values are then processed during a step E201 so as to obtain a single variable.
  • This processing may consist of concatenating the time dependency values to obtain a vector of time dependency values. He comes : where h (.) is the concatenation function, also called the merge function.
  • the main neural network is trained to learn to recognize the different classes. It comprises first layers of neurons implementing an activation function, here non-linear, which makes it possible to validate the vector, during a step 210, if its value reaches a certain predetermined threshold, for example 0.
  • an activation function can be a linear rectification unit (ReLU) known to those skilled in the art, defined by the following equation:
  • ReLU (z) max (0, z).
  • the activation function makes it possible to delete the inconsistent results delivered at the end of the previous step E201.
  • concatenating the values before applying the activation function helps ensure better accuracy of classification results.
  • a classification step E211 is implemented from the output values of the first network layers, for example using additional layers of fully connected, so-called dense neural network.
  • additional layers per other neural network implemented in step E200.
  • These layers implement equation 17 described above for the classification function implemented in the preliminary learning step.
  • the main neural network formed by the first layers of neurons and the additional layers of neurons is characterized by the function f ⁇ having so-called main learning parameters F to be optimized.
  • a loss function P 'associated with the main neural network is then calculated during a step E212, as follows: where N is the number of classes, y is the targeted class, and y is the class resulting from the classification step E211.
  • test T213 the descriptors of the following learning temporal sequence are obtained (step E214) and delivered at the input of the other networks neuronal cells and steps E200 to T213 are reiterated.
  • the learning model is delivered comprising the optimal parameters ⁇ * k and ⁇ * k step E22.
  • FIG. 9 describes more precisely an embodiment of the method for recognizing a class E3, according to the invention. This method is implemented within a neural network configured using the learning model delivered in step E22.
  • a first step E30 comprises a generation of descriptors from the input time sequence S inp mentioned above.
  • the descriptors can be obtained using the three methods SoCJ, UFR and GRT described above.
  • the temporal dependence values corresponding to the descriptors are determined by virtue of the neural networks whose parameters are fixed using the optimal parameters ⁇ * k step E31.
  • the values obtained are concatenated to obtain a unique vector of temporal dependence values, step E32.
  • step E33 receives as input the single vector obtained in step E32.
  • This neural network is configured using parameters optimal ⁇ * k . It outputs the activity recognized for the input sequence S inp , step E34
  • the DIS2 device groups together two sub-elements here: a DISA learning sub-device and a DISR recognition sub-device.
  • the DISA learning sub-device and the DISR recognition sub-device are not grouped together within a single device and form separate devices. Indeed, conventionally, the learning implemented by the DISA learning device is carried out prior to the recognition implemented by the DISR device.
  • the DISR recognition device is configured using the resulting learning model. In the remainder of the description, reference will be made to a DISA learning device and a DISR recognition device.
  • the DISA learning device integrates MAPP means configured to implement the preliminary learning of the temporal dependencies described above and means MA1, MA2 and MA3 capable of determining descriptors of a different type, for example the IIFRD descriptors. , SoCJ and GRT.
  • S / learning time sequences formed from three-dimensional skeletal representations of hands are stored in memory MEM. These are delivered at the input of the MAPP means.
  • the sequences S / are supplied at the input of the means MA1, MA2 and MA3 connected in parallel, each being respectively able to determine the different types of descriptors.
  • the generated descriptors then feed three neural networks to be trained LSTMA1, LSTMA2 and LSTMA3.
  • each LSTMA1, LSTMA2, and LSTMA3 neural network consists of 100 computational units.
  • GRU Gate-recurring neural networks
  • Each neural network is followed by a classification module SFTA1, SFTA2 and SFTA3 capable of implementing the step of classifying the results delivered by the corresponding neural networks.
  • each classification module implements a normalized exponential function also called “Softmax” function taking as input the output vector of the neural network to which it is connected and delivering a probability vector A1, A2, A3 belonging to a class .
  • Softmax a normalized exponential function also called “Softmax” function taking as input the output vector of the neural network to which it is connected and delivering a probability vector A1, A2, A3 belonging to a class .
  • Each component of the vector is associated with one of the possible classes and takes a value between 0 and 1.
  • the DISA learning device includes MAR means for learning activity recognition.
  • the descriptors obtained at the output of the means MA1, MA2 and MA3 then feed pre-trained neural networks LSTMC1, LSTMC2, LSTMC3. These have a structure identical to that of the neural networks used for the preliminary learning phase, respectively LSTMC1, LSTMC2, LSTMC3.
  • the parameters associated with the neurons of these neural networks LSTMC1, LSTMC2, LSTMC3 are fixed using the values of the optimal parameters obtained at the end of the preliminary learning implemented by the corresponding neural networks LSTMA1, LSTMA2, LSTMA3.
  • the results delivered by the neural networks LSTMC1, LSTMC2, LSTMC3 are then concatenated using an MCC concatenation module into a vector of time dependency values.
  • An MLPC module coupled to the output of this MCC concatenation module is configured to implement the activation function (for example the ReLU function) described above.
  • This MLPC module can be a multilayer perceptron comprising for example two dense layers, respectively of 256 and 128 neurons.
  • the output of the MLPC module is then transmitted to an SFTC classification module (for example implementing a normalized exponential function) capable of delivering a class A.
  • the learning model is then transmitted to various means of a recognition device DISR via MCONF configuration means (for example integrating a memory).
  • the DISR device implements the method for recognizing a class according to the invention.
  • Means here connected in parallel MR1, MR2 and MR3, receive as input the input time sequence S inp . These means are respectively able to determine the three descriptors IIFRD, SoCJ and GRT. Descriptors obtained then feed neural networks LSTMR1, LSTMR2, LSTMR3 of the recognition device DISR.
  • These neural networks are configured using the learning model and have a structure identical to that of the neural networks used for the preliminary learning phase, LSTMA1, LSTMA2, LSTMA3.
  • the results delivered by the neural networks LSTMR1, LSTMR2, LSTMR3 are then concatenated using an MCR concatenation module into a vector of time dependence values.
  • An MLPR module coupled to the output of the MCR concatenation module is configured using the training model.
  • the MLPR module can be a multilayer perceptron comprising for example two dense layers, respectively of 256 and 128 neurons.
  • the output of the MLPR module is then transmitted to an SFTR classification module (for example implementing a normalized exponential function or Softmax) also configured using the training model.
  • the SFTR classification module delivers the CL class identified for the input sequence S inp .
  • FIG. 11 is a flowchart illustrating another embodiment of the invention.
  • each learning time sequence (corresponding to a class associated with an activity) is formed from a succession of two-dimensional representations (or images) IMGA i of the scene, here a succession of images each formed of three color components (such as RGB images).
  • images are for example taken by a head-mounted display such as the HMD head-mounted display of FIG. 1 (here without requiring any depth information), at a plurality of successive instants t 0 to t T.
  • the learning method begins with a step E5 for obtaining at least two descriptors from the relevant time sequence, that is to say from the two-dimensional representations IMGA i concerned (this obtaining step being repeated for the other temporal sequences respectively associated with the other classes for which the learning method is implemented).
  • This obtaining step E5 here comprises a substep E51 of extracting at least one region (or region of interest) in each two-dimensional representation and a substep E52 of processing the region extracted to obtain the descriptor.
  • two regions (or regions of interest) are extracted from each two-dimensional representation, these regions being here respectively associated with the two hands (right hand and left hand) of the US user.
  • the extracted region can be a region associated with an object manipulated by the US user.
  • the extraction sub-step E51 can be carried out by means of a neural network, such as the Detectron2 neural network proposed in the article "Detectron2: A PyTorch-based modular object detection library” by Y. Wu, A. Kirillov , F. Massa, W.-Y. Lo, R. Girshick, Facebook Al, October 10, 2019.
  • This neural network can be pre-trained on different databases, as described for example in the article "Understanding human hands in contact at internet scale", by Shan, D ., Geng, J., Shu, M., and Fouhey, DF (2020). 2020 IEEE / CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9866-9875.
  • the sub-step E52 of processing the extracted regions makes it possible to obtain a descriptor for each region extracted by processing the extracted region concerned.
  • This processing is carried out here by means of a neural network, for example of the VGG16 type as described in the article “Very Deep Convolutional Networks for Large Scale Image Recognition” by K. Simonyan and A.
  • Sub-step E52 therefore makes it possible here to obtain (for each two-dimensional representation) a first descriptor for each extracted region associated with the user's right hand and a second descriptor for each extracted region associated with the user's left hand. .
  • step E6 of training preliminary neural networks each receiving a descriptor as input so that each neural network learns the time dependencies relating to a particular descriptor.
  • This step E6 is similar to step E1 described above and will therefore not be described in detail again.
  • the preliminary neural networks are trained separately in order to obtain, for each preliminary neural network, a set of optimal values of preliminary parameters respectively associated with the neurons of the neural network concerned.
  • the training method comprises a step E7 of training a main neural network in order to obtain optimal values of the main parameters respectively associated with the neurons of the main neural network.
  • the main neural network is coupled to a plurality of neural networks which each receive as input a descriptor (here the first aforementioned descriptor or the second aforementioned descriptor), and whose neurons are parameterized by means of the optimal values obtained in step E6.
  • a descriptor here the first aforementioned descriptor or the second aforementioned descriptor
  • Step E7 is similar to step E2 described above and will therefore not be described in detail again.
  • Step E7 is carried out using the different learning sequences and therefore for the different classes respectively associated with these learning sequences.
  • the method of FIG. 11 can then comprise a step E8 of recognizing a class of activity from an input temporal sequence, formed of successive two-dimensional representations IMGR, (here RGB images) of a scene, and by means of neural networks trained as described above.
  • IMGR successive two-dimensional representations
  • RGB images successive two-dimensional representations
  • This step comprises, for example, obtaining two descriptors (as proposed above, here descriptors obtained respectively by extraction and processing of a region associated with the user's right hand, and by extraction and processing of a region associated with the user's left hand), the application of the two descriptors respectively at the input of two preliminary neural networks (parameterized by means of the optimal values obtained in step E6), these two preliminary neural networks being coupled at the input of a main neural network (parameterized by means of the optimal values obtained in step E7), which main neural network outputs the class identified for the input sequence.
  • FIG. 12 diagrammatically represents another example of a device in accordance with the invention
  • the device of FIG. 12 here groups together two sub-elements: a learning sub-device DISA 'and a recognition sub-device DISR'.
  • the learning sub-device DISA 'and the recognition sub-device DISR' are not grouped together within the same device and form devices in their own right. Indeed, conventionally, the learning implemented by the learning device DISA 'is carried out prior to the recognition implemented by the device DISR'.
  • the recognition device DISR ′ can thus be configured using the learning model obtained. In the remainder of the description, reference will be made to a learning device DISA 'and a recognition device DISR'.
  • the DISA "learning device includes MA means for obtaining distinct descriptors, MAPP means” configured to implement preliminary learning of time dependencies and MAR means for learning activity recognition.
  • the means MA for obtaining distinct descriptors comprise a DETA module for extracting two regions (associated respectively with the right hand and with the left hand) in each two-dimensional representation IMGA i received as input, and modules VGGA1, VGGA2 designed to each process an extracted region to produce a corresponding descriptor.
  • the two types of descriptor thus produced then respectively feed two neural networks to be trained LSTMA1 ’and LSTMA2’.
  • neural networks implementing the preliminary learning are here each of the same type as the neural networks LSTMA1, LSTMA2, LSTMA3 described above with reference to FIG. 10.
  • Each neural network is followed by an SFTA1 classification module '; SFTA2 ’capable of implementing the step of classifying the results delivered by the corresponding neural networks.
  • SFTA1 classification module ' SFTA1 classification module '
  • SFTA2 SFTA2 ’capable of implementing the step of classifying the results delivered by the corresponding neural networks.
  • These modules are identical to the classification modules SFTA1, SFTA2, SFTA3 described with reference to figure 10.
  • the MAR means for learning the recognition of the activity comprise pre-trained neural networks LSTMC1 ', LSTMC2' of structure identical to that of the neural networks LSTMA1 ', LSTMA2' used for the preliminary learning phase, the parameters associated with the neurons of these neural networks LSTMC1 ', LSTMC2' being fixed using the values of the optimal parameters obtained at the end of preliminary learning implemented by the corresponding neural networks LSTMA1 ', LSTMA2'.
  • the descriptors obtained at the output of the means MA then feed these networks of pre-trained neurons LSTMC1 ′, LSTMC2 ′.
  • the MAR means for learning activity recognition also include a module for concatenating the results delivered by the neural networks LSTMC1 ", LSTMC2" into a vector of time dependence values.
  • the MAR means for learning the recognition of the activity furthermore comprise an MPLC module 'coupled to the output of the concatenation module MCC' and the output of which is transmitted to an SFTC classification module '(for example implementing an exponential function standardized) capable of delivering a class A '.
  • the MLPC module ’ can be a multilayer perceptron comprising for example two dense layers, respectively of 256 and 128 neurons.
  • the learning model (that is to say the set of optimal values of the parameters of the neurons of the different neural networks, obtained by means of the learning device DISA ') is then transmitted to different means of a device of DISR recognition 'via MCONF configuration means'.
  • the recognition device DISR implements the method of recognizing a class from an input time sequence formed of two-dimensional representations IMGR, (see step E8 described above).
  • This DISR ’recognition device includes an MR means for obtaining descriptors.
  • This MR means is of the same type as the MA means described above.
  • the means MR for obtaining descriptors thus comprises a module DETR for extracting two regions (associated respectively with the right hand and with the left hand) in each two-dimensional representation IMGRi received as input, and modules VGGR1, VGGR2 designed to process each a region extracted to produce a corresponding descriptor.
  • the recognition device DISR ' also comprises neural networks LSTMR1', LSTMR2 'which respectively receive as input the descriptors produced by the means MR (here by the modules VGGR1, VGGR2). These neural networks are configured (by the configuration means MCONF ') using the learning model and have a structure identical to that of the neural networks used for the preliminary learning phase, namely the LSTMA1 neural networks. ', LSTSMA2'.
  • the DISR recognition device “includes an MCR concatenation module” which concatenates the results from the neural networks LSTMR1 ", LSTMR2" into a vector of time dependency values.
  • the DISR recognition device also includes an MLPR module” coupled to the output of the MCR concatenation module “and configured (by the MCONF configuration means") using the training model.
  • the MLPR module can be a multilayer perceptron comprising for example two dense layers, respectively of 256 and 128 neurons.
  • the DISR recognition device "finally includes an SFTR classification module (for example implementing a normalized exponential function or Softmax) which receives as input the output of the MLPR module".
  • the SFTR classification module delivers the CL 'class identified for the input sequence formed from the two-dimensional representations IMGR ,.
  • FIG. 13 describes an example of an electronic circuit implementing the SYS system.
  • a PRO processor for example (a microprocessor) can be configured to at least partially implement the devices DIS1 and DIS2. Such an implementation solution can also be used for the device of figure 12.
  • the DISA learning device is implemented on another separate communicating electronic circuit (not shown) also comprising a memory capable of implementing at least some of the steps of the methods of FIGS. 2, 3 and 8.
  • the DISR recognition device, the memory MEM and the MCONF configuration means are implemented on the electronic circuit shown in FIG. 13.
  • the MCONF configuration means can be separate from the other means of the DISR recognition device and coupled to the latter using communication means.
  • the PRO processor is coupled to the memory MEM capable of storing the learning model obtained for example.
  • the memory MEM can store Computer program instructions designed to implement at least some of the steps of the methods of Figures 2, 3, 8 and 9 when these instructions are executed by the processor PRO.
  • a CTEL telecommunication circuit is designed to transmit and receive data streams with external elements, for example with the headset.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

L'invention propose un procédé d'apprentissage d'une pluralité de classes pour un réseau neuronal, à partir de séquences temporelles dites d'apprentissage, formées de représentations successives d'une scène, chaque séquence d'apprentissage étant associée à l'une des classes. Le procédé comprend les étapes suivantes, pour chaque séquence d'apprentissage : - une obtention (E0) d'au moins deux descripteurs à partir des représentations de la séquence d'apprentissage considérée, - un apprentissage préliminaire (E1) d'une valeur de dépendance temporelle pour au moins deux réseaux neuronaux dits préliminaires recevant chacun l'un des descripteurs, chaque valeur de dépendance temporelle caractérisant une relation entre au moins deux valeurs prises par un descripteur à au moins deux instants différents, de façon à obtenir les valeurs optimales de paramètres préliminaires associés aux neurones des réseaux neuronaux préliminaires, - un apprentissage (E2) de la pluralité de classes pour un réseau neuronal de façon à obtenir des valeurs optimales de paramètres dits principaux associés aux neurones du réseau neuronal, ledit réseau neuronal étant couplé à au moins deux autres réseaux neuronaux recevant chacun l'un des descripteurs, des paramètres associés aux neurones des autres réseaux neuronaux étant fixés à l'aide des valeurs optimales des paramètres préliminaires.

Description

Procédé d’apprentissage, procédé de reconnaissance associé, dispositifs correspondants
Domaine technique de l'invention
La présente invention concerne le domaine technique de la vision par ordinateur.
Elle concerne plus particulièrement des procédés d’apprentissage et reconnaissance d’une classe, ainsi que les dispositifs correspondants.
Etat de la technique
Il est connu de l’article « Motion Feature augmented récurrent neural network for skeleton-based dynamic hand gesture récognition », X. Chen, H. Guo ; G. Wang, Li Zhang, Août 2017, une méthode permettant à un utilisateur de déterminer le type de geste effectué par sa propre main. Cette information peut ensuite être utilisée dans le cadre d’une interaction homme-machine, afin de mettre en oeuvre une série d’actions effectuées par la machine.
Présentation de l'invention
Dans ce contexte, la présente invention propose selon un premier aspect, un procédé d’apprentissage d’une pluralité de classes pour un réseau neuronal, à partir de séquences temporelles dites d’apprentissage, formées de représentations successives d’une scène, chaque séquence d’apprentissage étant associée à l’une des classes. Le procédé comprend les étapes suivantes, pour chaque séquence d’apprentissage : o une obtention d’au moins deux descripteurs à partir des représentations de la séquence d’apprentissage considérée, o un apprentissage préliminaire d’une valeur de dépendance temporelle pour au moins deux réseaux neuronaux dits préliminaires recevant chacun l’un des descripteurs, chaque valeur de dépendance temporelle caractérisant une relation entre au moins deux valeurs prises par un descripteur à au moins deux instants différents, de façon à obtenir les valeurs optimales de paramètres préliminaires associés aux neurones des réseaux neuronaux préliminaires, o un apprentissage de la pluralité de classes pour un réseau neuronal de façon à obtenir des valeurs optimales de paramètres dits principaux associés aux neurones du réseau neuronal, ledit réseau neuronal étant couplé à au moins deux autres réseaux neuronaux recevant chacun l’un des descripteurs, des paramètres associés aux neurones des autres réseaux neuronaux étant fixés à l’aide des valeurs optimales des paramètres préliminaires.
En dissociant l’apprentissage des valeurs de dépendance temporelle d’une part et la classification d’autre part, l’invention permet de surmonter le problème du sur- apprentissage. Ainsi, l’apprentissage peut s’effectuer à partir d’un nombre réduit de séquences d’apprentissage tout en conservant une bonne précision dans les résultats fournis.
D’autres caractéristiques non limitatives et avantageuses de ce premier aspect de l’invention, conformes à l’invention, prises individuellement ou selon toutes les combinaisons techniquement possibles, sont décrites ci-après.
Par exemple, ladite scène peut inclure une partie d’un corps articulé.
La séquence d’apprentissage alors comprendre, dans un mode de mise en oeuvre des données représentatives d’un squelette en trois dimensions de la partie du corps articulé.
Dans un mode de mise en oeuvre, l’étape d’apprentissage préliminaire peut comprendre en outre :
- un traitement de chaque valeur de dépendance temporelle de façon à délivrer une classe pour chacune desdites valeurs de dépendance temporelle,
- une minimisation d’une erreur calculée entre chaque classe délivrée et une classe cible,
- une mise à jour des valeurs des paramètres préliminaires en fonction de l’erreur minimisée, et
- une poursuite de l’apprentissage préliminaire avec une nouvelle séquence d’apprentissage tant qu’un premier critère prédéterminé n’est pas satisfait.
Dans un mode de mise en oeuvre, les au moins deux autres réseaux neuronaux sont chacun aptes à délivrer une valeur de dépendance temporelle correspondant au descripteur reçu en entrée, l’étape d’apprentissage comprenant en outre :
- une concaténation des valeurs de dépendance temporelle délivrées par les autres réseaux neuronaux, de façon à former un vecteur de valeurs de dépendance temporelle, le vecteur étant délivré en entrée dudit réseau neuronal,
- un traitement dudit vecteur de façon à délivrer une classe correspondante, - une minimisation d’une erreur calculée entre ladite classe délivrée et une classe cible,
- une mise à jour des valeurs des paramètres associés aux neurones dudit réseau neuronal en fonction de l’erreur minimisée, et
- une poursuite de l’apprentissage avec une nouvelle séquence d’apprentissage tant qu’un deuxième critère prédéterminé n’est pas atteint.
Selon une première possibilité de réalisation, les représentations peuvent être des représentations en trois dimensions.
Dans un mode de mise en oeuvre, les représentations 3D peuvent être définies par des informations géométriques en 3D, lesdits descripteurs pouvant alors être obtenus à l’aide de trois méthodes distinctes à partir des informations géométriques en 3D.
Dans un mode de mise en oeuvre, au moins un descripteur obtenu peut traduire un déplacement spatial d’au moins une partie de la représentation 3D, entre un instant de référence et un autre instant.
Selon une seconde possibilité de réalisation, les représentations peuvent être des représentations bidimensionnelles (par exemple des images).
L’étape d’obtention des au moins deux descripteurs peut alors comprendre, pour chaque descripteur, l’extraction d’une région d’une représentation bidimensionnelle de la séquence d’apprentissage considérée, et/ou le traitement de la région extraite pour obtention du descripteur concerné.
Cette extraction peut être réalisée au moyen d’un réseau neuronal (par exemple un réseau neuronal pré-entraîné) ; le traitement de la région extraite peut par ailleurs être réalisé au moyen d’un réseau neuronal (par exemple un réseau neuronal pré-entraîné).
Selon un deuxième aspect de l’invention, il est proposé un procédé de reconnaissance d’une classe parmi une pluralité de classes, à partir d’une séquence temporelle dite d’entrée, formée de représentations successives d’une scène. Le procédé comprend la mise en oeuvre des étapes suivantes :
- une configuration des paramètres associés aux neurones de réseaux neuronaux, à partir des valeurs optimales des paramètres préliminaires et principaux délivrés à l’issue d’un apprentissage mis en oeuvre à l’aide d’un procédé tel que décrit ci-avant,
- une obtention d’au moins deux descripteurs à partir des représentations de la séquence temporelle d’entrée, et - une reconnaissance d’une classe pour la séquence temporelle d’entrée, à l’aide des réseaux neuronaux configurés, recevant les descripteurs obtenus.
Selon un troisième aspect de l’invention, il est proposé un dispositif d’apprentissage d’une pluralité de classes pour un réseau neuronal, à partir de séquences temporelles dite d’apprentissage, formées de représentations successives d’une scène, chaque séquence d’apprentissage étant associée à l’une des classes. Le dispositif comprend les moyens suivants : o des moyens pour une obtention d’au moins deux descripteurs à partir des représentations de la séquence d’apprentissage considérée, o des moyens pour un apprentissage préliminaire d’une valeur de dépendance temporelle pour au moins deux réseaux neuronaux dits préliminaires recevant chacun l’un des descripteurs, chaque valeur de dépendance temporelle caractérisant une relation entre au moins deux valeurs prises par un descripteur à au moins deux instants différents, de façon à obtenir les valeurs optimales de paramètres préliminaires associés aux neurones des réseaux neuronaux préliminaires, o des moyens pour un apprentissage de la pluralité de classes pour un réseau neuronal de façon à obtenir des valeurs optimales de paramètres dits principaux associés aux neurones du réseau neuronal, ledit réseau neuronal étant couplé à au moins deux autres réseaux neuronaux recevant chacun l’un des descripteurs, des paramètres associés aux neurones des autres réseaux neuronaux étant fixés à l’aide des valeurs optimales des paramètres préliminaires.
Selon un mode de réalisation, les réseaux neuronaux préliminaires et les autres réseaux neuronaux peuvent être des réseaux de neurones récurrents.
Selon un quatrième aspect de l’invention, il est proposé un dispositif de reconnaissance d’une classe parmi une pluralité de classes, à partir d’une séquence temporelle dite d’entrée, formée de représentations successives en 3D d’une scène. Le dispositif comprend les moyens suivants :
- des moyens pour configurer les paramètres associés aux neurones de réseaux neuronaux à partir des valeurs optimales des paramètres préliminaires et principaux délivrés par un dispositif d’apprentissage tel que décrit ci-avant,
- des moyens pour obtenir au moins deux descripteurs à partir des représentations de la séquence temporelle d’entrée, - des moyens pour reconnaître une classe pour la séquence temporelle d’entrée, à l’aide des réseaux neuronaux configurés, recevant les descripteurs obtenus.
Bien entendu, les différentes caractéristiques, variantes et formes de réalisation de l'invention peuvent être associées les unes avec les autres selon diverses combinaisons dans la mesure où elles ne sont pas incompatibles ou exclusives les unes des autres.
Description détaillée de l'invention
De plus, diverses autres caractéristiques de l'invention ressortent de la description annexée effectuée en référence aux dessins qui illustrent des formes, non limitatives, de réalisation de l'invention et où :
- la figure 1 illustre un exemple d’utilisation de l’invention ;
- la figure 2 est un logigramme illustrant un mode de mise en oeuvre des procédés selon l’invention ;
- la figure 3 est un logigramme représentant plus en détail un mode de mise en oeuvre de certaines étapes du procédé d’apprentissage ;
- la figure 4 est un exemple de représentations 3D, dans le contexte de l’invention ;
- la figure 5 illustre un exemple d’un premier descripteur mis en oeuvre dans l’invention ;
- la figure 6 illustre un exemple d’un deuxième descripteur mis en oeuvre dans l’invention ;
- la figure 7 illustre un exemple d’un troisième descripteur mis en oeuvre dans l’invention ;
- la figure 8 est un logigramme représentant plus en détail d’autres étapes du procédé d’apprentissage ;
- la figure 9 est un logigramme représentant plus en détail un mode de mise en oeuvre du procédé de reconnaissance ;
- la figure 10 illustre un mode de réalisation des dispositifs selon l’invention ;
- la figure 11 est un logigramme illustrant un autre mode de mise en oeuvre des procédés selon l’invention ;
- la figure 12 illustre un autre mode de réalisation des dispositifs selon l’invention ; et
- la figure 13 illustre une implémentation parmi d’autres des dispositifs selon l’invention. Il est à noter que, sur ces figures, les éléments structurels et/ou fonctionnels communs aux différentes variantes peuvent présenter les mêmes références.
Comme illustré sur la figure 1, une application de l’invention implique une utilisation d’un visiocasque HMD porté par un utilisateur US. Ce visiocasque HMD est couplé à un système SYS, par exemple à l’aide d’un réseau sans fil de type Wi-Fi. Dans cet exemple, le visiocasque HMD capture une scène comprenant les mains de l’utilisateur US, ce dernier opérant par exemple sur une chaîne de montage. Le visiocasque peut être un appareil HoloLens 2 de la société Microsoft ou encore des lunettes AR Google Glass de la société Google, ces exemples n’étant pas limitatifs. La capture d’une telle scène peut s’inscrire dans le cadre d’une aide au montage à distance ou encore d’une formation de l’utilisateur au montage. Ces usages impliquent une reconnaissance automatique de l’activité effectuée par les mains de l’utilisateur US, parmi une pluralité d’activités prédéterminées. En variante, ils peuvent reconnaître la bonne exécution ou non d’une activité. Cette reconnaissance est réalisée à l’aide d’un dispositif DIS2 incorporé au système SYS auquel sont transmises les données délivrées par le visiocasque HMD. Classiquement un visiocasque est muni d’une caméra dite RGB-D, de façon à délivrer des séquences d’images au format RGB (« Red Green Blue » en anglais) respectivement associées à des cartes de profondeurs. Ces dernières attribuent une valeur de profondeur à chaque pixel des images.
Le système SYS intègre un dispositif DIS1 qui est configuré pour extraire des représentations en trois dimensions (3D) des informations transmises par le visiocasque HMD, à l’aide d’une méthode d’estimation de poses 3D telle que celle décrite dans l’article : « V2V-PoseNet: Voxel-to-Voxel Prédiction Network for Accu rate 3D Hand and Human Pose Estimation from a Single Depth Map », de G. Moon, J. Chang, et K. M Lee, (CVPR) 2018. Par exemple, une représentation en 3D peut comprendre une représentation squelettale des mains de l’utilisateur, ce type de représentations étant décrit dans l’article mentionné ci-dessus. Le squelette en 3D de la main est alors caractérisé par une série de points clés en 3D dont l’évolution des positions permet d’identifier une activité. Les représentations en 3D peuvent également comprendre des valeurs de profondeur associées à un objet manipulé par l’utilisateur ou plus généralement au contexte environnant les mains de l’utilisateur. Le système SYS intègre également le dispositif DIS2 couplé à une mémoire MEM apte à mémoriser des séquences temporelles d’apprentissage de représentations 3D, étiquetées à l’aide des classes à reconnaître. Le dispositif DIS2 est décrit plus en détail ci-après.
L’application décrite en référence à la figure 1 est donnée à titre d’exemple pour faciliter la compréhension de l’invention. Elle n’est nullement limitative. Par exemple, la scène peut être capturée à l’aide d’une caméra embarquée de type HER08 de la société GoPro. La scène capturée peut porter sur les mains d’une autre personne, située face au porteur de la caméra. En outre, l’invention n’est pas limitée à la reconnaissance d’une activité associée aux mains d’une personne, mais concerne la reconnaissance d’une classe associée à toute(s) partie(s) d’un corps articulé, tel qu’un bras robotisé ou encore une partie (par exemple main et bras) d’un corps humain effectuant un geste.
La figure 2 est un logigramme schématisant un mode de mise en œuvre de l’invention. Il est considéré dans cet exemple, que les représentations 3D sont ici des squelettes en 3D des mains du porteur d’un visiocasque. Elles peuvent être déterminées (étapes non représentées à des fins de simplifications) à partir d’une séquence d’images capturées sur une durée T à l’aide de la caméra RGB-D du visiocasque. Ces squelettes successifs forment une séquence temporelle d’entrée ou une série de séquences temporelles d’entrée si plusieurs activités successives doivent être reconnues.
Tout d’abord pour que la reconnaissance puisse être réalisée, un apprentissage des différentes classes pour un réseau neuronal est un mis en œuvre. Le procédé d’apprentissage selon l’invention comprend trois étapes E0, E1 et E2.
Le procédé d’apprentissage s’appuie sur des séquences temporelles d’apprentissage formées d’une succession de squelettes fonction du temps. Les squelettes sont définis par des informations géométriques comme expliqué plus en détail ci-après. Chaque séquence d’apprentissage est associée à une classe. A titre d’exemple, il est considéré dans la suite de la description que, sauf mention contraire, les classes considérées correspondent à des étiquettes ou annotations liées à des activités pouvant être effectuées par les mains du porteur d’un visiocasque, telles que « ouverture d’une bouteille » ou « remplissage d’un récipient». Pour ce faire, il est possible d’utiliser la base de données annotée dite FPHA décrite dans l’article « First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations », de Guillermo Garcia- Hernando, Shanxin Yuan, Seungryul Baek, Tae-Kyun Kim, Avril 2018.
La première étape EO comprend pour chaque séquence temporelle d’apprentissage, l’obtention d’au moins deux descripteurs selon deux méthodes distinctes. Les descripteurs sont ici calculés à partir des informations géométriques définissant les représentations squelettale. Chaque descripteur appartient à une catégorie distincte de descripteurs comme décrit plus en détail en référence à la figure 3.
La deuxième étape E1 met en œuvre un apprentissage préliminaire de valeurs de dépendances temporelles à partir des descripteurs obtenus. Les descripteurs obtenus sont utilisés pour entraîner au moins deux réseaux neuronaux dits préliminaires (étape E10), de façon que ces réseaux neuronaux préliminaires apprennent les dépendances temporelles relatives à ces descripteurs. Chaque valeur de dépendance temporelle caractérise une relation entre au moins deux valeurs prises par un descripteur à au moins deux instants t différents, tel que t ∈ [0,T]). Autrement dit, une valeur de dépendance temporelle définit une corrélation entre au moins deux valeurs prises par un descripteur à différents instants. Chaque activité est caractérisée par un ensemble de corrélations particulier.
Il est considéré qu’il y a autant de réseaux neuronaux entraînés que de catégories différentes de descripteurs. L’apprentissage préliminaire est un apprentissage supervisé. Les paramètres d’apprentissage dits préliminaires (poids et biais) affectés aux neurones des réseaux neuronaux préliminaires sont optimisés tout au long de l’apprentissage préliminaire, séquence après séquence. A la fin de l’apprentissage préliminaire, les valeurs optimales des paramètres préliminaires sont délivrées comme valeurs de sortie, étape E11 .
L’étape E2 comprend un apprentissage supervisé de la pluralité de classes pour un réseau neuronal, appelé réseau neuronal principal dans la suite du texte, à des fins de simplification. Pour cela, dans un premier temps, étape E20, les descripteurs précédemment décrits sont délivrés en entrée d’au moins deux autres réseaux neuronaux. Les paramètres des autres réseaux neuronaux sont fixés à l’aide des valeurs optimales des paramètres préliminaires. Ils délivrent donc les valeurs de dépendances temporelles correspondant aux descripteurs respectivement reçus en entrée. Puis lors d’une étape E21 , est mis en œuvre l’apprentissage des différentes classes pour le réseau neuronal principal. Cet apprentissage des classes est réalisé à partir des valeurs de dépendances temporelles délivrées par les autres réseaux neuronaux.
Finalement à l’étape E22, un modèle d’apprentissage est délivré, comme valeurs de sortie. Ce modèle d’apprentissage comprend les paramètres préliminaires et les paramètres principaux respectivement à leurs valeurs optimales. L’apprentissage supervisé de la pluralité de classes est décrit plus en détail ci-après, en référence à la figure 8.
Une troisième étape E3 comprend la mise en œuvre de la reconnaissance de l’activité, une fois l’apprentissage réalisé. Cette reconnaissance est effectuée sur les séquences temporelles d’entrée précitées. Elle met en œuvre des réseaux de neurones configurés à l’aide du modèle d’apprentissage délivré à l’issue de l’apprentissage.
La figure 3 est un logigramme schématisant de façon plus détaillée l’obtention des descripteurs E0 et l’apprentissage préliminaire E1.
Dans un mode de mise en œuvre, chaque squelette est constitué de 21 points d’articulation, représentant la configuration de la main à un instant t donné :
Figure imgf000011_0001
Chacun des points d’articulation est défini par ses coordonnées cartésiennes en 3 dimensions, telles que :
Figure imgf000011_0002
En reliant ces points d’articulation, est alors formé un ensemble de segments reproduisant les os de la main ainsi que les phalanges et les métacarpes comme illustré sur la figure 4.
Une séquence temporelle d’apprentissage S(t) est alors formalisée par l’expression suivante :
Figure imgf000011_0003
où t ∈ {0, 1 , ..., 7} représente un instant et T la durée maximale de la séquence d’activité, par exemple 10s. Le pas de temps entre deux instants est par exemple égal à 1s.
De préférence, les représentations 3D ont été préalablement normalisées de façon que la taille moyenne de chaque main soit sensiblement la même d’une représentation à l’autre, sans modification des angles entre les segments. Cette étape de normalisation (non illustrée à des fins de simplification) permet d’améliorer la précision des deux étapes d’apprentissage préliminaire et d’apprentissage des classes E1 et E2. Le document “The Moving Pose: An Efficient 3D Kinematics Descriptor for Low-Latency Action Récognition and Détection ” par Mihai Zanfir et al., ICCV2013, décrit un exemple d’algorithme de normalisation.
Lors de l’étape E0, des descripteurs temporels sont obtenus à partir de chaque séquence d’apprentissage S(t). De préférence, des descripteurs appartenant à au moins deux catégories différentes sont générés, à l’aide d’au moins deux méthodes différentes. Trois méthodes différentes sont décrites ci-après en référence aux figures 5 à 7. Par exemple, une combinaison de deux de ces trois méthodes peut être utilisée. En variante, l’ensemble des trois méthodes peut être utilisé de façon à obtenir des descripteurs appartenant à trois catégories différentes.
En variante, les descripteurs peuvent être générés préalablement puis être stockées dans une mémoire.
La figure 5 illustre un descripteur appartenant à une première catégorie obtenue à l’aide d’une première méthode. Ce descripteur traduit l’évolution au cours du temps, de la forme de la main, et cela durant la séquence temporelle d’apprentissage S(t) considérée, dédiée à une activité donnée. Ce descripteur est appelé SoCJ pour « Shape of Connected Joints » en anglais. Pour chaque doigt de la main, est calculé un vecteur en 3 dimensions entre les points d’articulations physiquement connectés, depuis l’articulation du poignet (chiffre « 1 »), jusqu’au point d’articulation situé à l’extrémité de chaque doigt (respectivement chiffres « 5 », « 9 », « 13 », « 17 » et « 21 »). Pour cette figure, ainsi que pour la suivante, le référentiel considéré est un référentiel orthonormé centré sur le point d’articulation du poignet à chaque instant de la séquence temporelle d’apprentissage S(t). Bien entendu, ce choix de référentiel est un exemple, tout autre choix de référentiel étant possible à l’aide d’une translation entre les deux référentiels.
La figure 5 représente une projection en deux dimensions de ces vecteurs. Ainsi, si l’on considère l’ensemble des points d’articulation Fi= { J1 , J2, J3, J4, J5} ordonnés de façon à correspondre au pouce de la main, le descripteur SoCJ(F1) peut être calculé comme suit, à un instant t donné :
Figure imgf000012_0001
Si l’on calcule ce descripteur pour l’ensemble des doigts de la main, il vient pour chaque instant t :
Figure imgf000013_0001
où Fi est le /ième doigt de la main.
Dans la suite du texte, l’application de ce descripteur SoCJ à chaque instant de la séquence temporelle d’apprentissage S(t) est désignée par la variable ψι. Il vient :
Figure imgf000013_0002
La figure 6 illustre un descripteur appartenant à une deuxième catégorie, obtenue à l’aide d’une deuxième méthode. Ce descripteur traduit une variation au cours du temps, des distances d’une part entre les points d’articulation pour un même doigt (Intra) et d’autre part entre deux doigts (Inter). Il est nommé IIFRD pour « Intra/lnter Finger Relative Distance » en anglais. Ce descripteur est formé de deux éléments à savoir RDa pour caractériser les distances dites « intra » opposées à chaque angle entre deux segments consécutifs d’un même doigt et RDe pour caractériser les distances dites « inter » entre des points d’articulation appartenant à deux doigts distincts adjacents.
Les distances intra RDa traduit les fortes dépendances existant entre les segments relatifs à un même doigt. Si l’on considère l’ensemble F1 tel que définis ci avant, les distances intra RDa obtenues pour cet ensemble sont déterminées de la façon suivante :
Figure imgf000013_0003
où d correspond ici à la distance euclidienne entre les deux points d’articulation considérés. Si l’on calcule la distance intra RDa pour l’ensemble des doigts de la main, il vient pour chaque instant t un ensemble de caractéristiques a(t):
Figure imgf000013_0004
La distance inter RDe traduit quant à elle la dépendance entre les doigts d’une paire de doigts. Par exemple si l’on considère les doigts (pouce et index) respectivement désignés par les deux ensembles F1={Jj}j=5:3 et F2={Jj}j=9 : 7 la distance inter RDe( F1, F2) pour cette paire de doigts est calculée selon l’expression suivante :
Figure imgf000013_0005
où d correspond ici à la distance euclidienne entre les deux points d’articulation considérés. Si l’on calcule la distance intra RDe pour l’ensemble des doigts de la main, il vient pour chaque instant t l’ensemble des caractéristiques e(t):
Figure imgf000013_0006
Finalement, en concaténant les deux ensembles de caractéristiques inter e(t) et intra a(t), on obtient le descripteur final IIFRD pour la main à chaque instant t :
Figure imgf000014_0001
Dans la suite du texte, l’application de ce descripteur IIFRD à chaque instant de la séquence temporelle d’apprentissage S(t) est désignée par la variable ψ2. Il vient :
Figure imgf000014_0002
La figure 7 illustre un descripteur d’une troisième catégorie, obtenue à l’aide d’une troisième méthode. Ce descripteur porte sur l’évolution du mouvement général de la main dans l’espace et d’un instant à l’autre. Il est dénommé GRT pour « Global Relative Translation » en anglais. Plus précisément le descripteur GRT comprend le calcul du déplacement relatif des points d’articulation d’un instant t au suivant t+1, pour l’ensemble de la séquence temporelle considérée. Pour cela un point d’articulation de référence est choisi, ici le point d’articulation du poignet considéré au premier instant t=0 de la séquence temporelle. Pour chaque point d’articulation, une nouvelle variable
Figure imgf000014_0005
est calculée par rapport au point d’articulation de référence, telle que :
Figure imgf000014_0003
où est la nouvelle variable associée au point d’articulation pour l’intervalle
Figure imgf000014_0006
de temps associé à l’instant t.
Pour cette figure 7, le référentiel considéré est un référentiel orthonormé centré sur le point d’articulation du poignet au premier instant de la séquence temporelle d’apprentissage. Une fois les nouvelles variables obtenues, la position d’un barycentre Crt est calculée dans le référentiel Ref pour l’ensemble des instants considérés. L’application de ce descripteur GRT est, à chaque instant de la séquence temporelle d’apprentissage S(t), désigné par la variable ψ3. Il vient :
Figure imgf000014_0004
Le descripteur GRT donne ainsi une information complémentaire à celles fournies par les descripteurs SoCJ et IIFRD, étant donné que la position du barycentre déterminée pour chaque instant t de la séquence temporelle d’apprentissage peut présenter d’importantes variations d’une activité à une autre. k On se réfère à nouveau à la figure 3. A l’issue de l’étape E0 sont obtenus plusieurs descripteurs calculés pour chaque séquence temporelle d’apprentissage, par exemple dans trois catégories différentes dans la suite de la description. En variante, des descripteurs dans deux catégories distinctes sont déterminés, la catégorie de l’un des descripteurs permettant de prendre en compte le déplacement relatif de la main dans l’espace, au cours de la séquence, tel que le descripteur GRT.
De préférence, pour une séquence d’apprentissage, chaque descripteur est obtenu à l’aide d’une méthode différente, telle que celles décrites en référence aux figures 5 à 7.
Pour l’apprentissage préliminaire des valeurs de dépendances temporelles, chaque descripteur ψ1, ψ2, ψ3 est fourni en entrée d’un réseau de neurones récurrent, ayant un nombre minimal de couches et de neurones par couche (par exemple, une seule couche avec 100 neurones). Chacun des réseaux de neurones est entraîné séparément à partir d’un type de descripteur qui lui est propre, E110. En limitant à une seule catégorie de descripteurs l’entrainement d’un réseau de neurones, on évite d’une part les erreurs d’apprentissage, liées à l’hétérogénéité de la base de données d’apprentissage et d’autre part on contribue à diminuer encore le surapprentissage.
Les trois descripteurs sont formalisés par l’expression suivante :
k(Si)}k=1 :3 où Si est la ième séquence temporelle d’apprentissage parmi l’ensemble des séquences d’apprentissage, et ψk(.) est le kième descripteur obtenu à l’aide de l’une des trois méthodes décrites ci- avant : SoCJ, IIFRD ou GRT.
Pour chaque descripteur ψ k(.), la valeur de dépendance temporelle existant entre différents instants est définie par la fonction composée suivante : gθkk(Si)) où gθk(.) est la fonction d’apprentissage associée au kième reseau de neurones préliminaire, et θk correspond aux paramètres préliminaires d’apprentissage que sont les poids appliqués au neurones et les biais (constante ajoutée à la sortie d’un neurone), la sortie du kième réseau gθk(.) se référant au dernier état cachés de la dernière couche.
Puis une étape de classification E111 est mise en oeuvre à l’aide d’une couche supplémentaire de réseau de neurones entièrement connectés, dite dense. On considère une couche supplémentaire par réseau de neurones mis en œuvre dans l’étape E110. Cette couche met en œuvre l’équation suivante :
Figure imgf000016_0001
où yk correspond à la sortie de la couche supplémentaire associée au kième réseau de neurones dont la fonction d’apprentissage est gθk(.), k étant un entier variant entre 1 et 3. Elle correspond à l’une des classes de la pluralité de classes considérées. yk est un vecteur de probabilité de dimension égale au nombre de classes considérées. N est le nombre total de classes considérées, par exemple 45 classes dans le de la base de données FPHA mentionnée précédemment.
Lors d’une étape E 112, pour chaque réseau de neurones, une fonction de perte Pk est calculée comme suit :
Figure imgf000016_0002
où N est le nombre de classes considérées, y correspond à la classe que l’on cherche à obtenir, issue de l’annotation de la séquence temporelle d’apprentissage considérée, yk correspond à la sortie de la couche supplémentaire associée au kième réseau de neurones, k étant un enter variant entre 1 et 3.
Cette fonction de perte Pk doit être minimisée au cours de l’apprentissage préliminaire, par exemple à l’aide de l’algorithme d’optimisation ADAM pour « Adaptive Moment Estimation » en anglais. Cet optimisateur est décrit par exemple dans l’article « Diederik P. Kingma and Jimmy Lei Ba. Adam : A method for stochastic optimization, 2014 ».
Puis les paramètres préliminaires θk des réseaux de neurones préliminaires sont optimisés en utilisant la formule suivante :
Figure imgf000016_0003
Tant qu’un critère d’arrêt de l’apprentissage préliminaire n’est pas atteint, T113, la séquence temporelle d’apprentissage suivante Si+1 est obtenue E114, et les étapes E0 à T113 sont réitérées. Dans un mode de réalisation, le critère d’arrêt peut être que la dernière séquence temporelle d’apprentissage disponible soit traitée (par exemple au bout de 600 séquences) ou qu’un nombre prédéterminé d’itérations ait été effectuées. A l’issue de l’apprentissage préliminaire, sont délivrés des paramètres préliminaires θ*k optimaux E11. La fonction associée à chaque réseau neuronal préliminaire s’écrit alors :
Figure imgf000017_0001
L’apprentissage préliminaire mettant en oeuvre plusieurs réseaux neuronaux (un par catégorie de descripteurs) évite de mélanger des descripteurs appartenant à des espaces de dimensions différentes et/ou comprenant des données de natures différentes. Cela permet de réduire la complexité de l’apprentissage et de diminuer la génération de bruit perturbateur.
La figure 8 détaille un mode de mise en oeuvre de l’apprentissage de la reconnaissance des classes E2 pour un réseau neuronal principal. Cette étape d’apprentissage est réalisée à l’issue de l’apprentissage préliminaire.
En premier lieu (étape E200), d’autres réseaux neuronaux que le réseau neuronal principal, reçoivent en entrée les descripteurs obtenus pour chaque séquence temporel d’apprentissage à l’étape E0. Comme pour l’apprentissage préliminaire, chacun des autres réseaux neuronaux reçoit un descripteur appartenant à une catégorie donnée. Les paramètres associés aux neurones de ces autres réseaux sont fixés à l’aide des paramètres préliminaires optimaux θ*k délivrés à l’étape E11. Ces derniers ont été transférés vers les autres réseaux neuronaux une fois l’apprentissage préliminaire terminé.
Dans l’exemple décrit ici, les paramètres préliminaires optimaux obtenus pour les réseaux de neurones préliminaires entraînés par les descripteurs SoCJ sont transférés pour configurer l’autre réseau neuronal qui reçoit en entrée les descripteurs SoCJ. Le même transfert est opéré entres les paramètres préliminaires optimaux des réseaux neuronaux préliminaires respectivement associés aux descripteurs IIFRD et GRT. Les valeurs de dépendance temporelle délivrées par chaque autre réseau neuronal dont les paramètres sont fixés, peuvent s’écrire de la façon suivante :
Figure imgf000017_0002
où S/ est la séquence temporelle d’apprentissage considérée à partir de laquelle sont générés les descripteurs ψk(.).
Ces valeurs de dépendance temporelle sont alors traitées lors d’une étape E201 de façon à obtenir une variable unique. Ce traitement peut consister à concaténer les valeurs de dépendance temporelle pour obtenir un vecteur de valeurs de dépendance temporelle. Il vient :
Figure imgf000018_0001
où h(.) est la fonction de concaténation, encore appelée fonction de fusion.
Puis le réseau neuronal principal est entraîné afin d’apprendre à reconnaître les différentes classes. Il comprend des premières couches de neurones mettant en oeuvre une fonction d’activation, ici non-linéaire, qui permet de valider le vecteur, au cours d’une étape 210, si sa valeur atteint un certain seuil prédéterminé, par exemple 0. A titre d’illustration, la fonction d’activation peut être une unité de rectification linéaire (ReLU) connue de l’homme de l’art, définie par l’équation suivante :
ReLU(z ) = max(0,z).
La fonction d’activation permet de supprimer les résultats non cohérents délivrés à l’issue de l’étape précédente E201. Par ailleurs, la concaténation des valeurs avant d’appliquer la fonction d’activation permet d’assurer une meilleure précision des résultats de classification.
Ensuite une étape de classification E211 est mise en oeuvre à partir des valeurs de sortie des premières couches de réseau, par exemple à l’aide de couches supplémentaires de réseau de neurones entièrement connectés, dite dense. On considère une couche supplémentaire par autre réseau de neurones mis en oeuvre dans l’étape E200. Ces couches mettent en oeuvre l’équation 17 décrite ci-avant pour la fonction de classification implémentée dans l’étape d’apprentissage préliminaire. En sortie de l’étape de classification, on obtient l’une des classes de la pluralité de classes.
Le réseau neuronal principal formé par les premières couches de neurones et les couches de neurones supplémentaires est caractérisé par la fonction fΦ ayant des paramètres d’apprentissage dits principaux F à optimiser.
En sortie du réseau neuronal principal, il vient pour chaque séquence temporelle d’entrée S/ la valeur suivante :
Figure imgf000018_0002
Une fonction de perte P’ associé au réseau neuronal principal est alors calculé lors d’une étape E212, comme suit :
Figure imgf000019_0001
où N est le nombres de classes, y est la classe ciblée, et y est la classe issue de l’étape de classification E211 .
Les paramètres Φk des réseaux de neurones sont alors optimisés en utilisant la fonction de minimisation suivante :
Figure imgf000019_0002
De même que précédemment, il est possible d’utiliser l’algorithme d’optimisation « ADAM ».
Si le critère de fin n’a pas été atteint (ensemble des séquences temporelles d’apprentissage traitées par exemple), test T213, les descripteurs de la séquence temporelle d’apprentissage suivante sont obtenus (étape E214) et délivrés en entrée des autres réseaux neuronaux et les étapes E200 à T213 sont réitérées.
Finalement est délivré le modèle d’apprentissage comprenant les paramètres optimaux θ*k et Φ*k étape E22.
On se réfère à présent à la figure 9 qui décrit plus précisément un mode de mise en oeuvre du procédé de reconnaissance d’une classe E3, selon l’invention. Ce procédé est implémenté au sein d’un réseau neuronal configuré à l’aide du modèle d’apprentissage délivré à l’étape E22.
Une première étape E30 comprend une génération de descripteurs à partir de la séquence temporelle d’entrée Sinp mentionnée ci-avant. Par exemple, les descripteurs peuvent être obtenus à l’aide des trois méthodes SoCJ, UFR et GRT décrites ci-avant.
Puis les valeurs de dépendance temporelle correspondant aux descripteurs sont déterminées grâce aux réseaux neuronaux dont les paramètres sont fixés à l’aide des paramètres optimaux θ*k étape E31 .
Les valeurs obtenues sont concaténées pour obtenir un vecteur unique de valeurs de dépendance temporelle, étape E32.
Puis la reconnaissance de la classe associée à la séquence temporelle d’entrée Sinp est effectuée à l’aide d’un réseau neuronal (étape E33) recevant en entrée le vecteur unique obtenu à l’étape E32. Ce réseau neuronal est configuré à l’aide des paramètres optimaux Φ*k. Il délivre en sortie l’activité reconnue pour la séquence d’entrée Sinp, étape E34
On se réfère à présent à la figure 10 qui décrit un exemple du dispositif DIS2. A des fins de simplification, le dispositif DIS2 regroupe ici deux sous-éléments : un sous- dispositif d’apprentissage DISA et un sous-dispositif de reconnaissance DISR. En variante, le sous-dispositif d’apprentissage DISA et le sous-dispositif de reconnaissance DISR ne sont pas regroupés au sein d’un même dispositif et forment des dispositifs à part entière. En effet, classiquement, l’apprentissage mis en œuvre par le dispositif d’apprentissage DISA est réalisé préalablement à la reconnaissance mise en œuvre par le dispositif DISR. Le dispositif de reconnaissance DISR est configuré à l’aide du modèle d’apprentissage obtenu. Dans la suite de la description, il sera fait référence à un dispositif d’apprentissage DISA et un dispositif de reconnaissance DISR.
Le dispositif d’apprentissage DISA intègre des moyens MAPP configurés pour mettre en œuvre l’apprentissage préliminaire des dépendances temporelles décrit ci- avant et des moyens MA1 , MA2 et MA3 aptes à déterminer des descripteurs d’un type différent, par exemple les descripteurs IIFRD, SoCJ et GRT. Des séquences temporelles d’apprentissage S/ formées de représentations squelettales en trois dimensions de mains sont stockées dans la mémoire MEM. Celles-ci sont délivrées en entrée des moyens MAPP. Les séquences S/ sont fournies en entrée des moyens MA1 , MA2 et MA3 montés en parallèle chacun étant respectivement apte à déterminer les différents types de descripteurs. Les descripteurs générés alimentent alors trois réseaux de neurones à entraîner LSTMA1 , LSTMA2 et LSTMA3.
Ces réseaux de neurones mettant en œuvre l’apprentissage préliminaire sont ici des réseaux de neurones récurrents, par exemple des réseaux récurrents à mémoire court et long terme dit LSTM pour « Long Short-Term Memory » en anglais particulièrement performants dans l’apprentissage des dépendances temporelles tout en évitant le problème de la disparition du gradient (« vanishing gradient problem » en anglais). Par exemple, chaque réseau de neurones LSTMA1 , LSTMA2 et LSTMA3 comprend 100 unités computationnelles. Alternativement des réseaux de neurones récurrents à portes dits GRU pour « Gated Récurrent Unit » en anglais, peuvent être utilisés à la place des réseaux LTSM. Chaque réseau de neurones est suivi d’un module de classification SFTA1 , SFTA2 et SFTA3 apte à mettre en oeuvre l’étape de classification des résultats délivrés par les réseaux de neurones correspondants. Par exemple, chaque module de classification implémente une fonction exponentielle normalisée encore appelée fonction « Softmax » prenant en entrée le vecteur de sortie du réseau de neurones auquel il est connecté et délivrant un vecteur de probabilité A1 , A2, A3 d’appartenance à une classe. Chaque composante du vecteur est associée à l’une des classes possibles et prend une valeur comprise entre 0 et 1 .
Le dispositif d’apprentissage DISA comprend des moyens MAR pour l’apprentissage de la reconnaissance de l’activité. Les descripteurs obtenus en sortie des moyens MA1 , MA2 et MA3 alimentent alors des réseaux de neurones pré-entrainés LSTMC1 , LSTMC2, LSTMC3. Ces derniers ont une structure identique à celle des réseaux de neurones utilisés pour la phase d’apprentissage préliminaire, respectivement LSTMC1 , LSTMC2, LSTMC3. Par contre, les paramètres associés aux neurones de ces réseaux neuronaux LSTMC1 , LSTMC2, LSTMC3 sont fixés à l’aide des valeurs des paramètres optimaux obtenus à l’issue de l’apprentissage préliminaire mis en oeuvre par les réseaux neuronaux correspondants LSTMA1 , LSTMA2, LSTMA3.
Les résultats délivrés par les réseaux neuronaux LSTMC1 , LSTMC2, LSTMC3 sont alors concaténés à l’aide d’un module de concaténation MCC en un vecteur de valeurs de dépendance temporelle.
Un module MLPC couplé à la sortie de ce module de concaténation MCC est configuré pour implémenter la fonction d’activation (par exemple la fonction ReLU) décrite précédemment. Ce module MLPC peut être un perceptron multicouche comprenant par exemple deux couches denses, respectivement de 256 et 128 neurones. La sortie du module MLPC est alors transmise à un module de classification SFTC (par exemple implémentant une fonction exponentielle normalisée) apte à délivrer une classe A.
Le modèle d’apprentissage est alors transmis à différents moyens d’un dispositif de reconnaissance DISR via des moyens de configuration MCONF (intégrant par exemple une mémoire). Le dispositif DISR met en oeuvre le procédé de reconnaissance d’une classe selon l’invention. Des moyens ici montés en parallèle MR1 , MR2 et MR3, reçoivent en entrée la séquence temporelle d’entrée Sinp. Ces moyens sont respectivement aptes à déterminer les trois descripteurs IIFRD, SoCJ et GRT. Les descripteurs obtenus alimentent alors des réseaux neuronaux LSTMR1 , LSTMR2, LSTMR3 du dispositif de reconnaissance DISR. Ces réseaux neuronaux sont configurés à l’aide du modèle d’apprentissage et ont une structure identique à celle des réseaux de neurones utilisés pour la phase d’apprentissage préliminaire, LSTMA1, LSTMA2, LSTMA3. Les résultats délivrés par les réseaux neuronaux LSTMR1, LSTMR2, LSTMR3 sont alors concaténés à l’aide d’un module de concaténation MCR en un vecteur de valeurs de dépendance temporelle.
Un module MLPR couplé à la sortie du module de concaténation MCR est configuré à l’aide du modèle d’apprentissage. Le module MLPR peut être un perceptron multicouche comprenant par exemple deux couches denses, respectivement de 256 et 128 neurones. La sortie du module MLPR est alors transmise à un module de classification SFTR (par exemple implémentant une fonction exponentielle normalisée ou Softmax) également configuré à l’aide du modèle d’apprentissage. Le module de classification SFTR délivre la classe CL identifiée pour la séquence d’entrée Sinp.
La figure 11 est un logigramme illustrant un autre mode de mise en oeuvre de l’invention.
Dans cet autre mode de mise en oeuvre, chaque séquence temporelle d’apprentissage (correspondant à une classe associée à une activité) est formée d’une succession de représentations bidimensionnelles (ou images) IMGAi de la scène, ici une succession d’images formées chacune de trois composantes colorimétriques (telles que des images RGB). Ces images sont par exemples prises par un visiocasque tel que le visiocasque HMD de la figure 1 (ici sans nécessiter une information de profondeur), à une pluralité d’instants successifs t0 à tT.
Le procédé d’apprentissage débute par une étape d’obtention E5 d’au moins deux descripteurs à partir de la séquence temporelle concernée, c’est-à-dire à partir des représentations bidimensionnelles IMGAi concernées (cette étape d’obtention étant répétée pour les autres séquences temporelles respectivement associée aux autres classes pour lesquelles le procédé d’apprentissage est mis en oeuvre).
Cette étape d’obtention E5 comprend ici une sous-étape E51 d’extraction d’au moins une région (ou région d’intérêt) dans chaque représentation bidimensionnelle et une sous-étape E52 de traitement de la région extraite pour obtenir le descripteur. Dans l’exemple décrit, deux régions (ou régions d’intérêt) sont extraites de chaque représentation bidimensionnelle, ces régions étant ici respectivement associées aux deux mains (main droite et main gauche) de l’utilisateur US. En variante ou en complément, la région extraite peut être une région associée à un objet manipulé par l’utilisateur US.
La sous-étape d’extraction E51 peut être réalisée au moyen d’un réseau neuronal, tel que le réseau neuronal Detectron2 proposé dans l’article "Detectron2 : A PyTorch- based modular object détection library" de Y. Wu, A. Kirillov, F. Massa, W.-Y. Lo, R. Girshick, Facebook Al, 10 octobre 2019. Ce réseau neuronal peut être pré-entraîné sur différentes bases de données, comme décrit par exemple dans l’article " Understanding human hands in contact at internet scale”, de Shan, D., Geng, J., Shu, M., et Fouhey, D. F. (2020). .2020 IEEE/CVF Conférence on Computer Vision and Pattern Récognition (CVPR), pages 9866-9875.
La sous-étape E52 de traitement des régions extraites permet d’obtenir un descripteur pour chaque région extraite par traitement de la région extraite concernée. Ce traitement est ici réalisé au moyen d’un réseau neuronal, par exemple de type VGG16 tel que décrit dans l’article "Very Deep Convolutional Networks for Large Scale Image Récognition " de K. Simonyan et A. Zisserman, ICLR 2015, ce réseau neuronal étant pré- entrainé sur la base Imagenet (voir "Imagenet large scale Visual récognition challenge”, Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M. S., Berg, A., et Fei-Fei, L. (2015), in International Journal of Computer Vision, 115:211-252).
La sous-étape E52 permet donc ici d’obtenir (pour chaque représentation bidimensionnelle) un premier descripteur pour chaque région extraite associée à la main droite de l’utilisateur et un second descripteur pour chaque région extraite associée à la main gauche de l’utilisateur.
Le procédé d’apprentissage se poursuit par une étape E6 d’entraînement de réseaux neuronaux préliminaires recevant chacun en entrée un descripteur de façon que chaque réseau neuronal apprenne les dépendances temporelles relatives à un descripteur particulier. Cette étape E6 est similaire à l’étape E1 décrite ci-dessus et ne sera donc pas décrite en détail à nouveau.
Comme décrit ci-dessus, les réseaux neuronaux préliminaires sont entraînés séparément afin d’obtenir, pour chaque réseau neuronal préliminaire, un ensemble de valeurs optimales de paramètres préliminaires respectivement associés aux neurones du réseau neuronal concerné.
Une fois les réseaux préliminaires entraînés, le procédé d’apprentissage comprend une étape E7 d’entraînement d’un réseau de neurones principal afin d’obtenir des valeurs optimales de paramètres principaux associés respectivement aux neurones du réseau neuronal principal.
Comme dans le mode de réalisation des figures 2 à 10, le réseau de neurones principal est couplé à une pluralité de réseaux neuronaux qui reçoivent chacun en entrée un descripteur (ici le premier descripteur susmentionné ou le second descripteur susmentionné), et dont les neurones sont paramétrés au moyen des valeurs optimales obtenues à l’étape E6.
L’étape E7 est similaire à l’étape E2 décrite ci-dessus et ne sera donc pas décrite en détail à nouveau.
L’étape E7 est réalisée en utilisant les différentes séquences d’apprentissage et donc pour les différentes classes respectivement associées à ces séquences d’apprentissage.
Le procédé de la figure 11 peut alors comprendre une étape E8 de reconnaissance d’une classe d’activité à partir d’une séquence temporelle d’entrée, formée de représentations bidimensionnelles successives IMGR, (ici des images RGB) d’une scène, et au moyen des réseaux neuronaux entraînés comme décrit ci-dessus.
Cette étape comprend par exemple l’obtention de deux descripteurs (tels que proposés ci-dessus, ici des descripteurs obtenus respectivement par extraction et traitement d’une région associé à la main droite de l’utilisateur, et par extraction et traitement d’une région associée à la main gauche de l’utilisateur), l’application des deux descripteurs respectivement en entrée de deux réseau neuronaux préliminaires (paramétrés au moyen des valeurs optimales obtenues à l’étape E6), ces deux réseaux neuronaux préliminaires étant couplés en entrée d’un réseau neuronal principal (paramétré au moyen des valeurs optimales obtenues à l’étape E7), lequel réseau neuronal principal délivre en sortie la classe identifiée pour la séquence d’entrée.
La figure 12 représente schématiquement un autre exemple de dispositif conforme à l’invention Comme pour la figure 10, à des fins de simplification, le dispositif de la figure 12 regroupe ici deux sous-éléments : un sous-dispositif d’apprentissage DISA’ et un sous- dispositif de reconnaissance DISR’. En variante, le sous-dispositif d’apprentissage DISA’ et le sous-dispositif de reconnaissance DISR’ ne sont pas regroupés au sein d’un même dispositif et forment des dispositifs à part entière. En effet, classiquement, l’apprentissage mis en oeuvre par le dispositif d’apprentissage DISA’ est réalisé préalablement à la reconnaissance mise en oeuvre par le dispositif DISR’. Le dispositif de reconnaissance DISR’ peut ainsi être configuré à l’aide du modèle d’apprentissage obtenu. Dans la suite de la description, il sera fait référence à un dispositif d’apprentissage DISA’ et un dispositif de reconnaissance DISR’.
Le dispositif d’apprentissage DISA’ comprend des moyens MA d’obtention de descripteurs distincts, des moyens MAPP’ configurés pour mettre en oeuvre l’apprentissage préliminaire des dépendances temporelles et des moyens MAR d’apprentissage de la reconnaissance de l’activité.
Des séquences temporelles d’apprentissage formées chacune de représentations bidimensionnelles IMGAi sont appliquées en entrée des moyens MA de manière à déterminer des descripteurs d’au moins deux types.
Ici, les moyens MA d’obtention de descripteurs distincts comprennent un module DETA d’extraction de deux régions (associées respectivement à la main droite et à la main gauche) dans chaque représentation bidimensionnelle IMGAi reçue en entrée, et des modules VGGA1 , VGGA2 conçus pour traiter chacun une région extraite afin de produire un descripteur correspondant.
Les deux types de descripteur ainsi produits alimentent alors respectivement deux réseaux de neurones à entraîner LSTMA1’ et LSTMA2’.
Ces réseaux de neurones mettant en oeuvre l’apprentissage préliminaire sont ici chacun du même type que les réseaux de neurones LSTMA1 , LSTMA2, LSTMA3 décrits précédemment en référence à la figure 10.
Chaque réseau de neurones est suivi d’un module de classification SFTA1 ’ ; SFTA2’ apte à mettre en oeuvre l’étape de classification des résultats délivrés par les réseaux de neurones correspondants. Ces modules sont identiques aux modules de classification SFTA1 , SFTA2, SFTA3 décrits en référence à la figure 10.
Les moyens MAR d’apprentissage de la reconnaissance de l’activité comprennent des réseaux de neurones pré-entraînés LSTMC1’, LSTMC2’ de structure identique à celle des réseaux de neurones LSTMA1’, LSTMA2’ utilisés pour la phase d’apprentissage préliminaire, les paramètres associés aux neurones de ces réseaux neuronaux LSTMC1’, LSTMC2’ étant fixés à l’aide des valeurs des paramètres optimaux obtenus à l’issue de l’apprentissage préliminaire mis en œuvre par les réseaux neuronaux correspondants LSTMA1’, LSTMA2’. Les descripteurs obtenus en sortie des moyens MA alimentent alors ces réseaux de neurones pré-entrainés LSTMC1 ’, LSTMC2’.
Les moyens MAR d’apprentissage de la reconnaissance de l’activité comprennent également un module de concaténation des résultats délivrés par les réseaux neuronaux LSTMC1’, LSTMC2’ en un vecteur de valeurs de dépendance temporelle.
Les moyens MAR d’apprentissage de la reconnaissance de l’activité comprennent par ailleurs un module MPLC’ couplé à la sortie du module de concaténation MCC’ et dont la sortie est transmise à un module de classification SFTC’ (par exemple implémentant une fonction exponentielle normalisée) apte à délivrer une classe A’.
Comme dans le cas de la figure 10, le module MLPC’ peut être un perceptron multicouche comprenant par exemple deux couches denses, respectivement de 256 et 128 neurones.
Le modèle d’apprentissage (c’est-à-dire l’ensemble des valeurs optimales des paramètres des neurones des différentes réseaux de neurones, obtenus au moyen du dispositif d’apprentissage DISA’) est alors transmis à différents moyens d’un dispositif de reconnaissance DISR’ via des moyens de configuration MCONF’.
Le dispositif de reconnaissance DISR’ met en œuvre le procédé de reconnaissance d’une classe à partir d’une séquence temporelle d’entrée formée de représentations bidimensionnelles IMGR, (voir l’étape E8 décrite ci-dessus).
Ce dispositif de reconnaissance DISR’ comprend un moyen MR d’obtention de descripteurs. Ce moyen MR est du même type que le moyen MA décrit ci-dessus.
Le moyen MR d’obtention de descripteurs comprend ainsi un module DETR d’extraction de deux régions (associées respectivement à la main droite et à la main gauche) dans chaque représentation bidimensionnelle IMGRi reçue en entrée, et des modules VGGR1 , VGGR2 conçus pour traiter chacun une région extraite afin de produire un descripteur correspondant.
Le dispositif de reconnaissance DISR’ comprend également des réseaux neuronaux LSTMR1’, LSTMR2’ qui reçoivent respectivement en entrée les descripteurs produits par le moyen MR (ici par les modules VGGR1 , VGGR2). Ces réseaux neuronaux sont configurés (par les moyens de configuration MCONF’) à l’aide du modèle d’apprentissage et ont une structure identique à celle des réseaux de neurones utilisés pour la phase d’apprentissage préliminaire, à savoir les réseaux de neurones LSTMA1’, LSTSMA2’.
Le dispositif de reconnaissance DISR’ comprend un module de concaténation MCR’ qui concatène les résultats délivrés par les réseaux neuronaux LSTMR1’, LSTMR2’ en un vecteur de valeurs de dépendance temporelle.
Le dispositif de reconnaissance DISR’ comprend également un module MLPR’ couplé à la sortie du module de concaténation MCR’ et configuré (par les moyens de configuration MCONF’) à l’aide du modèle d’apprentissage. Le module MLPR’ peut être un perceptron multicouche comprenant par exemple deux couches denses, respectivement de 256 et 128 neurones.
Le dispositif de reconnaissance DISR’ comprend enfin un module de classification SFTR (par exemple implémentant une fonction exponentielle normalisée ou Softmax) qui reçoit en entrée la sortie du module MLPR’. Le module de classification SFTR délivre la classe CL’ identifiée pour la séquence d’entrée formée des représentations bidimensionnelles IMGR,.
La figure 13 décrit un exemple de circuit électronique implémentant le système SYS. Un processeur PRO, par exemple (un microprocesseur) peut être configuré pour implémenter au moins partiellement, les dispositifs DIS1 et DIS2. Une telle solution d’implémentation peut également être utilisée pour le dispositif de la figure 12.
Selon un mode de réalisation, le dispositif d’apprentissage DISA est implémenté sur un autre circuit électronique communicant distinct (non représenté) comprenant également une mémoire apte à mettre en oeuvre certaines au moins des étapes des procédés des figures 2, 3 et 8. Le dispositif de reconnaissance DISR, la mémoire MEM et les moyens de configuration MCONF sont implémentés sur le circuit électronique représenté sur la figure 13.
Selon un mode de réalisation, les moyens de configuration MCONF peuvent être disjoints des autres moyens du dispositif de reconnaissance DISR et couplés à ces derniers à l’aide de moyens de communication.
Le processeur PRO est couplé à la mémoire MEM apte à mémoriser le modèle d’apprentissage obtenu par exemple. En outre la mémoire MEM peut mémoriser des instructions de programme d’ordinateur conçues pour mettre en œuvre certaines au moins des étapes des procédés des figures 2, 3, 8 et 9 lorsque ces instructions sont exécutées par le processeur PRO. Enfin un circuit de télécommunication CTEL est conçu pour transmettre et recevoir des flux de données avec des éléments externes, par exemple avec le visiocasque.

Claims

Revendications
1 . Procédé d’apprentissage d’une pluralité de classes pour un réseau neuronal, à partir de séquences temporelles dites d’apprentissage, formées de représentations successives d’une scène, chaque séquence d’apprentissage (S, ; IMGAi) étant associée à l’une des classes, le procédé comprenant les étapes suivantes, pour chaque séquence d’apprentissage :
- une obtention (E0 ; E5) d’au moins deux descripteurs (Ψk(Si(t))) à partir des représentations de la séquence d’apprentissage (Si(t)) considérée,
- un apprentissage préliminaire (E1 ; E6) d’une valeur de dépendance temporelle (gθkk(Si(t)))) pour au moins deux réseaux neuronaux dits préliminaires recevant chacun l’un des descripteurs, chaque valeur de dépendance temporelle caractérisant une relation entre au moins deux valeurs prises par un descripteur à au moins deux instants (t, t∈[0,T]) différents, de façon à obtenir les valeurs optimales de paramètres préliminaires associés aux neurones des réseaux neuronaux préliminaires,
- un apprentissage (E2 ; E7) de la pluralité de classes pour un réseau neuronal de façon à obtenir des valeurs optimales de paramètres dits principaux associés aux neurones du réseau neuronal, ledit réseau neuronal étant couplé à au moins deux autres réseaux neuronaux recevant chacun l’un des descripteurs, des paramètres associés aux neurones des autres réseaux neuronaux étant fixés à l’aide des valeurs optimales des paramètres préliminaires.
2. Procédé selon la revendication 1 , dans lequel ladite scène inclut une partie d’un corps articulé.
3. Procédé selon la revendication 2, dans lequel la séquence d’apprentissage comprend des données représentatives d’un squelette en trois dimensions de la partie du corps articulé.
4. Procédé selon l’une quelconque des revendications 1 à 3, dans lequel l’étape d’apprentissage préliminaire comprend en outre :
- un traitement de chaque valeur de dépendance temporelle de façon à délivrer une classe pour chacune desdites valeurs de dépendance temporelle,
- une minimisation d’une erreur calculée entre chaque classe délivrée et une classe cible,
- une mise à jour des valeurs des paramètres préliminaires en fonction de l’erreur minimisée, et - une poursuite de l’apprentissage préliminaire avec une nouvelle séquence d’apprentissage tant qu’un premier critère prédéterminé n’est pas satisfait.
5. Procédé selon l’une quelconque des revendications 1 à 4, dans lequel les au moins deux autres réseaux neuronaux sont chacun aptes à délivrer une valeur de dépendance temporelle correspondant au descripteur reçu en entrée, l’étape d’apprentissage comprenant en outre :
- une concaténation des valeurs de dépendance temporelle délivrées par les autres réseaux neuronaux, de façon à former un vecteur de valeurs de dépendance temporelle, le vecteur étant délivré en entrée dudit réseau neuronal,
- un traitement dudit vecteur de façon à délivrer une classe correspondante,
- une minimisation d’une erreur calculée entre ladite classe délivrée et une classe cible,
- une mise à jour des valeurs des paramètres associés aux neurones dudit réseau neuronal en fonction de l’erreur minimisée, et
- une poursuite de l’apprentissage avec une nouvelle séquence d’apprentissage tant qu’un deuxième critère prédéterminé n’est pas atteint.
6. Procédé selon l’une quelconque des revendications 1 à 5, dans lequel les représentations sont des représentations en trois dimensions (3D).
7. Procédé selon la revendication 6, dans lequel les représentations 3D sont définies par des informations géométriques en 3D, lesdits descripteurs étant obtenus à l’aide de trois méthodes distinctes à partir des informations géométriques en 3D.
8. Procédé selon la revendication 6 ou 7, dans lequel au moins un descripteur obtenu traduit un déplacement spatial d’au moins une partie de la représentation 3D, entre un instant de référence et un autre instant.
9. Procédé selon l’une quelconque des revendications 1 , 2, 4 et 5, dans lequel dans lequel les représentations sont des représentations bidimensionnelles ( IMGAi).
10. Procédé selon la revendication 9, dans lequel l’étape d’obtention des au moins deux descripteurs comprend, pour chaque descripteur, l’extraction (E51 ) d’une région d’une représentation bidimensionnelle de la séquence d’apprentissage considérée, et le traitement (E52) de la région extraite pour obtention du descripteur concerné.
11 . Procédé selon la revendication 10, dans lequel ladite extraction est réalisée au moyen d’un réseau neuronal.
12. Procédé selon la revendication 10 ou 11 , dans lequel le traitement de la région extraite est réalisé au moyen d’un réseau neuronal.
13. Procédé de reconnaissance d’une classe parmi une pluralité de classes, à partir d’une séquence temporelle dite d’entrée, formée de représentations successives d’une scène, le procédé comprenant la mise en œuvre des étapes suivantes :
- une configuration des paramètres associés aux neurones de réseaux neuronaux, à partir des valeurs optimales des paramètres préliminaires et principaux délivrés à l’issue d’un apprentissage mis en œuvre à l’aide d’un procédé selon l’une quelconque des revendications 1 à 12,
- une obtention d’au moins deux descripteurs à partir des représentations de la séquence temporelle d’entrée, et
- une reconnaissance d’une classe pour la séquence temporelle d’entrée, à l’aide des réseaux neuronaux configurés, recevant les descripteurs obtenus.
14. Dispositif d’apprentissage (DISA ; DISA’) d’une pluralité de classes pour un réseau neuronal, à partir de séquences temporelles dite d’apprentissage, formées de représentations successives d’une scène, chaque séquence d’apprentissage (S,(t)) étant associée à l’une des classes, le dispositif comprenant les moyens suivants :
- des moyens (MA1 , MA2, MA3 ; MA) pour une obtention d’au moins deux descripteurs à partir des représentations de la séquence d’apprentissage (Si(t) ; IMGAi) considérée,
- des moyens (MAPP ; MAPP’) pour un apprentissage préliminaire d’une valeur de dépendance temporelle pour au moins deux réseaux neuronaux dits préliminaires recevant chacun l’un des descripteurs, chaque valeur de dépendance temporelle caractérisant une relation entre au moins deux valeurs prises par un descripteur à au moins deux instants différents, de façon à obtenir les valeurs optimales de paramètres préliminaires associés aux neurones des réseaux neuronaux préliminaires,
- des moyens (MAR ; MAR’) pour un apprentissage de la pluralité de classes pour un réseau neuronal de façon à obtenir des valeurs optimales de paramètres dits principaux associés aux neurones du réseau neuronal, ledit réseau neuronal étant couplé à au moins deux autres réseaux neuronaux recevant chacun l’un des descripteurs, des paramètres associés aux neurones des autres réseaux neuronaux étant fixés à l’aide des valeurs optimales des paramètres préliminaires.
15. Dispositif selon la revendication 14, dans lequel les réseaux neuronaux préliminaires et les autres réseaux neuronaux sont des réseaux de neurones récurrents.
16. Dispositif de reconnaissance (DISR ; DISR’) d’une classe parmi une pluralité de classes, à partir d’une séquence temporelle dite d’entrée, formée de représentations successives (Sinp ; IMGR,) d’une scène, le dispositif comprenant les moyens suivants :
- des moyens pour configurer (MCONF ; MCONF’) les paramètres associés aux neurones de réseaux neuronaux à partir des valeurs optimales des paramètres préliminaires et principaux délivrés par un dispositif d’apprentissage (DISA ; DISA’) selon l’une quelconque des revendications 14 à 15,
- des moyens (MR1 , MR2, MR3 ; MR) pour obtenir au moins deux descripteurs à partir des représentations (Sinp ; IMGR,) de la séquence temporelle d’entrée,
- des moyens (MLPR, SFTR ; MLPR’, SFTR’) pour reconnaître une classe (CL ; CL’) pour la séquence temporelle d’entrée, à l’aide des réseaux neuronaux configurés, recevant les descripteurs obtenus.
PCT/EP2021/063499 2020-05-29 2021-05-20 Procédé d'apprentissage, procédé de reconnaissance associé, dispositifs correspondants WO2021239579A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2005724A FR3110991B1 (fr) 2020-05-29 2020-05-29 Procédé d’apprentissage, procédé de reconnaissance associé, dispositifs correspondants.
FRFR2005724 2020-05-29

Publications (1)

Publication Number Publication Date
WO2021239579A1 true WO2021239579A1 (fr) 2021-12-02

Family

ID=73038064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/063499 WO2021239579A1 (fr) 2020-05-29 2021-05-20 Procédé d'apprentissage, procédé de reconnaissance associé, dispositifs correspondants

Country Status (2)

Country Link
FR (1) FR3110991B1 (fr)
WO (1) WO2021239579A1 (fr)

Non-Patent Citations (16)

* Cited by examiner, † Cited by third party
Title
BOUTALEB YASSER ET AL: "Efficient Multi-stream Temporal Learning and Post-fusion Strategy for 3D Skeleton-based Hand Activity Recognition :", PROCEEDINGS OF THE 16TH INTERNATIONAL JOINT CONFERENCE ON COMPUTER VISION, IMAGING AND COMPUTER GRAPHICS THEORY AND APPLICATIONS, 8 February 2021 (2021-02-08), pages 293 - 302, XP055808790, ISBN: 978-989-7584-88-6, DOI: 10.5220/0010232702930302 *
CHEN XINGHAO ET AL: "MFA-Net: Motion Feature Augmented Network for Dynamic Hand Gesture Recognition from Skeletal Data", SENSORS, vol. 19, no. 2, 10 January 2019 (2019-01-10), pages 239, XP055772807, DOI: 10.3390/s19020239 *
G. MOONJ. CHANGK. M LEE, V2V-POSENET: VOXEL-TO-VOXEL PRÉDICTION NETWORK FOR ACCURATE 3D HAND AND HUMAN POSE ESTIMATION FROM A SINGLE DEPTH MAP, 2018
GUILLERMO GARCIA-HERNANDOSHANXIN YUANSEUNGRYUL BAEKTAE-KYUN KIM, FIRST-PERSON HAND ACTION BENCHMARK WITH RGB-D VIDEOS AND 3D HAND POSE ANNOTATIONS, April 2018 (2018-04-01)
JIE LI ET AL: "Skeleton-based Approaches based on Machine Vision: A Survey", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 23 December 2020 (2020-12-23), XP081845091 *
K. SIMONYANA. ZISSERMAN: "Very Deep Convolutional Networks for Large Scale Image Recognition", ICLR, 2015
MIHAI ZANFIR ET AL.: "The Moving Pose: An Efficient 3D Kinematics Descriptor for Low-Latency Action Récognition and Detection", ICCV, 2013
PENG XIAOJIANG ET AL: "Multi-region Two-Stream R-CNN for Action Detection", COMPUTER VISION - ECCV 2016, 1 January 2016 (2016-01-01), Cham, XP055827277, ISBN: 978-3-319-46493-0, Retrieved from the Internet <URL:https://link.springer.com/content/pdf/10.1007/978-3-319-46493-0_45.pdf> [retrieved on 20210723], DOI: 10.1007/978-3-319-46493-0 *
RUSSAKOVSKY, O.DENG, J.SU, H.KRAUSE, J.SATHEESH, S.MA, S.HUANG, Z.KARPATHY, A.KHOSLA, A.BERNSTEIN, M. S., INTERNATIONAL JOURNAL OF COMPUTER VISION, vol. 115, 2015, pages 211 - 252
SHAN, D.GENG, J.SHU, M.FOUHEY, D. F.: "Understanding human hands in contact at internet scale", 2020 IEEE/CVF CONFÉRENCE ON COMPUTER VISION AND PATTERN RÉCOGNITION (CVPR, 2020, pages 9866 - 9875, XP033803386, DOI: 10.1109/CVPR42600.2020.00989
TU ZHIGANG ET AL: "Multi-stream CNN: Learning representations based on human-related regions for action recognition", PATTERN RECOGNITION., vol. 79, 10 February 2018 (2018-02-10), GB, pages 32 - 43, XP055827301, ISSN: 0031-3203, Retrieved from the Internet <URL:https://www.sciencedirect.com/science/article/pii/S0031320318300359/pdfft?md5=96dc5bc5b6e61c72ca965e639f8b4f61&pid=1-s2.0-S0031320318300359-main.pdf> [retrieved on 20210723], DOI: 10.1016/j.patcog.2018.01.020 *
UMAR ASIF ET AL: "DeepActsNet: Spatial and Motion features from Face, Hands, and Body Combined with Convolutional and Graph Networks for Improved Action Recognition", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 31 March 2021 (2021-03-31), XP081900274 *
X. CHENH. GUOG. WANGLI ZHANG, MOTION FEATURE AUGMENTED RECURRENT NEURAL NETWORK FOR SKELETON-BASED DYNAMIC HAND GESTURE RÉCOGNITION, August 2017 (2017-08-01)
XINGHAO CHEN ET AL: "Motion Feature Augmented Recurrent Neural Network for Skeleton-based Dynamic Hand Gesture Recognition", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 10 August 2017 (2017-08-10), XP081290589, DOI: 10.1109/ICIP.2017.8296809 *
Y. WUA. KIRILLOVF. MASSAW.-Y. LOR. GIRSHICKFACEBOOK AI, DETECTRON2 : A PYTORCH-BASED MODULAR OBJECT DÉTECTION LIBRARY, 10 October 2019 (2019-10-10)
ZHANG WEI ET AL: "STA-GCN: two-stream graph convolutional network with spatial-temporal attention for hand gesture recognition", VISUAL COMPUTER, SPRINGER, BERLIN, DE, vol. 36, no. 10-12, 28 August 2020 (2020-08-28), pages 2433 - 2444, XP037268072, ISSN: 0178-2789, [retrieved on 20200828], DOI: 10.1007/S00371-020-01955-W *

Also Published As

Publication number Publication date
FR3110991A1 (fr) 2021-12-03
FR3110991B1 (fr) 2022-06-03

Similar Documents

Publication Publication Date Title
CA3097712C (fr) Systemes et procedes d&#39;extraction de mesures de corps entier
JP6852150B2 (ja) 生体検知方法および装置、システム、電子機器、記憶媒体
US10930010B2 (en) Method and apparatus for detecting living body, system, electronic device, and storage medium
US20210174146A1 (en) Training set sufficiency for image analysis
WO2019221654A1 (fr) Réseau contradictoire génératif autocodant permettant d&#39;augmenter des données d&#39;apprentissage utilisables pour instruire des modèles prédictifs
CN108363973B (zh) 一种无约束的3d表情迁移方法
KR101887637B1 (ko) 로봇 시스템
EP3410258B1 (fr) Procédé permettant de pousser une image, terminal mobile et support d&#39;informations
FR2884008A1 (fr) Systeme et procede de localisation de points d&#39;interet dans une image d&#39;objet mettant en oeuvre un reseau de neurones
FR2884007A1 (fr) Procede d&#39;identification de visages a partir d&#39;images de visage, dispositif et programme d&#39;ordinateur correspondants
WO2014079897A1 (fr) Procede de generation d&#39;un modele de visage en trois dimensions
CN110956691A (zh) 一种三维人脸重建方法、装置、设备及存储介质
WO2021077140A2 (fr) Systèmes et procédés de transfert de connaissance préalable pour la retouche d&#39;image
CN110728319B (zh) 一种图像生成方法、装置以及计算机存储介质
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN111491187A (zh) 视频的推荐方法、装置、设备及存储介质
WO2022142298A1 (fr) Procédé et appareil de détection de point clé, dispositif électronique et support de stockage
CN110874575A (zh) 一种脸部图像处理方法及相关设备
CN113327319A (zh) 一种复杂场景建模方法、装置、服务器及可读存储介质
EP3582141A1 (fr) Procédé d&#39;apprentissage de paramètres d&#39;un réseau de neurones à convolution
CN110598097B (zh) 一种基于cnn的发型推荐系统、方法、设备及存储介质
CN112989177B (zh) 信息处理方法、装置、电子设备及计算机存储介质
WO2023174063A1 (fr) Procédé de remplacement d&#39;arrière-plan et dispositif électronique
WO2021239579A1 (fr) Procédé d&#39;apprentissage, procédé de reconnaissance associé, dispositifs correspondants
CN115439912A (zh) 一种识别表情的方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21726135

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21726135

Country of ref document: EP

Kind code of ref document: A1