WO2024133814A1

WO2024133814A1 - Procede pour ameliorer la classification d'un document numerique a partir d'une pluralite de modeles d'apprentissage

Info

Publication number: WO2024133814A1
Application number: PCT/EP2023/087483
Authority: WO
Inventors: Pierre MAGRANGEAS; Fabio COPPINI; Renard FERRET; Coralie BOCHART; Yasmine SAADI; Sixtine PASSOT
Original assignee: Xplain
Priority date: 2022-12-21
Filing date: 2023-12-21
Publication date: 2024-06-27
Also published as: FR3144336A1

Abstract

Procédé pour améliorer la classification d'un document à partir d'une pluralité de modèles d'apprentissage machine (ML₁) caractérisé en ce qu'il comprend :  Réception d'un document numérique (D₁);  Exécution d'une première fonction apprenante (FA₁) générée à partir d'un premier modèle d'apprentissage machine (ML₁) entrainé à partir d'un premier domaine d'entraînement (DOM₁) traitant de la première séquence de données (S₁) en entrée et permettant de classifier un type de document (TYP₁) et générer une prédiction d'une première action automatique (A₁) à réaliser sur le document numérique (D₁),  Acquisition d'une première action correctrice (AC₁) d'un utilisateur se rapportant à la modification du déplacement du premier document numérique (D₁) vers un second répertoire (REP₂);  Génération d'une première annotation (ANN₁);  Modification du premier domaine d'entraînement (DOM₁) par l'ajout de la première annotation (ANN₁);  Génération d'un réentraînement du premier modèle d'apprentissage machine (ML₁).

Description

PROCEDE POUR AMELIORER LA CLASSIFICATION D’UN DOCUMENT NUMERIQUE A PARTIR D’UNE PLURALITE DE MODELES D’APPRENTISSAGE

Domaine de l’invention

Le domaine de l’invention est celui des procédés et systèmes pour améliorer la classification d’un document numérique notamment pour son enregistrement dans un espace mémoire donné et pour son exploitation dans une ressource mémoire.

État de la technique

Il existe des solutions d’analyse de documents numériques à partir de modèles d’apprentissage machine. Les solutions de l’état de l’art permettent généralement d’extraire soit des données d’intérêt relatives au type de document en question pour le classifier, soit des données d’intérêt pour exploiter le document d’une certaine manière en réalisant des opérations telles que des anonymisations, des vérifications sur des entités nommées, etc.

Les solutions de l’art antérieur reposent sur un apprentissage qui permet d’enrichir un modèle afin d’améliorer l’efficacité de la classification d’une fonction apprenante. Un problème des solutions de l’état de l’art est de mettre à contribution les utilisateurs d’une solution de classification en requérant des actions de leur part dédiées à améliorer l’apprentissage de la fonction apprenante. Ces actions peuvent comprendre des corrections de labels, des modifications des données extraites, des annotations, etc.

Or ces actions dédiées ne sont pas toujours réalisées correctement du fait de l’hétérogénéité des comportements humains pour contribuer au réentraînement d’un modèle d’apprentissage machine et du fait que les actions de corrections ne sont pas toujours réalisées.

Il existe un besoin de définir une solution permettant le réapprentissage d’un modèle d’apprentissage machine qui soit simple et quasiment transparent aux utilisateurs qui exploitent les résultats des classifications.

Résumé de l’invention Selon un premier aspect, l’invention concerne un procédé pour améliorer la classification d’au moins un document à partir d’au moins un modèle d’apprentissage machine caractérisé en ce qu’il comprend :

■ Réception d’un premier document numérique ;

■ Exécution d’une première fonction apprenante générée à partir d’un premier modèle d’apprentissage machine entraîné à partir d’un premier domaine d’entraînement permettant de générer une prédiction d’une classification du premier document numérique au sein d’une première classe pour réaliser une première action automatique sur le document numérique,

■ Génération d’une représentation de cette classification et/ou de l’action réalisée sur le premier document numérique à partir d’une interface utilisateur ;

■ Acquisition d’une première action correctrice d’un utilisateur ;

■ Génération d’une première annotation comportant d’une part la valeur modifiée de la prédiction relative à la première action correctrice et d’autre part un ensemble de valeurs d’intérêt extraites ou générées notamment à partir du premier document numérique ;

■ Modification du premier domaine d’entraînement par l’ajout de la première annotation ;

■ Génération d’un réentraînement du premier modèle d’apprentissage machine.

Selon un mode de réalisation, les actions peuvent correspondre par exemple à :

- un déplacement d’un document numérique d’un répertoire à un autre ;

- une copie d’un document dans un dossier/répertoire ;

- un renommage d’un document numérique,

- une création d’un nouveau document et/ou d’un nouveau répertoire d’un espace de données.

L’invention est mise en œuvre par ordinateur.

Selon un aspect, l’invention concerne un procédé pour améliorer la classification d’au moins un document ou d’une donnée d’un document et/ou la prédiction d’une donnée qualifiant au moins un document ou d’une donnée d’un document à partir d’au moins un modèle d’apprentissage machine caractérisé en ce qu’il comprend :

■ Réception d’un premier document numérique ;

■ Exécution d’une première fonction entrainée à partir d’un premier domaine d’entraînement permettant de générer une prédiction d’une première action automatique à réaliser sur le document numérique,

■ Génération d’une représentation de cette prédiction et/ou de l’action réalisée sur le premier document numérique à partir d’une interface utilisateur ;

■ Acquisition d’une première action correctrice d’un utilisateur ;

■ Modification du premier domaine d’entraînement par l’ajout de la première annotation après la collecte d’au moins une annotation ;

Selon un mode de réalisation, la fonction apprenante est une fonction générée à partir d’un premier modèle d’apprentissage machine entrainé à partir d’un premier domaine d’entraînement. Selon un autre cas, la fonction apprenante est une fonction prédéfinie permettant d’extraite une donnée d’un ensemble de données pour générer une prédiction, ledit ensemble de données pouvant évoluer au cours du temps par un ajout ou sélection de données ou un enrichissement de données.

Selon un second aspect, l’invention concerne un procédé pour améliorer la classification d’au moins un document à partir d’au moins un modèle d’apprentissage machine caractérisé en ce qu’il comprend :

■ Réception d’un premier document numérique ;

■ Exécution d’une première fonction apprenante générée à partir d’un premier modèle d’apprentissage machine entrainé à partir d’un premier domaine d’entraînement permettant de générer une prédiction d’une classification du premier document numérique au sein d’une première classe pour réaliser une première action automatique sur le document numérique, ladite première action comportant au moins un déplacement dudit premier document numérique vers un premier répertoire,

■ Génération d’une représentation de cette classification et de l’action réalisée sur le premier document numérique à partir d’une interface utilisateur ;

■ Acquisition d’une première action correctrice d’un utilisateur se rapportant à la modification du déplacement du premier document numérique vers un second répertoire ;

Avantageusement, le répertoire dans lequel le premier document est déplacé dépend de la classification. Ainsi, selon la classification prédite par le premier modèle d’apprentissage machine entrainé, un répertoire donné est visé pour le déplacement dudit premier document. L’association entre une classe et un répertoire peut être préconfigurée. D’une manière générale, l’ensemble des classes peut être associées à un ou plusieurs répertoires.

Selon un aspect, l’invention concerne un procédé pour améliorer la classification et/ou la prédiction d’au moins un document ou d’une donnée d’un document à partir d’au moins un modèle d’apprentissage machine caractérisé en ce qu’il comprend :

■ Réception d’un premier document numérique ;

■ Exécution d’une première fonction entrainée à partir d’un premier domaine d’entraînement permettant de générer une prédiction d’une première action automatique à réaliser sur le document numérique, ■ Génération d’une représentation de cette prédiction et/ou de l’action réalisée sur le premier document numérique à partir d’une interface utilisateur ;

■ Acquisition d’une première action correctrice d’un utilisateur ;

■ Réception d’un premier document numérique ;

■ Exécution d’une première fonction apprenante générée à partir d’un premier modèle d’apprentissage machine entrainé à partir d’un premier domaine d’entraînement permettant de générer une prédiction d’une première action automatique à réaliser sur le document numérique,

■ Acquisition d’une première action correctrice d’un utilisateur ; ■ Génération d’une première annotation comportant d’une part la valeur modifiée de la prédiction relative à la première action correctrice et d’autre part un ensemble de valeurs d’intérêt extraites ou générées notamment à partir du premier document numérique ;

Selon un mode de réalisation, la première action correctrice se rapportant à la modification du déplacement du premier document numérique est réalisée par un déplacement du premier document numérique du premier répertoire vers un second répertoire par une action utilisateur à partir d’un explorateur de documents, un algorithme de détection de changement de ressource mémoire allouée à un document numérique étant mis en œuvre.

Selon un mode de réalisation, la première action correctrice se rapportant à la modification du déplacement du premier document numérique est réalisée par une modification de la classe du premier document numérique par une action utilisateur à partir d’un interface utilisateur présentant un ensemble de données caractéristiques du premier document numérique.

Selon un mode de réalisation, le procédé comprend :

■ Réception d’un second document numérique ;

■ Exécution d’une seconde fonction apprenante générée à partir d’un second modèle d’apprentissage machine entrainé à partir d’un second domaine d’entraînement permettant de générer une prédiction d’une classification du second document numérique au sein d’une seconde classe pour réaliser une seconde action automatique sur le second document numérique, ladite seconde action comportant au moins un renommage automatique dudit second document numérique,

■ Génération d’une représentation de cette classification et de l’action réalisée sur le premier document numérique à partir d’une interface utilisateur ; ■ Acquisition d’une seconde action correctrice d’un utilisateur se rapportant à la modification du nom du second document numérique ;

■ Génération d’une seconde annotation comportant d’une part la valeur modifiée de la prédiction relative à la seconde action correctrice et d’autre part un ensemble de valeurs d’une seconde séquence de données extraites ou générées notamment à partir du second document numérique ;

■ Modification du second domaine d’entraînement par l’ajout de la seconde annotation ;

■ Génération d’un réentraînement du second modèle d’apprentissage machine.

Selon un mode de réalisation, la seconde action correctrice se rapportant à la modification du nom du second document numérique est réalisée par une modification du nom du second document numérique directement sur le fichier correspondant au second document numérique.

Selon un mode de réalisation, la seconde action correctrice se rapportant à la modification du nom du second document numérique est réalisée par une modification de la classe du second document numérique par une action utilisateur à partir d’un interface utilisateur présentant un ensemble de données caractéristiques du second document numérique.

Selon un mode de réalisation, le procédé comprend :

■ Réception d’un document numérique ;

■ Exécution d’une troisième fonction apprenante générée à partir d’un troisième modèle d’apprentissage machine entrainé à partir d’un troisième domaine d’entraînement pour générer une prédiction relative à la détection d’une classe d’une date caractéristique présente dans le document numérique et extraire ladite date caractéristique du premier document ;

■ Génération d’une représentation de la classification d’au moins la date caractéristique extraite à partir d’une interface utilisateur ;

■ Acquisition d’une troisième action correctrice d’un utilisateur se rapportant à la modification de la classe de la date caractéristique du premier document numérique ; ■ Génération d’une troisième annotation comportant d’une part la valeur modifiée de la prédiction relative à la première modification correctrice et d’autre part un ensemble de valeurs d’intérêt extraites ou générées notamment à partir du document numérique ;

■ Modification du troisième domaine d’entraînement par l’ajout de la troisième annotation ;

■ Génération d’un réentraînement du troisième modèle d’apprentissage machine.

Selon un mode de réalisation, la troisième fonction apprenante est exécutée préalablement à la première fonction apprenante, la prédiction corrigée étant une donnée de l’ensemble de valeurs d’intérêt d’une annotation, ladite modification prédiction corrigée entraînant la modification du premier domaine d’entraînement et/ou de la modification du second domaine d’entraînement.

Selon un mode de réalisation, le procédé comprend la réception d’un graphe de dépendance, lesdites dépendances étant définies entre au moins la première fonction apprenante et une seconde fonction apprenante, ledit graphe de dépendance comportant une description des entrées d’au moins un domaine d’entraînement, lesdites entrées comportant au moins une valeur correspondante à une sortie d’au moins une fonction apprenante.

Selon un mode de réalisation, le procédé comprend :

■ Acquisition d’un graphe de dépendance entre une pluralité de fonctions apprenantes choisies parmi un ensemble de fonction apprenantes comprenant la première fonction apprenante, la seconde fonction apprenante et troisième fonction apprenante ;

■ Ajout dans au moins un ensemble de valeurs d’intérêt produites lors de la création d’une annotation d’une prédiction modifiée d’une fonction apprenante donnée de manière à :

■ Modification d’un domaine d’entraînement d’une autre fonction apprenante que la fonction apprenante donnée ;

■ Génération d’un réentraînement du modèle d’apprentissage machine.

Selon un mode de réalisation, consécutivement à une action automatique réalisée par une fonction apprenante, une première notification est émise via un réseau de données, ladite première notification comportant un accès à une interface utilisateur permettant de modifier les annotations associées à cette action.

Selon un mode de réalisation, le premier modèle d’apprentissage machine est généré à partir de la définition d’un modèle de premier document numérique comportant l’identification d’une pluralité de données caractéristiques et de zones d’intérêt dudit modèle de premier document et à partir d’une interface utilisateur.

Selon un mode de réalisation, consécutivement à une action correctrice générée par un utilisateur, le modèle de premier document numérique est utilisé pour extraire des données de contexte de la prédiction modifiée pour enrichir l’annotation qui est créée.

Selon un mode de réalisation, la définition d’un modèle de premier document numérique comprend la génération d’un formulaire comportant un ensemble de choix définissant des annotations dudit modèle, lesdites annotations permettant de mettre à jour le premier modèle d’entraînement.

Selon un mode de réalisation, une pluralité de premiers documents sont reçus d’une même classe, et qu’une pluralité de modèles d’apprentissage machine sont appliqués, le procédé comprenant la génération d’une pluralité de prédictions, le procédé comportant la sélection d’une prédiction, ladite sélection de ladite prédiction permettant de mettre à jour le premier domaine d’entraînement.

Selon un autre aspect l’invention concerne un système comportant un terminal électronique d’un utilisateur comportant au moins un calculateur, une mémoire, un afficheur et une interface de communication pour transmettre des messages sur un réseau de données auprès d’au moins un premier serveur comportant des ressources matérielles pour exécuter la première fonction apprenante, la seconde fonction apprenante, la troisième fonction apprenante et une mémoire pour enregistrer les modèles appris afin d’exécuter les étapes du procédé de l’invention, le terminal comportant une interface utilisateur pour acquérir une annotation comportant une modification d’une prédiction, ladite modification entraînant le réentraînement d’au moins un modèle d’apprentissage machine. Selon un autre aspect de l’invention concerne un procédé pour améliorer la classification d’un document numérique à partir d’une pluralité de modèles d’apprentissage machine caractérisé en ce qu’il comprend :

■ Réception d’un document numérique ;

■ Exécution d’une première fonction apprenante générée à partir d’un premier modèle d’apprentissage machine entrainé à partir d’un premier domaine d’entraînement et permettant de classifier un premier type de document et générer une première prédiction d’une première action automatique à réaliser sur le document numérique,

■ Exécution d’une seconde fonction apprenante générée à partir d’un second modèle d’apprentissage machine entrainé à partir d’un second domaine d’entraînement pour générer une seconde prédiction permettant d’extraire et classifier une donnée caractéristique du premier document ;

■ Génération d’une représentation à partir d’une interface utilisateur de la première prédiction associée à la classification et à l’action réalisée, de la seconde prédiction comportant la date extraite du premier document numérique et de la classe de la date extraite du premier document numérique ;

■ Acquisition d’une première action correctrice d’un utilisateur se rapportant à la modification d’au moins une prédiction ;

■ Génération d’une première annotation comportant d’une part la valeur modifiée de la au moins une prédiction relative à la première action correctrice et d’autre part un ensemble de valeurs d’intérêt extraites ou générées à partir du premier document numérique ;

■ Acquisition d’un graphe de dépendance entre au moins la première fonction apprenante et la seconde fonction apprenante ;

■ Modification du premier domaine d’entraînement et/ou du second domaine d’entraînement en fonction de l’annotation et du graph de dépendance par l’ajout de la première annotation ; ■ Génération d’un réentraînement du premier modèle d’apprentissage machine et/ou du second modèle d’apprentissage.

Selon un mode de réalisation, le réentraînement des modèles d’apprentissage machine est généré en fonction du graph de dépendance représentant les liens entre fonctions apprenantes entre elles.

Selon un mode de réalisation, le procédé comprend une application du premier modèle d’apprentissage machine et/ou du second modèle d’apprentissage machine au premier document numérique ou à un autre document reçu ultérieurement au premier document numérique.

Selon un mode de réalisation, les valeurs d’intérêt comprennent une position d’une donnée dans le document ou dans une page du document. Selon un autre exemple, une valeur d’intérêt comprend une séquence de symboles discrets en langage naturel qui précède et/ou suit la prédiction corrigée dans le document. Selon un exemple, une valeur d’intérêt est une prédiction intermédiaire d’une fonction apprenante qui est dans une même séquence qu’une fonction apprenante exécutée pour produire le document numérique qui a été l’objet d’une action correctrice.

Brève description des figures

D’autres caractéristiques et avantages de l’invention ressortiront à la lecture de la description détaillée qui suit, en référence aux figures annexées, qui illustrent :

Fig. 1 : une architecture de fonction apprenante permettant d’illustrer le réentraînement d’un modèle d’apprentissage d’une machine d’une fonction à partir d’une correction opérée sur le résultat produit d’une autre fonction apprenante selon le procédé de l’invention ;

Fig. 2 : des zones d’intérêt d’une page d’un document numérique de laquelle un ensemble de données sont extraites par une ou des fonction(s) apprenante(s) selon le procédé de l’invention ;

Fig. 3 : un système de l’invention comportant différentes ressources pour mettre en œuvre le procédé de l’invention,

Fig. 4 : un exemple de génération d’un nouveau modèle de documents suite à une annotation produite par le procédé de l’invention. La figure 1 représente une architecture logicielle mettant en œuvre différentes fonctions apprenantes FAi, FA2 et FA3 réalisant des opérations automatiques sur un document numérique D1. Chacune des fonctions apprenantes FA1, FA2, FA3 calcule à partir du document d’entrée D1 à traiter une prédiction intermédiaire respectivement notée Pi, P2 et P3. Selon un mode de réalisation, un graphe de prédiction GRAPHP permet de calculer à partir d’un calculateur une prédiction finale Pf pour réaliser une action automatiquement Ai.sur le document numérique. L’action Ai peut être de déplacer le document, de le renommer ou d’utiliser une partie des données du document D1 pour générer un autre document.

La figure 1 représente également l’opération Ci(Di) qui consiste à générer une représentation de cette action sur un afficheur. La représentation peut être générée en temps réel sur une interface utilisateur ou être représentée après que la prédiction, la classification ou l’action. Cette représentation peut être réalisée à partir d’une interface utilisateur. Un explorateur de fichiers peut être utilisé pour représenter le déplacement d’un dossier.

La figure 1 représente une opération correspondant à une action correctrice AC1 d’un utilisateur. L’action correctrice peut correspondre à un déplacement opéré par un utilisateur d’un document qui a été jugé mal classé. D’autres actions correctrices sont envisageables selon le procédé de l’invention tel qu’un renommage ou une correction d’une valeur dans le document ou dans un document généré.

L’action correctrice a pour conséquence la création automatique d’une annotation ANN1. Cette annotation ANN1 comprend une valeur corrigée de la prédiction finale Pf résultant de l’action correctrice. Par exemple, la prédiction corrigée peut être un nom de répertoire d’un système de fichier. En outre, l’annotation ANN1 comprend un certain nombre de données qui sont liées à la prédiction corrigée.

La figure 1 représente un graphe de dépendance GRAPHD permettant d’établir l’ensemble des prédictions intermédiaire Pi, P2, P3 et des modèles d’apprentissage machine ML2, ML1, ML3 et des fonctions apprenantes à corriger pour tenir compte du changement de la valeur de la prédiction finale Pf. Le procédé de l’invention permet grâce à ce graphe de dépendance de recueillir les valeurs modifiées des prédictions intermédiaires, ici P2’ et de répercuter cette nouvelle valeur dans le domaine d’entrainement des fonctions apprenantes. Un avantage est de permettre un réapprentissage des fonctions apprenantes ayant uniquement contribuée à calculer une valeur erronée de la prédiction intermédiaire.

Dans le cas de la figure 1 , on comprend que la prédiction intermédiaire P2 calculée par la seconde fonction apprenante FA2 est utilisée comme entrée de la première fonction apprenante FA1. En conséquence, le modèle d'entrainement ML2 est réentraîné, tout comme le modèle d’entrainement ML1. Le graphe de dépendance GRAPHR permet d’établir cette séquence de réentrainement.

La figure 4 représente un cas de figure dans lequel un modèle de document MOD(Di) est utilisé pour traiter un type de document reconnu par une fonction apprenante FA1. Dans ce cas de figure, une seule fonction apprenante FA1 est utilisée, toutefois d’autres cas de figures pourraient mettre en œuvre différentes fonctions apprenantes pour classifier le document D1 reçu en entrée. Une prédiction Pi qui peut être dans ce cas une prédiction intermédiaire et une prédiction finale est générée par la première fonction apprenante FA1. Cette prédiction Pi dans ce cas permet par exemple de classifier le document D1 et d’appliquer une action A1 automatiquement sur le document. Une action correctrice AC1 est engagée par un utilisateur. Cette action correctrice AC1 engendre une nouvelle valeur de la prédiction PT.

L’invention permet non seulement de générer une nouvelle annotation automatiquement pour réentraîner le modèle mais également de modifier le modèle de document MOD qui sera utilisé pour les prochaines actions. Le nouveau modèle de document MOD’ peut être généré par une règle de calcul, un algorithme prédéfini ou encore par une nouvelle fonction apprenante permettant d’être entrainé par des données utilisateur et/ou des données issues des annotations produites par les actions correctrices.

Type de document

Le document D1 peut être un document technique tel qu’une spécification technique, un manuel d’utilisation, un manuel de montage, un document comptable tel qu’un bilan, un devis, une facture, un courrier, un plan, une attestation, un document officiel, un certificat médical, un formulaire ou encore tout autre document produit par une organisation, un process automatisé ou un individu. Les documents traités dans le cadre de l’invention sont préférentiellement des documents qui se rapportent à un type de documents ou encore une famille de documents. Le type du document peut être défini par un nom générique ou un libellé permettant de l’associer à un type de document. On comprend qu’une facture peut être à ce titre un type de document dans une organisation ainsi qu’une spécification technique d’un produit.

Le document peut comprendre différents formats tels qu’un format .txt, un format .pdf, un format .png, un format pg, un format Json, un format .xml, un format .doc ou docx ou tout autre format de document permettant d’encoder une pluralité de symboles discrets dans une langue naturelle.

Selon certains modes de réalisation, le document peut être un message d’une messagerie électronique. Selon un mode de réalisation, le document numérique est un fichier image, un fichier vidéo ou un fichier audio. Selon un mode de réalisation, le document est un ensemble de données reçues en temps réel, il peut donc s’agir d’un flux vidéo ou d’un flux audio.

Réception du document

Le document Di peut être reçu depuis une interface de communication telle qu’une carte réseau permettant d’acquérir des données depuis une entité distante comme un serveur de données. Selon un autre cas, le document Di peut être enregistré dans une mémoire au sein de laquelle une fonction permet de récupérer le document qui y est enregistré afin de réaliser une opération sur ce dernier document.

Un objectif de l’invention est d’extraire des données dudit document pour le classifier avec la meilleure probabilité afin d’exécuter des actions sur le document, notamment pour l’enregistrer automatiquement dans une mémoire donnée.

Fonction apprenante

Le procédé de l’invention comprend l’exécution d’au moins une fonction apprenante générée par un modèle d’apprentissage machine entrainé à partir d’un ensemble de données d’entraînement appelé domaine d’entraînement.

Selon une alternative, le procédé de l’invention comprend l’exécution d’au moins une fonction apprenante qui est configurée pour interroger et/ou extraire des données au sein d’un historique. La fonction est dite « apprenante » dans ce cas du fait que l’historique peut comprendre de nouvelles données qui sont agrégées au cours du temps. L’historique peut prendre la forme d’une base de données ou d’un fichier. La mise à jour de l’historique avec de nouvelles données peut être réalisée automatiquement soit à partir d’action d’un utilisateur.

Dans ce dernier cas, la fonction apprenante n’est pas obtenue à partir d’un modèle d’apprentissage machine mais elle peut résulter d’un paramétrage prédéfini. Le paramétrage peut par exemple correspondre au type de fonction, les coefficients de cette dernière et/ou au répertoire(s) qui est/sont exploité(s) pour extraire et/ou enregistrer des informations.

Selon un mode de réalisation de l’invention, le procédé comprend l’exécution d’une pluralité de fonctions apprenantes entrainées à partir de différents modèles. L’exécution de la pluralité de fonctions apprenantes permet notamment de réaliser différentes fonctions sur le document Di.

Selon un mode de réalisation, lorsqu’une pluralité de fonctions apprenantes est exécutée, le procédé de l’invention comprend l’application d’un graphe de prédiction GRAPHp et/ou d’un graphe de dépendance GRAPHD.

Le graphe de dépendance GRAPHD comprend notamment pour chaque action à réaliser une première séquence Si d’exécution des différentes fonctions apprenantes afin de réaliser ladite action donnée. La première séquence Si peut résulter d’une configuration prédéfinie. Elle correspond à l’enchainement d’une série d’algorithmes. Selon un exemple, chaque algorithme est exécuté à partir d’une fonction apprenante. On rappelle que la fonction apprenante est un modèle d’apprentissage machine entrainé pour calculer une prédiction à partir de données d’entrée. Selon un mode de réalisation, tous les algorithmes d’une séquence ne sont pas uniquement des fonctions apprenantes, d’autres algorithmes tels que des algorithmes comportant des règles de calculs peuvent être séquencés parmi les fonctions mises en œuvre dans une première séquence Si.

La première séquence Si du graphe de dépendance GRAPHD comprend un ensemble de fonctions apprenantes et/ou d’algorithmes qui sont configurées pour s’enchainer dans un automatisme. En outre, la première séquence Si comprend les conditions d’ordonnancement et/ou conditions d’exécution de chaque fonction ou chaque algorithme. Cela signifie que la première séquence Si comprend des paramètres permettant d’ordonnancer les fonctions/algorithmes entre eux et des paramètres qui permettent de valider, temporiser ou invalider l’exécution d’une fonction/algorithme.

Le graphe de dépendance GRAPHD comporte également une seconde séquence S2 pour chaque action corrigée par un utilisateur de réentraînement des modèles d’apprentissage machine qui ont été exécutées lors de première séquence Si. La seconde séquence S2 permet de prendre en compte l’ensemble des modèles affectés par une erreur de prédiction lorsque le modèle dépend directement ou indirectement de la prédiction erronée.

La seconde séquence S2 du graphe de dépendance GRAPHD comprend un ensemble de réentraînements à chaque modèle des fonctions apprenantes ou de modifications des paramétrages des algorithmes. La seconde séquence S2 permet de reconfigurer ces entraînements de modèles ou ces modifications d’algorithmes au sein d’un automatisme formant une boucle de rétroaction. En outre, la seconde séquence S2 comprend les conditions d’ordonnancement et/ou conditions d’exécution de chaque réentraînement de modèle ou chaque modification d'algorithme. Cela signifie que la seconde séquence S2 comprend des paramètres permettant d’ordonnancer les réentraînements ou modifications entre eux et des paramètres qui permettent de valider, temporiser ou invalider l’exécution d’un réentraînement ou d’une modification d’algorithme.

Un graphe de prédiction GRAPHp permet de calculer une prédiction finale à partir d’une pluralité de prédictions intermédiaires générées par une pluralité de fonctions apprenantes.

Les fonctions apprenantes peuvent être générées par des modèles d’apprentissage machine ayant des architectures propres. Selon un exemple, une architecture de réseau peut être un modèle d’apprentissage machine de type RNN désignant dans la littérature anglo-saxonne Recurrent Neural Network » ou encore un modèle de type LSTM désignant dans la littérature anglo-saxonne « Long short-term memory » peut/peuvent être utilisé(s). Selon un autre exemple, le modèle d'apprentissage machine peut être un Transformeur, tel que GPT-3 désignant « generative Pre-Training Transformer » et qui est un modèle basé sur l'architecture Transformeurs, c’est-à-dire que certaines couches du modèle ont la structure d’un Transfromeur. Un avantage de l’utilisation d’un réseau pré-entrainé par exemple de type Transformeur est d’utiliser leurs bonnes capacités à traiter des données définissant des documents comportant des symboles discrets encodés dans une langue naturelle. Selon un mode de réalisation, l’invention est compatible d’une utilisation de réseaux déjà pré-entraînés déjà existants par exemple sur des plateformes accessibles depuis internet.

Un réseau pré-entraîné de type BERT désignant dans la littérature « Bidirectional Encoder représentations from Transformers » dont le modèle comprend également certaines couches ayant la structure d’un Transformeur, peut également être mis en œuvre dans le cadre de la présente invention.

Selon un exemple, lorsque peu de classes sont adressées par un classifieur, par exemple entre 5 et 10 classes, une architecture de modèles d’apprentissage machine peut comprendre la mise en œuvre d’arbres binaires tels que « Random Forest » ou « XGBoost » ou encore un réseau neuronal convolutionnel appelé CNN.

Selon un autre exemple, lorsqu’un nombre de classes important est adressé par un classifieur, une architecture de modèles d’apprentissage machine peut comprendre la mise en œuvre d’un modèle Transformeur par exemple de type BERT ou encore un réseau de neurones convolutionnel appelé CNN.

Les modèles d’apprentissage machine peuvet être configurés dans le cadre de l’invention pour extraire des données de documents numériques telles que des dates, des adresses, des noms propres, des tableaux, des signatures, des informations structurées, des sentiments et/ou des phrases cibles. Une architecture de modèle de type « regex » ou encore une librairie telle que « spacy » comprenant différents types de modèles, ou encore un CNN ou un modèle de type « transition-based models » peuvent être utilisés.

Les modèles utilisés pour extraire des objets, des entités nommées peuvent mettre en œuvre un modèle de type « transformeur » ou un modèle de type BERT.

Selon un mode de réalisation, une architecture pour reconnaître des patterns ou des motifs , tels qu’une signature, dans un document numérique peuvent mettre en œuvre un modèle de type « YOLO » ou de type « autoencoders ».

Fonction classification Selon un mode de réalisation, au moins une fonction apprenante est exécutée afin de classifier un document numérique Di reçu. La fonction apprenante FAi peut mettre en œuvre par exemple une analyse visant à extraire un type de document, une date, une entité nommée telle qu’un nom d’organisation ou un nom d’individu, une adresse ou toute autre donnée permettant d’exécuter une action sur la base de la connaissance de cette donnée une fois extraite. Dans ce dernier cas, certaines extractions de données peuvent être utilisées pour réaliser une classification. Toutefois, selon un autre exemple, la classification peut être réalisée sans extraction de données. Par exemple, une classification d’un document reçu ne met pas en œuvre nécessairement une extraction d’une donnée dudit document. Selon un mode de réalisation, une ou plusieurs fonction(s) apprenante(s) sont exécutées pour générer une prédiction de la classe de la donnée extraite. Chaque fonction apprenante peut générer une prédiction intermédiaire afin de calculer une prédiction finale.

Selon un exemple, l’extraction d’une date d'un document Di reçu peut permettre de classifier ce document dans un répertoire « à traiter » s’il s’agit d’une extraction de date(s) d’émission positionnée en en-tête du document ou dans un répertoire « à signer » si une date de signature est relevée en fin de document, en dernière page.

Cet exemple montre que le procédé de l’invention peut s’appliquer à partir d’une seule extraction pour classifier le document. Toutefois, selon différents modes de réalisation, la classification peut résulter d’une pluralité d’extractions de données et une analyse de l’ensemble des données extraites.

A titre d’exemple, la figure 1 représente trois fonctions apprenantes FAi, FA2, FA3 qui permettent d’extraire des données d’un document D1 reçu.

Selon cet exemple, une première fonction FA1 permet d’extraire automatiquement une date caractéristique DATE1, telle qu’une date d’échéance, la seconde fonction FA2 permet d’extraire une entité nommée NOM1 telle qu’un nom d’organisation, et la troisième fonction FA3 permet d’extraire un type de document TYPE1, tels qu’une facture ou un devis.

L’extraction des trois données caractéristiques {DATE1, NOM1, TYPE1} permet de générer une prédiction basée sur l’ensemble des trois prédictions générées par les trois fonctions apprenantes FA1, FA2, FA3. Cette prédiction permet une classification du document qui peut engendrer l’exécution d’une action automatique. Chaque extraction est réalisée à partir de chaque fonction apprenante qui a été définie à partir d’un modèle d’apprentissage machine entrainé à partir d’un domaine d’entraînement.

La prédiction finale calculée à partir des trois prédictions intermédiaires de chacune des fonctions apprenantes permet de réaliser une action automatiquement sur le document Di.

Les données extraites peuvent mettre en œuvre des fonctions apprenantes exploitant des variables relatives à la police de caractère, le style, ou encore la taille de police. La position de certains éléments peut également être utilisée ou les données de contexte à la donnée à extraire.

Selon un exemple de réalisation, un graphe de prédiction GRAPHp peut être mis en œuvre pour calculer la prédiction finale Pf. Ce graphe de prédiction permet selon les modes de réalisation de :

■ pondérer des prédictions intermédiaires Pi pour calculer une prédiction finale et/ou ;

■ exclure des actions ou des scénarios d’actions selon les valeurs ou les gammes de valeurs de certaines prédictions intermédiaires et/ou ;

■ hiérarchiser des actions ou les séquences d’actions entre elles.

■ Attendre la réception d’une prédiction intermédiaire d’une fonction apprenante donnée après le calcul d’un ensemble de prédictions intermédiaires d’une pluralité de fonctions apprenantes pour engager une action. On entend par « attendre » : créer une alerte sur la réception d’une donnée produite par une fonction donnée.

Selon un exemple de réalisation, les fonctions apprenantes peuvent être exécutées sur différents documents pour générer une action sur un autre document déjà créé ou qui sera créé. Les documents peuvent être des messages d’une messagerie ou des fichiers.

Selon un exemple de réalisation, une partie d’un document numérique Di est extrait, tel qu’un tableau.

Actions

Différentes actions peuvent être générées selon la prédiction réalisée et selon une configuration donnée. Autrement dit, une configuration permet de définir un lien entre l’unité de réception d’un document Di , le choix des fonctions apprenantes à exécuter et l’action à réaliser dans les conditions d’une prédiction finale générée.

Selon un mode de réalisation, différentes actions peuvent être générées par le procédé de l’invention.

Une première action Ai comprend l’enregistrement automatique du document Di dans un répertoire prédéfini. Selon un exemple, cette action peut être accompagnée d’une autre action visant à supprimer le premier document qui a été enregistré préalablement au traitement dans un répertoire temporaire.

Une seconde action A2 comprend le renommage automatique d’un document D2. Selon un exemple, cette action peut être accompagnée consécutivement ou antérieurement à une action Ai d’enregistrement du document D2. Dans ce cas, le document D1 et D2 peuvent être le même document, lorsque plusieurs actions sont générées sur un même document.

Une troisième action A3 comprend l’extraction d’une portion d’intérêt du document D3 et son intégration dans un autre document donné, nommé document édité De. Ce document peut être nouvellement créé. On entend là aussi que la troisième action A3 peut être combinée ou consécutive ou antérieure à une action Ai ou A2 ou Ai et A2.

Le document édité De peut être enregistré dans un répertoire prédéfini. Selon un exemple, cette troisième action A3 peut être accompagnée d’une autre action A3’ visant à extraire une autre portion d’un autre document D3’ d’un autre type ou du même type pour produire un unique document édité De issu de deux portions extraites de deux documents D3, D3’. Par exemple, un document de type « Bon commande » peut être généré à partir d’un contenu extrait d’un devis et d’un document de type mail d’acceptation ou du devis signé par une partie. Cette troisième action A3 peut être accompagnée d’une pluralité d’actions visant à produire un document édité et/ou d’actions visant à valider l’édition d’un tel document édité. Selon un exemple, au moins une portion extraite est utilisée pour éditer un nouveau document De. Selon un autre exemple, plusieurs portions extraites d’un même document D3 sont utilisées pour produire un document édité De.

Selon un mode de réalisation dans lequel un tableau est extrait avec des valeurs d’un premier document D3, une action peut être de régénérer un autre document comportant des valeurs dudit tableau combiné par exemple avec d’autres valeurs d’un autre tableau d’un autre document.

Selon un autre exemple, une quatrième action peut correspondre à la création d’une catégorie d’un paramètre ou d’une valeur extraite. Il peut s’agir par exemple d’une nouvelle entité nommée, c’est-à-dire une nouvelle organisation qui n’est pas encore référencée dans une base de données. Dans ce cas, la prédiction finale calculée à partir d’une pluralité de fonctions apprenantes apprenante ayant par exemple déterminées un type de document, une date, un montant et un nouveau nom d’organisation, est la création d’un nouveau répertoire. Le nouveau répertoire peut correspondre au répertoire dans lequel l’ensemble des factures de cette nouvelle entité nommée seront enregistrées.

Selon un autre exemple, une cinquième action correspond à la segmentation d’un document Di en au moins deux documents. La segmentation peut correspondre à un ensemble de pages d’un document. Un document segmenté peut alors être classifié par une autre fonction apprenante et être traité par une autre fonction apprenante pour extraire d’autres données afin de générer une autre action. Ainsi, cet exemple illustre qu’une action peut comprendre plusieurs sous-actions.

Représentation de la classification

Selon un mode de réalisation, une représentation de la décision, c’est à dire de la classification du document Di ou de l’action est générée. La représentation est préférentiellement réalisée à partir d’une interface utilisateur à partir d’un afficheur.

La représentation peut être par exemple, une iconographie d’un fichier enregistré dans un répertoire, c’est-à-dire une icône représentant le document D1. Cette représentation est notamment particulièrement adaptée lorsque l’action vise à déplacer automatiquement un document consécutivement au calcul de la prédiction finale.

Selon un exemple, la représentation peut être générée à partir d’une interface représentant la classification du document Di. Dans ce cas, un mot clef ou un nom de classe peut être associé au document Di. Cette représentation est utile lorsque l’on souhaite vérifier la classification d’un document et le score associé à sa prédiction. Un intérêt est également d’identifier les variables utilisées pour calculer la prédiction finale. Selon un autre exemple, la représentation d’une action est l’affichage du nom du document Di qui a été renommé automatiquement. Dans ce dernier cas, l’action peut correspondre au renommage du document Di.

Selon un autre exemple, la représentation d’une action est l’ouverture d’un document édité ou créé pour afficher au moins une zone d’intérêt du document numérique.

Selon un mode de réalisation, la prédiction finale ou la classification effectuée à partir de la prédiction finale génère l’émission d’une notification envoyée automatiquement à un utilisateur dont l’adresse électronique est prédéterminée ou dont une adresse électronique est déduite d’une métadonnée d’une action réalisée par ledit utilisateur. La notification comporte un lien vers une ressource d’une entité distante et affiche soit la prédiction, soit l’action, soit la classification au moyen d’une interface utilisateur. L’utilisateur est alors invité à valider la prédiction, la classification ou l’action ou à la corriger.

Vérification automatique de la prédiction

Selon un mode de réalisation, le procédé de l’invention comprend une étape de vérification de la prédiction finale avec un test de cohérence de la prédiction. Le test de cohérence peut être exécuté à partir d’un modèle de document, également appelé « template » dans la littérature anglo-saxonne ou un modèle de scénario visant à vérifier la cohérence d’une prédiction finale par exemple à partir de règles.

Un modèle de document permet de valider que la prédiction finale aboutisse à générer, modifier ou créer un document qui a un modèle donné prédéfini. Cette vérification permet de tester par exemple la cohérence d’une donnée attendue dans une zone donnée d’un document avec la zone effectivement contrôlée d’un modèle de document.

Le modèle de document peut être associé à un score qui est automatiquement calculé en fonction des annotations qui ont été émises précédemment et donc de l’entraînement du domaine de chaque fonction apprenante agissant sur un document numérique Di comportant un modèle de document. Un avantage est d’identifier rapidement si un modèle de document est fiable ou s’il est nécessaire d’entrainer le modèle d’apprentissage machine pour améliorer la fidélité du modèle de document. Un modèle de scénario permet de valider que la prédiction finale entraine une action s’intégrant dans une liste de tâches attendues ou entraine une classification sans affecter d’autres valeurs de paramètres ou du moins que ces valeurs restent dans une gamme donnée.

La figure 2 représente un exemple de modèle de document qui peut être utilisé pour contrôler la cohérence d’une prédiction et possiblement calculer un score à la prédiction calculée.

La figure 2 représente un modèle dans lequel un certain nombre d’objets OB1, OB2, OB3 représentant des entêtes, des illustrations ou des paragraphes peuvent être labélisés pour indiquer des champs de données caractéristiques. Dans le modèle de la figure 2, un premier champ de date notée DAT1 et un second champ date DAT2 représentant par exemple respectivement une date de courrier et une date de signature.

Dans cet exemple, le champ NM1 est celui d’une entité nommée par exemple un nom et une adresse d’une organisation destinataire du document. Un autre champ NM2 permet de labelliser une autre entité nommée telle qu’un autre nom d’organisation, par exemple une organisation éditrice du document. Dans un cet exemple, une zone de signature est indiquée SIG1 sur la figure 2 et représente une zone à laquelle est attendue une signature.

Selon un exemple de réalisation, un modèle de document tel que celui de la figure 2 peut être utilisé au départ pour générer un premier apprentissage d’un modèle d’apprentissage machine permettant d’exécuter une ou plusieurs fonctions apprenantes. Selon un autre exemple, le modèle est construit à partir de réels documents et permet d’effectuer un contrôle de cohérence avec des prédictions calculées par des fonctions apprenantes.

Selon un autre exemple, un modèle de document peut être utilisé pour générer un autre modèle de document.

Action correctrice

Le procédé de l’invention permet, à partir d’une interface utilisateur, de réaliser une action correctrice réalisée par un utilisateur sur le document Di.

Selon un mode de réalisation, l’action correctrice AC1 correspond à un déplacement du document D1 qui a été précédemment enregistré automatiquement par l’exécution d’au moins une fonction apprenante. Un déplacement issu d’une action correctrice ACi permet de modifier la ressource mémoire stockant le document ou de modifier le lien permettant d’y accéder.

Selon un autre mode de réalisation, l’action correctrice AC2 correspond à un renommage d’un document D1 ou D2 qui a été précédemment renommé automatiquement par l’exécution d’au moins une fonction apprenante. Un renommage d’un document D1 ou D2 issu d’une action correctrice AC1 permet de modifier le nom du document numérique D1 ou D2. Ici la dénomination « D1 » est utilisée lorsque le document a été précédemment déplacé automatiquement dans un répertoire avant d’être renommé. La dénomination « D2 » est utilisée lorsque le document a été renommé automatiquement sans avoir été précédemment déplacé dans un répertoire.

Selon un autre mode de réalisation, l’action correctrice AC3 correspond à une correction apportée à un document produit par la première action telle que l’action A3 consécutivement à l’exécution d’au moins une fonction apprenante.

L’acquisition de l’action correctrice peut être effectuée selon différents modes de réalisation de l’invention.

Selon un premier mode de réalisation, l’action correctrice est acquise au moyen d’une interface utilisateur spécialement conçue pour renseigner une action correctrice. Cette interface utilisateur comprend un champ permettant de désigner le document auquel on souhaite apporter une action correctrice et un champ permettant d’effectuer l’action correctrice. Cette action correctrice est alors réalisée en deux temps, un premier temps permet de définir quelle action doit être entreprise et un second temps permet d’exécuter cette action correctrice à partir des données acquises par l’interface. Un avantage est de permettre une meilleure acquisition de la donnée corrigée qui peut être enrichie par l’interface utilisateur.

Selon un second mode de réalisation, l’action correctrice est acquise directement à partir d’un explorateur de fichiers permettant de déplacer un fichier d’un répertoire vers un autre répertorie ou d’accéder au nom d’un fichier pour l’éditer par exemple en sélectionnant une iconographie représentant le document numérique. Un avantage de cette option est d’être effectuée en un temps seulement directement grâce à l’action utilisateur. Selon un troisième mode de réalisation, l’action correctrice est acquise directement au sein du document Di , D2, ou D3 à partir d’une interface utilisateur permettant de visualiser le contenu du document pour éditer au moins une donnée de ce document. L’édition consiste en une correction d’une donnée document, il peut s’agir d’une donnée numérique ou alphabétique telle que d’une date, une entité nommée. Selon un exemple, il peut s’agir d’une portion d’une page telle qu’un paragraphe, une image ou une portion de la page. Selon un autre exemple, il peut s’agir d’une zone d’une page ou d’une pluralité de pages.

Selon un quatrième mode de réalisation, qui est un mode amélioré du troisième mode de réalisation, un modèle de document est utilisé pour interpréter l’action correctrice d’un utilisateur au sein d’un document qui a été généré par la première action. L’intérêt d’utiliser un modèle de document est de reconnaître automatiquement des informations modifiées dans un fichier pour extraire des données supplémentaires associées à cette modification ou pour enrichir de données supplémentaires à partir d’une autre source les informations modifiées. Un avantage est d’identifier d’une part la prédiction erronée réalisée par la fonction apprenante et de déterminer l’ensemble des valeurs de paramètres ayant contribué à produire cette prédiction erronée.

Selon un exemple, si une liste de valeurs d’un document est corrigée par une action correctrice soit par une suppression d’une valeur, soit par un ajout d’une valeur soit par la modification d’une valeur de la liste, alors le modèle permet de récupérer l’ensemble des valeurs de la liste qui n’a pas été corrigé et de récupérer l’ensemble des données utilisées pour produire la prédiction erronée et les prédictions correctes. Un intérêt est d’améliorer l’entraînement des modèles d’apprentissage machine.

Génération d’une valeur modifiée de la prédiction

Selon un exemple de réalisation, l’action correctrice a pour conséquence de générer automatiquement une valeur corrigée de la prédiction et une annotation.

Le procédé de l’invention permet d’enregistrer la valeur modifiée représentative de l’action correctrice AC1, AC2, c’est-à-dire de la valeur de la prédiction finale. La valeur peut être un nom de répertoire ou encore un nom de fichier comportant une nomenclature donnée. La valeur modifiée de l’action correctrice ACi, AC2 peut être enregistrée avec la valeur résultante de la première action Ai , respectivement A2. Si le document a été enregistré dans un dossier « A » et qu’une action correctrice a conduit à déplacer ce document dans un nouveau répertoire « B », le procédé de l’invention permet d’enregistrer cette nouvelle valeur « B » et de l’associer à l’ancienne valeur « A ».

Génération d’une annotation

A l’issue de l’action correctrice, une annotation est générée automatiquement consécutivement à l'action correctrice. L’annotation peut comporter la nouvelle valeur résultant de l’action correctrice, c’est-à-dire la valeur corrigée de la prédiction et possiblement l’ancienne valeur de la première action qui a été réalisée sur le premier document numérique, c’est- à-dire la prédiction finale.

En outre, l’annotation générée comprend avantageusement un ensemble de valeurs d’intérêt extraites ou générées notamment à partir du premier document numérique D1 ou tout autre document analysé. Ces valeurs d’intérêt sont associées à des variables d’un système telles qu’un nom d’organisation, une date d’échéance ou une date de livraison ou encore une adresse, etc. Ces variables d’intérêt sont elles-mêmes associées à des métadonnées pouvant être exploitées dans une annotation afin d’améliorer l’entraînement d’un domaine.

L’annotation peut comprendre notamment l’ensemble des prédictions de chaque fonction apprenante et l’ensemble des données du premier document D1 ayant été utilisé pour calculer chaque prédiction. Parmi ces données, il peut s’agir de champ texte, de champ de date ou de chiffre. Ces données peuvent comprendre des indicateurs de présence d’iconographie, d’une signature, d’en-tête ou encore de paraphes, etc. Parmi ces données, des valeurs caractéristiques d’une zone géométrique d’une page du document, d’une ou de position(s) caractéristiques, ou encore un numéro de page d’un document, etc.

De nombreuses données, notées valeur d’intérêt ou variables d’intérêt, ayant été utilisées pour calculer les prédictions peuvent être collectées lorsqu’une action correctrice a été réalisée afin d’enrichir un domaine d’entraînement. Selon un exemple, les valeurs d’intérêt précédentes une prédiction corrigée et les valeurs d’intérêt suivantes dans un ordre de lecture du document peuvent être extraites afin d’être insérées dans l’annotation. Un intérêt est d’obtenir les données de contexte directement associées dans le document à la prédiction corrigée. Ces données permettent par exemple d’améliorer le réapprentissage en consolidant les contrôles contextuels de la prédiction corrigée.

Selon un mode de réalisation, l’annotation est enregistrée dans un une mémoire.

Selon un exemple, l’annotation est générée selon une séquence prédéfinie qui nécessite d’enregistrer des données temporairement en attendant que d’autres données soient calculées ultérieurement de manière à générer l’annotation totalement.

Selon un exemple de réalisation, l’annotation produite comprend un identifiant de document et/ou un identifiant utilisateur, par exemple un email et/ou une date à laquelle la première action Ai a été réalisée et/ou la date à laquelle l’action correctrice ACi a été réalisée. Ces données constituent également des variables d’intérêt.

Selon un exemple de réalisation, l’annotation générée est affichée dans une interface utilisateur. Selon un exemple, cette annotation est modifiable par un utilisateur.

Selon un mode de réalisation, la génération d’une valeur modifiée d’une prédiction ou d’une nouvelle annotation permet d’émettre automatiquement une notification à un utilisateur destinataire donné. L’identifiant ou l’adresse utilisateur destinataire peut être préconfiguré en fonction du type de document ou du répertoire associé à la prédiction. Selon un autre exemple, l’utilisateur destinataire est identifié grâce à une métadonnée associée au document numérique traité.

Selon un exemple, le réentraînement d’au moins un modèle peut être engagé après la génération d’un nombre donné d’annotations.

Domaine d’entraînement et entraînement

Selon un premier mode de réalisation, l’annotation permet d’alimenter un domaine d’entraînement d’au moins une fonction apprenante. Selon un exemple, une pluralité de domaines d’entraînement d’une pluralité de fonctions apprenantes est modifiée consécutivement à l’action correctrice. Selon un second mode de réalisation, une modification d’au moins une règle prédéfinie est réalisée consécutivement à la génération d’une action correctrice.

Selon un troisième mode de réalisation, une validation d’une opération est requise auprès d’un utilisateur donné consécutivement à la génération d’une action correctrice. La validation de l’opération peut entrainer le réentraînement d’une fonction apprenante à partir du domaine d’entraînement modifiée et/ou la modification d’une règle à partir de l’annotation.

Selon un exemple, une modification d’une règle peut comprendre un ajout d’une valeur à un ensemble de valeurs possibles d’une variable, par exemple d’un type de document, d’une catégorie d’entité nommée ou encore une nomenclature de date.

Le procédé de l’invention permet de prendre en compte la seconde séquence S2 du graphe de dépendance GRAPHD afin de modifier les modèles et les algorithmes. La seconde séquence S2 du graphe de dépendance GRAPHD permet notamment de lier les prédictions produites par un algorithme en fonction d’autres prédictions produites par d’autres algorithmes lorsque c’est le cas.

Selon un mode de réalisation, la seconde séquence S2 prend en compte les occurrences des annotations similaires ou encore leur fréquence dans le temps ou encore, leur singularité pour appliquer les réentraînements ou modifications d’algorithme dans une seconde séquence S2 visant à réentraîner ou modifier une pluralité de fonctions ou d’algorithmes. A titre d’exemple, une annotation qui comporte de nombreuses occurrences peut être dans une configuration d’un mode de réalisation moins fréquemment utilisée pour mettre à jour un modèle d’apprentissage machine d’une fonction apprenante donnée. A contrario, une annotation ayant peu d’occurrences peut être prise en compte plus rapidement par le process de réentraînement.

Selon un mode de réalisation, l’action correctrice AC1 ou AC2 ou la modification de la prédiction entraine la modification d’un paramétrage de la seconde séquence S2 afin de générer une séquence de réentraînement adapté à l’action correctrice ou la prédiction modifiée. Un intérêt est de réentraîner les modèles ayant uniquement contribué à générer une prédiction erronée sans affecter le réentraînement des modèles d’apprentissage machine des fonctions ayant produit des prédictions intermédiaires non erronées.

Le graphe de dépendance GRAPHD permet donc d’optimiser les opérations de réentraînement utiles sans affecter toute la chaine de traitement- organisée par la première Si ou la seconde séquence S2. Par ailleurs, la dissociation dans le graphe de dépendance GRAPHD de la première séquence et de la seconde séquence permet d’exécuter des fonctions tout en en organisant le réapprentissage selon la mise en œuvre du procédé.

Gestion des historiques

Selon un mode de réalisation, le procédé comporte une étape de validation par un utilisateur à partir d’une interface utilisateur d’un réentraînement d’un ensemble de documents déjà classés dans un répertoire. Un intérêt de cette caractéristique lors d’une action correctrice entraînant un changement de prédiction susceptible d’affecter une modification du comportement d’une fonction apprenante est de répercuter ce comportement sur un historique afin de mettre à jour un ensemble de classification de document.

Ce mode de réalisation fonctionne avec différentes actions comme le déplacement automatique d’un document reçu ou le renommage d’un document ou encore la segmentation ou la création d’un document.

Selon un autre mode de réalisation, l’étape de validation permet au contraire d’éviter une répercussion d’un changement de comportement d’une fonction sur un historique de documents déjà traité. Ainsi, l’utilisateur peut dissocier selon les actions réalisées un traitement de l’historique différent selon les cas d’usage.

Intégration dans un système

Selon un mode de réalisation, le procédé de l’invention comprend l’intégration d’une ressource de données qui peut être une base de données d’entités nommées telle qu’un carnet d’adresses, une base de données de documents telle qu’une messagerie ou encore toute autre base de données comportant des données susceptibles d’être interrogées par une requête générée par le procédé. Un intérêt est d’intégrer une couche permettant de faire communiquer un système existant avec les modèles d’apprentissage machine du procédé de l’invention. Cette couche permet de normaliser un ensemble de données d’un système existant avec des données pouvant être vectorisées et prise en compte comme entrée des fonctions apprenantes ou des algorithmes mis en œuvre par le procédé de l’invention.

Selon un mode de réalisation, le procédé de l’invention est mis en œuvre dans un espace de travail collaboratif accessible depuis au moins un serveur de données. Dans ce cas de figure, lorsqu’un déplacement d’un fichier d’un répertoire à un autre est effectué dans un espace de travail collaboratif, un évènement est automatiquement généré. Ce fonctionnement peut être relatif à chaque ou à certaines action(s) utilisateur. Cet évènement est généralement généré afin de synchroniser les différentes ressources pour un ensemble d’individus ayant accès à l’espace de travail. Un tel évènement peut être une notification électronique émise par une interface de communication. Selon un mode de réalisation, cet évènement est utilisé pour activer la détection d’une action de déplacement d’un document d’un répertoire à un autre dans le cadre d’une action correctrice menée par un utilisateur.

Selon un autre mode de réalisation, le procédé de l’invention est mis en œuvre dans un espace de travail dans lequel un algorithme est configuré pour parcourir les changements réalisés au sein d’un répertoire tels que l’ajout d’un document, la suppression d’un document, le renommage d’un document, etc.

Cet algorithme permet de détecter automatiquement un changement et permet de générer une modification de la prédiction et donc de générer une nouvelle annotation.

La figure 3 représente un exemple des éléments d’un système de l’invention permettant de mettre en œuvre le procédé de l’invention. La figure 3 représente un réseau de données NETi qui peut être le réseau internet. Un premier terminal utilisateur Ti permet d’accéder à un serveur distant SERVi permet d’héberger notamment un espace de travail collaboratif. Cet espace comprend notamment des ressources mémoires pour stocker des documents numériques reçus et les traiter automatiquement. Un second serveur SERV2 comprend les moyens permettant de générer les modèles et d’exécuter certains fonctions et algorithmes du procédé de l’invention. Selon les modes de réalisation, les modèles et les configurations des fonctions apprenantes peuvent être stockés directement sur le serveur hébergeant l’espace de travail collaboratif sur lequel le procédé de l’invention s’exécute. Toutefois dans un mode préférentiel, un serveur dédié à leur stockage et leur exécution est mis en œuvre.

Selon un mode de réalisation, un ou plusieurs fichiers de configuration peuvent comprendre des données complémentaires pour entrainer ou appliquer un modèle pouvant comprendre des paramètres, des résultats intermédiaires ou des annotations générées consécutivement à une action correctrice. La configuration ou le document utilisant la configuration peuvent être téléchargés à tout moment et mis en attente jusqu’à ce que l’ensemble des données et documents nécessaires à l’application ou au réentraînement des modèles soient associées, Selon un cas, les configurations sont associées aux documents si une ou plusieurs conditions sont validées. Une condition peut être l’exécution d’une fonction ou d’une commande.

Un intérêt est de permettre la collecte de documents et de données de configuration issus de plusieurs systèmes qui ne communiquent pas entre eux, et de n’appliquer les modèles sur les documents que lorsque suffisamment de documents et données sont disponibles.

Un intérêt est de permettre de prendre en considération de nouveaux documents à traiter de manière indépendante d’un réapprentissage qui serait réappliqué. La configuration permettant de réentraîner une ou plusieurs fonction(s) apprenante(s) peut être activée ou programmée consécutivement au traitement d’une pluralité de documents. Ainsi le réapprentissage peut prendre en considération une pluralité de documents en entrée.

Selon un cas de figure, une action correctrice sur un unique document peut être prise en compte pour générer une nouvelle prédiction d’une pluralité de documents.

Claims

REVENDICATIONS

1. Procédé mis en œuvre par ordinateur pour améliorer la classification d’au moins un document à partir d’au moins un modèle d’apprentissage machine (MLi) caractérisé en ce qu’il comprend :

■ Réception d’un premier document numérique (Di) ;

■ Exécution d’une première fonction apprenante (FAi) générée à partir d’un premier modèle d’apprentissage machine (MLi) entrainé à partir d’un premier domaine d’entraînement (DOM1) permettant de générer une prédiction (Pi) d’une classification du premier document numérique (Di) au sein d’une première classe (Ci) pour réaliser une première action automatique (Ai) sur le document numérique (Di), ladite première action (Ai) comportant au moins un déplacement dudit premier document numérique (Di) vers un premier répertoire (REPi),

■ Génération d’une représentation de cette classification (Ci) et de l’action réalisée sur le premier document numérique (Di) à partir d’une interface utilisateur (INT1) ;

■ Acquisition d’une première action correctrice (ACi) d’un utilisateur se rapportant à la modification du déplacement du premier document numérique (Di) vers un second répertoire (REP2) ;

■ Génération d’une première annotation (ANNi) comportant d’une part la valeur modifiée (Pi ’) de la prédiction (Pi) corrigée à partir de la première action correctrice (ACi) et d’autre part un ensemble de valeurs d’intérêt extraites ou générées notamment à partir du premier document numérique (Di) ;

■ Modification du premier domaine d’entraînement (DOM1) par l’ajout de la première annotation (ANNi) après la collecte d’au moins une annotation (ANNi) ;

■ Génération d’un réentraînement du premier modèle d’apprentissage machine (MLi) à partir du domaine d’entrainement modifié.

2. Procédé selon la revendication 1 caractérisé en ce que la première action correctrice (ACi) se rapportant à la modification du déplacement du premier document numérique (Di) est réalisée par un déplacement du premier document numérique (Di) du premier répertoire (REPi) vers un second répertoire (REP2) par une action utilisateur à partir d’un explorateur de documents, un algorithme de détection de changement de ressource mémoire allouée à un document numérique étant mis en œuvre.

3. Procédé selon la revendication 1 caractérisé en ce que la première action correctrice (AC1) se rapportant à la modification du déplacement du premier document numérique (D1) est réalisée par une modification de la classe du premier document numérique (D1) par une action utilisateur à partir d’un interface utilisateur présentant un ensemble de données caractéristiques du premier document numérique (D1).

4. Procédé selon l’une quelconque des revendications 1 à 3, caractérisé en ce qu’il comprend :

■ Réception d’un second document numérique (D2) ;

■ Exécution d’une seconde fonction apprenante (FA2) générée à partir d’un second modèle d’apprentissage machine (ML2) entrainé à partir d’un second domaine d’entraînement (DOM2) permettant de générer une prédiction (P2) d’une classification du second document numérique (D2) au sein d’une seconde classe (C2) et de réaliser une seconde action automatique (A2) sur le second document numérique (D2), ladite seconde action (A2) comportant au moins un renommage automatique dudit second document numérique (D2),

■ Génération d’une représentation de cette classification (C2) et de l’action réalisée sur le premier document numérique (D2) à partir d’une interface utilisateur (INT1) ;

■ Acquisition d’une seconde action correctrice (AC2) d’un utilisateur se rapportant à la modification du nom du second document numérique (D2) ; ■ Génération d’une seconde annotation (ANN2) comportant d’une part la valeur modifiée (P2’) de la prédiction (P2) relative à la seconde action correctrice (AC2) et d’autre part un ensemble de valeurs d’une seconde séquence de données (S2) extraites ou générées notamment à partir du second document numérique (D2) ;

■ Modification du second domaine d’entraînement (DOM2) par l’ajout de la seconde annotation (ANN2) ;

■ Génération d’un réentraînement du second modèle d’apprentissage machine (ML2).

5. Procédé selon la revendication 4 caractérisé en ce que la seconde action correctrice (AC2) se rapportant à la modification du nom du second document numérique (D2) est réalisée par une modification du nom du second document numérique (D2) directement sur le fichier correspondant au second document numérique (D2).

6. Procédé selon la revendication 4 caractérisé en ce que la seconde action correctrice (AC2) se rapportant à la modification du nom du second document numérique (D2) est réalisée par une modification de la classe du second document numérique (D2) par une action utilisateur à partir d’un interface utilisateur présentant un ensemble de données caractéristiques du second document numérique (D2).

7. Procédé selon l’une quelconque de la revendication 1 à 6, caractérisé en ce qu’il comprend :

■ Réception d’un document numérique (D1 , D2, D3) ;

■ Exécution d’une troisième fonction apprenante (FA3) générée à partir d’un troisième modèle d’apprentissage machine (ML3) entrainé à partir d’un troisième domaine d’entraînement (DOM3) pour générer une prédiction (P3) relative à la détection d’une classe d’une date caractéristique (DAT1) présente dans le document numérique (Di, D2, D3) et extraire ladite date caractéristique (DAT1) du premier document (D1) ; ■ Génération d’une représentation de la classification d’au moins la date caractéristique (DATi) extraite à partir d’une interface utilisateur ;

■ Acquisition d’une troisième action correctrice (AC3) d’un utilisateur se rapportant à la modification de la classe (C3) de la date caractéristique (DAT1) du premier document numérique (D1) ;

■ Génération d’une troisième annotation (ANN3) comportant d’une part la valeur modifiée (P3’) de la prédiction (P3) relative à la première modification correctrice (AC1) et d’autre part un ensemble de valeurs d’intérêt extraites ou générées notamment à partir du document numérique (D1 , D2, D3) ;

■ Modification du troisième domaine d’entraînement (DOM3) par l’ajout de la troisième annotation (ANN3) ;

■ Génération d’un réentraînement du troisième modèle d’apprentissage machine (ML3).

8. Procédé selon la revendication 7, caractérisé en ce que la troisième fonction apprenante (FA3) est exécutée préalablement à la première fonction apprenante, la prédiction corrigée (P2’) étant une donnée de l’ensemble de valeurs d’intérêt d’une annotation, ladite modification prédiction corrigée (P2’) entraînant la modification du premier domaine d’entraînement (DOM1) et/ou de la modification du second domaine d’entraînement (DOM2).

9. Procédé selon l’une quelconque des revendications 1 à 8, caractérisé en ce qu’il comprend la réception d’un graphe de dépendance (GRAPHD), lesdites dépendances étant définies entre au moins la première fonction apprenante et une seconde fonction apprenante, ledit graphe de dépendance (GRAPHD) comportant une description des entrées d’au moins un domaine d’entraînement (D0M1 , D0M2), lesdites entrées comportant au moins une valeur correspondante à une sortie d’au moins une fonction apprenante (FA1, FA2).

10. Procédé selon la revendication 9, caractérisé en ce qu’il comprend : ■ Acquisition d’un graphe de dépendance (GRAPHD) entre une pluralité de fonctions apprenantes choisies parmi un ensemble de fonction apprenantes comprenant la première fonction apprenante (FAi), la seconde fonction apprenante (FA2) et troisième fonction apprenante (FA3) ;

■ Ajout dans au moins un ensemble de valeurs d’intérêt produites lors de la création d’une annotation (ANN1, ANN2, ANN3) d’une prédiction modifiée d’une fonction apprenante donnée (FA1, FA2, FA3) de manière à :

■ Modification d’un domaine d’entraînement (DOM1, DOM2, DOM3) d’une autre fonction apprenante que la fonction apprenante donnée ;

■ Génération d’un réentraînement du modèle d’apprentissage machine (MU, ML2, ML3).

11 . Procédé selon l’une quelconque des revendications 1 à 10, caractérisé en ce que consécutivement à une action automatique réalisée par une fonction apprenante (FA1, FA2, FA3), une première notification est émise via un réseau de données, ladite première notification comportant un accès à une interface utilisateur permettant de modifier les annotations associées à cette action.

12. Procédé selon l’une quelconque des revendications 1 à 11 , caractérisé en ce que le premier modèle d’apprentissage machine est généré à partir de la définition d’un modèle de premier document numérique (MDI ) comportant l’identification d’une pluralité de données caractéristiques et de zones d’intérêt dudit modèle (MDI ) de premier document et à partir d’une interface utilisateur.

13. Procédé selon la revendication 12, caractérisé en ce que consécutivement à une action correctrice générée par un utilisateur, le modèle (MDI ) de premier document numérique est utilisé pour extraire des données de contexte de la prédiction modifiée pour enrichir l’annotation qui est créée.

14. Procédé selon l’une quelconque des revendications 12 à 13, caractérisé en ce que la définition d’un modèle de premier document numérique (MDI ) comprend la génération d’un formulaire comportant un ensemble de choix définissant des annotations dudit modèle, lesdites annotations permettant de mettre à jour le premier modèle d’entraînement.

15. Procédé selon l’une quelconque des revendications 1 à 14, caractérisé en ce qu’une pluralité de premiers documents sont reçus d’une même classe, et qu’une pluralité de modèles d’apprentissage machine sont appliqués, le procédé comprenant la génération d’une pluralité de prédictions, le procédé comportant la sélection d’une prédiction, ladite sélection de ladite prédiction permettant de mettre à jour le premier domaine d’entraînement (DOMi).

16. Système comportant un terminal électronique d’un utilisateur (Ti) comportant au moins un calculateur, une mémoire, un afficheur et une interface de communication pour transmettre des messages sur un réseau de données auprès d’au moins un premier serveur (SERVi) comportant des ressources matérielles pour exécuter la première fonction apprenante (FAi), la seconde fonction apprenante (FA2), la troisième fonction apprenante (FA3) et une mémoire pour enregistrer les modèles appris (ML1, ML2, ML3) afin d’exécuter les étapes du procédé de l’une quelconque des revendications 1 à 15, le terminal comportant une interface utilisateur pour acquérir une annotation comportant une modification d’une prédiction (Pi, P2, P3), ladite modification entraînant le réentraînement d’au moins un modèle d’apprentissage machine.