WO2022122108A1 - Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage - Google Patents

Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage Download PDF

Info

Publication number
WO2022122108A1
WO2022122108A1 PCT/EP2020/025572 EP2020025572W WO2022122108A1 WO 2022122108 A1 WO2022122108 A1 WO 2022122108A1 EP 2020025572 W EP2020025572 W EP 2020025572W WO 2022122108 A1 WO2022122108 A1 WO 2022122108A1
Authority
WO
WIPO (PCT)
Prior art keywords
models
meta
data
tool
training
Prior art date
Application number
PCT/EP2020/025572
Other languages
English (en)
Inventor
Nicolas Gaude
Original Assignee
Prevision.Io
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Prevision.Io filed Critical Prevision.Io
Priority to PCT/EP2020/025572 priority Critical patent/WO2022122108A1/fr
Publication of WO2022122108A1 publication Critical patent/WO2022122108A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • the invention covers the entire automated chain constituted by the company Prevision. io by creating a complete solution for fully automated processing of large masses of data, allowing predictive analyzes to be carried out in almost all sectors of activity without writing code or defining hyperparameters.
  • recommendation services intelligent machine learning algorithms allow following the analysis of a user's online activity, and by comparing it to millions of other users, to determine what it is likely to buy (for a sales site), to watch (for online audiovisual content viewing sites such as Netflix), etc. These recommendations not only make it possible to recognize whether a user has purchased an item for themselves or to make a present, but also to classify the members of a family on the basis of the content that each one views;
  • Machine Learning (ML) techniques are grouped into three groups on the basis of which many paradigms, mechanisms and algorithms are built.
  • decision trees make it possible to solve regression or classification problems by performing a hierarchical modeling of tests on the values of a set of variables.
  • Random Forest uses bagging by combining multiple decision tree models and introduces randomness by basing tree construction at each step on a subset of randomly drawn variables.
  • Boosting & Gradient Boosting Machines the term “boosting” designates an approach consisting of sequentially constructing precise decisions from the same learning method called “weak learner”. Each new construction uses a new distribution on the learning sample, in which the examples “poorly learned” by the previously constructed hypotheses are favoured. At the end, the set of constructions is weighted by allocating the highest weights to the constructions having the lowest error. From an algorithmic point of view, it is therefore an approach seeking to minimize the prediction error at each step. When this error minimization is performed with a gradient descent method, we speak of a GBM method. To develop this method, the definition of the best choice of “weak learner” can be very difficult for the data scientist and the optimization problem related to the minimization of the error is often very complex to solve numerically;
  • Neural networks they are inspired by the human brain and are described as directed graphs whose nodes correspond to neurons. The objective of these algorithms is to determine the “weights” associated with each neuron by performing pariterations with a gradient descent optimization method. We speak of deep neural network when the graph has several hidden layers. These algorithms are quite complex because of a large number of parameters to be determined and the definition of the hyperparameters is extremely delicate because the search space of the latter grows exponentially with the hidden layers. ste tools like Auto-Sklearn, TPOT, AutoML Google...
  • Auto-Sklearn is based on the assumption that the training and test datasets are identically distributed, which is generally not verified in practice. The consideration of this aspect is the responsibility of the user of the tool, which requires a certain skill in data science.
  • the tool is based on advances in Bayesian optimization, on the concept of meta-learning and the creation of a set of models (the weighted models of which generally make it possible to gain precision with the reduction of variance).
  • Auto-Sklearn automatically designs a set of 50 models that run a data pre-processor (determined from 14 possibilities) and variable transformation operations (determined from 4 possibilities) and an ML algorithm (determined from 15 possibilities) .
  • TPOT-Tree-based Pipeline Optimization Tool produces the code of a machine learning algorithm usable by a data scientist who transforms this code and puts it in line with its constraints, which means that it is always necessary to be an expert in domain to rely on this tool.
  • the tool for automating certain steps in the creation of a learning tool (pre-processing, algorithm selection and optimization). Unlike Auto-Sklearn, it generates the code of the best model found on the basis of which the data scientist performs his work.
  • TPOT explores a larger set of models than Auto-Sklearn.
  • this tool remains a help to the datascientist, and still does not allow a democratization of ML to people without skills in this field because instead of making predictions, it provides a code which will then be exploited by an expert in order to to transpose it to the constraints of his project.
  • Google's AutoML makes it possible to build very complex “neural network” architectures (with performances rivaling those of very experienced data scientists) but this solution is still at the exploratory stage and has not yet reached the maturity allowing general public use.
  • train stage the data constituted, the data-scientist tests a large number of choices of mathematical models, choices of data crossing parameters and combinations of models in order to best solve the problem requested.
  • predict stage the models obtained are then brought into production by data-engineers who are responsible for making the raw model obtained by the data scientist robust and scalable in order to meet the operational constraints of production.
  • This tool does not require writing a line of code to create models, thus increasing productivity for data science teams, and giving access to predictive analysis to people without a solid foundation in ML, such as business analysts.
  • the solution is accessible through a web browser (not requiring the installation of a thick client) and allows the construction of reliable predictive models solely from company data.
  • the invention which includes all the steps of an automated datascience project, creates a generic and completely automated learning solution by allowing: • the recovery of continuous data that may come from various sources, formatted from this data to constitute a data table where each line represents an observation of the phenomenon that one wishes to predict and where each column corresponds to a potentially predictive variable;
  • the determination of the predictor variables as well as that of the models of their hyperparameters can be specific to each project - because there is no algorithm which makes reliable predictions in all cases and whatever the input data.
  • the Random Search method is an alternative to Grid Search that tests only a random selection of hyperparameter values.
  • the risk with this approach is to omit, when these are concentrated on a range, potentially optimal values of hyperparameters.
  • the present invention makes it possible to:
  • Figure 3 describes the analysis of the test data, to which are applied the same pre-processing as for the training data.
  • Figure 4 Illustration of the analysis of the weight of different parameters illustrates the analysis of the weight of the different variables on the performance of a trained model.
  • Figure 5 Illustration of the evolution of a performance metric illustrates the convergence of the performance metric towards an asymptotic value.
  • Figure 6 Simulation of "tuning" for the LightGBM algorithm shows the correlation between the evolution of the validation score, after a certain number of iterations, and that of the "learning rate" of the model, in the form of a constant asymptotic value.
  • the first hypothesis of the invention consists in considering an analysis of the variables contributing the most to the performance of the model (an illustration of this is given at the level of FIG. 4 at the level of which the weight of different variables on the performance of a model trained) regardless of the underlying technology, whether it is a simple model or a metamodel.
  • the modeling component is a fundamental step for reliable predictions. Predictions are made by successively applying different models and then mixing them based on diversity criteria. Indeed, training is performed first on the basis of several ML models and then on the basis of combination approaches, with groupings between these different models. The processing allowing to obtain the best results (according to the performance metrics considered, for example the AuC which represents the area under a ROC curve or the cross-validation score - cv- score, etc.) between these different approaches ( models alone and resulting from combinations) is the one that will be the basis of the predictions.
  • the performance metrics considered for example the AuC which represents the area under a ROC curve or the cross-validation score - cv- score, etc.
  • the tool makes it possible to obtain approximate predictions from the first calculations without waiting for all the estimates to be made and then for the estimates to tend towards an asymptotic value (as shown in Figure 5) , indicating an increasingly small prediction error during processing.
  • each metamodel is itself a derived model that performs better than the basic models that constitute it.
  • the metamodel is itself obtained by an automated learning phase. This learning considers as input the predictions obtained in cross validation and metamodel can also serve as a base model for a future higher level metamodel.
  • a final step of selecting the best model then makes it possible to select the most efficient model according to the performance metric of each, obtained in cross validation.
  • the tool associating the mass of continuous training or test data with algorithms, allows a selection of variables, the transformation of these data into units, their enrichment with additional data from other sources or from results of calculations, said means being capable of carrying predictive information, the development of the best predictive model, its validation, possibly consisting of the combination of several models and their hyperparameters, the optimization of the models being based on performance metrics obtained without writing of code or definition of hyperparameters on the part of the user of the solution.
  • the tool therefore allows the determination of the appropriate hyperparameters for the different models and data sets.
  • defining the best combination of hyperparameters for a machine learning algorithm is extremely complex because it also depends on the input datasets and can require long tests on different combinations. Testing all of the possible combinations is an approach that is too computationally expensive, or even unfeasible.
  • the first idea was to determine a maximum and minimum value for each hyperparameter and then to generate a random distribution of potential hyperparameter values. Subsequently, the best combination of hyperparameters following the tests (compared to the performance metrics) is considered for the predictions.
  • This approach then evolved into determining the best hyperparameter ranges and distributions, based on an experimental approach with simulation of hyperparameter tuning for different ML models.
  • the invention considers several sets of input data and defines a very wide window of hyperparameters then relies on a Grid Search method in order to understand the relationships that may exist between each candidate hyperparameter and the performance of the model.
  • the tool obtains a first score by means of the knowledge by backtracking of the elementary contribution of each of the variables in the elementary model and of the training of the algorithm fighting against randomness.
  • a first method of searching for hyperparameters uses a Bayesian inference of hyperparameters for which the distribution of a priori hyperparameters is progressively adapted according to each of the experimental results obtained via the AutoML platform-The tool thus obtains a meta-modeling through a Bayesian inference process.
  • a second method of finding hyperparameters uses a reinforcement learning method:
  • the first step uses a recommendation system to propose candidate hyperparameters according to the “use case”.
  • the goal of the approach is to find a set of hyperparameters that maximizes performance.
  • the evaluation function (which passes through the complete training of a model with a set of hyperparameters) being expensive, the number of calls to the latter is limited.
  • the tool achieves meta-modeling through a reinforcement learning process by shifting the workload from evaluating hyperparameters (very expensive) to finding hyperparameters with high potentials (reasonably expensive). This is done through a probabilistic model of the evaluation function obtained by reinforcement, based on the candidate pairs proposed in the first step (the actions being the hyperparameters and the reward being the score obtained in cross-validation).
  • a third method of searching for hyperparameters uses quantum computing.
  • the quantum method is to evaluate in the quantum phase space an approximation of the cross-validation score.
  • the operational research method known as Grover's algorithm then makes it possible to favor the probability of observing a set of hyperparameters among the most favorable (in the sense of the cross validation score).
  • This method which consists in replacing the algorithms by quantum calculation, makes it possible to accelerate in a quadratic way the drawing of hyperparameters among the best.
  • the forecasting platform Under these conditions, io supports all of these three methods: evaluation of the cross-validation score, observation of a set of hyperparameters among the most favorable and accelerated drawing of hyparameters without any human intervention.
  • forecasting models is also outsourced automatically and on demand, outside the platform, to private or public marketplaces. From these platforms, users can consume powerful predictions independently from the AutoML platform and owners of the predictive models can monitor usage and performance in real conditions. The release thus makes the models accessible in private and public marketplaces.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L'invention est une plateforme d'apprentissage automatique (machine learning ou ML) qui permet de prédire, gérer intelligemment, interpréter des comportements. L'outil permet d'analyser, apprendre et mettre en production à large échelle des modèles de prévision performants et ceci de façon totalement autonome.

Description

DESCRIPTION :
SYSTEME ET PROCEDE DE SELECTION D'ACTION AUTOMATISEE, MISE EN OEUVRE DE CES SYSTEME ET PROCEDE POUR ENTRAINER DES MACHINES DE PREDICTION ET FAVORISER L'EVOLUTION DE DISPOSITIFS A AUTOAPPRENTISSAGE
Domaine technique
L'invention couvre l'ensemble de la chaîne automatisée que constitue la société Prevision. io en réalisant une solution complète de traitement totalement automatisé de grandes masses de données permettant d'effectuer dans quasiment tous les secteurs d'activité des analyses prédictives sans écriture de code ou définition d'hyperparamètres.
Des exemples de prédiction :
• la sécurité de données : des milliers de nouveaux logiciels malveillants étant tous les jours découverts, les similitudes existant entre une nouvelle version et les versions antérieures d'un logiciel ouvrent des voies pour la prédiction de fichiers malveillants. En outre, les outils d'apprentissage automatique sont aussi capables de rechercher des tendances dans l'accès aux données dans le cloud et signaler des anomalies susceptibles de prédire des failles de sécurité ;
• la sécurité personnelle : l'apprentissage automatique peut permettre d'anticiper les fausses alarmes (ce qui peut permettre d'accélérer les processus dans les aéroports, stades, etc.) mais aussi de repérer les éléments susceptibles d'échapper à des agents de contrôle ; • le trading dans les marchés financiers : prédire le cours des marchés boursiers est un véritable challenge, de plus en plus approché par des algorithmes d'apprentissage. De nos jours, de nombreuses sociétés de trading développent des outils pour prédire l'état du marché et effectuer des transactions à grande vitesse et en volume important ;
• les services de recommandations : les algorithmes intelligents d'apprentissage automatique permettent suite à l'analyse de l'activité en ligne d'un utilisateur, et en la comparant à des millions d'autres utilisateurs, de déterminer ce qu'il est susceptible d'acheter (pour un site de vente), de regarder (pour les sites de visionnage de contenus audiovisuels en ligne comme Netflix), etc. Ces recommandations permettent non seulement de reconnaître si un utilisateur a acheté un article pour lui-même ou bien pour en faire un présent, mais aussi de classifier les membres d'une famille sur la base des contenus que chacun visionne ;
Etat de la technique antérieure :
En l'état de l'art de la technique, deux approches sont établies :
1. une première approche manuelle des problèmes via des algorithmes d'apprentissage automatique, très souvent développés par des équipes d'experts scientifiques très spécialisés du fait de la complexité liée à la définition des modèles et architectures (apprentissage profond, etc.) et de leurs hyperparamètres pour une application donnée, etc.
La mise en production d'outils est relativement difficile, allant de l'ordre du mois au trimestre, notamment due à la lenteur des cycles de développement du fait d'éventuelles nécessités à ré-entrainer des modèles, etc. Les techniques de « Machine Learning » (ML) sont regroupées en trois groupes sur la base desquelles de nombreux paradigmes, mécanismes et algorithmes sont construits.
• l'apprentissage supervisé : ce concept regroupe les méthodes de ML pour lesquelles l'apprentissage nécessite des données d'entrainement dont les résultats en sortie sont connues (sorties connues a priori) ;
• l'apprentissage non supervisé : ce concept regroupe des techniques de ML pour lesquelsl'entrainement ne requiert pas données d'entrainement dont les sorties sont connues a priori ;
• apprentissage par renforcement : lorsque l'apprentissage est effectué sur la base des interactions avec un environnement externe.
2. Une deuxième approche automatisée et rendue générique pour un grand nombre de problèmes, appelée AutoML-Automated Machine Learning.
De nouveaux outils appelés AutoML - Automated Machine Learning permettent de rendre le ML plus accessible aux non spécialistes, aux personnes « data driven » (Business & Data Analyst), etc. tout en conservant une performance élevée et une accélération de la productivité avec une mise en production immédiate.
Ils se concentrent davantage sur le concept d' « apprentissage » que sur les algorithmes, telles les approches d'apprentissage par représentation (representation learning), d'apprentissage profond (deep learning), d'apprentissage distribué (distributed learning), de transfert d'apprentissage (transfer learning), etc.
S'agissant des algorithmes de ML à proprement parlé, il en existe plusieurs parmi lesquels les arbres de décision, Random Forest, Boosting et Réseaux de neurones : les arbres de décision permettent de résoudre des problèmes de régression ou de classification en faisant une modélisation hiérarchisée de tests sur les valeurs d'un ensemble de variables.
Pour dépasser les limites de cet algorithme qui est statique (donc ne permet pas d'apprendre à partir de nouvelles instances qui viendraient s'ajouter à l'ensemble d'entraînement) et sensible au bruit (propension à apprendre des relations entre les données et le bruit présent dans l'ensemble d'apprentissage), l'algorithme Random Forest a été introduit.
Random Forest utilise le bagging en combinant plusieurs modèles d'arbres de décision et introduit un caractère aléatoire en basant la construction de l'arbre à chaque étape sur un sous-ensemble de variables tirées aléatoirement.
Une des complexités pour développer les arbres de décision est le compromis délicat dans la construction de l'arbre pour déterminer la profondeur de celle- ci permettant le meilleur arbitrage entre le biais et la variance.
En effet, plus l'arbre est profond, plus le bais est faible et la variance forte ; en revanche, pour un arbre court, le bais est fort et la variance faible, ce qui implique un compromis très complexe que le data scientist doit résoudre ;
Boosting & Gradient Boosting Machines (GBM) : le terme « boosting » désigne une approche consistant à construire séquentiellement des décisions précises à partir d'une même méthode d'apprentissage dite « apprenant faible ». Chaque nouvelle construction utilise une nouvelle distribution sur l'échantillon d'apprentissage, dans laquelle sont favorisés les exemples « mal appris » par les hypothèses précédemment construites. A la fin l'ensemble des constructions est pondéré en allouant les poids les plus forts aux constructions ayant l'erreur la plus faible. Il s'agit donc d'un point de vue algorithmique d'une approche cherchant à minimiser l'erreur de prédiction à chaque étape. Lorsque cette minimisation de l'erreur est effectuée avec une méthode de descente du gradient, nous parlons de méthode GBM. Pour développer cette méthode, la définition du meilleur choix d' « apprenant faible » peut être très difficile pour le data scientist et le problème d'optimisation lié à la minimisation de l'erreur est souvent très complexe à résoudre numériquement ;
Réseaux de neurones : ils sont inspirés du cerveau humain et sont décrits comme des graphes orientés dont les noeuds correspondent à des neurones. L'objectif de ces algorithmes est de déterminer les « poids » associés à chaque neurone en procédant paritérations avec une méthode d'optimisation de descente du gradient. Nous parlons de réseau de neurones profond lorsque le graphe présente plusieurs couches cachées. Ces algorithmes sont assez complexes à cause d'un nombre de paramètres importants à déterminer et la définition des hyperparamètres est extrêmement délicate car l'espace de recherche de ces derniers croit de manière exponentielle avec les couches cachées. ste des outils comme Auto-Sklearn, TPOT, AutoML Google...
Auto-Sklearn est fondé sur l'hypothèse selon laquelle les ensembles de données d'entraînement et de tests sont identiquement distribués, ce qui n'est généralement pas vérifié dans la pratique. La prise en considération de cet aspect est à la charge de l'utilisateur de l'outil, ce qui exige une certaine compétence en datascience. L'outil s'appuie sur des avancées en optimisation bayésienne, sur le concept de méta-apprentissage et de réalisation d'ensemble de modèles (dont les pondérées permettent généralement de gagner en précision avec la réduction de variance). Auto-Sklearn conçoit automatiquement un ensemble de 50 modèles qui mettent en marche un pré-processeur de données (déterminé parmi 14 possibilités) et des opérations de transformation de variables (déterminées parmi 4 possibilités) et un algorithme de ML (déterminé parmi 15 possibilités).
Un aspect intéressant de cet outil est la possibilité de maîtriser les ressources en temps de calcul et en mémoire (en les budgétisant) à chaque tâche d'optimisation. Les challenges de ML remportés par cet outil permettent de montrer toute sa puissance.
Cependant, ce dernier manque de flexibilité pour développer des modèles complexes du fait qu'il génère des modèles qui mettent en marche un certain nombre de pré-processeurs de données, de transformation de variables et d'algorithmes de ML, et ceci dans un ordre bien défini en plus.
En outre, Auto-Sklearn est basée sur l'hypothèse selon laquelle les ensembles d'entraînement et de tests sont identiquement distribuées. Cette hypothèse est une limitation de cet outil car étant rarement vérifiée en pratique. La prise en considération de l'asymétrie entre les données d'entrainement et de test (de même que la budgétisation des ressources) est gérée par le datascientist, ce qui fait que cet outil nécessite des compétences solides en datascience ou statistique pour se baser dessus alors que nous souhaitons réaliser un outil qu'une personne sans compétence dans ce domaine puisse utiliser. TPOT-Tree-based Pipeline Optimization Tool TPOT produit le code d'un algorithme de machine learning utilisable par un datascientist qui transforme ce code et le mettre en adéquation avec ses contraintes, ce qui fait qu'il est toujours nécessaire d'être expert dans le domaine pour se baser sur cet outil.
L'outil permettant d'automatiser certaines étapes de la réalisation d'un outil d'apprentissage (prétraitements, sélection d'algorithme et optimisation). A la différence d'Auto-Sklearn, il génère le code du meilleur modèle trouvé sur la base duquel le datascientist effectue son travail.
TPOT explore un ensemble de modèles plus conséquent qu'Auto-Sklearn. Toutefois, cet outil reste une aide au datascientist, et ne permet toujours pas une démocratisation du MLaux personnes sans compétences dans ce domaine du fait qu'au lieu de réaliser des prédictions, il fournit un code qui sera par la suite exploité par un expert afin de le transposer aux contraintes de son projet.
AutoML de Google permet de construire des architectures « réseaux de neurones » très complexes (avec des performances rivalisant ceux des datascientists très expérimentés) mais cette solution est encore au stade exploratoire et n'a pas encore atteint la maturité permettant un usage grand public.
Pour ces outils, la difficulté à automatiser complètement le ML est lié au fait qu'il est très complexe d'automatiser toutes les étapes d'un projet de datascience. Les étapes liées à la récupération des données, à leur analyse en vue du nettoyage et leur enrichissement dépendent fortement des systèmes d'où sont issues les données, et la définition des variables clés nécessite souvent une bonne connaissance du domaine d'application donc est difficilement généralisable. En outre, le test et l'optimisation et/ou validation des outils développés sont très compliqués car contrairement à un projet de développement de logiciel classique, les bugs d'un outil de Datascience peuvent se retrouver également dans la définition et dans le paramétrage des modèles et des prétraitements ou encore dans les données elles-mêmes.
La définition des modèles et de leurs hyperparamètres est une étape propre à chaque problème (comme il n'existe aucune approche permettant de résoudre tous les problèmes et quel que soit l'ensemble de données d'entrées le datascientist s'appuie sur des bonnes pratiques et sur son expérience au cours des projets de ML afin de pouvoir élaborer des modèles prédictifs performants).
Il existe des approches pour déterminer automatiquement les couples modèles /hyperparamètres, à l'instar de Grid Search mais celle-ci discrétise les espaces des hyperparamètres recherchés.
Aucun des outils de l'état de l'art accessible ne permet d'automatiser l'apprentissage depuis la préparation des données jusqu'à la validation des modèles développés.
Le brevet « One-Click-to-Prédiction » dont la demande a été déposée le 27 juillet 2004 par la société Sony France SA sous le numéro de demande 04291912 et publié le 1er février 2006 sous le numéro 1622072 Bl CIB : G06N 3/00 CPC : G06N 3/004 (avec les données relatives à la priorité : 04291912 27.07.2004 EP) recouvre trois étapes particulières que comporte tout projet de datascience classiquement mené par différents professionnels de la donnée : étape "connect" : l'analyse du problème à résoudre au regard des données d'apprentissage disponibles est classiquement réalisée par le data-analyst qui va créer ou sélectionner les données utiles et éliminer les données qui ne participent pas du problème à résoudre. étape "train" : les données constituées, le data-scientist teste un grand nombre de choix de modèles mathématiques, de choix de paramètres de croisement de données et de combinaisons de modèles afin de résoudre au mieux la problématique demandée. étape "predict" : les modèles obtenus sont alors portés en production par des data-engineers qui ont en charge de rendre robuste et scalable le modèle brut obtenu par le datascientist afin de répondre aux contraintes opérationnelles de production.
C'est dans ce contexte que la présente invention créée une solution générique et complètement automatisée d'apprentissage.
Présentation de l'invention
Cet outil ne nécessite d'écrire aucune ligne de code pour réaliser des modèles, les équipes de datascience gagnant ainsi en productivité, et donnant accès à l'analyse prédictive aux personnes sans base solide en ML comme les business analyst.
La solution est accessible au travers d'un navigateur web (ne nécessitant pas l'installation d'un client lourd) et permet la construction de modèles prédictifs fiables uniquement à partir des données de l'entreprise.
L'invention qui comprend toutes les étapes d'un projet de datascience automatisées crée une solution générique et complètement automatisée d'apprentissage en permettant : • la récupération des données en continu pouvant provenir de diverses sources, mises en forme de ces données pour constituer un tableau de données où chaque ligne représente une observation du phénomène que l'on souhaite prédire et où chaque colonne correspond à une variable potentiellement prédictive ;
Cette récupération et la préparation des données sont souvent complexes car elles sont dépendantes des différends systèmes d'information d'où proviennent les données ainsi que du fait que celles-ci peuvent être non structurée, structurées ou semi structurées ;
• le nettoyage des données récupérées, ce qui permet de supprimer les informations aberrantes et envisager une stratégie pour gérer les données manquantes ;
• la sélection des variables susceptibles de porter une information prédictive ;
La détermination des variables prédictives ainsi que celle des modèles de leurs hyperparamètres peut être propre à chaque projet - car il n'existe pas d'algorithme qui effectue des prédictions fiables dans tous les cas et quel que soit les données d'entrée
• la transformation des données afin de standardiser les unités, les formats des données, etc. ;
• l'enrichissement avec des données supplémentaires issues d'autres sources ou de résultats de calculs ;
• le développement d'un modèle prédictif, pouvant consister en la combinaison de plusieurs modèles ; • l'optimisation du « tuning » du modèle sur la base des métriques de performances obtenues ;
• la validation du modèle et estimation de sa précision.
• la réalisation de tests sur l'ensemble des modèles et des hyperparamètres afin de déterminer la meilleur combinaison.
Cette approche très directe présente l'inconvénient d'être extrêmement coûteuse en temps de calcul voir irréalisable parfois (notamment avec les réseaux de neurones profonds présentant plusieurs noeuds cachés). La méthode Random Search est une alternative à Grid Search effectuant les tests seulement sur une sélection aléatoire des valeurs d'hyperparamètres. Toutefois le risque avec cette approche est d'omettre, lorsque celles-ci sont concentrées sur une plage, des valeurs potentiellement optimales d'hyperparamètres.
La présente invention permet de :
• déterminer les variables clés portant une information prédictive de manière non assistée, étant un outil qui puisse effectuer des prédictions quel que soit le champ d'intérêt ;
• réaliser des modèles ou meta-modèles prédictifs performants sans assistance, ce qui nécessite de pouvoir déterminer grâce au déploiement continu des données les meilleurs modèles et leurs hyperparamètres sans écriture de code de la part de l'utilisateur de la solution. Description des graphiques
Les graphiques en figure 1 (Chaîne de traitement en machine learning) et figure 2 (Automatisation complète des étapes de modélisation et mise en production par la présente invention) mettent en perspective l'architecture classique d'une approche de machine learning et le système de la présente invention.
La figure 3 (Fonctionnement) décrit l'analyse des données de tests, auxquelles sont appliqués les mêmes prétraitements que pour les données d'entrainement.
La figure 4 (Illustration de l'analyse du poids de différents paramètres) illustre l'analyse du poids des différentes variables sur les performances d'un modèle entraîné.
La figure 5 (Illustration de l'évolution d'une métrique de performance) illustre la convergence de la métrique de performance vers une valeur asymptotique.
La figure 6 (Simulation du « tuning » pour l'algorithme LightGBM) expose la corrélation entre l'évolution du score de validation, après un certain nombre d'itérations, et celle du « learning rate » du modèle, sous la forme d'une valeur asymptotique constante.
Réalisation de l'invention
L'utilisateur charge - au travers d'un navigateur web - les jeux de données d'entrainement au niveau de notre outil qui réalise les prétraitements (« preprocessing »), la modélisation et le résultat obtenu représente le meilleur modèle correspondant le mieux aux données d'entrainement. Ce modèle permet ainsi d'analyser des données de tests auxquelles sont appliqués les mêmes prétraitements que pour les données d'entrainement, comme le montre la figure 3.
La première hypothèse de l'invention consiste à envisager une analyse des variables contribuant le plus à la performance du modèle (une illustration en est donnée au niveau de la figure 4 au niveau de laquelle le poids de différentes variables sur les performances d'un modèle entraîné) indifféremment de la technologie sous-jacente, que ce soit un modèle simple ou bien un métamodèle.
En outre, le volet modélisation est une étape fondamentale pour des prédictions fiables. Les prédictions sont réalisées en appliquant successivement différents modèles puis en les mélangeant en se basant sur des critères de diversité. En effet, l'entrainement est effectué d'abord sur la base de plusieurs modèles de ML puis sur la base d'approches de combinaisons, avec des regroupements entre ces différents modèles. Le traitement permettant d'obtenir les meilleurs résultats (selon les métriques de performances considérées, par exemple l'AuC qui représente l'aire sous une courbe ROC ou le score de validation croisée - cv- score,etc.) entre ces différentes approches (modèles seuls et issus de combinaisons) est celui qui sera à la base des prédictions.
Quel que soit le jeu de données, l'outil permet d'obtenir des prédictions approchées dès les premiers calculs sans attendre que l'ensemble des estimations soient effectuées puis que les estimations tendent vers une valeur asymptotique (comme l'illustre la figure 5), indiquant une erreur de prédiction de plus en plus faible au cours du traitement.
Il est à souligner que chaque métamodèle est lui-même un modèle dérivé plus performant que les modèles de base qui le constituent. Le métamodèle est obtenu lui-même par une phase d'apprentissage automatisée. Cet apprentissage considère en entrée les prédictions obtenues en cross validation et métamodèle peut également servir de modèle de base à un futur métamodèle de niveau plus élevé.
Une étape finale de sélection du meilleur modèle (modèle de base ou métamodèle) permet alors de sélectionner le modèle le plus performant selon la métrique de performance de chacun, obtenu en cross validation.
L'outil, associant la masse des données en continu d'entraînement ou de tests à des algorithmes, permet une sélection de variables, la transformation de ces données en unités, leur enrichissement avec des données supplémentaires issues d'autres sources ou de résultats de calculs, lesdits moyens étant susceptibles de porter des informations prédictives, le développement du meilleur modèle prédictif, sa validation, pouvant consister en la combinaison de plusieurs modèles et de leurs hyperparamètres, l'optimisation des modèles étant fondée sur des métriques de performances obtenues sans écriture de code ni de définition des hyperparamètres de la part de l'utilisateur de la solution.
L'outil permet donc la détermination des hyperparamètres adéquats pour les différents modèles et jeux de données. De manière générale, la définition de la meilleure combinaison d'hyperparamètres pour un algorithme de machine learning est extrêmement complexe car elle dépend aussi des jeux de données d'entrées et peut nécessiter de longs tests sur différentes combinaisons. Tester l'ensemble des combinaisons possibles est une approche trop coûteuse en puissance de calcul, voire irréalisable. Ainsi, la première idée était de déterminer une valeur maximum et minimum pour chaque hyperparamètre puis de générer une distribution aléatoire de potentielles valeurs d'hyperparamètres. Par la suite, la meilleure combinaison d'hyperparamètres suite aux tests (par rapport aux métriques de performances) est considérée pour les prédictions.
Cette approche a ensuite évolué en déterminant les meilleures plages et distributions d'hyperparamètres, se basant sur une approche expérimentale avec une simulation du « tuning » des hyperparamètres pour différents modèles de ML.
L'invention considère plusieurs jeux de données d'entrées et définit une fenêtre très large d'hyperparamètres puis s'appuie sur une méthode Grid Search afin de comprendre les relations pouvant exister entre chaque hyperparamètre candidat et les performances du modèle. L'outil obtient un premier score au moyen de la connaissance par retour en arrière de la contribution élémentaire de chacune des variables dans le modèle élémentaire et de l'entraînement de l'algorithme se battant contre l'aléatoire.
Pour donner un exemple de résultat de cette démarche, s'agissant de LightGBM, les résultats des simulations montrent qu'après un certain nombre d'itérations, le score de validation décroit et tend vers une valeur asymptotique constante.
[NB : Framework pour l'algorithme GBM - Gradient Boosted Machine (https://github.com/Microsoft/LightGBM); Pas d'échantillonnage de la descente du gradient]
De plus, comme il est signalé au niveau de la figure 6, cette asymptote semble corrélée au « learning rate » du modèle. Cette approche a permis d'analyser les hyperparamètres puis d'effectuer les Développements expérimentaux afin que l'outil puisse effectuer une meilleure détermination de ceux-ci et de manière non assistée à travers une méthode de recherche propriétaire.
Une première méthode de recherche des hyperparamètres fait appel à une inférence bayesienne des hyperparamètres pour lesquels la distribution des hyperparamètres à priori est progressivement adaptée en fonction de chacun des résultats expérimentaux obtenus via la plateforme d'AutoML-L'outil obtient ainsi une meta-modélisation par un processus d'inférence bayesienne.
Une deuxième méthode de recherche des hyperparamètres fait appel à une méthode d'apprentissage par renforcement :
• La première étape utilise un système de recommandation pour proposer des hyperparamètres candidats en fonction du « use case ».
• Dans la seconde étape concrètement ces hyperparamètres sont évalués sur le jeu de données, en utilisant la métrique d'évaluation. Sont construits ainsi n tuples de la forme (hyperparamètres, score de cross-validation).
Le but de la démarche est de rechercher un jeu d'hyperparamètres qui maximise la performance. Cependant, la fonction d'évaluation (qui passe par l'entraînement complet d'un modèle avec un jeu d'hyperparamètres) étant coûteuse, le nombre d'appel à cette dernière est limité.
Pour ce faire, l'outil obtient une meta-modélisation par un processus d'apprentissage par renforcement en déplaçant la charge de travail de l'évaluation des hyperparamètres (très coûteuse) à la recherche d'hyperparamètres à fort potentiels (raisonnablement coûteuse). Ceci est fait à travers un modèle probabiliste de la fonction d'évaluation obtenu par renforcement, sur la base des couples candidats proposés dans la première étape (les actions étant les hyperparamètres et la récompense étant le score obtenu en cross-validation).
Une troisième méthode de recherche des hyperparamètres fait appel au calcul quantique. La méthode quantique est d'évaluer dans l'espace des phases quantiques une approximation du score de cross-validation. En appliquant une superposition de l'ensemble des hyperparamètres, la méthode recherche opérationnelle dite algorithme de Grover permet alors de favoriser la probabilité d'observer un jeu d'hyperparamètres parmi les plus favorables (au sens du score de cross validation). Cette méthode, qui consiste à remplacer les algorithmes par le calcul quantique, permet d'accélérer de façon quadratique le tirage d'hyperparamètres parmi les meilleurs.
La plateforme prevision. io prend dans ces conditions en charge la totalité de ces trois méthodes : évaluation du score de cross-validation, observation d'un jeu d'hyperparamètres parmi les plus favorables et tirage accéléré d'hyparamètres sans aucune intervention humaine.
En dernier lieu, la mise en production des modèles de prévisions est également externalisée automatiquement et à la demande, en dehors de la plateforme, vers des places de marché privées ou publiques. Depuis ces plateformes, les utilisateurs peuvent consommer des prédictions performantes en autonomie de la plateforme AutoML et les propriétaires du modèles prédictifs peuvent monitorer l'utilisation et la performance en conditions réelles. La mise en production rend ainsi les modèles accessibles dans des places de marchés privées et publiques.

Claims

REVENDICATIONS :
1. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs, caractérisé en ce qu'un outil, hébergé sur une plateforme d'autoML, associant une masse des données d'entraînement ou de tests à des algorithmes associant la masse des données d'entraînement ou de tests à des algorithmes obtient un premier score au moyen de la connaissance par retour en arrière de la contribution élémentaire de chacune des variables dans le modèle élémentaire et de l'entraînement de l'algorithme écartant l'aléatoire.
2. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs selon la revendication 1, caractérisé en ce qu'un outil permet le déploiement continu des données et l'obtention de prédictions approchées dès les premiers calculs sans attendre que l 'ensemble des estimations soient effectuées.
3. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta- modèles prédictifs selon les revendications 1 et 2, caractérisé en ce qu'un outil obtient une meta- modélisation par un processus d'inférence bayesienne.
4. Système de machine d'apprentissage automatisé capable de créer rapidement des modèles ou meta-modèles prédictifs selon les revendications 1 à 3, caractérisé en ce qu'un outil obtient une meta- modélisation par un processus d'apprentissage par renforcement.
5. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs selon les revendications 1 à 4, caractérisé en ce que les algorithmes sont remplacés par le calcul quantique, ce qui permet d'accélérer de façon quadratique le tirage d'hyper paramètres parmi les meilleurs.
6. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs selon les revendications 1 à 5, caractérisé en ce que la plateforme met en production et monitore des modèles ou meta-modèles prédictifs autonomes, totalement indépendants de la plateforme, incorporant à la fois une méthode d'apprentissage autonome et d'observation des hyperparamètres.
PCT/EP2020/025572 2020-12-10 2020-12-10 Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage WO2022122108A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/EP2020/025572 WO2022122108A1 (fr) 2020-12-10 2020-12-10 Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2020/025572 WO2022122108A1 (fr) 2020-12-10 2020-12-10 Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage

Publications (1)

Publication Number Publication Date
WO2022122108A1 true WO2022122108A1 (fr) 2022-06-16

Family

ID=74141427

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/025572 WO2022122108A1 (fr) 2020-12-10 2020-12-10 Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage

Country Status (1)

Country Link
WO (1) WO2022122108A1 (fr)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LENTZAS ATHANASIOS ET AL: "Hyperparameter Tuning using Quantum Genetic Algorithms", 2019 IEEE 31ST INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI), IEEE, 4 November 2019 (2019-11-04), pages 1412 - 1416, XP033713805, DOI: 10.1109/ICTAI.2019.00199 *
LI YANGYANG ET AL: "Quantum inspired high dimensional hyperparameter optimization of machine learning model", 2017 INTERNATIONAL SMART CITIES CONFERENCE (ISC2), IEEE, 14 September 2017 (2017-09-14), pages 1 - 6, XP033243915, DOI: 10.1109/ISC2.2017.8090826 *
SZWARCMAN DANIELA ET AL: "Quantum-Inspired Neural Architecture Search", 2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), IEEE, 14 July 2019 (2019-07-14), pages 1 - 8, XP033622291, DOI: 10.1109/IJCNN.2019.8852453 *
WU JIA ET AL: "Efficient hyperparameter optimization through model-based reinforcement learning", NEUROCOMPUTING, ELSEVIER, AMSTERDAM, NL, vol. 409, 23 June 2020 (2020-06-23), pages 381 - 393, XP086249268, ISSN: 0925-2312, [retrieved on 20200623], DOI: 10.1016/J.NEUCOM.2020.06.064 *
XUDONG SUN ET AL: "ReinBo: Machine Learning pipeline search and configuration with Bayesian Optimization embedded Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 10 April 2019 (2019-04-10), XP081167750 *

Similar Documents

Publication Publication Date Title
Pierson Data science for dummies
Lim et al. Performance optimization of criminal network hidden link prediction model with deep reinforcement learning
Chen et al. Variational knowledge graph reasoning
US20210136098A1 (en) Root cause analysis in multivariate unsupervised anomaly detection
TWI772287B (zh) 問題推薦方法及設備
US10733561B2 (en) System and method for analyzing media for talent discovery
Cao et al. Simple, scalable, and stable variational deep clustering
Teijema et al. Active learning-based Systematic reviewing using switching classification models: the case of the onset, maintenance, and relapse of depressive disorders
EP3588301B1 (fr) Determination automatique et auto-optimisee des parametres d'execution d'une application logicielle sur une plateforme de traitement de l'information
Sossi Alaoui et al. Statistical and predictive analytics of chronic kidney disease
FR3097069A1 (fr) Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage
US20200327477A1 (en) System and method for analyzing media for talent discovery
WO2022122108A1 (fr) Systeme et procede de selection d'action automatisee, mise en oeuvre de ces systeme et procede pour entrainer des machines de prediction et favoriser l'evolution de dispositifs a auto-apprentissage
Percy et al. The need for knowledge extraction: Understanding harmful gambling behavior with neural networks
US20210174163A1 (en) Edge inference for artifical intelligence (ai) models
Papatheocharous et al. A hybrid software cost estimation approach utilizing decision trees and fuzzy logic
EP4242921A1 (fr) Procédé, programme d'ordinateur et dispositif d'entrainement d'un réseau neuronal convolutif à architecture dynamique pour la segmentation sémantique d'image
US20230315439A1 (en) System for enhanced component-level detection in software applications within a computing environment
ELYUSUFI et al. Churn prediction analysis by combining machine learning algorithms and best features exploration
Gomathy et al. Music Classification Management System
EP3649583A1 (fr) Système et procédé d'analyse de support multimédia de découverte de talents
KR20210134290A (ko) 게임 데이터 처리 방법
Vrunda et al. Sentimental analysis of Twitter data and Comparison of covid 19 Cases trend Using Machine learning algorithms
Nájera et al. Predictive model for taking decision to prevent university dropout
Sakhi Offline Contextual Bandit: Theory and Large Scale Applications

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20838348

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20838348

Country of ref document: EP

Kind code of ref document: A1