WO2024076253A1 - Method and system for managing model risk - Google Patents

Method and system for managing model risk Download PDF

Info

Publication number
WO2024076253A1
WO2024076253A1 PCT/RU2022/000305 RU2022000305W WO2024076253A1 WO 2024076253 A1 WO2024076253 A1 WO 2024076253A1 RU 2022000305 W RU2022000305 W RU 2022000305W WO 2024076253 A1 WO2024076253 A1 WO 2024076253A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
data
validation
results
predicted
Prior art date
Application number
PCT/RU2022/000305
Other languages
French (fr)
Russian (ru)
Inventor
Максим Николаевич БЕЛОЗЕРОВ
Александр Николаевич СМИРНОВ
Роман Юрьевич ТИХОНОВ
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Priority to PCT/RU2022/000305 priority Critical patent/WO2024076253A1/en
Publication of WO2024076253A1 publication Critical patent/WO2024076253A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Definitions

  • the presented technical solution relates, in general, to the field of computer technology, and in particular to a method and system for automated model risk management in order to improve both the quality and efficiency of one individual model, and the quality of multiple models operating in the same process through auto-monitoring to check the quality of the model’s work, auto-additional training in case of deterioration in the quality of the model’s work results, followed by automatic launch of new and additionally trained versions of the models into industrial operation.
  • a solution for modeling the risk of a network security breach is also known, disclosed in application US 20180048668 A1, publ. 02/15/2018.
  • one or more agents collect analytical data from multiple sources on the network that identifies the observable characteristics of one or more network nodes, and create using data from the analysis of a multi-layered risk model for the network, which contains a first layer of the model that models the inherent risk of a security breach of network assets based on the observed characteristics of one or more nodes.
  • the disadvantage of the known solutions is the inability to manage model risk by automatically retraining the model on new data. Also, the presented solution does not use a knowledge graph, which reduces the computational load on the system in the process of managing model risk and on the system storage, as well as the dependence on the period of data synchronization between the original source and the graph, which is not used in the presented solution.
  • the technical problem or task posed in this technical solution is to create a simple and reliable method and system for managing model risk.
  • the specified technical result is achieved by implementing a method for automated model risk management, performed by at least one computing device, containing the steps of:
  • the process of auto-training the model is initiated, which contains stages in which: the data supplied to the model input is retrieved from the memory of the runtime environment to obtain the predicted results of the model’s work (updated data) ; determine the method of additional training of the model based on data about the type of model; the model is additionally trained on the updated data according to the method of additional training of the model;
  • the stage of determining the presence of a model risk contains stages in which:
  • a value is determined that characterizes the ratio of parameters indicating that the predicted result of the model corresponds to the actual result to parameters indicating that the predicted result of the model does not correspond to the actual result;
  • auto-validation of the additionally trained model and/or updated data is additionally performed, and the additionally trained model is put into commercial operation if auto-validation of the additionally trained model and/or updated data is successful.
  • the model autovalidation stage contains stages in which:
  • the validation methodology is determined
  • the model autovalidation stage contains stages in which:
  • the validation methodology is determined
  • the model autovalidation stage contains stages in which:
  • the validation methodology is determined
  • the model autovalidation stage contains stages in which:
  • a value is determined that characterizes the ratio of parameters indicating that the predicted result of the alternative model corresponds to the actual result to parameters indicating that the predicted result of the alternative model does not correspond to the actual result;
  • a model risk management system comprising at least one computing device and at least one memory device containing machine-readable instructions that, when executed by at least one computing device, perform the above method.
  • FIG. 1 - an example of the implementation of a model risk management system is presented.
  • FIG. 2 - an example of a method for managing model risk is presented.
  • FIG. 3 - shows an example of a general view of a computing device.
  • a system means, including a computer system, a computer (electronic computer), CNC (computer numerical control), PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given task. , a clearly defined sequence of operations (actions, instructions).
  • command processing device is meant an electronic unit, a computing device, or an integrated circuit (microprocessor) that executes machine instructions (programs).
  • a command processing device reads and executes machine instructions (programs) from one or more storage devices.
  • Storage devices can include, but are not limited to, hard drives (HDD), flash memory, ROM (read-only memory), solid-state drives (SSD), and optical drives.
  • a computing device is a counting and solving device that automatically performs one mathematical operation or a sequence of them in order to solve one problem or a class of similar problems (Great Soviet Encyclopedia. - M.: Soviet Encyclopedia. 1969 - 1978.).
  • Program - a sequence of instructions intended for execution by a computer control device or command processing device.
  • Database (DB) a collection of data organized according to a conceptual structure that describes the characteristics of that data and the relationships between them, a collection of data that supports one or more application areas (ISO/IEC 2382:2015, 2121423 " database”).
  • a signal is a material embodiment of a message for use in the transmission, processing and storage of information.
  • Logic element an element that implements certain logical relationships between input and output signals.
  • Logic elements are usually used to construct logical circuits of computers and discrete automatic monitoring and control circuits. All types of logical elements, regardless of their physical nature, are characterized by discrete values of input and output signals.
  • Automated system is an organizational and technical system that ensures the development of solutions based on the automation of information processes.
  • Model risk the risk of adverse consequences arising from incorrect application of models in organizational processes, for example, Bank and/or inaccuracies (errors) in the operation of models associated with both modeling errors and changes in the surrounding world.
  • AutoML Automatic Machine Learning
  • Runtime (execution) environment the computing environment necessary for the execution of a computer program and available during execution of the computer program.
  • the model risk management system contains: device 1 for developing models, device 2 for validating models, device 3 for making a decision on introducing the model into the industrial environment, runtime environment 4, device 5 for the model library (BM), device 6 for monitoring, device 7 for additional training of the model and device 8 library of ready-to-use techniques.
  • the mentioned devices can be either separate devices connected by well-known wired or wireless data transmission channels, or combined in various ways into a single device, for example, by placing them in a single housing, for example, on a single printed circuit board through well-known assembly operations, and data between the mentioned devices is transmitted by generating appropriate signals.
  • the device 1 for developing models can be implemented on the basis of at least one computing device, implemented in hardware and software in such a way as to provide the user with the ability to create (develop) models from scratch or find, select and reuse ready-made models in new business processes .
  • the modeling process by device 1 may include the following steps:
  • - data transformation preprocessing necessary to bring the data to a format suitable for training and/or application of the model, for example, filling in missing values in the data, calculating aggregates and generating additional features, encoding information
  • the model validation device 2 may be implemented on the basis of at least one computing device implemented in hardware and software in such a way as to provide the user with the opportunity to conduct a comprehensive quality check of the model, which includes:
  • model risk for classes of models with an approved methodology for calculating model risk
  • the device 2 can be equipped with an autovalidation module 20, through which validation tests are automatically and periodically carried out for models that have been put into commercial use.
  • the autovalidation module 20 can be made on the basis of the software and hardware of the device 2, equipped, for example, with corresponding logical elements on transistors, placed by well-known methods on a printed circuit board in such a way as to perform the functions assigned to the module 20.
  • an alternative model can be automatically constructed as part of model validation.
  • validation method algorithms are selected from a library of methods (device 8) suitable for the received type of model, for example, for a credit scoring model, the validation method represents the rules for correlating the scoring score and the probability of the target. If an algorithm for a validation technique is not found in device 8 of the method library, then using device 2 the user can develop a validation method, as well as methods for training and/or additional training of the model, which can be saved in said device 8 for subsequent reuse.
  • the validation technique (validation technique) can be saved in the form of ready-to-run executable code/module/workflow.
  • the model can be improved, despite the fact that the model validation is in the green zone (all final traffic lights are green - this means that the validation result is positive, where one traffic light is the result of some model verification, which is part of some validation methodology, and there is a main traffic light, which is an aggregation of the results of all traffic light checks and shows the total result of the entire validation methodology), but during the validation, opportunities for its significant improvement were identified, for example, the rule for correlating the scoring score and the probability of the target was not included events in such a way that the average long-term level of the target event is equal to the average long-term forecast value of the probability of this event.
  • the validator or system automatically selects an algorithm that has higher validation results or changes the process of working with input data taking into account this rule.
  • the most successful methods for predicting events that are relevant for a given set of types of models are selected, or appropriate recommendations can be formulated based on the test results.
  • This stage also allows you to check whether it is possible to obtain: a simpler model that requires less implementation and support costs in an industrial circuit; a more efficient model, the implementation of which makes it possible to increase the accuracy of predictions with minimal consumption of resources and/or computation time.
  • device 2 can be used for semi-automation of the primary validation process during the iterative process of developing the first version of the model by a data scientist, where the data scientist periodically launches the validation methodology himself, for example, through the API interface and refines (retrains) the model based on the results of such validation (without participation of the validator in processes where such an opportunity is provided).
  • the result of the stage of passing validation tests is an assessment of the quality of the model in quantitative and/or qualitative dimensions, which serve as the basis for allowing the model to be put into commercial operation.
  • Simulation and validation artifacts are stored in the BM device 5 to be captured for later analysis or provided to regulatory authorities upon request, and development and validation reports are sent to interested parties. If the result is positive, the model will be put into production operation and automatic monitoring of its quality control is configured.
  • the developed validation methodology is periodically launched in automatic mode, the results of which, if an unacceptable loss in the quality of the model’s performance is detected, are the basis for making a decision on the need to additionally train the model, either in manual or automatic modes and/or remove such a model from operation.
  • the additionally trained model (new version of the model) is also subject to validation in module 20 (autovalidation using the same validation methodology that was used for automonitoring). And in case of a positive result of autovalidation in device 3, a decision can be made to bring the additionally trained model into commercial operation of device 4.
  • model validation device 2 by means of the model validation device 2, as part of the validation, an assessment of the model risk can be carried out, characterizing its magnitude.
  • the user of device 2 creates a mathematical model that adapts to the described business process.
  • the system generates data on the amount of model risk that will arise when using the current model and an automatically created alternative model, if such a model is built.
  • the predicted deterioration in the quality of the model’s performance and the potential effect of reducing the magnitude of the model risk can be calculated, in which, periodically or, when a trigger is triggered for a decrease in auto-validation indicators, automatic additional training, auto-validation and automatic launch of a new version (for example, additionally trained) of the model into commercial operation are carried out. or removing the model from service under certain conditions.
  • the device 3 can be implemented on the basis of at least one computing device configured in hardware and software in such a way as to make the following decisions: 1 a decision to launch into commercial operation (into runtime 4) a new model after initial validation, or a new version of the model after auto-training in device 7 based on the results of auto-validation in module 20; 2. decision on the need for auto-training of the model in device 7 based on the results of auto-monitoring in device 6 or periodic validation of the model according to a given schedule or in accordance with the received validation command. If the validation result is negative, then module 3 makes a decision about the need for additional training of the model.
  • validation of the model and the additionally trained model on updated data can also be carried out, within the framework of which the quality indicators of the models, for example, the magnitude of model risk, can be compared to make a decision on putting the additionally trained model into commercial operation.
  • Runtime 4 is hosted in a production environment and may be implemented on at least one computing device configured to connect to an unlimited number of external data sources to collect data for processing by at least one model to produce prediction results .
  • runtime 4 may be an automated system hosted by any organization, and in a particular example a banking system, and may be configured to analyze, through a model, customer transaction and credit product data for the purpose of predicting the value of credit risk, in alternative embodiments, for example, a forecast for the occurrence of an insured event for a motorist based on statistics of traffic violations or medical forecasts for the development of diseases based on analysis data and information about the patient’s lifestyle.
  • runtime 4 can be part of the presented model risk management system or be an external system.
  • the BM device 5 can be implemented by widely known methods, for example, those disclosed in patent RU2724799C1, publ. 06/25/2020, and be at least one database designed for storing modeling artifacts, including, for example, model coefficients and an algorithm for processing incoming data, written in any of the known programming languages; sample data that was used to train the model; reports on model development and validation, which can be presented in a pre-selected free format.
  • modeling artifacts including, for example, model coefficients and an algorithm for processing incoming data, written in any of the known programming languages; sample data that was used to train the model; reports on model development and validation, which can be presented in a pre-selected free format.
  • the model monitoring device 6 may be implemented on the basis of at least one computing device configured to connect to the primary data source, including the runtime environment 4, to automatically monitor the operation of the model.
  • the autovalidation process is periodically initiated by sending the corresponding command to module 20, where the validation methodology is automatically launched on updated data related to the operation of the model.
  • device 6 configures its own monitoring schedule.
  • the launch of the validation methodology can be initiated not only according to a schedule, but also by any other method, for example, through the open API of device 6.
  • the results of auto-validation are transferred to device 3 to make a decision on the need to further train the model in the event, for example, of a negative validation result and can be transferred to device 5 for saving history of monitoring of each model.
  • the device 7 for additional training of the model can be implemented on the basis of at least one computing device, implemented in the hardware and software part in such a way that, after making a decision about the need to additionally train the model by device 3, ensure automatic additional training of the model on updated data with the ability to configure training for each individual models to work with updated data, by referring to the original source of this data, and/or changing the algorithm of the model, if the alternative model obtained as a result of the work of device 2, for example, showed a better efficiency assessment, i.e., for example, more green traffic lights in the validation report. If the efficiency indicators of the main and alternative models are the same, for example, the speed of obtaining the final result can be taken into account; the one that gets the required indicator faster than its alternative will have priority.
  • Method Library device 8 can be implemented on the basis of at least one computing device, implemented in hardware and software in such a way that users of the system or in automatic mode have the opportunity to save developed and ready-to-use new methods that can be reused later for , for example, carrying out auto-validation or auto-additional training.
  • the model risk management system operates as follows.
  • modeling artifacts of at least one model from the model development device 1 are supplied to the model validation device 2.
  • the resulting model data may contain: in particular, the model identifier, model coefficients and an algorithm for processing incoming data; sample data that was used to train the model; report on model development, etc.
  • the model is intended for forecasting the client’s credit risk and making a decision on issuing or refusing to issue a patent, then these models may contain:
  • the modeling artifacts can be loaded automatically or upon user request into the BM device 5.
  • the obtained data can also be used to validate models in device 2.
  • Model validation is a multi-stage process covering the stage of collecting information/data, studying the model, preparing a validation sample, comprehensive analysis of the model, ending with the preparation of a report documenting the identified weak areas of the model and recommendations for their possible solution.
  • Model validation is usually carried out on the same data on which the model was trained, but does not exclude the preparation of special validation samples.
  • the generated sample for validation must correspond to the data characterizing the target segment on which the model is planned to be used.
  • Model developers provide the validation department via device 1 or device 5 with data specifications (examples of scripts for downloading data, rules for generating data sets, example data, etc.), as well as a link to centralized data sources used in developing and testing models.
  • the data provided by the developer should contain:
  • Modeling object identifiers for example: a. D applications; b. D loan agreement; c. Date of the loan agreement;
  • Target event implementation flag e. Date of implementation of the target event; f. The reason for the implementation of the target event.
  • modeling artifacts can be unambiguously extracted, including user transaction data, credit history, and other data that can be used in model training and validation.
  • This information can be extracted from any database, including from the BM device 5, if this data was previously loaded into it.
  • Representative samples for the purposes of model validation can be formed, for example, according to the following algorithm: observations are selected taking into account the requirement that the structure of the general population and the representative sample match the segments and the actual level of the target event (for example, the default rate). To do this, the entire set of observations according to the model is divided into two subsets: observations with a realized and unrealized target event. A random selection method is then applied to each subset based on the established selection percentage. The selection percentage for each subset is the same, which ensures an identical structure of target events in the population and sample.
  • the process of model validation consists of analyzing data quality in samples, qualitative and quantitative analysis of the model (see, for example, the article “Validation of machine learning models”, htps://habr.com/ru/company/glowbyte/blog /569970/).
  • the general structure of the tests used for qualitative and quantitative analysis is a list of tests used in the validation process to assess the effectiveness and quality of the models.
  • the purpose of the tests is to evaluate the quality of the algorithms used, analyze the operating features of the model and its components, and compare the quality of the result obtained with the declared or required quality, as well as the quality observed during development.
  • Assigning a green color to a group of tests means that the model meets the criteria set for it and can be introduced into the industrial environment automatically in its current form. If the color is yellow, the model can be released into an industrial environment, but if certain conditions are met (acceptance of risks by the owner, for example) and, as a rule, not in automatic mode. When the traffic light is red, the model is usually not launched into an industrial environment.
  • results of each test in the validation report are usually provided with information about the samples that were used to conduct this test, including the names of the tables in the internal database. Summary characteristics of all samples used during validation (for example, default rate, average probability of default, number of observations, etc.) are also provided in the validation report in the “Data Used” section in an aggregated form.
  • Qualitative analysis includes a preparatory phase and a testing phase of the model structure and is intended to evaluate the quality and appropriateness of the choice of model option/factors when compared with similar models.
  • special attention is paid to the prerequisites used in the cleaning/modification of primary data for development, for example: Does the selected modeling approach correspond to the current methodology for developing models for assessing the probability of default / the approach adopted by the bank or does the modeling take into account all significant information that affects the borrower’s risk .
  • the model validation procedure carried out by the user of the model validation device 2 is stored by said user in the memory of the device 2 as a workflow.
  • the saved validation procedure may contain: data about the model type, for example, model identifier; data on model coefficients that need to be validated; data on threshold values of model coefficients; list of stages of the data processing algorithm; references to data in the data sample that should be validated; threshold values of data in the data sample and the threshold value of the model risk, etc.
  • the saved validation technique can be used by the autovalidation module 20 to validate the model in an automated mode.
  • the result of model validation carried out automatically by the system or by the user is stored in the device 5 Library Models.
  • the system automatically, through device 3 or the user, makes a decision to put the model into commercial operation using the following algorithms:
  • an action plan is generated to eliminate the model’s deficiencies and includes it in the model validation report.
  • the model is put into commercial operation by transmitting the model data by device 3 or device 5 to said runtime environment 4, after which the runtime environment processes the data through the received model in order to obtain predicted results of the model. All obtained results are stored in the database of the mentioned runtime environment 4 or can be given to consumers upon request, including for auto-monitoring (periodic validation of such a model) or for auto-additional training. The results of monitoring and additional training are saved in device 5 BM. Along with each predicted result of the model, updated data that was fed to the model input can also be saved for further auto-training.
  • the runtime 4 will collect transaction data regarding at least one user, transmitting said transaction data, for example, in the form vectors to the input of the said model, determining the value of the model risk based on transaction data and obtaining the predicted result of the said model, indicating that the client will repay the loan or not repay the loan.
  • the predicted result of the model is stored in the database of said runtime environment 4 along with transaction data submitted to the input of said model. Also the predicted results of the model can be transferred to external systems upon their request.
  • information about the actual result for this predicted result can be added.
  • Said actual result information can be added either by the user of the runtime environment 4 or collected using well-known automated data collection methods and tools.
  • Information about the actual result is usually added with some time delay, but for some systems the information mentioned can be added simultaneously with the predicted result of the model.
  • the model predicts that a customer will repay a loan, then the customer is issued a loan and subsequently factual information is stored indicating that the customer has or has not repaid the loan. Accordingly, if the model predicted that the client will not repay the loan, then the actual result is not saved, since the loan is not issued to the client.
  • the model monitoring device 6 can, using known methods, for example, according to a schedule set by the developer or the administrator of the environment 4, connect (101) to the runtime environment 4, in particular to the database or its replicas, to obtain data related to the work model, including, for example, the predicted results of the model and the actual results for a period of time specified by the developer and assign to each predicted result of the model a parameter indicating that the predicted result corresponds or does not correspond to the actual result or is within the range of acceptable deviations from the actual result , wherein the interval can be set by the developer or administrator of said device 7 or obtained, for example, from device 5, where meta-information about the models is stored, including threshold values, intervals and other model attributes.
  • the runtime database 4 stores a predicted model output indicating that the customer will repay the loan, and the actual result indicates that the customer has repaid the loan
  • device 6 assigns a parameter to the predicted model output, indicating that said predicted result matches the actual result.
  • the runtime database 4 stores the predicted result of the model indicating that the client will repay the loan, and the actual result indicates that the client did not repay the loan
  • device 6 assigns to the predicted result of the model a parameter indicating that that the said predicted result does not correspond to the actual result.
  • Certain mentioned parameters are then transmitted by the monitoring device 6 to the autovalidation module 20, which, based on the received parameters, determines a value characterizing the ratio (for example, percentage) of the parameters indicating that the predicted result of the model corresponds to the actual result to the parameters indicating that the predicted result of the model does not correspond to the actual result.
  • the obtained value is compared by device 2 with the interval of threshold values established for a given model, for example, by the developer or owner of the model in device 5 BM, which characterizes the absence of model risk.
  • device 2 transmits the results about the presence (102) of a model risk to decision-making device 3, which in turn determines and makes a decision, based on the above mentioned results, about the need for auto-training (103) of the model installed in runtime 4.
  • the decision-making device 3 initiates the operation of the additional training device 7, which, to carry out auto-training, retrieves from the database of the runtime environment 4 updated data related to the operation of the model for a given period of time, for example, data supplied to the input of the model, predicted results of the model’s operation and actual results and possibly other data suitable for the type of model specified by the device 7 and specified in the model development report or in its parameters, after which it retrieves model metadata from the BM device 5, in particular model coefficients, threshold values, etc. ., an algorithm for processing incoming data, and can also extract additional training methods from device 8 and carry out additional training in automatic mode.
  • additional training can be carried out in device 4, where the additional training technique must be implemented as some part of the supplied model.
  • additional training of the model can be performed with the preliminary decommissioning of the model.
  • the additional training device 7 using known methods, performs additional training of the model on previously extracted data, and the resulting artifacts of the new additional trained version of the model are saved (fixed) in the BM device 5 and sent to the autovalidation module 20 located in device 2.
  • the autovalidation module 20 validates the additionally trained model.
  • module 20 determines a validation methodology based on the model type.
  • Information about the type of model can be contained in data about the model and the additionally trained model stored in the BM device 5, and can be found, for example, by the identifier (ID) of the model.
  • module 20, through device 2 sends a request with the model ID to BM device 5, which stores the correspondence between model IDs and their type, and which in response sends the model type, according to which module 20 retrieves the corresponding model validation technique from device 8.
  • the model IDs and model types may be stored in a memory of the device 2 with which it may be equipped.
  • module 20 may determine model coefficients to be validated.
  • module 20 retrieves a data sample for a given type of model, which is intended for validating the model coefficients, and the specified results of the model associated with the said sample.
  • the data samples and the corresponding model outputs may be preset in the memory of the module 20 or in any other memory area of any other device to which the module 20 has access.
  • said data sample may contain data on customer transactions, their income, etc. , and the given results of the model can indicate whether the client has repaid the loan or not.
  • the above-mentioned data sample is then fed by module 20 to the input of the additionally trained model to obtain the results of the model, which are compared with the specified results of the model for the said data sample. If the obtained mentioned results correspond to the specified results of the model, then module 20 generates a solution indicating that the coefficients of the additionally trained model have passed the validation process. Accordingly, if the obtained mentioned results do not correspond to the specified results of the model, then module 20 generates a decision indicating that the coefficients of the additionally trained model did not pass the validation process.
  • the autovalidation module 20 can additionally extract from the data characterizing the validation technique a list of stages of the data processing algorithm and compare it with the stages of the data processing algorithm of the additionally trained model. If all the stages from the mentioned list are present in the data processing algorithm of the pre-trained model, then module 20 generates a solution indicating that the pre-trained model has passed the validation process in terms of the data processing algorithm. Accordingly, if at least one stage is missing, then module 20 generates a solution indicating that the retrained model in terms of the data processing algorithm has not passed the validation process.
  • the autovalidation module 20 can additionally, based on data about the validation methodology, determine updated data in the data sample that was used to further train the model and which must be validated. Next, the mentioned module 20 extracts from the data sample that was used for additional training of the model, the data that should be validated, and compares them with the data threshold values or a range of threshold values. For example, the data that should be validated may be characterized by missing data (for example, age is not specified for calculating a credit score), the number of duplicate data, the number of anomalies in the data, etc.
  • module 20 determines whether the data that should be validated corresponds to the declared parameters (for example, threshold values). If the data that should be validated corresponds to the declared parameters (for example, threshold values), then module 20 generates a decision indicating that the data that was used to further train the model has passed the validation process. Otherwise, module 20 generates a decision indicating that the data that was used to further train the model did not pass the validation process. Additionally, as part of the validation of updated data in the data sample, the impact of gaps, duplicate data, anomalies and data exceeding threshold values on the quality of the model can be checked, as well as the representativeness and relevance of the data can be assessed, and stability can be checked population and data characteristics, stress testing of the impact of data changes on the quality of the model was carried out.
  • the declared parameters for example, threshold values
  • module 20 can additionally submit to the input of the pre-trained model that has undergone the validation procedure, the data that was used to re-train the model to obtain predicted results of the pre-trained model.
  • the obtained said predicted results are compared by module 20 with the actual results stored for the said data, which were used for additional training of the model, stored in the BM device 5, after which module 20 assigns to each predicted result of the additional trained model a parameter indicating that the said predicted result corresponds or does not correspond to the actual result.
  • module 20 based on the parameters obtained above, can determine a value characterizing the ratio (for example, percentage) of parameters indicating that the predicted result of the pre-trained model corresponds to the actual result to parameters indicating that the predicted result of the work the pretrained model does not correspond to the actual result.
  • the obtained value is compared by module 20 with the interval of threshold values of the model risk value established for this model, for example, by the developer of the mentioned module 20, characterizing the absence of model risk.
  • module 20 decides that the additionally trained the model has not passed the validation procedure, after which it transmits the validation results to the decision-making device 3, which in turn determines and makes a decision, based on the obtained mentioned results, if necessary, to take the model out of service if it has not previously been taken out of service .
  • module 20 decides that the additionally trained model has passed the validation procedure, and decision-making device 3 makes decision to put the model into commercial operation (104), i.e. to runtime 4.
  • the achievement of the specified technical result is achieved, which consists in providing the ability to manage model risk automatically without human intervention.
  • the accuracy of model risk management can be increased by performing auto-validation of the additionally trained model and/or updated data before putting the additionally trained model into commercial operation.
  • additional training of the model is carried out on updated data extracted from the runtime environment for a given period of time, the computational load on the computing device that performs additional training of the model is reduced, since the said device does not need to store and process the entire array of data received as the input of the model.
  • the autovalidation module 20 after determining that the mentioned value characterizing the ratio of parameters is within the threshold value interval, can extract from device 2 or device 5 BM data about at least one alternative model for the type the additionally trained model, and then send the mentioned updated data, which was used for additional training of the model, to the model input to obtain the predicted results of the alternative model.
  • the obtained said predicted results are compared by module 20 with the actual results stored for said updated data, which were used for additional training of the model, in the BM device 5, after which module 20 assigns to each predicted result of the alternative model a parameter indicating that the said predicted result corresponds or does not correspond to the actual result.
  • the autovalidation module 20 can determine (in the manner described above) a value characterizing the ratio of parameters indicating that the predicted result of the alternative model corresponds to the actual result to parameters indicating that the predicted result of the work the alternative model does not correspond to the actual result.
  • the received mentioned value by module 20, together with the value obtained for the alternative model is sent to device 3, which compares the received values and if the mentioned value obtained for the alternative model is greater than the value obtained for the additionally trained model, then device 3 decides to output an alternative model into industrial operation, i.e. to runtime environment 4. If the value obtained for the alternative model is less than the value obtained for the additionally trained model, then device 3 decides to put the additionally trained model into commercial operation.
  • device 3 determines the speed of operation of the additionally trained and alternative models.
  • device 3 sends a corresponding request to the autovalidation module 20, which can be equipped, for example, with a counter - an electronic device for determining the degree of accumulation of any value over time, by integrating the value of the current measurement.
  • module 20 using a counter, records the time value of sending the data model to the input and the time value of obtaining the predicted result of the model's operation and, on their basis, determines the value of the model's operation speed.
  • module 20 sends the operating speed values of the additionally trained and alternative models to device 3, which compares the obtained values and puts into commercial operation the model whose speed value is lower.
  • module 20 can estimate the amount of computing resources used to process updated data by the retrained model and the alternative model. For example, the load on RAM, processor, hard drive, etc. during data processing by the mentioned models can be assessed. Accordingly, the model that consumes less computing resources can be put into commercial operation.
  • a computing device contains one or more processors (201), memory devices such as RAM (202) and ROM (203), and interfaces connected by a common information exchange bus.
  • input/output devices 204
  • input/output devices 205
  • network communication device 206
  • the processor (201) may be selected from a variety of devices commonly used today, for example, from manufacturers such as: IntelTM, AMDTM, AppleTM, Samsung Exynos TM, MediaTEKTM, Qualcomm SnapdragonTM, etc.
  • the processor or one of the processors used in the device (200) must also include a graphics processor, for example an NVIDIA GPU with a CUDA-compatible programming model or Graphcore, the type of which is also suitable for carrying out the method in whole or in part, and can also be used for training and application of machine learning models in various information systems.
  • a graphics processor for example an NVIDIA GPU with a CUDA-compatible programming model or Graphcore, the type of which is also suitable for carrying out the method in whole or in part, and can also be used for training and application of machine learning models in various information systems.
  • RAM (202) is a random access memory and is designed to store machine-readable instructions executed by the processor (201) to perform the necessary logical data processing operations.
  • the RAM (202) typically contains executable operating system instructions and associated software components (applications, program modules, etc.). In this case, the available memory capacity of the graphics card or graphics processor can act as RAM (202).
  • the ROM (203) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
  • HDD hard disk drive
  • SSD solid state drive
  • EEPROM electrically erasable programmable read-only memory
  • NAND flash memory
  • optical storage media CD-R/RW, DVD-R/RW, BlueRay Disc, MD, etc.
  • I/O interfaces To organize the operation of device components (200) and organize the operation of external connected devices, various types of I/O interfaces (204) are used. The choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • various means (205) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the network communication means (206) provides data transmission via an internal or external computer network, for example, an Intranet, the Internet, a LAN, etc.
  • One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.
  • satellite navigation tools can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The claimed solution relates to a method and system for the automated management of model risk. A method for the automated management of model risk, implemented using at least one computing device, comprises the steps of: connecting to an execution environment to obtain data related to the performance of a model, containing predictions made by the model and the actual outcomes corresponding to said predictions; determining, on the basis of the model predictions and the corresponding actual outcomes, the existence of a model risk, and initiating a process of self-fine-tuning of the model, comprising the steps of: extracting, from the memory of the execution environment, data that can be provided as input to the model in order to obtain model predictions (updated data); determining a methodology for fine-tuning the model on the basis of data about the model type; fine-tuning the model on the updated data in accordance with the model fine-tuning methodology; releasing the fine-tuned model for commercial use in the execution environment. The technical result is that of enabling automated model risk management without human involvement.

Description

СПОСОБ И СИСТЕМА УПРАВЛЕНИЯ МОДЕЛЬНЫМ РИСКОМ METHOD AND SYSTEM FOR MODEL RISK MANAGEMENT
ОБЛАСТЬ ТЕХНИКИ TECHNICAL FIELD
[0001] Представленное техническое решение относится, в общем, к области вычислительной техники, а в частности к способу и системе автоматизированного управления модельным риском с целью повышения как качества и эффективности работы одной отдельно взятой модели, так и качества множества моделей, работающих в одном процессе за счет проведения автомониторинга для проверки качества работы модели, автодообучения в случае ухудшения качества результатов работы модели с последующим автовыводом новых и дообученных версий моделей в промышленную эксплуатацию. [0001] The presented technical solution relates, in general, to the field of computer technology, and in particular to a method and system for automated model risk management in order to improve both the quality and efficiency of one individual model, and the quality of multiple models operating in the same process through auto-monitoring to check the quality of the model’s work, auto-additional training in case of deterioration in the quality of the model’s work results, followed by automatic launch of new and additionally trained versions of the models into industrial operation.
УРОВЕНЬ ТЕХНИКИ BACKGROUND OF THE ART
[0002] Из уровня техники известны системы и способы обогащения средств моделирования инфраструктуры семантикой, раскрытые в заявке US 20190340518 А1 , опубл. 07.11.2019. В известных решениях осуществляют: создание графа знаний рабочего процесса на основе информации, полученной через интерфейс прикладного программирования (API) системы моделирования, и сохранение графа знаний в системе хранения системы моделирования, при этом граф знаний идентифицирует по меньшей мере один модуль мониторинга модели и модуль оценки модели рабочего процесса; обнаружение неожиданных входных данных во время обработки рабочего процесса, включающее: во время выполнения модуля оценки модели системой моделирования и для каждого признака наборов производственных данных, используемых модулем оценки модели: автоматическое сравнение производственного распределения значений признаков с эталонным распределением значений признаков для признака, и в случае, когда результаты сравнения удовлетворяют условию оповещения, предоставление оповещения внешней системе, указывающее на обнаружение неожиданных входных данных, причем качество работы самой модели в известном решении не оценивается. [0002] Systems and methods for enriching infrastructure modeling tools with semantics are known from the prior art, disclosed in application US 20190340518 A1, publ. 07.11.2019. Known solutions involve: creating a workflow knowledge graph based on information received through the application programming interface (API) of the modeling system, and storing the knowledge graph in the storage system of the modeling system, wherein the knowledge graph identifies at least one model monitoring module and an evaluation module workflow models; detection of unexpected input data during workflow processing, including: during execution of the model estimator by the modeling system and for each feature of the production data sets used by the model estimator: automatic comparison of the production distribution of feature values with the reference distribution of feature values for the feature, and in the case , when the comparison results satisfy an alert condition, providing an alert to an external system indicating the detection of unexpected input data, without assessing the performance of the model itself in the known solution.
[0003] Также известно решение для моделирования риска нарушения безопасности сети, раскрытый в заявке US 20180048668 А1 , опубл. 15.02.2018. В известном решении выполняют сбор одним или несколькими агентами из множества источников в сети аналитических данных, которые идентифицируют наблюдаемые характеристики одного или нескольких узлов сети, и создание с использованием данных анализа многоуровневой модели риска для сети, которая содержит первый уровень модели, который моделирует неотъемлемый риск нарушения безопасности активов сети на основе наблюдаемых характеристик одного или более узлов. [0003] A solution for modeling the risk of a network security breach is also known, disclosed in application US 20180048668 A1, publ. 02/15/2018. In the known solution, one or more agents collect analytical data from multiple sources on the network that identifies the observable characteristics of one or more network nodes, and create using data from the analysis of a multi-layered risk model for the network, which contains a first layer of the model that models the inherent risk of a security breach of network assets based on the observed characteristics of one or more nodes.
[0004] Недостатком известных решений является отсутствие возможности управления модельным риском посредством проведения дообучения модели в автоматическом режиме на новых данных. Также в представленном решении не используется граф знаний, в связи с чем уменьшается вычислительная нагрузка на систему в процессе управления модельным риском и на хранилище системы, а также зависимость от периода синхронизации данных между первоисточником и графом, который в представленном решении не используется. [0004] The disadvantage of the known solutions is the inability to manage model risk by automatically retraining the model on new data. Also, the presented solution does not use a knowledge graph, which reduces the computational load on the system in the process of managing model risk and on the system storage, as well as the dependence on the period of data synchronization between the original source and the graph, which is not used in the presented solution.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ DISCLOSURE OF INVENTION
[0005] Технической проблемой или задачей, поставленной в данном техническом решении, является создание простого и надежного способа и системы управления модельным риском. [0005] The technical problem or task posed in this technical solution is to create a simple and reliable method and system for managing model risk.
[0006] Техническим результатом, на достижение которого направлено представленное решение, является обеспечение возможности управления модельным риском в автоматическом режиме без участия человека. [0006] The technical result that the presented solution is aimed at achieving is to provide the ability to manage model risk automatically without human intervention.
[0007] Указанный технический результат достигается благодаря осуществлению способа автоматизированного управления модельным риском, выполняемого по меньшей мере одним вычислительным устройством, содержащего этапы, на которых: [0007] The specified technical result is achieved by implementing a method for automated model risk management, performed by at least one computing device, containing the steps of:
- подключаются к среде выполнения для получения данных, связанных с работой модели, содержащие спрогнозированные результаты работы модели, и фактические результаты для упомянутых спрогнозированных результатов; - connect to the runtime environment to obtain data associated with the operation of the model, containing the predicted results of the model, and the actual results for said predicted results;
- на основе спрогнозированных результатов работы модели и фактических результатов работы модели определяют наличие модельного риска и инициируют процесс автодообучения модели, содержащий этапы, на которых: извлекают из памяти среды выполнения данные, подаваемые на вход модели, для получения спрогнозированных результатов работы модели (обновленные данные); определяют методику дообучения модели на основе данных о типе модели; дообучают модель на обновленных данных согласно методике дообучения модели; - based on the predicted results of the model’s work and the actual results of the model’s work, the presence of a model risk is determined and the process of auto-training the model is initiated, which contains stages in which: the data supplied to the model input is retrieved from the memory of the runtime environment to obtain the predicted results of the model’s work (updated data) ; determine the method of additional training of the model based on data about the type of model; the model is additionally trained on the updated data according to the method of additional training of the model;
- выводят дообученную модель в промышленную эксплуатацию в среде выполнения. - bring the additionally trained model into commercial operation in the runtime environment.
[0008] В одном из частных примеров осуществления способа этап определения наличия модельного риска содержит этапы, на которых: [0008] In one of the particular examples of the method, the stage of determining the presence of a model risk contains stages in which:
- назначают каждому спрогнозированному результату параметр, указывающий на то, что спрогнозированный результат соответствует или не соответствует фактическому результату или находится в интервале допустимых значений отклонений от фактического результата; - assign to each predicted result a parameter indicating that the predicted result corresponds or does not correspond to the actual result or is within the range of acceptable deviations from the actual result;
- на основе параметров, полученных на предыдущем этапе, определяют значение, характеризующее соотношение параметров, указывающих на то, что спрогнозированный результат работы модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы модели не соответствует фактическому результату; - based on the parameters obtained at the previous stage, a value is determined that characterizes the ratio of parameters indicating that the predicted result of the model corresponds to the actual result to parameters indicating that the predicted result of the model does not correspond to the actual result;
[0009] - сравнивают полученное значение с интервалом пороговых значений, установленным для данной модели, характеризующим отсутствие модельного риска. В другом частном примере осуществления способа после определения наличия модельного риска направляют в среду выполнения команду на вывод модели из эксплуатации. [0009] - compare the obtained value with the interval of threshold values established for this model, characterizing the absence of model risk. In another particular example of the method, after determining the presence of a model risk, a command is sent to the runtime environment to decommission the model.
[0010] В другом частном примере осуществления способа дополнительно выполняют автовалидацию дообученной модели и/или обновленных данных, причем дообученную модель в промышленную эксплуатацию выводят в том случае, если автовалидация дообученной модели и/или обновленных данных прошла успешно. [0010] In another particular example of the method, auto-validation of the additionally trained model and/or updated data is additionally performed, and the additionally trained model is put into commercial operation if auto-validation of the additionally trained model and/or updated data is successful.
[0011] В другом частном примере осуществления способа этап автовалидации модели содержит этапы, на которых: [0011] In another particular example of the method, the model autovalidation stage contains stages in which:
- на основе данных о типе модели определяют методику валидации; - based on data on the type of model, the validation methodology is determined;
- на основе данных, характеризующих методику валидации, определяют коэффициенты модели, валидацию которых следует выполнить; - based on the data characterizing the validation methodology, determine the model coefficients that should be validated;
- подают на вход дообученной модели выборку данных, связанную с заданными результаты работы модели, для получения результатов работы модели; - a data sample associated with the specified results of the model’s operation is fed to the input of the additionally trained model to obtain the results of the model’s operation;
- сравнивают полученные на предыдущем этапе результаты с заданными результаты работы модели для упомянутой выборки данных; з - определяют, что упомянутые результаты работы модели соответствуют заданным результатам работы модели; - compare the results obtained at the previous stage with the specified results of the model for the mentioned data sample; h - determine that said results of the model correspond to the specified results of the model;
- формируют решение, указывающее на то, что коэффициенты дообученной модели прошли процесс валидации. - form a solution indicating that the coefficients of the additionally trained model have passed the validation process.
[0012] В другом частном примере осуществления способа этап автовалидации модели содержит этапы, на которых: [0012] In another particular example of the method, the model autovalidation stage contains stages in which:
- на основе данных о типе модели определяют методику валидации; - based on data on the type of model, the validation methodology is determined;
- извлекают из данных, характеризующих методику валидации, список этапов алгоритма обработки данных; - extract from the data characterizing the validation methodology a list of stages of the data processing algorithm;
- сравнивают список этапов алгоритма обработки данных с этапами алгоритма обработки данных дообученной модели; - compare the list of stages of the data processing algorithm with the stages of the data processing algorithm of the additionally trained model;
- определяют, что все этапы из упомянутого списка присутствуют в алгоритме обработки данных дообученной модели и формируют решение, указывающее на то, что дообученная модель в части алгоритма обработки данных прошла процесс валидации. - determine that all stages from the mentioned list are present in the data processing algorithm of the additionally trained model and form a solution indicating that the additionally trained model has passed the validation process in terms of the data processing algorithm.
[0013] В другом частном примере осуществления способа этап автовалидации модели содержит этапы, на которых: [0013] In another particular example of the method, the model autovalidation stage contains stages in which:
- на основе данных о типе модели определяют методику валидации; - based on data on the type of model, the validation methodology is determined;
- на основе данных о методике валидации определяют данные, содержащиеся в обновленных данных, валидацию которых следует выполнить; - based on the data on the validation methodology, determine the data contained in the updated data, which should be validated;
- извлекают из обновленных данных определенные на предыдущем этапе данных; - extract data determined at the previous stage from the updated data;
- сравнивают извлеченные данные с их пороговыми значениями или диапазоном пороговых значений; - compare the extracted data with their threshold values or range of threshold values;
- определяют, что данные, валидацию которых следует выполнить, соответствуют пороговым значениям и формируют решение, указывающее на то, что обновленные данные прошли процесс валидации. - determine that the data to be validated meets the threshold values and generate a decision indicating that the updated data has passed the validation process.
[0014] В другом частном примере осуществления способа этап автовалидации модели содержит этапы, на которых: [0014] In another particular example of the method, the model autovalidation stage contains stages in which:
- подают на вход дообученной модели обновленные данные для получения спрогнозированных результатов работы дообученной модели; - updated data is supplied to the input of the additionally trained model to obtain the predicted results of the additionally trained model;
- сравнивают спрогнозированные результаты с фактическими результатами для упомянутых спрогнозированных результатов и назначают параметр, указывающий на то, что упомянутый спрогнозированный результат соответствует или не соответствует фактическому результату; - на основе параметров, полученных на предыдущем этапе, определяют значение, характеризующее соотношение параметров, указывающих на то, что спрогнозированный результат работы дообученной модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы дообученной модели не соответствует фактическому результату; - comparing the predicted results with the actual results for said predicted results and assigning a parameter indicating that said predicted result corresponds or does not correspond to the actual result; - based on the parameters obtained at the previous stage, a value is determined that characterizes the ratio of parameters indicating that the predicted result of the additionally trained model corresponds to the actual result, to parameters indicating that the predicted result of the additionally trained model does not correspond to the actual result;
- сравнивают значение, полученное на предыдущем этапе, с интервалом пороговых значений величины модельного риска; - compare the value obtained at the previous stage with the interval of threshold values of the model risk value;
- определяют, что полученное значение находится в пределах интервала пороговых значений величины модельного риска. - determine that the obtained value is within the interval of threshold values of the model risk value.
[0015] В другом частном примере осуществления способа дополнительно содержит этапы, на которых: [0015] In another particular example of implementation of the method, it further comprises the steps of:
- извлекают данные альтернативной модели для типа дообученной модели;- extract data from an alternative model for the type of the retrained model;
- подают на вход альтернативной модели обновленные данные для получения спрогнозированных результатов работы дообученной модели; - updated data is supplied to the input of the alternative model to obtain the predicted results of the additionally trained model;
- сравнивают спрогнозированные результаты с фактическими результатами для упомянутых спрогнозированных результатов и назначают параметр, указывающий на то, что упомянутый спрогнозированный результат соответствует или не соответствует фактическому результату; - comparing the predicted results with the actual results for said predicted results and assigning a parameter indicating that said predicted result corresponds or does not correspond to the actual result;
- на основе параметров, полученных на предыдущем этапе, определяют значение, характеризующее соотношение параметров, указывающих на то, что спрогнозированный результат работы альтернативной модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы альтернативной модели не соответствует фактическому результату; - based on the parameters obtained at the previous stage, a value is determined that characterizes the ratio of parameters indicating that the predicted result of the alternative model corresponds to the actual result to parameters indicating that the predicted result of the alternative model does not correspond to the actual result;
- сравнивают значение, полученное на предыдущем этапе, со значением, полученным для дообученной модели, примнем значение, полученное для альтернативной модели, больше значения, полученного для дообученной модели, то принимают решение о выводе альтернативной модели в промышленную эксплуатацию вместо дообученной. - compare the value obtained at the previous stage with the value obtained for the additionally trained model, let us assume that the value obtained for the alternative model is greater than the value obtained for the additionally trained model, then a decision is made to put the alternative model into commercial operation instead of the additionally trained one.
[0016] В другом частном примере осуществления способа дополнительно содержит этапы, на которых: [0016] In another particular example of implementation of the method, it further comprises the steps of:
- определяют, что значение, полученное для альтернативной модели, равно значению, полученному для дообученной модели; - определяют скорость работы дообученной и альтернативной модели, причем в промышленную эксплуатацию выводят ту модель, значение скорости которой имеет меньшее значение. - determine that the value obtained for the alternative model is equal to the value obtained for the additionally trained model; - determine the operating speed of the additionally trained and alternative model, and the model whose speed value is less important is put into commercial operation.
[0017] В другом частном примере осуществления способа дополнительно содержит этапы, на которых: [0017] In another particular example of implementation of the method, it further comprises the steps of:
- определяют, что значение, полученное для альтернативной модели, равно значению, полученному для дообученной модели; - determine that the value obtained for the alternative model is equal to the value obtained for the additionally trained model;
- определяют количество вычислительных ресурсов, задействованных для обработки обновленных данных дообученной моделью и альтернативной моделью, причем в промышленную эксплуатацию выводят ту модель, которая потребляет меньше вычислительных ресурсов. - determine the amount of computing resources used to process updated data by the retrained model and an alternative model, and the model that consumes less computing resources is put into commercial operation.
[0018] В другом предпочтительном варианте осуществления заявленного решения представлена система управления модельным риском, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют вышеуказанный способ. [0018] In another preferred embodiment of the claimed solution, a model risk management system is provided, comprising at least one computing device and at least one memory device containing machine-readable instructions that, when executed by at least one computing device, perform the above method.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF THE DRAWINGS
[0019] Признаки и преимущества настоящего технического решения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых: [0019] The features and advantages of the present technical solution will become apparent from the following detailed description of the invention and the accompanying drawings, in which:
[0020] На Фиг. 1 - представлен пример реализации системы управления модельным риском. [0020] In FIG. 1 - an example of the implementation of a model risk management system is presented.
[0021] На Фиг. 2 - представлен пример способа управления модельным риском. [0022] на Фиг. 3 - представлен пример общего вида вычислительного устройства. [0021] In FIG. 2 - an example of a method for managing model risk is presented. [0022] in FIG. 3 - shows an example of a general view of a computing device.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ IMPLEMENTATION OF THE INVENTION
[0023] Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения. [0023] The concepts and terms necessary to understand this technical solution will be described below.
[0024] В данном техническом решении под системой подразумевается, в том числе компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций). [0025] Под устройством обработки команд подразумевается электронный блок, вычислительное устройство, либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы). [0024] In this technical solution, a system means, including a computer system, a computer (electronic computer), CNC (computer numerical control), PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given task. , a clearly defined sequence of operations (actions, instructions). [0025] By command processing device is meant an electronic unit, a computing device, or an integrated circuit (microprocessor) that executes machine instructions (programs).
[0026] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройств хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы. [0026] A command processing device reads and executes machine instructions (programs) from one or more storage devices. Storage devices can include, but are not limited to, hard drives (HDD), flash memory, ROM (read-only memory), solid-state drives (SSD), and optical drives.
[0027] Вычислительное устройство - счётно-решающее устройство, автоматически выполняющее одну какую-либо математическую операцию или последовательность их с целью решения одной задачи или класса однотипных задач (Большая советская энциклопедия. — М.: Советская энциклопедия. 1969 — 1978.). [0027] A computing device is a counting and solving device that automatically performs one mathematical operation or a sequence of them in order to solve one problem or a class of similar problems (Great Soviet Encyclopedia. - M.: Soviet Encyclopedia. 1969 - 1978.).
[0028] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд. [0028] Program - a sequence of instructions intended for execution by a computer control device or command processing device.
[0029] База данных (БД) - совокупность данных, организованных в соответствии с концептуальной структурой, описывающей характеристики этих данных и взаимоотношения между ними, причем такое собрание данных, которое поддерживает одну или более областей применения (ISO/IEC 2382:2015, 2121423 «database»). [0029] Database (DB) - a collection of data organized according to a conceptual structure that describes the characteristics of that data and the relationships between them, a collection of data that supports one or more application areas (ISO/IEC 2382:2015, 2121423 " database").
[0030] Сигнал — материальное воплощение сообщения для использования при передаче, переработке и хранении информации. [0030] A signal is a material embodiment of a message for use in the transmission, processing and storage of information.
[0031] Логический элемент — элемент, осуществляющий определенные логические зависимость между входными и выходными сигналами. Логические элементы обычно используются для построения логических схем вычислительных машин, дискретных схем автоматического контроля и управления. Для всех видов логических элементов, независимо от их физической природы, характерны дискретные значения входных и выходных сигналов. [0031] Logic element - an element that implements certain logical relationships between input and output signals. Logic elements are usually used to construct logical circuits of computers and discrete automatic monitoring and control circuits. All types of logical elements, regardless of their physical nature, are characterized by discrete values of input and output signals.
[0032] Автоматизированная система (АС) - организационно-техническая система, обеспечивающая выработку решений на основе автоматизации информационных процессов. [0032] Automated system (AS) is an organizational and technical system that ensures the development of solutions based on the automation of information processes.
[0033] Модельный риск - риск возникновения неблагоприятных последствий, вытекающих из некорректного применения моделей в процессах организации, например, Банка и/или неточности (ошибок) работы моделей, связанных как с ошибками моделирования, так и с изменениями в окружающем мире. [0033] Model risk - the risk of adverse consequences arising from incorrect application of models in organizational processes, for example, Bank and/or inaccuracies (errors) in the operation of models associated with both modeling errors and changes in the surrounding world.
[0034] AutoML (Автоматическое машинное обучение) - процесс автоматизации сквозного процесса применения машинного обучения к задачам реального мира. [0034] AutoML (Automatic Machine Learning) is the process of automating the end-to-end process of applying machine learning to real world problems.
[0035] Среда выполнения (исполнения) — вычислительное окружение, необходимое для выполнения компьютерной программы и доступное во время выполнения компьютерной программы. [0035] Runtime (execution) environment - the computing environment necessary for the execution of a computer program and available during execution of the computer program.
[0036] В соответствии со схемой, приведенной на Фиг. 1 , система управления модельным риском содержит: устройство 1 для разработки моделей, устройство 2 валидации моделей, устройство 3 принятия решения о внедрении модели в промышленную среду, среда выполнения 4, устройство 5 библиотеки моделей (БМ), устройство 6 мониторинга, устройство 7 дообучения модели и устройство 8 библиотека готовых к использованию методик. Упомянутые устройства могут быть как отдельными устройствами, соединенными широко известными проводными или беспроводными каналами передачи данных, так и объединены в различных вариантах в единое устройство, например, посредством размещения их в едином корпусе, например, на единой печатной плате посредством широко известных сборочных операций, причем данные между упомянутыми устройствами передаются посредством формирования соответствующих сигналов. [0036] According to the diagram shown in FIG. 1, the model risk management system contains: device 1 for developing models, device 2 for validating models, device 3 for making a decision on introducing the model into the industrial environment, runtime environment 4, device 5 for the model library (BM), device 6 for monitoring, device 7 for additional training of the model and device 8 library of ready-to-use techniques. The mentioned devices can be either separate devices connected by well-known wired or wireless data transmission channels, or combined in various ways into a single device, for example, by placing them in a single housing, for example, on a single printed circuit board through well-known assembly operations, and data between the mentioned devices is transmitted by generating appropriate signals.
[0037] Устройство 1 для разработки моделей может быть реализовано на базе по меньшей мере одного вычислительного устройства, выполненного в программноаппаратной части таким образом, чтобы предоставлять пользователю возможность создавать (разрабатывать) модели с нуля или находить, выбирать и переиспользовать готовые модели в новых бизнес процессах. Процесс моделирования посредством устройства 1 может включать следующие этапы: [0037] The device 1 for developing models can be implemented on the basis of at least one computing device, implemented in hardware and software in such a way as to provide the user with the ability to create (develop) models from scratch or find, select and reuse ready-made models in new business processes . The modeling process by device 1 may include the following steps:
- преобразование данных (предобработка, необходимая для приведения данных к формату, пригодному для обучения и/или применения модели), например, заполнение пропущенных значений в данных, расчет агрегатов и формирование дополнительных признаков, кодирование информации; - data transformation (preprocessing necessary to bring the data to a format suitable for training and/or application of the model), for example, filling in missing values in the data, calculating aggregates and generating additional features, encoding information;
- отбор признаков, в частности характеристик, на основании которых модель будет формировать предсказания; - selection of features, in particular characteristics, on the basis of which the model will form predictions;
- подбор оптимального алгоритма модели с возможностью использования AutoML; - selection of the optimal model algorithm with the ability to use AutoML;
- детальный тюнинг модели с настройкой и оптимизацией параметров. [0038] Устройство 2 валидации моделей может быть реализовано на базе по меньшей мере одного вычислительного устройства, выполненного в программноаппаратной части таким образом, чтобы предоставлять пользователю возможность проведения всесторонней проверки качества работы модели, которая включает в себя: - detailed tuning of the model with setting and optimization of parameters. [0038] The model validation device 2 may be implemented on the basis of at least one computing device implemented in hardware and software in such a way as to provide the user with the opportunity to conduct a comprehensive quality check of the model, which includes:
- качественный анализ: проверка корректности качественных (экспертных) предпосылок, использованных на этапе разработки, анализ корректности выбранного метода моделирования, пр.; - qualitative analysis: checking the correctness of qualitative (expert) premises used at the development stage, analyzing the correctness of the chosen modeling method, etc.;
- количественный анализ: проведение количественных тестов в целях подтверждения качества работы модели и/или стратегии на имеющихся данных; - quantitative analysis: conducting quantitative tests to confirm the quality of the model and/or strategy on the available data;
- количественная оценка модельного риска (для классов моделей с утвержденной методологией расчета модельного риска); - quantitative assessment of model risk (for classes of models with an approved methodology for calculating model risk);
- формирование перечня рекомендаций по доработке модели и/или стратегии, направленных на снижение/недопущение критического уровня модельного риска. [0039] Дополнительно устройство 2 может быть оснащено модулем 20 автовалидации, посредством которого автоматически и периодически проводятся валидационные тесты для моделей, которые были поставлены в промышленную эксплуатацию. Модуль 20 автовалидации может быть выполнен на базе программно-аппаратных средств устройства 2, оснащенных, например, соответствующими логическими элементами на транзисторах, размещенными широко известными методами на печатной плате таким образом, чтобы выполнять приписанные модулю 20 функции. Также посредством устройства 2 в рамках валидации модели может быть автоматически построена альтернативная модель. В зависимости от вида модели производится подбор алгоритмов валидационной методики из библиотеки методик (устройство 8), подходящих для поступившего типа модели, например, для модели кредитного скоринга валидационная методика представляет собой правила соотнесения скорингового балла и вероятности целевого. Если в устройстве 8 библиотеки методик не найден алгоритм валидационной методики, то посредством устройства 2 пользователем может быть разработана методика валидации, а также методики обучения и/или дообучения модели, которые могут быть сохранены в упомянутом устройстве 8 для последующего переиспользования. Валидационная методика (методика вадилации) может быть сохранена в виде готового к запуску исполняемого кода/модуля/workflow. [0040] Дополнительно в устройстве 2 модель может быть улучшена, несмотря на то, что валидация модели находится в зеленой зоне (все итоговые светофоры зеленые - это значит что результат валидации положительный, где один светофор - это результат некоторой проверки модели, которая является частью некоторой валидационной методики, и есть главный светофор, который является агрегацией результатов работы всех проверок-светофоров и показывает совокупный результат работы всей валидационной методики), но в ходе валидации были выявлены возможности ее существенного улучшения, например, не было включено правило соотнесения скорингового балла и вероятности целевого события таким образом, чтобы средний долгосрочный уровень целевого события был равен среднему долгосрочному прогнозному значению вероятности этого события. В данном примере валидатор или система автоматически выбирает алгоритм, по которому выше показатели по итогам валидации или изменяет процесс работы с входными данными с учетом данного правила. Таким образом, осуществляется подбор наиболее успешных методик прогнозирования события, релевантных для данного множества видов моделей или по результатам проверки могут быть сформулированы соответствующие рекомендации. Этот этап так же позволяет проверить, нет ли возможности получить: более простую модель, требующую меньше затрат на внедрение и поддержку в промышленном контуре; более эффективную модель, внедрение которой позволяет повысить точность предсказаний, при наименьшем расходовании ресурсов и/или времени вычисления. - formation of a list of recommendations for refining the model and/or strategy aimed at reducing/avoiding a critical level of model risk. [0039] Additionally, the device 2 can be equipped with an autovalidation module 20, through which validation tests are automatically and periodically carried out for models that have been put into commercial use. The autovalidation module 20 can be made on the basis of the software and hardware of the device 2, equipped, for example, with corresponding logical elements on transistors, placed by well-known methods on a printed circuit board in such a way as to perform the functions assigned to the module 20. Also, by means of device 2, an alternative model can be automatically constructed as part of model validation. Depending on the type of model, validation method algorithms are selected from a library of methods (device 8) suitable for the received type of model, for example, for a credit scoring model, the validation method represents the rules for correlating the scoring score and the probability of the target. If an algorithm for a validation technique is not found in device 8 of the method library, then using device 2 the user can develop a validation method, as well as methods for training and/or additional training of the model, which can be saved in said device 8 for subsequent reuse. The validation technique (validation technique) can be saved in the form of ready-to-run executable code/module/workflow. [0040] Additionally, in device 2, the model can be improved, despite the fact that the model validation is in the green zone (all final traffic lights are green - this means that the validation result is positive, where one traffic light is the result of some model verification, which is part of some validation methodology, and there is a main traffic light, which is an aggregation of the results of all traffic light checks and shows the total result of the entire validation methodology), but during the validation, opportunities for its significant improvement were identified, for example, the rule for correlating the scoring score and the probability of the target was not included events in such a way that the average long-term level of the target event is equal to the average long-term forecast value of the probability of this event. In this example, the validator or system automatically selects an algorithm that has higher validation results or changes the process of working with input data taking into account this rule. Thus, the most successful methods for predicting events that are relevant for a given set of types of models are selected, or appropriate recommendations can be formulated based on the test results. This stage also allows you to check whether it is possible to obtain: a simpler model that requires less implementation and support costs in an industrial circuit; a more efficient model, the implementation of which makes it possible to increase the accuracy of predictions with minimal consumption of resources and/or computation time.
[0041] Также устройство 2 может использоваться для полу-автоматизации процесса первичной валидации во время итерационного процесса разработки первой версии модели датасаентистом, где датасаентист периодически запускает валидационную методику сам, например, через интерфейс API и дорабатывает (дообучает) модель по результатам такой валидации (без участия валидатора в процессах, где такая возможность предусмотрена). [0041] Also, device 2 can be used for semi-automation of the primary validation process during the iterative process of developing the first version of the model by a data scientist, where the data scientist periodically launches the validation methodology himself, for example, through the API interface and refines (retrains) the model based on the results of such validation (without participation of the validator in processes where such an opportunity is provided).
[0042] Результатом этапа прохождения валидационных тестов является оценка качества модели в количественном и/или качественном измерении, которые служат основанием для допуска модели к внедрению в промышленную эксплуатацию. Артефакты моделирования и валидации сохраняются в устройство 5 БМ для их фиксации для последующего анализа или предоставления регулирующим органам по их запросу, а заинтересованным лицам направляются отчеты о разработке и валидации. При положительном результате модель выводиться в промышленную эксплуатацию и настраивается автоматический мониторинг контроля ее качества. Для мониторинга моделей периодически, в автоматическом режиме, запускается разработанная валидационная методика, результаты которой, в случае выявления недопустимой потери качества работы модели, являются основанием для принятия решения о необходимости дообучения модели, либо в ручном, либо в автоматическом режимах и/или снятия такой модели с эксплуатации. Дообученная модель (новая версия модели) так же подлежит валидации в модуле 20 (автовалидациия с использованием той же самой валидационной методики, которая была использована для автомониторинга). И в случае положительного результата автовалидации в устройстве 3 может быть принято решение о выводе дообученной модели в промышленную эксплуатацию устройсво 4. [0042] The result of the stage of passing validation tests is an assessment of the quality of the model in quantitative and/or qualitative dimensions, which serve as the basis for allowing the model to be put into commercial operation. Simulation and validation artifacts are stored in the BM device 5 to be captured for later analysis or provided to regulatory authorities upon request, and development and validation reports are sent to interested parties. If the result is positive, the model will be put into production operation and automatic monitoring of its quality control is configured. To monitor models, the developed validation methodology is periodically launched in automatic mode, the results of which, if an unacceptable loss in the quality of the model’s performance is detected, are the basis for making a decision on the need to additionally train the model, either in manual or automatic modes and/or remove such a model from operation. The additionally trained model (new version of the model) is also subject to validation in module 20 (autovalidation using the same validation methodology that was used for automonitoring). And in case of a positive result of autovalidation in device 3, a decision can be made to bring the additionally trained model into commercial operation of device 4.
[0043] Также посредством устройства 2 валидации моделей в рамках валидации может быть проведена оценка модельного риска, характеризующая его величину. На этом этапе, на основании описания бизнес-процесса, где работает та или иная модель, пользователем устройства 2 формируется математическая модель, которая подстраивается под описанный бизнес-процесс. В результате действия алгоритмов расчета в системе формируются данные о величине модельного риска, который возникнет при использовании текущей модели и автоматически созданной альтернативной модели, если такая модель построена. Также на данном этапе может быть рассчитано прогнозное ухудшение качества работы модели и потенциальный эффект снижения величины модельного риска при котором, периодически или, по срабатыванию триггера снижения показателей автовалидации, производиться автоматическе дообучение, автовалидация и автовывод в промышленную эксплуатацию новой версии (например, дообученной) модели или снятие модели с эксплуатации при определённых условиях. [0043] Also, by means of the model validation device 2, as part of the validation, an assessment of the model risk can be carried out, characterizing its magnitude. At this stage, based on the description of the business process where this or that model operates, the user of device 2 creates a mathematical model that adapts to the described business process. As a result of the calculation algorithms, the system generates data on the amount of model risk that will arise when using the current model and an automatically created alternative model, if such a model is built. Also at this stage, the predicted deterioration in the quality of the model’s performance and the potential effect of reducing the magnitude of the model risk can be calculated, in which, periodically or, when a trigger is triggered for a decrease in auto-validation indicators, automatic additional training, auto-validation and automatic launch of a new version (for example, additionally trained) of the model into commercial operation are carried out. or removing the model from service under certain conditions.
[0044] Устройство 3 можем быть реализовано на базе по меньшей мере одного вычислительного устройства, сконфигурированного в программно-аппаратной части таким образом, чтобы принимать следующие решения: 1 решение о выводе в промышленную эксплуатацию (в среду выполнения 4) новой модели после первичной валидации или новой версии модели после автодообучения в устройстве 7 на основании результатов автовалидации в модуле 20; 2. решение о необходимости автодообучения модели в устройстве 7 по результатам автомониторинга в устройстве 6 или периодической валидации модели по заданному расписанию или в соответствии с поступившей командой на валидацию. Если результат валидации отрицательный, то модуль 3 принимает решение о необходимости проведения дообучения модели. После дообучения модели по заданному расписанию или по соответствующей команде также может быть проведена валидация модели и дообученной модели на обновленных данных, в рамках которой сравниваются показатели качества моделей, например, величина модельного риска, для принятия решения о выводе дообученной модели в промышленную эксплуатацию. [0044] The device 3 can be implemented on the basis of at least one computing device configured in hardware and software in such a way as to make the following decisions: 1 a decision to launch into commercial operation (into runtime 4) a new model after initial validation, or a new version of the model after auto-training in device 7 based on the results of auto-validation in module 20; 2. decision on the need for auto-training of the model in device 7 based on the results of auto-monitoring in device 6 or periodic validation of the model according to a given schedule or in accordance with the received validation command. If the validation result is negative, then module 3 makes a decision about the need for additional training of the model. After additional training of the model according to a given schedule or according to the appropriate command, validation of the model and the additionally trained model on updated data can also be carried out, within the framework of which the quality indicators of the models, for example, the magnitude of model risk, can be compared to make a decision on putting the additionally trained model into commercial operation.
[0045] Среда выполнения 4 размещается в производственной среде и может быть реализовано на базе по меньшей мере одного вычислительного устройства, выполненного с возможностью подключения к неограниченному количеству внешних источников данных для сбора данных с целью обработки их посредством по меньшей мере одной модели для получения результатов прогнозирования. Например, среда выполнения 4 может представлять собой автоматизированную систему, размещенную в любой организации, а в частном примере в банковской системе, и может быть сконфигурирована для анализа посредством модели данных о транзакциях клиента и кредитных продуктах с целью прогнозирования значения кредитного риска, в альтернативных вариантах, например, прогноз наступления страхового случая автомобилиста, на основании статистики нарушений ПДД или медицинские прогнозы развития заболеваний на основе данных анализов и сведений об образе жизни пациента. В представленном решении среда выполнения 4 может являться частью представленной системы управления модельным риском или являться внешней системой. [0045] Runtime 4 is hosted in a production environment and may be implemented on at least one computing device configured to connect to an unlimited number of external data sources to collect data for processing by at least one model to produce prediction results . For example, runtime 4 may be an automated system hosted by any organization, and in a particular example a banking system, and may be configured to analyze, through a model, customer transaction and credit product data for the purpose of predicting the value of credit risk, in alternative embodiments, for example, a forecast for the occurrence of an insured event for a motorist based on statistics of traffic violations or medical forecasts for the development of diseases based on analysis data and information about the patient’s lifestyle. In the presented solution, runtime 4 can be part of the presented model risk management system or be an external system.
[0046] Устройство 5 БМ может быть реализовано широко известными методами, например, раскрытыми в патенте RU2724799C1, опубл. 25.06.2020, и представлять собой по меньшей мере одну БД, предназначенную для хранения артефактов моделирования, включающих, например, коэффициенты модели и алгоритм обработки входящих данных, написанный на любом из известных языков программирования; образцы данных, которые были использованы для обучения модели; отчеты о разработке и валидации модели, которые можгут быть представлен в заранее выбранном произвольном формате. [0046] The BM device 5 can be implemented by widely known methods, for example, those disclosed in patent RU2724799C1, publ. 06/25/2020, and be at least one database designed for storing modeling artifacts, including, for example, model coefficients and an algorithm for processing incoming data, written in any of the known programming languages; sample data that was used to train the model; reports on model development and validation, which can be presented in a pre-selected free format.
[0047] Устройство 6 мониторинга моделей может быть реализовано на базе по меньшей мере одного вычислительного устройства, выполненного с возможностью подключения к первоисточнику данных, в том числе к среде выполнения 4, для автоматического мониторинга работы модели. Для этого периодически инициируется процесс автовалидации, путем направления соответствующей команды в модуль 20, где автоматически запускается валидационная методика на обновленных данных, связанных с работой модели. Для каждой модели в устройстве 6 настраивается свое расписание мониторинга. Инициирование запуска валидационной методики может осуществляться не только по расписанию, но и любым другим методом, например, через открытый API устройства 6. Результаты автовалидации передаются в устройтво 3 для принятия решения о необходимости дообучения модели в случае, например, отрицательного результата валидации и могут передаваться в устройство 5 для сохранения истории по мониторингу каждой модели. [0047] The model monitoring device 6 may be implemented on the basis of at least one computing device configured to connect to the primary data source, including the runtime environment 4, to automatically monitor the operation of the model. To do this, the autovalidation process is periodically initiated by sending the corresponding command to module 20, where the validation methodology is automatically launched on updated data related to the operation of the model. For each model, device 6 configures its own monitoring schedule. The launch of the validation methodology can be initiated not only according to a schedule, but also by any other method, for example, through the open API of device 6. The results of auto-validation are transferred to device 3 to make a decision on the need to further train the model in the event, for example, of a negative validation result and can be transferred to device 5 for saving history of monitoring of each model.
[0048] Устройство 7 дообучения модели может быть реализовано на базе по меньшей мере одного вычислительного устройства, выполненного в программноаппаратной части таким образом, чтобы после принятия решения о необходимости дообучения модели устройством 3, обеспечить автоматическое дообучение модели на обновленных данных с возможностью настройки обучения отдельно взятой модели для работы с обновленными данными, посредством обращения к первоисточнику этих данных, и/или изменения алгоритма работы модели, если альтернативная модель, полученная в результате работы устройства 2, например, показала лучшую оценку эффективности, т.е., например, большее количество зеленых светофоров в отчете о валидации. При одинаковых показателях эффективности основной и альтернативной модели в расчет может браться, например, скорость получения конченого результата, приоритетной будет та, которая быстрее получает необходимый показатель, чем ее альтернатива. [0048] The device 7 for additional training of the model can be implemented on the basis of at least one computing device, implemented in the hardware and software part in such a way that, after making a decision about the need to additionally train the model by device 3, ensure automatic additional training of the model on updated data with the ability to configure training for each individual models to work with updated data, by referring to the original source of this data, and/or changing the algorithm of the model, if the alternative model obtained as a result of the work of device 2, for example, showed a better efficiency assessment, i.e., for example, more green traffic lights in the validation report. If the efficiency indicators of the main and alternative models are the same, for example, the speed of obtaining the final result can be taken into account; the one that gets the required indicator faster than its alternative will have priority.
[0049] Устройство 8 Библиотеки методик может быть реализовано на базе по меньшей мере одного вычислительного устройства, выполненного в программноаппаратной части таким образом, чтобы у пользователей системы или в автоматическом режиме была возможность сохранять разработанные и готовые к использованию новые методики, которые можно переиспользовать впоследствии для, например, проведения автовалидации или автодообучения. [0049] Method Library device 8 can be implemented on the basis of at least one computing device, implemented in hardware and software in such a way that users of the system or in automatic mode have the opportunity to save developed and ready-to-use new methods that can be reused later for , for example, carrying out auto-validation or auto-additional training.
[0050] Система управления модельным риском работает следующим образом. [0050] The model risk management system operates as follows.
[0051] На первом этапе артефаекты моделирования по меньшей мере одной модели от устройства 1 для разработки моделей поступают в устройство 2 валидации моделей. Полученные данные модели могут содержать: в частности, идентификатор модели, коэффициенты модели и алгоритм обработки входящих данных; образцы данных, которые были использованы для обучения модели; отчет о разработке модели и т.д. Например, если модель предназначена для прогнозирования кредитного риска клиента и принятия решения о выдаче или об отказе в выдаче патента, то данные модели могут содержать: [0051] In the first step, modeling artifacts of at least one model from the model development device 1 are supplied to the model validation device 2. The resulting model data may contain: in particular, the model identifier, model coefficients and an algorithm for processing incoming data; sample data that was used to train the model; report on model development, etc. For example, if the model is intended for forecasting the client’s credit risk and making a decision on issuing or refusing to issue a patent, then these models may contain:
- коэффициенты модели, используемые для обработки данных о транзакциях клиентов, и программный код, содержащий инструкции по обработке упомянутых данных; - model coefficients used to process customer transaction data, and program code containing instructions for processing said data;
- образцы данных о транзакциях клиентов, на которых была обучена модель;- samples of data on customer transactions on which the model was trained;
- отчет о разработке модели. - report on the development of the model.
[0052] В альтернативном варианте реализации представленного решения, если модель разрабатывалась на внешней системе, например, в среде выполнения 4, а не в устройстве 1 , то артефакты моделирования могут быть загружены в автоматическом режиме или по запросу пользователя в устройство 5 БМ. Полученные данные так же могут использоваться для валидации моделей в устройстве 2. [0052] In an alternative implementation of the presented solution, if the model was developed on an external system, for example, in the runtime environment 4, and not in the device 1, then the modeling artifacts can be loaded automatically or upon user request into the BM device 5. The obtained data can also be used to validate models in device 2.
[0053] Валидация модели представляет собой многоступенчатый процесс, охватывающий этап сбора информации/данных, изучение модели, подготовку валидационной выборки, всесторонний анализ модели, завершающийся подготовкой отчета, фиксирующего выявленные слабые зоны модели и рекомендации по их возможному решению. Валидация модели, как правило, проводится на тех же данных, на которых обучалась модель, но не исключает подготовку специальных валидационных выборок. Сформированная выборка для валидации должна соответствовать данным, характеризующим целевой сегмент, на котором планируется применение модели. Разработчики моделей предоставляют в подразделение валидации через устройство 1 или устройство 5 спецификацию данных (примеры скриптов для выгрузки данных, правила формирования наборов данных, примеры данных и пр.), а также ссылку на централизованные источники данных, использованные при разработке и тестировании моделей. В частном примере, при оценке кредитного риска данные, предоставленные разработчиком, должны содержать: [0053] Model validation is a multi-stage process covering the stage of collecting information/data, studying the model, preparing a validation sample, comprehensive analysis of the model, ending with the preparation of a report documenting the identified weak areas of the model and recommendations for their possible solution. Model validation is usually carried out on the same data on which the model was trained, but does not exclude the preparation of special validation samples. The generated sample for validation must correspond to the data characterizing the target segment on which the model is planned to be used. Model developers provide the validation department via device 1 or device 5 with data specifications (examples of scripts for downloading data, rules for generating data sets, example data, etc.), as well as a link to centralized data sources used in developing and testing models. In a particular example, when assessing credit risk, the data provided by the developer should contain:
1. Идентификаторы объекта моделирования, например: a. D заявки; b. D кредитного договора; c. Дата кредитного договора; 1. Modeling object identifiers, for example: a. D applications; b. D loan agreement; c. Date of the loan agreement;
2. Информация по целевому событию: d. Флаг реализации целевого события; e. Дата реализации целевого события; f. Причина реализации целевого события. 2. Information on the target event: d. Target event implementation flag; e. Date of implementation of the target event; f. The reason for the implementation of the target event.
По указанным выше идентификаторам и информации по целевому событию могут быть однозначно извлечены артефакты моделирования, включая данные о транзакциях пользователя, кредитной истории, и другие данные, которые могут быть использованы при обучении модели и ее валидации. Данная информация может быть извлечена из любой БД, в том числе из устройства 5 БМ, если эти данные были загружены в него предварительно. Репрезентативные выборки для целей валидации моделей могут формироваться, например, по следующему алгоритму: наблюдения отбираются с учетом требования о соответствии структуры генеральной совокупности и репрезентативной выборки по сегментам и фактическому уровню целевого события (например, уровень дефолтов). Для этого вся совокупность наблюдений по модели делится на два подмножества: наблюдения с реализованным и нереализованным целевым событием. Затем к каждому подмножеству применяется случайный метод отбора в зависимости от установленного процента отбора. Процент отбора для каждого подмножества одинаковый, что обеспечивает идентичную структуру целевых событий в генеральной совокупности и выборке. Using the above identifiers and target event information, modeling artifacts can be unambiguously extracted, including user transaction data, credit history, and other data that can be used in model training and validation. This information can be extracted from any database, including from the BM device 5, if this data was previously loaded into it. Representative samples for the purposes of model validation can be formed, for example, according to the following algorithm: observations are selected taking into account the requirement that the structure of the general population and the representative sample match the segments and the actual level of the target event (for example, the default rate). To do this, the entire set of observations according to the model is divided into two subsets: observations with a realized and unrealized target event. A random selection method is then applied to each subset based on the established selection percentage. The selection percentage for each subset is the same, which ensures an identical structure of target events in the population and sample.
[0054] При проведении валидации так же может быть произведена проверка соответствия архитектуры модели, заявленной в документации, ее программной реализации при разработке. [0054] During validation, the compliance of the model architecture stated in the documentation with its software implementation during development can also be checked.
[0055] Технически процесс валидации модели заключается в проведении анализа качества данных в выборках, качественного и количественного анализа модели (см., например, статью «Валидация моделей машинного обучения», htps://habr.com/ru/company/glowbyte/blog/569970/). Общая структура используемых тестов для качественного и количественного анализа представляет собой перечень тестов, использующихся в процессе валидации для оценки эффективности и качества работы моделей. Цель проведения тестов — оценить качество использованных алгоритмов, проанализировать особенности работы модели и ее компонентов и сравнить качество полученного результата с заявленным или требуемым качеством, а также качеством, наблюдаемым при разработке. [0055] Technically, the process of model validation consists of analyzing data quality in samples, qualitative and quantitative analysis of the model (see, for example, the article “Validation of machine learning models”, htps://habr.com/ru/company/glowbyte/blog /569970/). The general structure of the tests used for qualitative and quantitative analysis is a list of tests used in the validation process to assess the effectiveness and quality of the models. The purpose of the tests is to evaluate the quality of the algorithms used, analyze the operating features of the model and its components, and compare the quality of the result obtained with the declared or required quality, as well as the quality observed during development.
[0056] Выделяются валидация модели в условиях достаточного числа целевых событий (например, дефолтов) и валидация модели с недостаточным количеством целевых событий. Стандарты достаточности уровня целевого события для выборки зависят от общего количества наблюдений в выборке, количества целевых событий и уровня приемлемого доверительного интервала для расчета. [0057] Для отражения результатов валидации (где это применимо), например, может использоваться простая трехуровневая цветовая кодификация: [0056] Validation of the model under conditions of a sufficient number of target events (for example, defaults) and validation of the model with an insufficient number of target events are distinguished. Standards for the sufficiency of the target event level for a sample depend on the total number of observations in the sample, the number of target events, and the level of acceptable confidence interval for the calculation. [0057] To reflect the results of validation (where applicable), for example, a simple three-level color coding can be used:
* Зеленый светофор: модель удовлетворяет требованиям, заложенным в тесте; * Green traffic light: the model meets the requirements laid down in the test;
* Желтый светофор: в целом модель удовлетворяет требованиям, заложенным в тесте, однако имеются возможности ее улучшения; * Yellow traffic light: in general, the model meets the requirements laid down in the test, but there are possibilities for its improvement;
* Красный светофор: модель не удовлетворяет требованиям теста, и требуется ее доработка. * Red traffic light: the model does not meet the test requirements and needs to be improved.
Присвоение группе тестов зеленого цвета означает, что модель соответствует предъявляемым ей критериям и может быть внедрена в промышленную среду в автоматическом режиме в текущем виде. При желтом цвете модель может быть выведена в промышленную среду, но при выполнении некоторых условий (принятие рисков владельцем, например) и как правило не в автоматическом режиме. При красном светофоре вывод модели в промышленную среду, как правило, не производиться. Assigning a green color to a group of tests means that the model meets the criteria set for it and can be introduced into the industrial environment automatically in its current form. If the color is yellow, the model can be released into an industrial environment, but if certain conditions are met (acceptance of risks by the owner, for example) and, as a rule, not in automatic mode. When the traffic light is red, the model is usually not launched into an industrial environment.
[0058] Результаты проведения каждого теста в отчете о валидации как правило снабжаются информацией о выборках, которые были использованы для проведения данного теста в том числе с названием таблиц во внутренней базе данных. Сводные характеристики всех выборок, использованных во время валидации, (например, уровень дефолтов, средний уровень вероятности дефолта, количество наблюдений, пр.) так же предоставляются в отчете о валидации в разделе «Использованные данные» в агрегированном виде. [0058] The results of each test in the validation report are usually provided with information about the samples that were used to conduct this test, including the names of the tables in the internal database. Summary characteristics of all samples used during validation (for example, default rate, average probability of default, number of observations, etc.) are also provided in the validation report in the “Data Used” section in an aggregated form.
[0059] Качественный анализ включает в себя подготовительный этап и этап проведения тестов по структуре модели и предназначается для оценки качества и уместности выбора варианта модели/факторов при сравнении с подобными моделями. При этом особое внимание уделяется предпосылкам, использованным при очистке/модификации первичных данных для разработки, например: Соответствует ли выбранный подход к моделированию текущей методики разработки моделей оценки вероятности дефолта/принятому в банке подходу или учитывается ли при моделировании вся существенная информация, влияющая на риск заемщика. [0059] Qualitative analysis includes a preparatory phase and a testing phase of the model structure and is intended to evaluate the quality and appropriateness of the choice of model option/factors when compared with similar models. In this case, special attention is paid to the prerequisites used in the cleaning/modification of primary data for development, for example: Does the selected modeling approach correspond to the current methodology for developing models for assessing the probability of default / the approach adopted by the bank or does the modeling take into account all significant information that affects the borrower’s risk .
[0060] Итоги проведения качественного анализа модели оформляются в соответствующем разделе валидационного отчета. По каждому качественному тесту присваивается итоговый цвет светофора. [0061] Количественный анализ модели заключается в проведении количественных тестов, которые предполагают расчет показателей, а также интерпретацию полученного результата. Проводятся следующие ключевые группы тестов оценки эффективности моделей: [0060] The results of the qualitative analysis of the model are documented in the corresponding section of the validation report. For each qualitative test, a final traffic light color is assigned. [0061] Quantitative analysis of the model consists of conducting quantitative tests that involve calculating indicators, as well as interpreting the results obtained. The following key groups of tests for assessing the effectiveness of models are carried out:
• влияние качества данных на работу модели; • influence of data quality on model performance;
• эффективность ранжирования модели; • efficiency of the model ranking;
• спецификация модели; • model specification;
• калибровка модели; • model calibration;
• стабильность модели; • stability of the model;
• концентрация результатов модели; • concentration of model results;
• дополнительные тесты для корпоративных моделей и моделей контрагентов по операциям на финансовых рынках; • additional tests for corporate models and counterparty models for transactions in financial markets;
[0062] Количественный анализ модели проводится на выборках, полностью соответствующих ее области применения (в том числе в случае, когда модель была разработана на неполной выборке, не полностью покрывающей целевой сегмент). Итоговый вывод об эффективности модели делается для всех областей ее применения, на основании анализа матриц итоговых светфоров, которые обрабатывается устройством 3 принятия решения. [0062] Quantitative analysis of the model is carried out on samples that fully correspond to its field of application (including in the case where the model was developed on an incomplete sample that does not completely cover the target segment). The final conclusion about the effectiveness of the model is made for all areas of its application, based on the analysis of the matrices of the final traffic lights, which are processed by the decision-making device 3.
[0063] При валидации моделей все тесты проводятся с использованием итоговых результатов модели, используемых в бизнес-процессах (например, вероятность дефолта, рейтинг, пр.). [0063] When validating models, all tests are carried out using the final results of the model used in business processes (for example, probability of default, rating, etc.).
[0064] Соответственно, методика валидации модели, проведенная пользователем устройства 2 валидации моделей, сохраняется упомянутым пользователем в памяти устройства 2 в виде потока работ/данных (workflow). Сохраненная методика валидации может содержать: данные о типе модели, например, идентификатор модели; данные о коэффициентах модели, валидацию которых следует выполнить; данные о пороговых значениях коэффициентов модели; список этапов алгоритма обработки данных; ссылки на данные в выборке данных, валидацию которых следует выполнить; пороговые значения данных в выборке данных и пороговое значение величины модельного риска и др. Сохраненная методика валидации может быть использована модулем 20 автовалидации для проведения валидации модели в автоматизированном режиме. [0064] Accordingly, the model validation procedure carried out by the user of the model validation device 2 is stored by said user in the memory of the device 2 as a workflow. The saved validation procedure may contain: data about the model type, for example, model identifier; data on model coefficients that need to be validated; data on threshold values of model coefficients; list of stages of the data processing algorithm; references to data in the data sample that should be validated; threshold values of data in the data sample and the threshold value of the model risk, etc. The saved validation technique can be used by the autovalidation module 20 to validate the model in an automated mode.
[0065] Соответственно, результат валидации модели, проведенный системой автоматически или пользователем, сохраняется в устройстве 5 Библиотеке Моделей. Далее система автоматически через устройство 3 или пользователь принимает решение о выводе модели в промышленную эксплуатацию, по следующим алгоритмам: [0065] Accordingly, the result of model validation carried out automatically by the system or by the user is stored in the device 5 Library Models. Next, the system automatically, through device 3 or the user, makes a decision to put the model into commercial operation using the following algorithms:
- Если модель не удовлетворяет или не вполне удовлетворяет предъявляемым к ней требованиям (по одному или более блокам тестов имеется красный или желтый индикатор прохождения), формируется план мероприятий по устранению недостатков модели и включает его в отчет о валидации модели. - If the model does not satisfy or does not fully satisfy the requirements for it (there is a red or yellow pass indicator for one or more test blocks), an action plan is generated to eliminate the model’s deficiencies and includes it in the model validation report.
- В случае получения красного светофора за итоговое качество модели в отчете о валидации делается пометка о невозможности использования данной модели для решения поставленных бизнес-задач. - In case of receiving a red traffic light for the final quality of the model, a note is made in the validation report about the impossibility of using this model to solve the assigned business problems.
- Или если все итоговые светофоры получили зеленое значение, делается пометка о рекомендации данной модели для решения поставленных бизнес-задач и инициируется процесс вывода модели в промышленную эксплуатацию в среду выполнения 4 автоматически устройством 3 или пользователем через устройство 5. Вывод модели в промышленную эксплуатацию осуществляется посредством передачи данных модели устройством 3 или устройством 5 упомянутой среде выполнения 4, после чего среда выполнения осуществляет обработку данных посредством полученной модели с целью получения спрогнозированных результатов работы модели. Все полученные результаты сохраняются в БД упомянутой среды выполнения 4 или могут быть отданы потребителям по запросу, в том числе и для авто-мониторинга (периодической валидации такой модели) или для автодообучения. Результаты мониторинга и дообучения сохраняются в устройство 5 БМ. Вместе с каждым спрогнозированным результатом работы модели также могут сохраняться обновленные данные, которые были поданы на вход модели, для дальнейшего автодообучения. - Or if all the final traffic lights have received a green value, a note is made about the recommendation of this model to solve the business problems set and the process of putting the model into commercial operation in runtime environment 4 is initiated automatically by device 3 or by the user through device 5. The model is put into commercial operation by transmitting the model data by device 3 or device 5 to said runtime environment 4, after which the runtime environment processes the data through the received model in order to obtain predicted results of the model. All obtained results are stored in the database of the mentioned runtime environment 4 or can be given to consumers upon request, including for auto-monitoring (periodic validation of such a model) or for auto-additional training. The results of monitoring and additional training are saved in device 5 BM. Along with each predicted result of the model, updated data that was fed to the model input can also be saved for further auto-training.
[0066] Например, если модель предназначена для принятия решения о выдаче или отказе в выдаче кредита, то средой выполнения 4, например, будет осуществляться сбор данных о транзакциях в отношении по меньшей мере одного пользователя, передачу упомянутых данных о транзакциях, например, в виде векторов, на вход упомянутой модели, определение на основе данных о транзакциях значения модельного риска и получение спрогнозированного результата работы упомянутой модели, указывающего на то, что клиент выплатит кредит или не выплатит кредит. Соответственно, спрогнозированный результат работы модели сохраняется в БД упомянутой среды выполнения 4 вместе с данными о транзакциях, поданными на вход упомянутой модели. Также спрогнозированные результаты работы модели могут быть переданы внешним системам по их запросу. [0066] For example, if the model is intended to make a decision about issuing or refusing to issue a loan, then the runtime 4, for example, will collect transaction data regarding at least one user, transmitting said transaction data, for example, in the form vectors to the input of the said model, determining the value of the model risk based on transaction data and obtaining the predicted result of the said model, indicating that the client will repay the loan or not repay the loan. Accordingly, the predicted result of the model is stored in the database of said runtime environment 4 along with transaction data submitted to the input of said model. Also the predicted results of the model can be transferred to external systems upon their request.
[0067] Также, в БД среды выполнения 4 для спрогнозированного результата работы модели может быть добавлена информация о фактическом результате для данного спрогнозированного результата. Упомянутая информация о фактическом результате может быть добавлена как пользователем среды выполнения 4, так и собрана с использованием широко известных автоматизированных методов и средств сбора данных. Информация о фактическом результате, как правило, добавляется с некоторой временной задержкой, но для некоторых систем упомянутая информация может быть добавлена одновременно со спрогнозированным результатом работы модели. [0067] Also, in the runtime database 4 for the predicted result of the model, information about the actual result for this predicted result can be added. Said actual result information can be added either by the user of the runtime environment 4 or collected using well-known automated data collection methods and tools. Information about the actual result is usually added with some time delay, but for some systems the information mentioned can be added simultaneously with the predicted result of the model.
[0068] Например, если модель спрогнозировала, что клиент выплатит кредит, то такому клиенту выдается кредит и, впоследствии, сохраняется фактическая информация, указывающая на то, что клиент выплатил или не выплатил кредит. Соответственно, если модель спрогнозировала, что клиент не выплатит кредит, то фактический результат не сохраняется, поскольку кредит клиенту не выдается. [0068] For example, if the model predicts that a customer will repay a loan, then the customer is issued a loan and subsequently factual information is stored indicating that the customer has or has not repaid the loan. Accordingly, if the model predicted that the client will not repay the loan, then the actual result is not saved, since the loan is not issued to the client.
[0069] Автомониторинг и управление (100, см. Фиг. 2) модельным риском модели осуществляется следующим образом. В процессе работы среды выполнения 4 устройство 6 мониторинга моделей может известными методами, например, согласно заложенному разработчиком расписанию или администратором среды 4, подключаться (101) к среде выполнения 4, в частности к БД или к ее репликам, для получения данных, связанных с работой модели, включая, например, спрогнозированные результаты работы модели и фактические результаты за заданный разработчиком период времени и назначать каждому спрогнозированному результату работы модели параметр, указывающий на то, что спрогнозированный результат соответствует или не соответствует фактическому результату или находится в интервале допустимых значений отклонений от фактического результата, причем интервал может быть задан разработчиком или администратором упомянутого устройства 7 или получен, например, из устройства 5, где храниться метаинформация о моделях включая пороговые значения, интервалы и другие атрибуты модели. [0069] Automatic monitoring and control (100, see Fig. 2) of the model risk of the model is carried out as follows. During the operation of the runtime environment 4, the model monitoring device 6 can, using known methods, for example, according to a schedule set by the developer or the administrator of the environment 4, connect (101) to the runtime environment 4, in particular to the database or its replicas, to obtain data related to the work model, including, for example, the predicted results of the model and the actual results for a period of time specified by the developer and assign to each predicted result of the model a parameter indicating that the predicted result corresponds or does not correspond to the actual result or is within the range of acceptable deviations from the actual result , wherein the interval can be set by the developer or administrator of said device 7 or obtained, for example, from device 5, where meta-information about the models is stored, including threshold values, intervals and other model attributes.
[0070] Например, если в БД среды выполнения 4 сохранен спрогнозированный результат работы модели, указывающий на то, что клиент выплатит кредит, и фактический результат указывает на то, что клиент выплатил кредит, то устройство 6 назначает спрогнозированному результат работы модели параметр, указывающий на то, что упомянутый спрогнозированный результат соответствует фактическому результату. Соответственно, если в БД среды выполнения 4 сохранен спрогнозированный результат работы модели, указывающий на то, что клиент вернет кредит, а фактический результат указывает на то, что клиент не вернул кредит, то устройство 6 назначает спрогнозированному результат работы модели параметр, указывающий на то, что упомянутый спрогнозированный результат не соответствует фактическому результату. [0070] For example, if the runtime database 4 stores a predicted model output indicating that the customer will repay the loan, and the actual result indicates that the customer has repaid the loan, then device 6 assigns a parameter to the predicted model output, indicating that said predicted result matches the actual result. Accordingly, if the runtime database 4 stores the predicted result of the model indicating that the client will repay the loan, and the actual result indicates that the client did not repay the loan, then device 6 assigns to the predicted result of the model a parameter indicating that that the said predicted result does not correspond to the actual result.
[0071] Определенные упомянутые параметры далее передаются устройством 6 мониторинга в модуль 20 автовалидация, который на основе полученных параметров определяет значение, характеризующее соотношение (например, процентное отношение) параметров, указывающих на то, что спрогнозированный результат работы модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы модели не соответствует фактическому результату. Полученное значение сравнивается устройством 2 с интервалом пороговых значений, установленным для данной модели, например, разработчиком или владельцем модели в устройстве 5 БМ, характеризующим отсутствие модельного риска. Если полученное значение выходит за пределы интервала пороговых значений, то устройство 2 передает результаты о наличии (102) модельного риска в устройство 3 принятия решения, который в свою очередь определяет и принимает решение, на основе полученных упомянутых результатов, о необходимости автодообучения (103) модели, установленной в среде выполнения 4. [0071] Certain mentioned parameters are then transmitted by the monitoring device 6 to the autovalidation module 20, which, based on the received parameters, determines a value characterizing the ratio (for example, percentage) of the parameters indicating that the predicted result of the model corresponds to the actual result to the parameters indicating that the predicted result of the model does not correspond to the actual result. The obtained value is compared by device 2 with the interval of threshold values established for a given model, for example, by the developer or owner of the model in device 5 BM, which characterizes the absence of model risk. If the received value falls outside the threshold value interval, then device 2 transmits the results about the presence (102) of a model risk to decision-making device 3, which in turn determines and makes a decision, based on the above mentioned results, about the need for auto-training (103) of the model installed in runtime 4.
[0072] Для дообучения модели устройство 3 принятия решения инициирует работу устройства 7 дообучения, которое для проведения автодообучения извлекает из БД среды выполнения 4 обновленные данные, связанные с работой модели за заданный период времени, например, данные подаваемые на вход модели, спрогнозированные результаты работы модели и фактические результаты и, возможно, другие данные, подходящие для определенного устройством 7 вида модели и указанный в отчете о разработке модели или в ее параметрах, после чего извлекает метаданные модели из устройства 5 БМ, в частности коэффициенты модели, пороговые значения и т.д., алгоритм обработки входящих данных, а так же может извлекать методику дообучения из устройства 8 и производит дообучение в автоматическом режиме. В альтернативном варианте дообучение может производиться в устройстве 4, где методика дообучения должна быть реализована, как некоторая часть поставляемой модели. В альтернативном варианте реализации представленного решения дообучение модели может выполняться с предварительным выводом модели из эксплуатации. [0072] To further train the model, the decision-making device 3 initiates the operation of the additional training device 7, which, to carry out auto-training, retrieves from the database of the runtime environment 4 updated data related to the operation of the model for a given period of time, for example, data supplied to the input of the model, predicted results of the model’s operation and actual results and possibly other data suitable for the type of model specified by the device 7 and specified in the model development report or in its parameters, after which it retrieves model metadata from the BM device 5, in particular model coefficients, threshold values, etc. ., an algorithm for processing incoming data, and can also extract additional training methods from device 8 and carry out additional training in automatic mode. Alternatively, additional training can be carried out in device 4, where the additional training technique must be implemented as some part of the supplied model. Alternatively implementation of the presented solution, additional training of the model can be performed with the preliminary decommissioning of the model.
[0073] Далее устройство 7 дообучения известными методами осуществляет дообучение модели на извлеченных ранее данных, а полученные артефакты новой дообученной версии модели сохраняются (фиксируются) в устройстве 5 БМ и направляются в модуль 20 автовалидации, расположенный в устройстве 2. [0073] Next, the additional training device 7, using known methods, performs additional training of the model on previously extracted data, and the resulting artifacts of the new additional trained version of the model are saved (fixed) in the BM device 5 and sent to the autovalidation module 20 located in device 2.
[0074] После получения данных дообученной модели модуль 20 автовалидации проводит валидацию дообученной модели. Для проведения валидации дообученной модели модуль 20 определяет на основе типа модели методику валидации. Информация о типе модели может содержаться в данных о модели и дообученной модели, хранимые в устройстве 5 БМ, и может быть найдена, например, по идентификатору (ID) модели. Соответственно, модуль 20 посредством устройства 2 направляет запрос с ID модели в устройство 5 БМ, в котором хранятся соответствия ID моделей их типу, и которое в ответ направляет тип модели, согласно которому модуль 20 извлекает из устройства 8 соответствующую методику валидации модели. В альтернативном варианте реализации представленного решения ID моделей и типы моделей могут храниться в памяти устройства 2, которой он может быть оснащен. [0074] After receiving the data from the additionally trained model, the autovalidation module 20 validates the additionally trained model. To validate the retrained model, module 20 determines a validation methodology based on the model type. Information about the type of model can be contained in data about the model and the additionally trained model stored in the BM device 5, and can be found, for example, by the identifier (ID) of the model. Accordingly, module 20, through device 2, sends a request with the model ID to BM device 5, which stores the correspondence between model IDs and their type, and which in response sends the model type, according to which module 20 retrieves the corresponding model validation technique from device 8. In an alternative embodiment of the presented solution, the model IDs and model types may be stored in a memory of the device 2 with which it may be equipped.
[0075] В рамках выполнения методики валидации на основе данных, характеризующих методику валидации, упомянутый модуль 20 может определить коэффициенты модели, валидацию которых следует выполнить. Далее модуль 20 извлекает для данного типа модели выборку данных, которая предназначена для валидиции коэффициентов модели, и связанные с упомянутой выборкой заданные результаты работы модели. Выборки данных и соответствующие им результаты работы модели могут быть заранее заданы в памяти модуля 20 или в любой другой области памяти любого другого устройства, доступ к которому имеет модуль 20. Например, упомянутая выборка данных может содержать данные о транзакциях клиентов, их доходах и пр., а заданные результаты работы модели могут указывать на то, выплатил ли клиент кредит или нет. [0075] As part of performing a validation technique based on data characterizing the validation technique, said module 20 may determine model coefficients to be validated. Next, module 20 retrieves a data sample for a given type of model, which is intended for validating the model coefficients, and the specified results of the model associated with the said sample. The data samples and the corresponding model outputs may be preset in the memory of the module 20 or in any other memory area of any other device to which the module 20 has access. For example, said data sample may contain data on customer transactions, their income, etc. , and the given results of the model can indicate whether the client has repaid the loan or not.
[0076] Упомянутая выборка данных далее модулем 20 подается на вход дообученной модели для получения результатов работы модели, которые сравниваются с заданными результаты работы модели для упомянутой выборки данных. Если полученные упомянутые результаты соответствуют заданным результатам работы модели, то модуль 20 формирует решение, указывающее на то, что коэффициенты дообученной модели прошли процесс валидации. Соответственно, если полученные упомянутые результаты не соответствуют заданным результатам работы модели, то модуль 20 формирует решение, указывающее на то, что коэффициенты дообученной модели не прошли процесс валидации. [0076] The above-mentioned data sample is then fed by module 20 to the input of the additionally trained model to obtain the results of the model, which are compared with the specified results of the model for the said data sample. If the obtained mentioned results correspond to the specified results of the model, then module 20 generates a solution indicating that the coefficients of the additionally trained model have passed the validation process. Accordingly, if the obtained mentioned results do not correspond to the specified results of the model, then module 20 generates a decision indicating that the coefficients of the additionally trained model did not pass the validation process.
[0077] В рамках выполнения методики валидации модуль 20 автовалидации дополнительно может извлекать из данных, характеризующих методику валидации, список этапов алгоритма обработки данных и сравнивать его с этапами алгоритма обработки данных дообученной модели. Если все этапы из упомянутого списка присутствуют в алгоритме обработки данных дообученной модели, то модуль 20 формирует решение, указывающее на то, что дообученная модель в части алгоритма обработки данных прошла процесс валидации. Соответственно, если хотя бы один этап отсутствует, то модуль 20 формирует решение, указывающее на то, что дообученная модель в части алгоритма обработки данных не прошла процесс валидации. [0077] As part of the implementation of the validation technique, the autovalidation module 20 can additionally extract from the data characterizing the validation technique a list of stages of the data processing algorithm and compare it with the stages of the data processing algorithm of the additionally trained model. If all the stages from the mentioned list are present in the data processing algorithm of the pre-trained model, then module 20 generates a solution indicating that the pre-trained model has passed the validation process in terms of the data processing algorithm. Accordingly, if at least one stage is missing, then module 20 generates a solution indicating that the retrained model in terms of the data processing algorithm has not passed the validation process.
[0078] В рамках выполнения методики валидации модуль 20 автовалидации может дополнительно на основе данных о методике валидации определять обновленные данные в выборке данных, которые были использованы для дообучения модели и валидацию которых необходимо выполнить. Далее упомянутый модуль 20 извлекает из выборки данных, которые были использованы для дообучения модели, данные, валидацию которых следует выполнить, и сравнивает их с пороговыми значениями данных или диапазоном пороговых значений. Например, данные, валидацию которых следует выполнить, могут характеризовать пропуски данных (например, не указан возраст для расчета кредитного рейтинга), количество дубликатов данных, количество аномалий в данных и пр. [0078] As part of the execution of the validation methodology, the autovalidation module 20 can additionally, based on data about the validation methodology, determine updated data in the data sample that was used to further train the model and which must be validated. Next, the mentioned module 20 extracts from the data sample that was used for additional training of the model, the data that should be validated, and compares them with the data threshold values or a range of threshold values. For example, the data that should be validated may be characterized by missing data (for example, age is not specified for calculating a credit score), the number of duplicate data, the number of anomalies in the data, etc.
[0079] Соответственно, если данные, валидацию которых следует выполнить, соответствуют заявленным параметрам (например, пороговым значениям), то модуль 20 формирует решение, указывающее на то, что данные, которые были использованы для дообучения модели, прошли процесс валидации. В ином случае модуль 20 формирует решение, указывающее на то, что данные, которые были использованы для дообучения модели, не прошли процесс валидации. Дополнительно в рамках валидации обновленных данных в выборке данных может быть проведена проверка влияния пропусков, дубликатов данных, аномалий и выхода за пределы пороговых значений данных на качество модели, а также оценена репрезентативность и актуальность данных, проверена стабильность популяции и характеристик данных, проведено стресс тестирование влияния изменения данных на качество модели. [0079] Accordingly, if the data that should be validated corresponds to the declared parameters (for example, threshold values), then module 20 generates a decision indicating that the data that was used to further train the model has passed the validation process. Otherwise, module 20 generates a decision indicating that the data that was used to further train the model did not pass the validation process. Additionally, as part of the validation of updated data in the data sample, the impact of gaps, duplicate data, anomalies and data exceeding threshold values on the quality of the model can be checked, as well as the representativeness and relevance of the data can be assessed, and stability can be checked population and data characteristics, stress testing of the impact of data changes on the quality of the model was carried out.
[0080] В рамках выполнения методики валидации модуль 20 может дополнительно подать на вход прошедшей процедуру валидации дообученной модели данные, которые были использованы для дообучения модели, для получения спрогнозированных результатов работы дообученной модели. Полученные упомянутые спрогнозированные результаты сравниваются модулем 20 с фактическими результатами, сохраненными для упомянутых данных, которые были использованы для дообучения модели, хранимые в устройстве 5 БМ, после чего модуль 20 назначает каждому спрогнозированному результату работы дообученной модели параметр, указывающий на то, что упомянутый спрогнозированный результат соответствует или не соответствует фактическому результату. [0080] As part of the validation procedure, module 20 can additionally submit to the input of the pre-trained model that has undergone the validation procedure, the data that was used to re-train the model to obtain predicted results of the pre-trained model. The obtained said predicted results are compared by module 20 with the actual results stored for the said data, which were used for additional training of the model, stored in the BM device 5, after which module 20 assigns to each predicted result of the additional trained model a parameter indicating that the said predicted result corresponds or does not correspond to the actual result.
[0081] Далее модуль 20 на основе полученных выше параметров может определить значение, характеризующее соотношение (например, процентное отношение) параметров, указывающих на то, что спрогнозированный результат работы дообученной модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы дообученной модели не соответствует фактическому результату. Полученное значение сравнивается модулем 20 с интервалом пороговых значений величины модельного риска, установленным для данной модели, например, разработчиком упомянутого модуля 20, характеризующим отсутствие модельного риска. Если полученное значение выходит за пределы интервала пороговых значений величины модельного риска или коэффициенты дообученной модели, этапы алгоритма обработки данных дообученной модели или обновленные данные в выборке данных, которые были использованы для дообучения модели, не прошли процесс валидации, то модуль 20 принимает решение, что дообученная модель не прошла процедуру валидации, после чего передает результаты валидации, в устройство 3 принятия решения, который в свою очередь определяет и принимает решение, на основе полученных упомянутых результатов, при необходимости, о выводе модели из эксплуатации, если она ранее не была выведена из эксплуатации. Соответственно, если упомянутое значение находится в пределах интервала пороговых значений и все сформированные выше решения указывают на то, что все проверки (данные) прошли процесс валидации, то модуль 20 принимает решение, что дообученная модель прошла процедуру валидации, а устройство 3 принятия решения принимает решение о выводе модели в промышленную эксплуатацию (104), т.е. в среду выполнения 4. [0081] Next, module 20, based on the parameters obtained above, can determine a value characterizing the ratio (for example, percentage) of parameters indicating that the predicted result of the pre-trained model corresponds to the actual result to parameters indicating that the predicted result of the work the pretrained model does not correspond to the actual result. The obtained value is compared by module 20 with the interval of threshold values of the model risk value established for this model, for example, by the developer of the mentioned module 20, characterizing the absence of model risk. If the obtained value falls outside the range of threshold values of the model risk value or the coefficients of the additionally trained model, the stages of the data processing algorithm of the additionally trained model, or the updated data in the data sample that was used for additional training of the model did not pass the validation process, then module 20 decides that the additionally trained the model has not passed the validation procedure, after which it transmits the validation results to the decision-making device 3, which in turn determines and makes a decision, based on the obtained mentioned results, if necessary, to take the model out of service if it has not previously been taken out of service . Accordingly, if the mentioned value is within the interval of threshold values and all the decisions generated above indicate that all checks (data) have passed the validation process, then module 20 decides that the additionally trained model has passed the validation procedure, and decision-making device 3 makes decision to put the model into commercial operation (104), i.e. to runtime 4.
[0082] Таким образом, за счет мониторинга показателей модели, функционирующей в промышленной среде, в частности величины модельного риска, и автодообучении модели, в случае падения показателей качества, на обновленных данных, обеспечивается достижение указанного технического результата, заключающегося в обеспечении возможности управления модельным риском в автоматическом режиме без участия человека. Дополнительно точность управления модельным риском может быть повышена за счет проведения автовалидации дообученной модели и/или обновленных данных перед выводом дообученной модели в промышленную эксплуатацию. Также за счет того, что дообучение модели проводится на обновленных данных, извлекаемых из среды выполнения за заданный период времени, снижается вычислительная нагрузка на вычислительное устройство, выполняющее дообучение модели, поскольку упомянутому устройству не требуется хранить и обрабатывать весь массив данных, поступивший на вход модели. [0082] Thus, by monitoring the performance of a model operating in an industrial environment, in particular the magnitude of model risk, and auto-training the model, in the event of a drop in quality indicators, using updated data, the achievement of the specified technical result is achieved, which consists in providing the ability to manage model risk automatically without human intervention. Additionally, the accuracy of model risk management can be increased by performing auto-validation of the additionally trained model and/or updated data before putting the additionally trained model into commercial operation. Also, due to the fact that additional training of the model is carried out on updated data extracted from the runtime environment for a given period of time, the computational load on the computing device that performs additional training of the model is reduced, since the said device does not need to store and process the entire array of data received as the input of the model.
[0083] В альтернативном варианте реализации представленного решения модуль 20 автовалидации после определения того, что упомянутое значение, характеризующее соотношение параметров, находится в пределах интервала пороговых значений, можем извлечь из устройства 2 или устройства 5 БМ данные о по меньшей мере одной альтернативной модели для типа дообученной модели, после чего направить на вход модели упомянутые обновленные данные, которые были использованы для дообучения модели, для получения спрогнозированных результатов работы альтернативной модели. Полученные упомянутые спрогнозированные результаты сравниваются модулем 20 с фактическими результатами, сохраненными для упомянутых обновленных данных, которые были использованы для дообучения модели, в устройстве 5 БМ, после чего модуль 20 назначает каждому спрогнозированному результату работы альтернативной модели параметр, указывающий на то, что упомянутый спрогнозированный результат соответствует или не соответствует фактическому результату. [0083] In an alternative embodiment of the presented solution, the autovalidation module 20, after determining that the mentioned value characterizing the ratio of parameters is within the threshold value interval, can extract from device 2 or device 5 BM data about at least one alternative model for the type the additionally trained model, and then send the mentioned updated data, which was used for additional training of the model, to the model input to obtain the predicted results of the alternative model. The obtained said predicted results are compared by module 20 with the actual results stored for said updated data, which were used for additional training of the model, in the BM device 5, after which module 20 assigns to each predicted result of the alternative model a parameter indicating that the said predicted result corresponds or does not correspond to the actual result.
[0084] Далее модуль 20 автовалидация на основе полученных выше параметров может определить (описанным выше способом) значение, характеризующее соотношение параметров, указывающих на то, что спрогнозированный результат работы альтернативной модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы альтернативной модели не соответствует фактическому результату. Полученное упомянутое значение модулем 20 вместе со значением, полученным для альтернативной модели, направляются в устройство 3, которое сравнивает полученные значения и если упомянутое значение, полученное для альтернативной модели, больше значения, полученного для дообученной модели, то устройство 3 принимает решение о выводе альтернативной модели в промышленную эксплуатацию, т.е. в среду выполнения 4. Если значение, полученное для альтернативной модели, меньше значения, полученного для дообученной модели, то устройство 3 принимает решение о выводе дообученной модели в промышленную эксплуатацию. [0084] Next, the autovalidation module 20, based on the parameters obtained above, can determine (in the manner described above) a value characterizing the ratio of parameters indicating that the predicted result of the alternative model corresponds to the actual result to parameters indicating that the predicted result of the work the alternative model does not correspond to the actual result. The received mentioned value by module 20, together with the value obtained for the alternative model, is sent to device 3, which compares the received values and if the mentioned value obtained for the alternative model is greater than the value obtained for the additionally trained model, then device 3 decides to output an alternative model into industrial operation, i.e. to runtime environment 4. If the value obtained for the alternative model is less than the value obtained for the additionally trained model, then device 3 decides to put the additionally trained model into commercial operation.
[0085] В том случае, если значение, полученное для альтернативной модели, равно значению, полученному для дообученной модели, то устройство 3 определяет скорость работы дообученной и альтернативной моделей. Для определения скорости моделей устройство 3 направляет соответствующий запрос в модуль 20 автовалидации, который может быть оснащен, например, счетчиком - электронным устройством для определения степени накопления какой-либо величины во времени, методом интегрирования значения текущего измерения. Для определения времени модуль 20 посредством счетчика фиксирует значение времени направления на вход модели данных и значение времени получения спрогнозированного результата работы модели и на их основе определяет значение скорости работы модели. [0085] If the value obtained for the alternative model is equal to the value obtained for the additionally trained model, then device 3 determines the speed of operation of the additionally trained and alternative models. To determine the speed of the models, device 3 sends a corresponding request to the autovalidation module 20, which can be equipped, for example, with a counter - an electronic device for determining the degree of accumulation of any value over time, by integrating the value of the current measurement. To determine the time, module 20, using a counter, records the time value of sending the data model to the input and the time value of obtaining the predicted result of the model's operation and, on their basis, determines the value of the model's operation speed.
[0086] Соответственно, значения скорости работы дообученной и альтернативной моделей модуль 20 направляет в устройство 3, которое сравнивает полученные значения и выводит в промышленную эксплуатацию ту модель, значение скорости которой имеет меньшее значение. [0086] Accordingly, module 20 sends the operating speed values of the additionally trained and alternative models to device 3, which compares the obtained values and puts into commercial operation the model whose speed value is lower.
[0087] Также известными методами модулем 20 может быть оценено количество вычислительных ресурсов, задействованных для обработки обновленных данных дообученной моделью и альтернативной моделью. Например, может быть оценена нагрузка на оперативную память, процессор, жесткий диск и пр. в процессе обработки данных упомянутыми моделями. Соответственно, в промышленную эксплуатацию может быть выведена та модель, которая потребляет меньше вычислительных ресурсов. [0087] Also, using known methods, module 20 can estimate the amount of computing resources used to process updated data by the retrained model and the alternative model. For example, the load on RAM, processor, hard drive, etc. during data processing by the mentioned models can be assessed. Accordingly, the model that consumes less computing resources can be put into commercial operation.
[0088] В общем виде (см. Фиг. 3) вычислительное устройство (200) содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206). [0088] In general (see Fig. 3), a computing device (200) contains one or more processors (201), memory devices such as RAM (202) and ROM (203), and interfaces connected by a common information exchange bus. input/output devices (204), input/output devices (205), and network communication device (206).
[0089] Процессор (201) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в устройстве (200) также необходимо учитывать графический процессор, например, GPU NVIDIA с программной моделью, совместимой с CUDA, или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа, а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах. [0089] The processor (201) (or multiple processors, multi-core processor, etc.) may be selected from a variety of devices commonly used today, for example, from manufacturers such as: Intel™, AMD™, Apple™, Samsung Exynos ™, MediaTEK™, Qualcomm Snapdragon™, etc. The processor or one of the processors used in the device (200) must also include a graphics processor, for example an NVIDIA GPU with a CUDA-compatible programming model or Graphcore, the type of which is also suitable for carrying out the method in whole or in part, and can also be used for training and application of machine learning models in various information systems.
[0090] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (202) может выступать доступный объем памяти графической карты или графического процессора. [0090] RAM (202) is a random access memory and is designed to store machine-readable instructions executed by the processor (201) to perform the necessary logical data processing operations. The RAM (202) typically contains executable operating system instructions and associated software components (applications, program modules, etc.). In this case, the available memory capacity of the graphics card or graphics processor can act as RAM (202).
[0091] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др. [0091] The ROM (203) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
[0092] Для организации работы компонентов устройства (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1 , micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0092] To organize the operation of device components (200) and organize the operation of external connected devices, various types of I/O interfaces (204) are used. The choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
[0093] Для обеспечения взаимодействия пользователя с вычислительным устройством (200) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0093] To ensure user interaction with the computing device (200), various means (205) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
[0094] Средство сетевого взаимодействия (206) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0095] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (200), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0094] The network communication means (206) provides data transmission via an internal or external computer network, for example, an Intranet, the Internet, a LAN, etc. One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc. [0095] Additionally, satellite navigation tools can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.
[0096] Конкретный выбор элементов устройства (200) для реализации различных программно-аппаратных архитектурных решений может варьироваться с сохранением обеспечиваемого требуемого функционала. [0097] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения. [0096] The specific selection of device elements (200) for implementing various software and hardware architectural solutions may vary while maintaining the required functionality provided. [0097] Modifications and improvements to the above-described embodiments of the present technical solution will be apparent to those skilled in the art. The foregoing description is provided by way of example only and is not intended to be limiting. Thus, the scope of the present technical solution is limited only by the scope of the attached claims.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ CLAIM
1. Способ автоматизированного управления модельным риском, выполняемый по меньшей мере одним вычислительным устройством, содержащий этапы, на которых: 1. A method for automated model risk management, performed by at least one computing device, containing the steps of:
- подключаются к среде выполнения для получения данных, связанных с работой модели, содержащие спрогнозированные результаты работы модели, и фактические результаты для упомянутых спрогнозированных результатов; - connect to the runtime environment to obtain data associated with the operation of the model, containing the predicted results of the model, and the actual results for said predicted results;
- на основе спрогнозированных результатов работы модели и фактических результатов работы модели определяют наличие модельного риска и инициируют процесс автодообучения модели, содержащий этапы, на которых: извлекают из памяти среды выполнения данные, подаваемые на вход модели, для получения спрогнозированных результатов работы модели (обновленные данные); определяют методику дообучения модели на основе данных о типе модели; дообучают модель на обновленных данных согласно методике дообучения модели; - based on the predicted results of the model’s work and the actual results of the model’s work, the presence of a model risk is determined and the process of auto-training the model is initiated, which contains stages in which: the data supplied to the model input is retrieved from the memory of the runtime environment to obtain the predicted results of the model’s work (updated data) ; determine the method of additional training of the model based on data about the type of model; the model is additionally trained on the updated data according to the method of additional training of the model;
- выводят дообученную модель в промышленную эксплуатацию в среде выполнения. - bring the additionally trained model into commercial operation in the runtime environment.
2. Способ по п. 1 , характеризующийся тем, что этап определения наличия модельного риска содержит этапы, на которых: 2. The method according to claim 1, characterized in that the stage of determining the presence of a model risk contains stages in which:
- назначают каждому спрогнозированному результату параметр, указывающий на то, что спрогнозированный результат соответствует или не соответствует фактическому результату или находится в интервале допустимых значений отклонений от фактического результата; - assign to each predicted result a parameter indicating that the predicted result corresponds or does not correspond to the actual result or is within the range of acceptable deviations from the actual result;
- на основе параметров, полученных на предыдущем этапе, определяют значение, характеризующее соотношение параметров, указывающих на то, что спрогнозированный результат работы модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы модели не соответствует фактическому результату; - based on the parameters obtained at the previous stage, a value is determined that characterizes the ratio of parameters indicating that the predicted result of the model corresponds to the actual result to parameters indicating that the predicted result of the model does not correspond to the actual result;
- сравнивают полученное значение с интервалом пороговых значений, установленным для данной модели, характеризующим отсутствие модельного риска. - compare the obtained value with the interval of threshold values established for this model, characterizing the absence of model risk.
28 28
3. Способ по п. 1, характеризующийся тем, что после определения наличия модельного риска направляют в среду выполнения команду на вывод модели из эксплуатации. 3. The method according to claim 1, characterized in that after determining the presence of a model risk, a command is sent to the runtime environment to decommission the model.
4. Способ по п. 1, характеризующийся тем, что дополнительно выполняют автовалидацию дообученной модели и/или обновленных данных, причем дообученную модель в промышленную эксплуатацию выводят в том случае, если автовалидация дообученной модели и/или обновленных данных прошла успешно. 4. The method according to claim 1, characterized in that they additionally perform auto-validation of the additionally trained model and/or updated data, and the additionally trained model is put into commercial operation if the auto-validation of the additionally trained model and/or updated data is successful.
5. Способ по п. 4, характеризующийся тем, что этап автовалидации модели содержит этапы, на которых: 5. The method according to claim 4, characterized in that the model auto-validation stage contains stages in which:
- на основе данных о типе модели определяют методику валидации; - based on data on the type of model, the validation methodology is determined;
- на основе данных, характеризующих методику валидации, определяют коэффициенты модели, валидацию которых следует выполнить; - based on the data characterizing the validation methodology, determine the model coefficients that should be validated;
- подают на вход дообученной модели выборку данных, связанную с заданными результаты работы модели, для получения результатов работы модели; - a data sample associated with the specified results of the model’s operation is fed to the input of the additionally trained model to obtain the results of the model’s operation;
- сравнивают полученные на предыдущем этапе результаты с заданными результаты работы модели для упомянутой выборки данных; - compare the results obtained at the previous stage with the specified results of the model for the mentioned data sample;
- определяют, что упомянутые результаты работы модели соответствуют заданным результатам работы модели; - determine that said results of the model correspond to the specified results of the model;
- формируют решение, указывающее на то, что коэффициенты дообученной модели прошли процесс валидации. - form a solution indicating that the coefficients of the additionally trained model have passed the validation process.
6. Способ по п. 4, характеризующийся тем, что этап автовалидации модели содержит этапы, на которых: 6. The method according to claim 4, characterized in that the model auto-validation stage contains stages in which:
- на основе данных о типе модели определяют методику валидации; - based on data on the type of model, the validation methodology is determined;
- извлекают из данных, характеризующих методику валидации, список этапов алгоритма обработки данных; - extract from the data characterizing the validation methodology a list of stages of the data processing algorithm;
- сравнивают список этапов алгоритма обработки данных с этапами алгоритма обработки данных дообученной модели; - compare the list of stages of the data processing algorithm with the stages of the data processing algorithm of the additionally trained model;
- определяют, что все этапы из упомянутого списка присутствуют в алгоритме обработки данных дообученной модели и формируют решение, указывающее на то, что дообученная модель в части алгоритма обработки данных прошла процесс валидации. - determine that all stages from the mentioned list are present in the data processing algorithm of the additionally trained model and form a solution indicating that the additionally trained model has passed the validation process in terms of the data processing algorithm.
7. Способ по п. 4, характеризующийся тем, что этап автовалидации модели содержит этапы, на которых: 7. The method according to claim 4, characterized in that the model auto-validation stage contains stages in which:
- на основе данных о типе модели определяют методику валидации; - на основе данных о методике валидации определяют данные, содержащиеся в обновленных данных, валидацию которых следует выполнить; - based on data on the type of model, the validation methodology is determined; - based on the data on the validation methodology, determine the data contained in the updated data, which should be validated;
- извлекают из обновленных данных определенные на предыдущем этапе данных; - extract data determined at the previous stage from the updated data;
- сравнивают извлеченные данные с их пороговыми значениями или диапазоном пороговых значений; - compare the extracted data with their threshold values or range of threshold values;
- определяют, что данные, валидацию которых следует выполнить, соответствуют пороговым значениям и формируют решение, указывающее на то, что обновленные данные прошли процесс валидации. - determine that the data to be validated meets the threshold values and generate a decision indicating that the updated data has passed the validation process.
8. Способ по п. 4, характеризующийся тем, что этап автовалидации модели содержит этапы, на которых: 8. The method according to claim 4, characterized in that the model auto-validation stage contains stages in which:
- подают на вход дообученной модели обновленные данные для получения спрогнозированных результатов работы дообученной модели; - updated data is supplied to the input of the additionally trained model to obtain the predicted results of the additionally trained model;
- сравнивают спрогнозированные результаты с фактическими результатами для упомянутых спрогнозированных результатов и назначают параметр, указывающий на то, что упомянутый спрогнозированный результат соответствует или не соответствует фактическому результату; - comparing the predicted results with the actual results for said predicted results and assigning a parameter indicating that said predicted result corresponds or does not correspond to the actual result;
- на основе параметров, полученных на предыдущем этапе, определяют значение, характеризующее соотношение параметров, указывающих на то, что спрогнозированный результат работы дообученной модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы дообученной модели не соответствует фактическому результату; - based on the parameters obtained at the previous stage, a value is determined that characterizes the ratio of parameters indicating that the predicted result of the additionally trained model corresponds to the actual result, to parameters indicating that the predicted result of the additionally trained model does not correspond to the actual result;
- сравнивают значение, полученное на предыдущем этапе, с интервалом пороговых значений величины модельного риска; - compare the value obtained at the previous stage with the interval of threshold values of the model risk value;
- определяют, что полученное значение находится в пределах интервала пороговых значений величины модельного риска. - determine that the obtained value is within the interval of threshold values of the model risk value.
9. Способ по п. 8, характеризующийся тем, что дополнительно содержит этапы, на которых: 9. The method according to claim 8, characterized in that it additionally contains the steps of:
- извлекают данные альтернативной модели для типа дообученной модели;- extract data from an alternative model for the type of the retrained model;
- подают на вход альтернативной модели обновленные данные для получения спрогнозированных результатов работы дообученной модели; - updated data is supplied to the input of the alternative model to obtain the predicted results of the additionally trained model;
- сравнивают спрогнозированные результаты с фактическими результатами для упомянутых спрогнозированных результатов и назначают параметр, указывающий на то, что упомянутый спрогнозированный результат соответствует или не соответствует фактическому результату; - compare the predicted results with the actual results for said predicted results and assign a parameter, indicating that said predicted result corresponds or does not correspond to the actual result;
- на основе параметров, полученных на предыдущем этапе, определяют значение, характеризующее соотношение параметров, указывающих на то, что спрогнозированный результат работы альтернативной модели соответствует фактическому результату, к параметрам, указывающим на то, что прогнозированный результат работы альтернативной модели не соответствует фактическому результату; - based on the parameters obtained at the previous stage, a value is determined that characterizes the ratio of parameters indicating that the predicted result of the alternative model corresponds to the actual result to parameters indicating that the predicted result of the alternative model does not correspond to the actual result;
- сравнивают значение, полученное на предыдущем этапе, со значением, полученным для дообученной модели, причем значение, полученное для альтернативной модели, больше значения, полученного для дообученной модели, то принимают решение о выводе альтернативной модели в промышленную эксплуатацию вместо дообученной. - compare the value obtained at the previous stage with the value obtained for the additionally trained model, and the value obtained for the alternative model is greater than the value obtained for the additionally trained model, then a decision is made to put the alternative model into commercial operation instead of the additionally trained one.
10. Способ по п. 8, характеризующийся тем, что дополнительно содержит этапы, на которых: 10. The method according to claim 8, characterized in that it additionally contains the steps of:
- определяют, что значение, полученное для альтернативной модели, равно значению, полученному для дообученной модели; - determine that the value obtained for the alternative model is equal to the value obtained for the additionally trained model;
- определяют скорость работы дообученной и альтернативной модели, причем в промышленную эксплуатацию выводят ту модель, значение скорости которой имеет меньшее значение. - determine the operating speed of the additionally trained and alternative model, and the model whose speed value is less important is put into commercial operation.
11. Способ по п. 8, характеризующийся тем, что дополнительно содержит этапы, на которых: 11. The method according to claim 8, characterized in that it additionally contains the steps of:
- определяют, что значение, полученное для альтернативной модели, равно значению, полученному для дообученной модели; - determine that the value obtained for the alternative model is equal to the value obtained for the additionally trained model;
- определяют количество вычислительных ресурсов, задействованных для обработки обновленных данных дообученной моделью и альтернативной моделью, причем в промышленную эксплуатацию выводят ту модель, которая потребляет меньше вычислительных ресурсов. - determine the amount of computing resources used to process updated data by the retrained model and an alternative model, and the model that consumes less computing resources is put into commercial operation.
12. Система управления модельным риском, содержащая по меньшей мере одно вычислительное устройство и по меньшей мере одно устройство памяти, содержащее машиночитаемые инструкции, которые при их исполнении по меньшей мере одним вычислительным устройством выполняют способ по любому из пп. 1- 11. 12. A model risk management system comprising at least one computing device and at least one memory device containing machine-readable instructions that, when executed by at least one computing device, perform the method according to any one of claims. 1-11.
PCT/RU2022/000305 2022-10-06 2022-10-06 Method and system for managing model risk WO2024076253A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2022/000305 WO2024076253A1 (en) 2022-10-06 2022-10-06 Method and system for managing model risk

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2022/000305 WO2024076253A1 (en) 2022-10-06 2022-10-06 Method and system for managing model risk

Publications (1)

Publication Number Publication Date
WO2024076253A1 true WO2024076253A1 (en) 2024-04-11

Family

ID=90608445

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2022/000305 WO2024076253A1 (en) 2022-10-06 2022-10-06 Method and system for managing model risk

Country Status (1)

Country Link
WO (1) WO2024076253A1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190171950A1 (en) * 2019-02-10 2019-06-06 Kumar Srivastava Method and system for auto learning, artificial intelligence (ai) applications development, operationalization and execution
WO2020028440A1 (en) * 2018-07-30 2020-02-06 DataRobot, Inc. Determining suitability of machine learning models for datasets
US20210304055A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Mechanisms for Continuous Improvement of Automated Machine Learning
US20210304056A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Learning Parameter Sampling Configuration for Automated Machine Learning
WO2021252734A1 (en) * 2020-06-11 2021-12-16 DataRobot, Inc. Systems and methods for managing machine learning models
US20220083914A1 (en) * 2020-09-11 2022-03-17 Actapio, Inc. Learning apparatus, learning method, and a non-transitory computer-readable storage medium
US20220083899A1 (en) * 2020-09-11 2022-03-17 International Business Machines Corporation Validation of ai models using holdout sets

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020028440A1 (en) * 2018-07-30 2020-02-06 DataRobot, Inc. Determining suitability of machine learning models for datasets
US20190171950A1 (en) * 2019-02-10 2019-06-06 Kumar Srivastava Method and system for auto learning, artificial intelligence (ai) applications development, operationalization and execution
US20210304055A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Mechanisms for Continuous Improvement of Automated Machine Learning
US20210304056A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Learning Parameter Sampling Configuration for Automated Machine Learning
WO2021252734A1 (en) * 2020-06-11 2021-12-16 DataRobot, Inc. Systems and methods for managing machine learning models
US20220083914A1 (en) * 2020-09-11 2022-03-17 Actapio, Inc. Learning apparatus, learning method, and a non-transitory computer-readable storage medium
US20220083899A1 (en) * 2020-09-11 2022-03-17 International Business Machines Corporation Validation of ai models using holdout sets

Similar Documents

Publication Publication Date Title
US20230148374A1 (en) Code development management system
US10275730B2 (en) Method for creating and expressing risk-extended business process models
CN106406881A (en) Scalable methods for analyzing formalized requirements and localizing errors
CN113282514B (en) Method, device, computer equipment and storage medium for processing problem data
CN114519524A (en) Enterprise risk early warning method and device based on knowledge graph and storage medium
CN111752833B (en) Software quality system approval method, device, server and storage medium
CN111199469A (en) User payment model generation method and device and electronic equipment
CN112632179A (en) Model construction method and device, storage medium and equipment
US20220327452A1 (en) Method for automatically updating unit cost of inspection by using comparison between inspection time and work time of crowdsourcing-based project for generating artificial intelligence training data
CN114201328A (en) Fault processing method and device based on artificial intelligence, electronic equipment and medium
CN112818028B (en) Data index screening method and device, computer equipment and storage medium
Cai et al. A decision-support system approach to economics-driven modularity evaluation
CN111242779A (en) Financial data characteristic selection and prediction method, device, equipment and storage medium
WO2024076253A1 (en) Method and system for managing model risk
US20230076559A1 (en) Explainable artificial intelligence based decisioning management system and method for processing financial transactions
US20220374401A1 (en) Determining domain and matching algorithms for data systems
EA046471B1 (en) METHOD AND SYSTEM FOR MODEL RISK MANAGEMENT
Wirawan et al. Application of data mining to prediction of timeliness graduation of students (a case study)
CN109359133B (en) Personalized identification method based on big data and deep learning and robot system
CN110415099A (en) A kind of credit financing swindle recognition methods, system and electronic equipment
RU2745369C1 (en) Method and system for assessing the probability of critical cyber security defects at acceptance tests of product releases
RU2809254C1 (en) Method and system for monitoring automated systems
RU2809254C9 (en) Method and system for monitoring automated systems
CN109409720B (en) Personalized auditing method based on big data and deep learning and robot system
KR102183838B1 (en) Method for adjusting the unit cost of project work using verification work of crowdsourcing based projects for artificial intelligence training data generation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22961551

Country of ref document: EP

Kind code of ref document: A1