WO2019194696A1 - Автоматизированная система разработки и управления моделями скоринга - Google Patents

Автоматизированная система разработки и управления моделями скоринга Download PDF

Info

Publication number
WO2019194696A1
WO2019194696A1 PCT/RU2017/000988 RU2017000988W WO2019194696A1 WO 2019194696 A1 WO2019194696 A1 WO 2019194696A1 RU 2017000988 W RU2017000988 W RU 2017000988W WO 2019194696 A1 WO2019194696 A1 WO 2019194696A1
Authority
WO
WIPO (PCT)
Prior art keywords
factors
scoring
factor
credit
scoring model
Prior art date
Application number
PCT/RU2017/000988
Other languages
English (en)
French (fr)
Inventor
Олег Игоревич ТРАВКИН
Дмитрий Алексеевич БЕРЕСТНЕВ
Дмитрий Владимирович ЮДОЧЕВ
Екатерина Сергеевна ЖУКОВСКАЯ
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Publication of WO2019194696A1 publication Critical patent/WO2019194696A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Definitions

  • This technical solution in General, relates to the field of computer technology, and in particular to methods for the automatic development of credit scoring models and their automatic implementation in the loan process.
  • the technical problem (or technical problem) in this technical solution is the automatic development of credit scoring models with their subsequent implementation in the decision-making system and monitoring.
  • the specified technical result is achieved through the implementation of a method for the development and management of scoring models, in which data is obtained for a given period of time, the content of factors affecting the scoring model; after that, the obtained data is divided into samples for the development, validation and testing of the scoring model; then the transformation of factors is carried out by establishing relationships between groups of values of the converted factor and default levels; at least one transformed factor correlating with at least one other factor is further excluded from the samples; form a credit scoring model through training of binary multiple logistic regression; automatically select clipping zones for at least one scoring model for its installation in the credit procedure.
  • data is obtained for a predetermined period of time from a user's mobile communication device.
  • factors affecting the scoring model are annual income and / or amount of outstanding debt, and / or ownership of real estate, and / or ownership of a car, and / or work experience in last place, and / or age.
  • the factors affecting the scoring model are discrete or continuous.
  • the implementation of the transformation of factors determines the degree of deviation of the level of defaults in the data group from the average level of defaults throughout the sample.
  • the algorithm for splitting factor values with a new set of settings is launched.
  • a table is created with the values of the pair correlation coefficients of the transformed factors.
  • the factor that has the highest number of factors correlated with it is selected in the cycle.
  • a logistic model is constructed using stepwise regression to select the final set of factors.
  • FIG. 1 shows an example implementation of a method for developing and managing scoring models in the form of a flowchart.
  • Figure 2 shows a top level exemplary diagram of an implementation of a method for developing and managing scoring models.
  • the main core is made up of two blocks - this is retraining and selection / adjustment of cut-off zones, and without adaptation of cut-off zones it is impossible to organize the automatic implementation of the model in the decision-making system.
  • the results of these two blocks are integrated into the industrial environment (in this embodiment, in SAS RTDM).
  • each of these two blocks is subject to routine checks in the form of daily monitoring of the target indicator, depending on the cut-off zones (level of approval) and monthly model validation.
  • This technical solution can be implemented on a computer, in the form of an automated system (AS) or a machine-readable medium containing instructions for performing the above method.
  • AS automated system
  • a system means a computer system, a computer (electronic computer), CNC (numerical software control), PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given, clearly defined sequence of computational operations (actions, instructions).
  • a command processing device is understood to mean an electronic unit or an integrated circuit (microprocessor) that executes machine instructions (programs).
  • An instruction processing device reads and executes machine instructions (programs) from one or more data storage devices.
  • Data storage devices may include, but are not limited to, hard disks (HDDs), flash memory, ROM (read only memory), solid state drives (SSDs), and optical drives.
  • a program is a sequence of instructions intended for execution by a computer control device or an instruction processing device.
  • Credit scoring is a method of modeling a borrower's credit risk based on numerical statistical methods. The purpose of credit scoring is to make decisions on granting loans to individuals or legal entities.
  • P-value is a value used in testing statistical hypotheses. In fact, this is the probability of error in rejecting the null hypothesis (errors of the first kind).
  • Representativeness is the correspondence of the characteristics of the sample to the characteristics of the population or the population as a whole. Representativeness determines how much it is possible to generalize the results of the study with the involvement of a particular sample for the entire population.
  • DR - default rate It is calculated as the number of default cases in the group divided by the number of all cases in the group.
  • Bootstrap is a practical computer method for studying the distribution of statistics of probability distributions, based on the multiple generation of samples based on the available sample.
  • Default probability the probability of a transaction occurring within one year from the date of rating assignment / adjustment.
  • a sample is a set of transactions and their parameters that meet specified characteristics and are part of the analyzed population.
  • a sample for training is a set of transactions and their parameters used to evaluate the model.
  • a sample for assessing stability is a set of transactions and their parameters that are used to assess the stability of the ranking ability of factors and their partitions.
  • a training sample is a set of transactions and their parameters used to develop a model.
  • Scoring score the value of the indicator of the quality of transactions in terms of the probability of their default.
  • Test sample - a sample used to verify the effectiveness of the resulting model (not involved in development)
  • PD is the probability of default.
  • WOE (English weight of evidence) is a value that characterizes the degree of deviation of the level of defaults in the group from the average level of defaults throughout the sample.
  • a computerized method for developing and managing scoring models includes the following steps.
  • Step 101 Obtain data for a given period of time containing factors that influence the scoring model.
  • User data may include the current state of accounts (including closed ones) - opening dates, current balances, term, currency, type and name of product, number of extensions, current status, and so on, without limitation.
  • the data obtained may also include monthly balances (at the end of each month) for each account for the last period of time (for example, for the last six months), all transactions for the same period with the amount, type and subtype, with the sign “debit / credit ".
  • the above data which is a sample, can be obtained from a mobile communication device of a user, for example, such as a tablet, mobile phone, smartphone, or from an automated system of a financial and credit organization in which data is stored.
  • a mobile communication device of a user for example, such as a tablet, mobile phone, smartphone, or from an automated system of a financial and credit organization in which data is stored.
  • a target may be, for example, a loan overdue. If this target attribute is simply a fact of non-repayment of the loan (takes the value 1 or 0, i.e. the financial and credit institution knows about its customers who repaid the loan and who did not), then this is a (binary) classification task. If you know how much time the client delayed in repaying the loan and you want to predict the same thing for new customers, then this will be a regression task.
  • At least one sample is generated to develop a scoring model.
  • scoring models are developed to predict the behavior of all borrowers, its development solely on issued applications may lead to inaccurate results.
  • the model will be trained on a biased sample, therefore, they analyze the applications for which failures of the previous scoring model were received. In order to account for these failures, a certain percentage of the worst applications for which the failure of the previous model was received is added to the sample for developing the scoring model. All such applications are considered defaulted by default.
  • Step 102 carry out the partitioning of the data into samples for training, validation and testing of the scoring model.
  • the initial data set is divided into a training, validation and test sample in a given ratio.
  • the training sample is used at all stages of the process
  • the validation sample is used to select the most stable factors and the final quality control of the scoring model
  • the test sample is used for complex independent testing. Samples in some embodiments can be formed as consecutive, time-disjoint parts of the original population or as random subsamples.
  • Step 103 carry out the transformation of factors by establishing relationships between groups of values of the transformed factor and default levels.
  • the factors used as input parameters for scoring models and potentially related to the user's creditworthiness may include, but are not limited to, annual income, outstanding debt, ownership of real estate or a car, work experience in last place, age, etc. P.
  • WOE - weight of evidence characterizes the degree of deviation of the level of defaults for a group of data from the average level of defaults for the entire sample.
  • each factor is replaced by its corresponding WOE factor as follows:
  • the WOE metric can be any value. Positive values of WOE indicate that the segment in question has a lower default level than the sample as a whole (the more WOE, the lower the level of defaults). A value of WOE less than zero indicates that the segment in question has a higher default level than the sample as a whole.
  • the WOE values for group i can be determined as follows:
  • N G (i) and N G are the number of non-default cases in group i and for the entire sample, respectively
  • N B (i) and N B are the number of default cases in group i and for the entire sample, respectively.
  • the grouping is carried out in such a way that observations with a comparable level of defaults (DR) fall into each range.
  • the continuous factor is divided into several groups, for each of which it is possible to assess the level of defaults based on observations that fall into this range.
  • the initial grouping of factor values can occur using one-factor decision trees. This makes it possible to increase the discriminatory ability of the obtained factors in comparison with manual groupings, since the obtained groups will be as homogeneous as possible inside and different from each other based on the statistical criterion used.
  • the discriminatory power of a factor is understood to mean its ability to differentiate between default and non-default observations.
  • a Gini index can be used.
  • the obtained groups are merged by the proximity of the WoE values if the WoE distance between the groups does not exceed a predetermined threshold.
  • the order of the groups ordered by the factor values is also taken into account. Factors that have only one group left after associations are transferred to the list of excluded ones.
  • monotonicity, nonmonotonicity conditions, and risk directions for interval variables are checked in accordance with a manual. Factors that do not meet the conditions from the directory go into the list of excluded.
  • the minimum number of groups is checked. If the variable has fewer groups than the initially specified minimum number, then it goes into the excluded list.
  • the implementation of the check conditions of the ratio of risk in different groups for categorical and binary variables in accordance with the directory (verification of business logic). Conditions are set using a special language that allows you to describe patterns. risk ratios in groups of any complexity. Factors that do not meet the conditions from the directory go into the list of excluded.
  • a drop in the Gini coefficient is checked. If the given coefficient according to the predictor in the validation sample is less than the initially set threshold value or falls compared to the Gini coefficient in the training sample by more than a specified number of percent, then this factor goes into the excluded list.
  • the stability of the order of groups ordered by WoE is checked. A comparison of the training sample and 20 samples randomly selected from the combination of the training and validation is performed. Factors for which instability in the order of the groups ordered by WoE is detected is transferred to the list of excluded ones.
  • Step 104 exclude from the samples at least one transformed factor that correlates with at least one other factor.
  • Pair correlation analysis is used to identify collinear relationships between variables. The presence of correlations between factors increases the standard deviations of the regression coefficients, which reduces their stability and reliability in multivariate analysis.
  • the correlation matrix is calculated — a table with the values of the pair correlation coefficients of the transformed WOE factors. The analysis of this table allows us to determine variables that have high linear relationships with other factors. The value starting from which the correlation coefficients are considered high is set in the directory. The recommended value, starting from which the correlation coefficients are considered high, is in the range from 0.5 to 1 to the module. Of each pair of correlating factors, only one should be left on the basis of either a higher individual predictive ability or a greater importance of the factor from the point of view of business logic.
  • the factor that has the largest number of factors correlated with it is selected (the correlation value is above the selected threshold). If there are several, then the factor with the lowest Gini index is selected from them. This factor is excluded from consideration. After that, the next factor is selected with the largest number of remaining factors correlated with it and the lowest value of the Gini index. Thus, factors without correlations above the selected threshold remain at the exit from the cycle. This approach provides the largest number of uncorrelated factors in the final list of factors for modeling.
  • Step 105 form a credit scoring model by training binary multiple logistic regression, having the following form:
  • U is the dependent variable (sign of default)
  • Xi X 2 , ...
  • X P is the set of independent explanatory WOE factors
  • b2 * - b h are the logistic coefficients regression
  • PD - probability of default
  • the default probability values may range from 0 to 100 in percentage or numerical terms.
  • VIF Variance Inflation Factor
  • R 2 is the coefficient of determination of the model described above.
  • a variable whose VIF value is greater than the specified value and the value of the Gini coefficient is minimal is excluded. The first and second steps are repeated until all factors included in the model have a value of VI F below a given value.
  • the model is automatically validated in accordance with any prior art statistical model validation technique.
  • quantitative tests are calculated to assess the quality of the model.
  • the validation process uses the test sample generated in step 102 and a population of data. In the case of validation, go to step 107, otherwise a notification will be sent to the system user that the validation has not been completed, as well as a detailed report on the identified deficiencies.
  • the user can adjust the modeling approaches and ensure the success of the next validation.
  • the choice of the optimal cut-off threshold value depends on the price of making errors of the first and second kind in the classification.
  • the model should more accurately classify “bad” borrowers, as in credit scoring, the price of a pen-type error is higher.
  • the sensitivity will increase in the model, i.e. the ability of the model to correctly identify those borrowers who will have late payment.
  • Step 106 automatically select clipping zones for at least one scoring model for its installation in the credit procedure.
  • the algorithm for selecting cut-off zones consists of two parts: external and internal.
  • the external part is responsible for iterative selection of cut-off levels
  • the internal part is for calculating the expected level of approval of a loan application corresponding to the current set of cut-offs.
  • the criterion for the internal part of the algorithm can be not only the level of approval, but any indicator of interest, depending on cut-off levels, for example, the risk level or portfolio NPV.
  • the algorithm works on a historical sample of data on loan applications.
  • the above procedure is repeated until a target level of approval is obtained or an upper / lower score is reached for each of the models.
  • the internal part of the algorithm evaluates the change in the level of approval when changing the cutoff points for working scoring models. As noted earlier, the effect of changing cut-off zones can be evaluated on various indicators, whether it is risk or profitability, but in any case, it is necessary to assess who will be approved under the new cut-off zones and who is rejected (or the probability of one of these events). In this regard, an algorithm for assessing changes in the level of approval will be considered.
  • a decision-making system (DSS) in a financial-credit organization is a sequence of checks and application of the rules and may include the following stages of the application process:
  • failures are simulated for three types of models with new cutoff points. All applications for which an actual rejection was received at the scoring stage and approval for all models during the simulation are marked (they need a separate simulation of the probability of failure at the subsequent stages of the DSS). 2. The simulation of the probability of failure at the stage of application of the reliability model is carried out. To build the model, applications are used that successfully passed the scoring procedure before changing the cutoff points.
  • the probability of failure after passing the scoring procedure is calculated for marked applications requiring a separate simulation (p. 1).
  • Pbiag is the probability of failure for the application according to the reliability model; P un derr - failure probability for the application at the underwriting stage; P next - the probability of failure for the application in subsequent stages.
  • the probability of rejection is deducted from the unit. After that, the approval level is calculated as the ratio of the number of approved applications (the sum of the probabilities of approval) to the number of all applications. By averaging this value over the portfolio under consideration, a level of approval is obtained for the selected cut-off zones.
  • the risk level is estimated as the average level of probability of delay in each segment.
  • the forecast of the probability of delay is made on the latest available data, taking into account segmentation.
  • the client segment that is optimal from the point of possible improvement of the AR / DR ratio is considered, within which there are “spin” - “spin” operations in this sequence with a predetermined step of 15 points (this step can be increased in accordance with the rules formation of the cycle, but not more than 60 points).
  • this step can be increased in accordance with the rules formation of the cycle, but not more than 60 points.
  • Adjustments are run daily until the approval level returns to the acceptable interval between high AR and low AR .
  • a monthly automatic validation of the scoring model is carried out in accordance with the methodology adopted by the financial institution. If the model does not pass validation, it is sent for retraining.
  • the level of approval is monitored daily. This methodology is suitable for monitoring not only the level of approval, but also other indicators, such as risk.
  • the average moving approval level with a window of 7 days is considered as a time series, the elements of which are modeled using independent normally distributed random variables.
  • a criterion is needed, with which you can understand that the change really happened, since this indicator has natural fluctuations. Based on this, a CUSUM test can be used to detect deviations in the target approval level.
  • a data processing device that is a computer or system (or tools such as a central / graphics processor or microprocessor) that reads and executes a program recorded on a storage device to perform the functions of the above Embodiment (s) and the method shown in FIG. 1, the steps of which are performed by a computer or device by, for example, reading and executing the program recorded on the storage device to perform the functions of the above-described embodiment (s) of implementation.
  • the program is recorded on a computer, for example, through a network or from a recording medium of various types, serving as a storage device (for example, a computer-readable medium).
  • the data processing device may have additional features or functionality.
  • the data processing device may also include additional data storage devices (removable and non-removable), such as, for example, magnetic disks, optical disks or tape.
  • Storage devices may include volatile and non-volatile, removable and non-removable media implemented in any way or using any technology for storing information, such as machine-readable instructions, data structures, program modules or other data.
  • a storage device, removable storage, and non-removable storage are examples of computer storage media.
  • Computer storage media includes, but is not limited to, random access memory (RAM), read-only memory (ROM), electrically erasable programmable ROM (EEPROM), flash memory or other memory technology, ROM on compact a disc (CD-ROM), universal digital disks (DVDs) or other optical storage devices, magnetic tapes, magnetic tapes, magnetic disk storage or other magnetic storage devices, or any other medium that may be used to store the desired information and to which the data processing device can access.
  • the data processing device may also include an input device (s), such as a keyboard, mouse, pen, voice input device, touch input device, and so on.
  • An output device (a) such as a display, speakers, printer, and the like, may also be included in the system.
  • the data processing device comprises communication connections that allow the device to communicate with other computing devices, for example over a network.
  • Networks include local area networks and wide area networks along with other large, scalable networks, including, but not limited to, corporate networks and extranets.
  • Communication connection is an example of a communication environment. how typically, a communication medium can be implemented using computer-readable instructions, data structures, program modules or other data in a modulated information signal, such as a carrier wave, or in another transport mechanism, and includes any information delivery medium.
  • modulated information signal means a signal, one or more of its characteristics are changed or set in such a way as to encode information in this signal.
  • communication media include wired media such as a wired network or a direct wired connection, and wireless media such as acoustic, radio frequency, infrared, and other wireless media.
  • machine-readable medium includes both storage media and communication media.
  • a program may be pre-recorded on a recording medium such as a hard disk or ROM (read only memory).
  • the program can be temporarily or permanently saved (recorded) on a removable recording medium such as a floppy disk, CD-ROM (compact disc, designed for playback only), MO (magneto-optical) disc, DVD (digital universal disc) , magnetic disk or semiconductor memory.
  • Removable recording media may be distributed as so-called software sold through a retail network.
  • the program may be installed from the removable recording medium described above to a computer, or may be transmitted via cable from a download site to a computer, or may be transmitted to a computer via network data channels such as a LAN (local area network) or The Internet.
  • the computer can receive the program transmitted in this way and can install it on a recording medium such as an internal hard drive.
  • the processes described in this document can be performed sequentially in time, in accordance with the description, or can be performed in parallel or separately, depending on the processing characteristics of the device that performs the processes, or in accordance with the need.
  • the system described in this document is a logical set of multiple devices and is not limited to the structure in which these devices are installed in one enclosure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

Данное техническое решение, в общем, относится к области вычислительной техники, а в частности к способам автоматической разработки моделей кредитного скоринга и их автоматической имплементации в кредитный процесс. Компьютеризированный способ разработки и управления моделями скоринга, в котором получают данные за заданный период времени, содержание факторы, влияющие на модель скоринга; после чего осуществляют разбиение полученных данных на выборки для разработки, валидации и тестирования модели скоринга; затем осуществляют трансформацию факторов посредством установления соотношений между группами значений преобразованного фактора и уровнями дефолтов; далее исключают из выборок по меньшей мере один преобразованный фактор, коррелирующий с по меньшей мере одним другим фактором; после чего формируют модель кредитного скоринга посредством обучения бинарной множественной логистической регрессии; и в итоге подбирают автоматически зоны отсечения для по меньшей мере одной модели скоринга для ее установки в кредитную процедуру. Технический результат - повышение качества создаваемых моделей кредитного скоринга.

Description

АВТОМАТИЗИРОВАННАЯ СИСТЕМА РАЗРАБОТКИ И УПРАВЛЕНИЯ МОДЕЛЯМИ
СКОРИНГА
ОБЛАСТЬ ТЕХНИКИ
[1] Данное техническое решение, в общем, относится к области вычислительной техники, а в частности к способам автоматической разработки моделей кредитного скоринга и их автоматической имплементации в кредитный процесс.
УРОВЕНЬ ТЕХНИКИ
[2] В настоящее время финансовые учреждения применяют стандартные статистические подходы к анализу исторических данных для описания возможных клиентов с точки зрения риска. Это позволяет классифицировать заемщиков на «хороших» и «плохих» и таким образом принимать окончательное решение о кредитовании. В большинстве кредитных учреждений созданы подразделения, разрабатывающие модели кредитного скоринга на основании собственной статистики с учетом специфики клиентского профиля. Однако данные кредитные учреждения часто обращаются в бюро кредитных историй, из-за чего процесс оценки кредитоспособности заемщика сильно затягивается и становится неточным, так как зависит от использованных алгоритмов бюро кредитных историй.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[3] Данное техническое решение направлено на устранение недостатков, присущих существующим решениям, известным из уровня техники.
[4] Технической проблемой (или технической задачей) в данном техническом решении является осуществление автоматической разработки моделей кредитного скоринга с их последующей имплементацией в систему принятия решения и мониторингом.
[5] Техническим результатом, проявляющимся при решении вышеуказанной задачи, является повышение качества создаваемых моделей кредитного скоринга.
[6] Дополнительным техническим результатом, проявляющимся при решении технической задачи, является увеличение скорости разработки моделей кредитного скоринга. [7] Также снижается потребность в количестве ресурсов, необходимых для разработки и поддержки моделей, увеличение скорости и простоты внедрения моделей в промышленный контур, а также обеспечение мониторинга работы моделей и оперативной реакции на изменения.
[8] Указанный технический результат достигается благодаря осуществлению способа разработки и управления моделями скоринга, в котором получают данные за заданный период времени, содержание факторы, влияющие на модель скоринга; после чего осуществляют разбиение полученных данных на выборки для разработки, валидации и тестирования модели скоринга; затем осуществляют трансформацию факторов посредством установления соотношений между группами значений преобразованного фактора и уровнями дефолтов; далее исключают из выборок по меньшей мере один преобразованный фактор, коррелирующий с по меньшей мере одним другим фактором; формируют модель кредитного скоринга посредством обучения бинарной множественной логистической регрессии; подбирают автоматически зоны отсечения для по меньшей мере одной модели скоринга для ее установки в кредитную процедуру.
[9] В некоторых вариантах осуществления получают данные за заданный период времени с мобильного устройства связи пользователя.
[10] В некоторых вариантах осуществления при осуществлении разбиения полученных данных на выборки получают непересекающиеся во времени части исходной совокупности или случайные подвыборки.
[11] В некоторых вариантах осуществления факторами, влияющими на модель скоринга, являются годовой доход и/или размер непогашенного долга, и/или владение недвижимостью, и/или владение автомобилем, и/или стаж работы на последнем месте, и/или возраст.
[12] В некоторых вариантах осуществления факторы, влияющие на модель скоринга, являются дискретными или непрерывными.
[13] В некоторых вариантах осуществления при осуществлении трансформации факторов определяют степень отклонения уровня дефолтов по группе данных от среднего уровня дефолтов по всей выборке.
[14] В некоторых вариантах осуществления при осуществлении трансформации факторов по факторам, попавшим в список исключенных, запускают алгоритм разбиения значений факторов с новым набором настроек. [15] В некоторых вариантах осуществления при исключении из выборок преобразованных факторов формируют таблицу со значениями коэффициентов парных корреляций преобразованных факторов.
[16] В некоторых вариантах осуществления при исключении из выборок преобразованных факторов в цикле отбирают фактор, который имеет наибольшее количество коррелированных с ним факторов.
[17] В некоторых вариантах осуществления при формировании модели кредитного скоринга строится логистическая модель с использованием пошаговой регрессии для отбора итогового набора факторов.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[18] Признаки и преимущества настоящего изобретения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:
[19] На Фиг. 1 показан пример осуществления способа разработки и управления моделями скоринга в виде блок-схемы.
[20] На Фиг.2 показана верхнеуровневая примерная схема осуществления способа разработки и управления моделями скоринга. Основное ядро составляют два блока - это переобучение и подбор/корректировка зон отсечения, причем без адаптации зон отсечения невозможно организовать автоматическое внедрение модели в систему принятия решения. Результаты двух этих блоков интегрируются в промышленную среду (в данном варианте осуществления в SAS RTDM). Кроме того, каждый из этих двух блоков подвергается регламентным проверкам в виде ежедневного мониторинга целевого показателя, зависящего от зон отсечения (уровень одобрения) и ежемесячной валидации моделей.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
[21] Данное техническое решение может быть реализовано на компьютере, в виде автоматизированной системы (АС) или машиночитаемого носителя, содержащего инструкции для выполнения вышеупомянутого способа.
[22] Техническое решение может быть реализовано в виде распределенной компьютерной системы.
[23] В данном решении под системой подразумевается компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, чётко определённую последовательность вычислительных операций (действий, инструкций).
[24] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).
[25] Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но, не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.
[26] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.
[27] Ниже будут описаны термины и понятия, необходимые для осуществления настоящего технического решения.
[28] Кредитный скоринг — это метод моделирования кредитного риска заемщика, основанный на численных статистических методах. Назначение кредитного скоринга— принятие решений по выдаче кредитов физическим или юридическим лицам.
[29] Р-value — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода).
[30] Репрезентативность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность.
[31] DR - уровень дефолтов. Рассчитывается как число дефолтных наблюдений в группе, деленное на число всех наблюдений в группе.
[32] Бутстреп - практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок на базе имеющейся выборки. [33] Вероятность дефолта - вероятность наступления дефолта по сделке в течение одного года с даты присвоения/корректировки рейтинга.
[34] Выборка - набор сделок и их параметров, отвечающих заданным характеристикам и представляющим из себя часть анализируемой генеральной совокупности.
[35] Выборка для обучения - набор сделок и их параметров, использующихся для оценки модели.
[36] Выборка для оценки стабильности - набор сделок и их параметров, использующихся для оценки стабильности ранжирующей способности факторов и их разбиений.
[37] Выборка для тестирования - данные по всем имеющимся договорам за все доступные отчетные даты. Определяется применительно к сегменту, на котором разрабатывается модель.
[38] Генеральная совокупность - совокупность пар «сделка-дата», относящихся к выделенному сегменту.
[39] Дискретные факторы - факторы с ограниченным количеством вариантов значений.
[40] Непрерывные факторы - факторы с неограниченным количеством возможных вариантов значений.
[41] Обучающая выборка - набор сделок и их параметров, использующихся для разработки модели.
[42] Преобразование факторов - замена значений факторов на расчётные величины (скоры, WOE), связанные с оценкой вероятности дефолта, относящейся к значению фактора.
[43] Скоринговый балл - значение показателя качества сделок с точки зрения вероятности их дефолта.
[44] Тестовая выборка - выборка, используемая для проверки эффективности полученной модели (не участвует в разработке)
[45] Трансформация факторов - то же, что и преобразование факторов.
[46] PD - величина вероятности дефолта.
[47] WOE (англ weight of evidence) - величина, которая характеризует степень отклонения уровня дефолтов по группе от среднего уровня дефолтов по всей выборке.
[48] Компьютеризированный способ разработки и управления моделями скоринга, схематично показанный на Фиг. 1 , включает следующие шаги. [49] Шаг 101 : получают данные за заданный период времени, содержащие факторы, влияющие на модель скоринга.
[50] Данные пользователя могут включать текущее состояние счетов (включая закрытые) - даты открытия, текущие остатки, срок, валюта, тип и название продукта, количество пролонгаций, текущий статус и так далее, не ограничиваясь.
[51] Также полученные данные могут включать ежемесячные балансы (на конец каждого месяца) по каждому счёту за последний промежуток времени (например, за последние полгода), все операции за тот же период с суммой, типом и подтипом, с признаком «дебет/кредит».
[52] Вышеуказанные данные, которые представляют собой выборку, могут получать с мобильного устройства связи пользователя, например, такого как планшет, мобильный телефон, смартфон, или из автоматизированной системы финансово-кредитной организации, в которой хранятся данные.
[53] На основе полученных данных о пользователях автоматически определяют кредитный скоринг, т.е. прогнозируют невозврат выданного кредита пользователем. Для этого используют обучающую выборку: набор объектов (пользователей), каждый из которых характеризуется набором признаков (таких как возраст, зарплата, тип кредита, состояние счетов, ежемесячные балансы, невозвраты в прошлом и т.д.), а также целевым признаком. Целевым признаком может быть, например, просрочка кредита. Если этот целевой признак - просто факт невозврата кредита (принимает значение 1 или 0, т.е. финансово-кредитная организация знает о своих клиентах, кто вернул кредит, а кто - нет), то это задача (бинарной) классификации. Если известно, насколько по времени клиент затянул с возвратом кредита и хочется то же самое прогнозировать для новых клиентов, то это будет задачей регрессии.
[54] Для каждой группы счетов (депозиты и прочие счета) могут учитываться следующие данные или факторы:
[55] Кол-во счетов;
[56] Кол-во счетов со статусом "Действующий";
[57] Кол-во счетов со статусом "Закрыт";
[58] Кол-во счетов со статусом "Счёт арестован";
[59] "Худший" статус по всем счетам клиента;
[60] Количество счетов в иностранной валюте;
[61] Количество счетов в драгоценных металлах;
[62] Минимальный срок по счетам; [63] Средний срок по счетам;
[64] Максимальный срок по счетам;
[65] Минимальный срок по действующим счетам;
[66] Средний срок по действующим счетам;
[67] Максимальный срок по действующим счетам;
[68] Средневзвешенный по текущему остатку в рублях срок договора;
[69] Общая сумма текущих остатков;
[70] Максимальная сумма остатка по всем счетам;
[71] Средневзвешенный по текущему остатку доля валютных счетов;
[72] Средневзвешенный по текущему остатку доля счетов в драгоценных металлах;
[73] Время в днях, прошедшее с даты открытия самого раннего счёта.
[74] Специалисту в данном уровне техники, очевидно, что представленный выше набор данных является примерным и в некоторых вариантах осуществления может отличаться от приведенного выше.
[75] Далее осуществляют формирование по меньшей мере одной выборки для разработки модели скоринга. Для этого используются наиболее актуальные выданные за один календарный год кредиты, находящиеся в портфеле не менее 12 месяцев. Поскольку модели скоринга разрабатываются для прогнозирования поведения всех заемщиков, ее разработка исключительно на выданных заявках может привести к неточным результатам. В таком случае модель будет обучена на смещенной выборке, поэтому осуществляют анализ заявок, по которым получены отказы предыдущей модели скоринга. В целях учета этих отказов к выборке для разработки модели скоринга добавляется некоторый процент худших заявок, по которым получен отказ предшествующей модели. Все такие заявки считаются по умолчанию дефолтными.
[76] Шаг 102: осуществляют разбиение полученных данных на выборки для обучения, валидации и тестирования модели скоринга.
[77] На данном этапе исходная совокупность данных разбивается на обучающую, валидационную и тестовую выборку в заданном соотношении. В дальнейшем обучающая выборка используется на всех этапах процесса, валидационная применяется для отбора наиболее стабильных факторов и итоговой проверки качества модели скоринга, а тестовая— для комплексного независимого тестирования. Выборки в некоторых вариантах осуществления могут формироваться как последовательные, непересекающиеся во времени части исходной совокупности или как случайные подвыборки.
[78] Шаг 103: осуществляют трансформацию факторов посредством установления соотношений между группами значений преобразованного фактора и уровнями дефолтов.
[79] В качестве факторов, используемых в качестве входных параметров для моделей скоринга и потенциально связанных с кредитоспособностью пользователя, могут быть, не ограничиваясь как годовой доход, размер непогашенного долга, владение недвижимостью или автомобилем, стаж работы на последнем месте, возраст и т.п.
[80] Среди факторов, описывающих данные кредитной заявки, большую часть обычно составляют дискретные (образование, пол, семейное положение, цель кредита, вид собственности на жилье, род деятельности и т.п.). При этом если некоторые факторы поддаются некоторому упорядочению (например, образование— можно считать, что чем выше уровень, тем больше значение переменной), то для других не существует никакого осмысленного линейного порядка (например, семейное положение или цель кредита). Следовательно, такие переменные нельзя даже приблизительно считать непрерывными, поскольку их значения суть номера ответов на соответствующие вопросы, которые могут располагаться в произвольном порядке. Если используемая модель скоринга требует использования непрерывных переменных, то можно обойти дискретность переменных, заменив их на большее количество переменных, принимающих значения от 0 до 1.
[81] Трансформация каждого рассматриваемого фактора заключается в замене его значений расчетной величиной - WOE.
[82] WOE - weight of evidence, характеризует степень отклонения уровня дефолтов по группе данных от среднего уровня дефолтов по всей выборке. Таким образом, каждый фактор заменяется соответствующим ему WOE-фактором следующим образом:
\Л/ОЕ-фактор, = WOEi(f),
[83] где f - рассматриваемый фактор, i - номер группы значений фактора f, WOEj(f) - значение WOE, соответствующее группе значений i.
[84] В некоторых вариантах осуществления показатель WOE может принимать любые значения. Положительные значения WOE говорят о том, что рассматриваемый сегмент имеет более низкое значение уровня дефолтов, чем выборка в целом (чем больше WOE, тем ниже уровень дефолтов). Значение WOE меньше нуля говорит о том, что рассматриваемый сегмент имеет более высокое значение уровня дефолтов, чем выборка в целом. Значения WOE по группе i может определяться следующим образом:
Figure imgf000011_0001
[85] где NG(i) и NG - количество недефолтных наблюдений в группе i и по всей выборке, соответственно, NB(i) и NB - количество дефолтных наблюдений в группе i и по всей выборке, соответственно.
[86] Если NG(i) = 0 или NB(i) = 0, то значение WOE для группы определяется по формуле:
Figure imgf000011_0002
[87] Для непрерывных факторов группировка осуществляется таким образом, чтобы в каждый диапазон попадали наблюдения с сопоставимым уровнем дефолтов (DR). В результате процесса группировки непрерывный фактор делится на несколько групп, для каждого из которых возможно оценить уровень дефолтов на базе наблюдений, попавших в этот диапазон.
[88] Группировка переменных с дискретным набором значений осуществляется аналогично группировке непрерывных факторов - на основании сопоставимого уровня дефолтов (DR). В каждую группу может попадать одно или несколько значений фактора. Уровень дефолтов вычисляется по всем наблюдениям, входящим в группу.
[89] Использование WOE-факторов имеет следующие преимущества:
[90] Линеаризация факторов в соответствии с предпосылками логистической регрессии.
[91] Автоматическая обработка пропущенных значений: они либо объединяются с наиболее похожей по уровню дефолтов группой, либо выступают в качестве отдельной группы. В случае, когда пропущенное значение не интерпретируемо или отсутствует в выборке, то оно относится в худшую по уровню риска группу. [92] Автоматическая обработка аномальных значений, так как они не способны негативно повлиять на модель и их фактическое значение не используется в модели. Они войдут в модель как элемент одной из крайних групп, характеризующейся своим WOE-значением, основанном только на соотношении дефолтных и недефолтных наблюдений в группе.
[93] Возможность оценить и контролировать логичность направления связи значений фактора и уровня дефолтов (бизнес-логику), что позволяет гарантировать, что итоговые скоринговые баллы будут иметь смысл (например, люди старшего возраста, обычно, набирают больше баллов, чем молодые). Логичные связи подтверждают бизнес-опыт, поэтому позволяют получить более стабильную модель.
[94] Позволяет снизить риск переобучения. В модель не включается каждое случайное изменение данных, что имело бы место в случае не сгруппированных атрибутов. Такая модель обладает большей гибкостью и способна выдержать некоторые изменения в популяции, что обеспечивает стабильность в течение более долгого периода времени.
[95] Первоначальная группировка значений факторов может происходить с помощью однофакторных деревьев решений. Это позволяет увеличить дискриминирующую способность полученных факторов по сравнению с ручными группировками, так как полученные группы будут максимально однородны внутри и различны между собой на основании используемого статистического критерия.
[96] Под дискриминирующей силой фактора понимают его способность дифференцировать дефолтные и недефолтные наблюдения. Для оценки дискриминирующей способности переменной может использоваться индекс Джини.
[97] На основании практики, имеющейся в уровне техники, по интерпретируемости используемых в скоринге факторов, необходимо обращать внимание не только на ранжирующую способность WoE- трансформированных факторов, но и на их бизнес-логику. По этой причине на данном этапе происходит не только автоматическое разбиение значений факторов и расчет для них WoE, но и проверка получившихся разбиений на бизнес-логику. Если полученное разбиение не проходит данную проверку, то алгоритм пытается получить новое разбиение, используя альтернативные настройки. Способ получения итоговых WoE-факторов включает шаги, приведенные ниже.
[98] Сначала запускают разбиения значений факторов с указанным набором настроек.
[99] Затем осуществляют слияние полученных групп по близости значений WoE в случае, если расстояние по WoE между группами не превосходит заданный порог. Для интервальных факторов также учитывается порядок следования групп, упорядоченных по значениям фактора. Факторы, у которых осталась всего одна группа после объединений, переходят в список исключенных.
[100] На следующем шаге осуществляют слияние групп маленького размера в соответствии с заданным пороговым значением с ближайшей по WoE группой. Для интервальных факторов также учитывается порядок следования групп, упорядоченных по значениям фактора. Факторы, у которых осталась всего одна группа после объединений, переходят в список исключенных. После каждого слияния необходимо вернуться ко второму пункту.
[101] Также важно проводить слияние полученных групп по близости значений WoE в случае, если сформировано больше групп, чем изначально заданное максимальное количество для данного предиктора. Для интервальных факторов также учитывается порядок следования групп, упорядоченных по значениям фактора. Факторы, у которых осталась всего одна группа после объединений, переходят в список исключенных. После каждого слияния необходимо вернуться ко второму пункту.
[102] В некоторых вариантах осуществления проверяют монотонность, условия немонотонности и направления риска для интервальных переменных в соответствии со справочником. Факторы, которые не соответствуют условиям из справочника, переходят в список исключенных.
[103] В некоторых вариантах осуществления проверяют минимально допустимое количество групп. Если по переменной доступно меньше групп, чем изначально заданное минимально допустимое число, то она переходит в список исключенных.
[104] В некоторых вариантах осуществления проверяют условия соотношения риска в различных группах для категориальных и бинарных переменных в соответствии со справочником (проверка бизнес-логики). Условия задаются с помощью специального языка, который позволяет описывать паттерны соотношения риска в группах любой сложности. Факторы, которые не соответствуют условиям из справочника, переходят в список исключенных.
[105] В некоторых вариантах осуществления проверяют падение коэффициента Джини. Если данный коэффициент по предиктору на валидационной выборке меньше изначально заданного порогового значения либо падает по сравнению с коэффициентом Джини на обучающей выборке более чем на заданное число процентов, то такой фактор переходит в список исключенных.
[106] В некоторых вариантах осуществления проверяют стабильность порядка следования групп, упорядоченных по WoE. Происходит сравнение обучающей выборки и 20 выборок, случайным образом отобранных из объединения обучающей и валидационной. Факторы, у которых выявлена нестабильность в порядке следования групп, упорядоченных по WoE, переходят в список исключенных.
[107] По факторам, попавшим в список исключенных, необходимо запустить алгоритм разбиения значений факторов с новым набором настроек. Если доступных настроек нет или все они уже проверены, то формирование разбиений считается законченным. Количество настроек определяется возможностями используемого статистического пакета, например, на основании SAS Enterprise Miner. Таким образом, по результатам применения алгоритма формируются WoE-факторы. Исходные факторы, которые не прошли проверку ни при одном наборе настроек разбиения, исключаются из процесса.
[108] Шаг 104: исключают из выборок по меньшей мере один преобразованный фактор, коррелирующий с по меньшей мере одним другим фактором.
[109] Анализ парных корреляций используется для выявления коллинеарных зависимостей между переменными. Наличие корреляций между факторами повышает стандартные отклонения коэффициентов регрессии, что снижает их устойчивость и надежность в многофакторном анализе. Для корреляционного анализа рассчитывается матрица корреляций - таблица со значениями коэффициентов парных корреляций преобразованных WOE-факторов. Анализ данной таблицы позволяет определить переменные, имеющие высокие линейные связи с другими факторами. Значение, начиная с которого коэффициенты корреляции признаются высоким, устанавливается в справочнике. Рекомендуемое значение, начиная с которого коэффициенты корреляции признаются высоким, находится в диапазоне от 0.5 до 1 по модулю. Из каждой пары коррелирующих факторов следует оставить только один на основании либо более высокой индивидуальной предиктивной способности, либо большей важности фактора с точки зрения бизнес-логики. В системе используется следующий алгоритм: в цикле отбирается фактор, который имеет наибольшее количество коррелированных с ним факторов (значение корреляции выше выбранного порога). Если таких несколько, то из них выбирается фактор с наименьшим значением индекса Джини. Такой фактор исключается из рассмотрения. После этого отбирается следующий фактор с наибольшим количеством коррелированных с ним оставшихся факторов и наименьшим значением индекса Джини. Таким образом, на выходе из цикла остаются факторы без корреляций выше выбранного порога. Данный подход обеспечивает наибольшее число некоррелированных факторов в итоговом списке факторов для моделирования.
[110] Шаг 105: формируют модель кредитного скоринга посредством обучения бинарной множественной логистической регрессии, имеющий следующий вид:
Figure imgf000015_0001
PD(Y = 1|Х„Х2. „ = ! + ехр(— (b0 + РА+РгХг + - +Р„Хп»’
где U - зависимая переменная (признак дефолта), U = 1 - событие дефолта, Xi,X2, ... , ХП - набор независимых, объясняющих WOE-факторов, b bi» b2* - bh - коэффициенты логистической регрессии, PD - вероятность дефолта.
[111] Значения вероятности дефолта (PD— Probability of Default) располагаются в интервале [0, 1]. Она показывает вероятность дефолта для каждого рассчитанного рейтинга.
[112] В некоторых вариантах осуществления значения вероятности дефолта могут располагаться в интервале от 0 до 100 в процентном или численном эквиваленте.
[113] Несмотря на отсутствие коррелирующих пар, исключенных на предыдущем шаге, между факторами модели скоринга может возникать мультиколлинеарность, поэтому на этапе построения модели скоринга необходимо проверять ее отсутствие. Кроме того, т.к. модель скоринга разрабатывается на основе WoE-факторов, а чем больше WoE, тем меньше риск, необходимо проверять корректность знака коэффициента в модели скоринга (все коэффициенты регрессии должны быть отрицательными). Помимо этого требуется обеспечить высокую стабильность модели, поэтому значимость каждого из входящих в нее факторов проверяется с помощью процедуры статистического бутстрэпа: каждый из факторов должен быть значим исходя из статистики Вальда минимум в 85% случаев. Способ формирования итоговой модели скоринга выглядит следующим образом.
[1 14] На основе всех факторов, дошедших до данного этапа, строится логистическая модель с использованием пошаговой регрессии (stepwise) для отбора итогового набора факторов.
[1 15] Для таких факторов происходит расчет фактора инфляции дисперсии (Variance Inflation Factor, VIF), Для определения VIF необходимо оценить линейную регрессионную модель, где в качестве зависимой переменной будет рассматриваемый фактор, а в качестве независимых переменных будут выступать оставшиеся факторы, включённые в модель. Итоговое значение VIF для фактора может быть найдено по формуле:
Figure imgf000016_0001
где R2 - коэффициент детерминации описанной выше модели. Переменная, значение VIF которой больше заданного значения и величина коэффициента Джини минимальна - исключается. Первый и второй шаги повторяются до тех пор, пока все включенные в модель факторы не будут иметь значение VI F ниже заданного.
[116] Затем проводится проверка на наличие факторов с положительным знаком коэффициента регрессии. В случае их обнаружения происходит исключение фактора с минимальным значением коэффициента Джини, после чего необходимо вернуться к первому шагу. Если таких факторов нет, то следует перейти к следующему пункту.
[1 17] Далее осуществляется объединение обучающей и валидационной выборок.
Из их объединения случайным образом отбирается несколько десятков выборок того же размера, что и обучающая. На каждой из полученных выборок происходит обучение модели скоринга с текущим набором факторов. Если есть факторы, которые значимы, по статистике Вальда, менее чем в 85% случаев, то исключается тот из них, величина коэффициента Джини которого является наименьшей. После исключения необходимо вернуться к первому шагу. Если таких факторов нет, то скоринговая модель считается успешно построенной. [118] Таким образом, алгоритм позволяет в автоматическом режиме разрабатывать скоринговые модели, отвечающие всем разумным требованиям качества. Помимо этого он гарантирует, что каждый фактор будет соответствовать бизнес-логике, описанной в специальном справочнике.
[119] В некоторых вариантах рсуществления проводят автоматическую валидацию модели в соответствии с любой методикой валидации статистических моделей, известной из уровня техники. На данном этапе рассчитываются количественные тесты для оценки качества модели. Процесс валидации использует тестовую выборку, сформированную на шаге 102, и генеральную совокупность данных. В случае прохождения валидации, переходим к шагу 107, иначе пользователю системы направляется уведомление о том, что валидация не пройдена, а также подробный отчёт о выявленных недостатках. Варьируя настройки алгоритма, пользователь может скорректировать подходы к моделированию и обеспечить успешность следующей валидации.
[120] Выбор оптимального значения порога отсечения зависит от цены совершения ошибки первого и второго рода при классификации. Модель должна точнее классифицировать «плохих» заемщиков, т.к. в кредитном скоринге цена ошибки перового рода выше. При снижении порога отсечения в модели будет увеличиваться чувствительность, т.е. способность модели правильно выявлять тех заемщиков, у которых будет просрочка платежа. За оптимальный порог отсечения можно взять точку баланса между чувствительностью и специфичностью.
[121] Шаг 106: подбирают автоматически зоны отсечения для по меньшей мере одной модели скоринга для ее установки в кредитную процедуру.
[122] Далее осуществляют автоматический подбор зон отсечения для моделей скоринга по скоринговым баллам для их установки в кредитную процедуру. Алгоритм подбора зон отсечения состоит из двух частей: внешней и внутренней. Внешняя часть отвечает за итеративный перебор уровней отсечения, внутренняя— за расчет ожидаемого уровня одобрения заявки на выдачу кредита, соответствующего текущему набору отсечений. Стоит отметить, что в качестве критерия для внутренней части алгоритма может выступать не только уровень одобрения, а любой интересующий показатель, зависящий от уровней отсечения, например, уровень риска или NPV портфеля. Алгоритм работает на исторической выборке данных по заявкам на кредиты. Ввиду того что уровень одобрения характеризуется сезонностью в рамках недели, в данном техническом решении речь идет о целевом уровне одобрения только в рамках семи дней, т.к. иначе придется определять его отдельно для каждого дня недели. Исходя из этого число дней, за которые рассматривается история по заявкам, должно быть кратно семи. Предположим, что в процессе принятия кредитного решения используется комбинация из трех моделей:
1. Качества кредитной истории, или скоринга бюро кредитных историй (БКИ-скоринга);
2. Анкетных данных (заявочного скоринга);
3. Склонности к мошенничеству, или FDC-скоринга (Fraud Detection Card Scoring).
[123] Предположим, что мы имеем комбинацию баллов отсечения по моделям заявочного, FDC- и БКИ-скоринга. Пусть (t1 , t2, t3)— значение корректировок для отсечений по соответствующим моделям, a (n1 , п2, пЗ) — число последовательных повторений корректировки для каждой из соответствующих моделей. Тогда внешний алгоритм подбора баллов отсечения будет следующим. Последовательно для каждой из моделей скоринга необходимо осуществить следующие действия:
1. прибавить соответствующую t корректировку из (t1 , t2, t3) к уровню отсечения по этой модели;
2. запустить внутреннюю часть алгоритма, описанную далее, для подсчета ожидаемого уровня одобрения;
3. если отклонение ожидаемого уровня одобрения изменило направление, то выбрать такую комбинацию уровней отсечения по моделям заявочного, FDC- и БКИ-скоринга, при которой отклонение ожидаемого уровня одобрения является наименьшим (фактически выбор осуществляется из последних двух проверяемых комбинаций);
4. если отклонение ожидаемого уровня одобрения от целевого не изменило направления и первый пункт повторился менее п из (п1 , п2, пЗ) раз, то перейти к первому пункту, т.е. к корректировке следующей модели скоринга.
[124] В некоторых вариантах осуществления вышеописанная процедура повторяется до тех пор, пока не будет получен целевой уровень одобрения или достигнута верхняя / нижняя граница баллов по каждой из моделей. [125] В рамках внутренней части алгоритма оценивается изменение уровня одобрения при изменении баллов отсечения по работающим скоринговым моделям. Как уже отмечалось ранее, эффект от изменения зон отсечения может оцениваться на различные показатели, будь то риск или доходность, но в любом случае необходимо оценить, кто будет одобрен в рамках новых зон отсечения, а кто отказан (или вероятность одного из этих событий). В связи с этим будет рассмотрен алгоритм оценки изменения уровня одобрения.
[126] Как правило, система принятия решения (СПР) в финансово-кредитной организации представляет собой последовательность проверок и применения правил и может включать следующие этапы прохождения заявок:
1. отказ по минимальным требованиям, на основе данных системы Hunter, стоп-листа и др.;
2. использование заявочного, БКИ- и FDC-скоринга;
3. применение моделей благонадежности;
4. андеррайтинг;
5. отказы на последующих этапах.
[127] По этой причине для оценки уровня одобрения в случае переопределения фактических отказов скоринга по заявкам необходимо знать решение по ним на каждом из этапов, следующих за вторым этапом (использования скоринга). Для любой заявки, одобренной по всем работающим моделям скоринга (заявочного, БКИ-, FDC-скоринга и др.), доступна необходимая информация о процессе ее прохождения через последующие этапы СПР. Для заявок, по которым получен отказ хотя бы от одной из моделей, возникает неопределенность в отношении последующих этапов, т.к. такие заявки до этих этапов не доходят. Для того чтобы исключить данную неопределенность, в рамках алгоритма производится моделирование отказов после этапа скоринга для заявок, по которым ранее был получен отказ. Алгоритм можно представить как последовательность следующих действий.
1. Для заявок, дошедших до этапа скоринга, производится симуляция отказов по трем видам моделей при новых баллах отсечения. Все заявки, по которым получены фактический отказ на этапе скоринга и одобрение по всем моделям во время симуляции, помечаются (для них необходимо отдельное моделирование вероятности отказа на последующих этапах СПР). 2. Осуществляется моделирование вероятности отказа на этапе применения модели благонадежности. Для построения модели используются заявки, которые успешно прошли процедуру скоринга до изменения баллов отсечения.
3. Производится моделирование вероятности отказа на этапе андеррайтинга. Для этого дополнительно из предыдущей выборки исключаются заявки, по которым получен отказ на этапе применения моделей благонадежности.
4. Осуществляется моделирование вероятности отказа на последующих этапах. Дополнительно исключаются заявки, по которым получен отказ на этапе андеррайтинга.
5. Рассчитывается вероятность отказа послепрохождения процедуры скоринга для помеченных заявок, требующих отдельного моделирования (п.1 ).
[128] В целях определения вероятности отказа для заявок, по которым получен отказ на этапе скоринга, используется следующая формула:
reject Pbiag "I"
Figure imgf000020_0002
Pbiag) * Punderr Ί" (^- Pbiag) *
Figure imgf000020_0001
Punderr) * Pnext» где Pbiag— вероятность отказа для заявки по модели благонадежности; Punderr — вероятность отказа для заявки на этапе андеррайтинга; Pnext— вероятность отказа для заявки на последующих этапах.
[129] Для определения вероятности одобрения по заявке вероятность отказа вычитается из единицы. После этого уровень одобрения рассчитывается как отношение количества одобренных заявок (суммы вероятностей одобрения) к числу всех заявок. При усреднении данного значения по рассматриваемому портфелю, получают уровень одобрения при выбранных зонах отсечения.
[130] Если выбрать за целевой показатель уровень риска, то полученное значение необходимо умножить на уровень риска, получаемый из модели PD. При усреднении данного произведения получают уровень риска в выданном при выбранных зонах отсечения портфелю.
[131] После автоматического подбора зон отсечения происходит оптимизация этих зон по различным сегментам портфеля. Принцип работы алгоритма оптимизации построен на итеративном оптимизационном расчете оптимальных порогов принятия решения для отдельных сегментов клиентов с точки зрения соотношения «Уровень одобрения - уровень риска». Ниже приведены основные предпосылки, критичные для получаемых результатов работы алгоритма:
1. Уровень риска оценивается как средний уровень вероятности просрочки внутри каждого сегмента.
2. Прогноз вероятности просрочки делается на последних доступных данных с учётом сегментации.
[132] Основная идея алгоритма расчета - итеративный сдвиг порога отсечения для отдельного клиентского сегмента, который в итоге приводит к повышению общего уровня одобрения при сохранении текущего уровня риска.
[133] На каждой итерации алгоритма рассматривается оптимальный с точки возможного улучшения соотношения AR/DR клиентский сегмент, в рамках которого происходят операции «закрутка» - «раскрутка» в данной последовательности с предзаданным шагом в 15 баллов (данный шаг может наращиваться в соответствии с правилами формирования цикла, но не более, чем до 60 баллов). Таким образом, ищется оптимальная окрестность базового порога отсечения, приводящая к улучшению общего соотношения AR/DR.
[134] Далее происходит внедрение модели скоринга (или моделей) и зон отсечения в промышленную среду.
[135] В результате автоматического подбора уровней отсечения, целевой уровень одобрения может быть не достигнут с требуемой точностью. В результате необходимо адаптивно корректировать отсечения по скорингам для максимального приближения целевому AR. Для этого спустя 7 полных дней после последнего изменения целевого уровня одобрения или сразу после корректировки баллов отсечения без изменения целевого уровня одобрения начинается адаптивная корректировка полученных баллов отсечения. Она продолжается до тех пор, пока фактический уровень одобрения не войдёт в допустимые границы хотя бы раз. Корректировка производится по следующей схеме. Прибавляем ко всем зона отсечения следующую величину: min(20l, Корректировка
Figure imgf000021_0001
где D = AR - highAR , если последний выход AR за установленные границы произошёл в большую сторону;
— min(20, Корректировка
Figure imgf000021_0002
где D = lowAR - AR, если в меньшую. Размер корректировки задаётся экспертно в справочнике эмпирическим путем.
[136] Корректировки запускаются ежедневно, до тех пор, пока уровень одобрения не вернётся в допустимый интервал между значениями highAR и lowAR.
[137] В некоторых вариантах осуществления проводится ежемесячная автоматическая валидация модели скоринга в соответствии с принятой в финансово-кредитном учреждении методологией. Если модель не проходит валидацию, она направляется на переобучение.
[138] В некоторых вариантах осуществления проводят ежедневный мониторинг уровня одобрения. Данная методология подходит для наблюдения не только за уровнем одобрения, но и другими показателями, например, таким как риск. В рамках мониторинга рассматривается средний скользящий уровень одобрения с окном в 7 дней как временной ряд, элементы которого моделируются с помощью независимых нормально распределённых случайных величин. Для того чтобы поддерживать уровень одобрения на каком-либо целевом уровне, прежде всего, необходим критерий, с помощью которого можно понять, что изменение действительно произошло, так как данный показатель имеет естественные флуктуации. Исходя из этого, для выявления отклонений в целевом уровне одобрения может быть использован CUSUM-тест. Для этого определяют, что есть момент изменения уровня одобрения (разладки) - это момент, когда меняется закон распределения в потоке поступающих данных об уровне одобрения. В данном техническом решении рассматривается изменение среднего значения. Пусть Хп,п > 1 - последовательность наблюдений, которые моделируются с помощью независимых нормально распределённых случайных величин, в е [1 , п] - неизвестный момент времени, в который меняется распределение наблюдений с /0~N(m0, s2) на L~N(mi, s2), а п - текущий момент времени. Так как точный момент времени разладки неизвестен, то гипотеза Я0 - разладки на отрезке [1, п] нет, а Нг - разладка произошла на отрезке [1, п]. Чтобы различить две этих гипотезы, необходимо определить обобщённый критерий отношения правдоподобия:
Figure imgf000022_0001
[139] где с помощью С0 контролируется число ложных срабатываний. Данное выражение известно как CUSUM-тест. Полученная запись теста будет вычислительно неэффективна, но в случае независимых случайных величин статистика может быть представлена рекуррентным соотношением:
Figure imgf000023_0001
[140] Так как мы предполагаем, что /0 и ^распределены нормально:
Figure imgf000023_0002
[141] Пусть mi = До ± Я. где 5 - это допустимая погрешность, которая выбирается в зависимости от того, какое отклонение мы считаем приемлемым. Тогда выражение для вычисления CUSUM можно переписать в виде: для отклонений в сторону снижения и
Figure imgf000023_0003
для отклонений в сторону увеличения.
[142] Итоговое решение находится из условия та х(Т+, Т~) > h = е(С0).
[143] Описанный подход позволяет выявлять отклонения уровня одобрения от целевого уровня с минимальной задержкой и небольшим количеством ложных срабатываний.
[144] Если смена целевого уровня одобрения произошла менее чем 7 дней назад, мы не можем проводить CUSUM-тест, так как нет наблюдений скользящего среднего уровня одобрения за 7 дней, не включающие дни до корректировки. Кроме того, нужно застраховать себя от некорректной работы теста CUSUM. Для этого используется альтернативный, более простой тест, основанный на установке границ допустимого диапазона для наблюдаемого показателя.
[145] Аспекты настоящего изобретения могут быть также реализованы с помощью устройства обработки данных, являющимся вычислительной машиной или системой (или таких средств, как центральный/графический процессор или микропроцессор), которая считывает и исполняет программу, записанную на запоминающее устройство, чтобы выполнять функции вышеописанного варианта (ов) осуществления, и способа, показанного на Фиг. 1 , этапы которого выполняются вычислительной машиной или устройством путем, например, считывания и исполнения программы, записанной на запоминающем устройстве, чтобы исполнять функции вышеописанного варианта (ов) осуществления. С этой целью программа записывается на вычислительную машину, например, через сеть или со среды для записи различных типов, служащей в качестве запоминающего устройства (например, машиночитаемой среды).
[146] Устройство обработки данных может иметь дополнительные особенности или функциональные возможности. Например, устройство обработки данных может также включать в себя дополнительные устройства хранения данных (съемные и несъемные), такие как, например, магнитные диски, оптические диски или лента. Устройства хранения данных могут включать в себя энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или при помощи любой технологии для хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули или другие данные. Устройство хранения данных, съемное хранилище и несъемное хранилище являются примерами компьютерных носителей данных. Компьютерные носители данных включают в себя, но не в ограничительном смысле, оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), электрически стираемое программируемое ПЗУ (EEPROM), флэш-память или память, выполненную по другой технологии, ПЗУ на компакт-диске (CD-ROM), универсальные цифровые диски (DVD) или другие оптические запоминающие устройства, магнитные кассеты, магнитные ленты, хранилища на магнитных дисках или другие магнитные запоминающие устройства, или любую другую среду, которая может быть использована для хранения желаемой информации и к которой может получить доступ устройство обработки данных. Устройство обработки данных может также включать в себя устройство(а) ввода, такие как клавиатура, мышь, перо, устройство с речевым вводом, устройство сенсорного ввода, и так далее. Устройство (а) вывода, такие как дисплей, динамики, принтер и тому подобное, также могут быть включены в состав системы.
[147] Устройство обработки данных содержит коммуникационные соединения, которые позволяют устройству связываться с другими вычислительными устройствами, например по сети. Сети включают в себя локальные сети и глобальные сети наряду с другими большими масштабируемыми сетями, включая, но не в ограничительном смысле, корпоративные сети и экстрасети. Коммуникационное соединение является примером коммуникационной среды. Как правило, коммуникационная среда может быть реализована при помощи машиночитаемых инструкций, структур данных, программных модулей или других данных в модулированном информационном сигнале, таком как несущая волна, или в другом транспортном механизме, и включает в себя любую среду доставки информации. Термин «модулированный информационный сигнал» означает сигнал, одна или более из его характеристик изменены или установлены таким образом, чтобы закодировать информацию в этом сигнале. Для примера, но без ограничения, коммуникационные среды включают в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводные среды, такие как акустические, радиочастотные, инфракрасные и другие беспроводные среды. Термин «машиночитаемый носитель», как употребляется в этом документе, включает в себя как носители данных, так и коммуникационные среды. Последовательности процессов, описанных в этом документе, могут выполняться с использованием аппаратных средств, программных средств или их комбинации. Когда процессы выполняются с помощью программных средств, программа, в которой записана последовательность процессов, может быть установлена и может выполняться в памяти компьютера, встроенного в специализированное аппаратное средство, или программа может быть установлена и может выполняться на компьютер общего назначения, который может выполнять различные процессы.
[148] Например, программа может быть заранее записана на носитель записи, такой как жесткий диск, или ПЗУ (постоянное запоминающее устройство). В качестве альтернативы, программа может быть временно или постоянно сохранена (записана) на съемном носителе записи, таком как гибкий диск, CD- ROM (компакт-диск, предназначенный только для воспроизведения), МО (магнитооптический) диск, DVD (цифровой универсальный диск), магнитный диск или полупроводниковая память. Съемный носитель записи может распространяться в виде так называемого, продаваемого через розничную сеть программного средства.
[149] Программа может быть установлена со съемного носителя записи, описанного выше, на компьютер, или может быть передана по кабелю с сайта загрузки в компьютер или может быть передана в компьютер по сетевым каналам передачи данных, таким как ЛВС (локальная вычислительная сеть) или Интернет. Компьютер может принимать переданную, таким образом, программу и может устанавливать ее на носитель записи, такой как встроенный жесткий диск. [150] Процессы, описанные в этом документе, могут выполняться последовательно по времени, в соответствии с описанием, или могут выполняться параллельно или отдельно, в зависимости от характеристик обработки устройства, выполняющего процессы, или в соответствии с необходимостью. Система, описанная в этом документе, представляет собой логический набор множества устройств и не ограничивается структурой, в которой эти устройства установлены в одном корпусе.

Claims

ФОРМУЛА
1. Компьютеризированный способ разработки и управления моделями скоринга, включающий следующие шаги:
• получают данные за заданный период времени, содержащие факторы, влияющие на модель скоринга;
• осуществляют разбиение полученных данных на выборки для разработки, валидации и тестирования модели скоринга;
• осуществляют трансформацию факторов посредством установления соотношений между группами значений преобразованного фактора и уровнями дефолтов;
• исключают из выборок по меньшей мере один преобразованный фактор, коррелирующий с по меньшей мере одним другим фактором;
• формируют модель кредитного скоринга посредством обучения бинарной множественной логистической регрессии;
• подбирают автоматически зоны отсечения для по меньшей мере одной модели скоринга для ее установки в кредитную процедуру.
2. Способ по п.1 , характеризующийся тем, что получают данные за заданный период времени с мобильного устройства связи пользователя.
3. Способ по п.1 , характеризующийся тем, что при осуществлении разбиения полученных данных на выборки получают непересекающиеся во времени части исходной совокупности или случайные подвыборки.
4. Способ по п.1 , характеризующийся тем, что факторами, влияющими на модель скоринга, являются годовой доход и/или размер непогашенного долга, и/или владение недвижимостью, и/или владение автомобилем, и/или стаж работы на последнем месте, и/или возраст.
5. Способ по п.1 , характеризующийся тем, что факторы, влияющие на модель скоринга, являются дискретными или непрерывными.
6. Способ по п.1 , характеризующийся тем, что при осуществлении трансформации факторов определяют степень отклонения уровня дефолтов по группе данных от среднего уровня дефолтов по всей выборке.
7. Способ по п.1 , характеризующийся тем, что при осуществлении трансформации факторов по факторам, попавшим в список исключенных, запускают алгоритм разбиения значений факторов с новым набором настроек.
8. Способ по п.1 , характеризующийся тем, что при исключении из выборок преобразованных факторов формируют таблицу со значениями коэффициентов парных корреляций преобразованных факторов.
9. Способ по п.1 , характеризующийся тем, что при исключении из выборок преобразованных факторов в цикле отбирают фактор, который имеет наибольшее количество коррелированных с ним факторов.
10. Способ по п.1 , характеризующийся тем, что при формировании модели кредитного скоринга строится логистическая модель с использованием пошаговой регрессии для отбора итогового набора факторов.
PCT/RU2017/000988 2018-04-04 2018-04-04 Автоматизированная система разработки и управления моделями скоринга WO2019194696A1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2017146235 2018-04-04
RU2017146235A RU2680760C1 (ru) 2018-04-04 2018-04-04 Компьютеризированный способ разработки и управления моделями скоринга

Publications (1)

Publication Number Publication Date
WO2019194696A1 true WO2019194696A1 (ru) 2019-10-10

Family

ID=65479249

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2017/000988 WO2019194696A1 (ru) 2018-04-04 2018-04-04 Автоматизированная система разработки и управления моделями скоринга

Country Status (3)

Country Link
EA (1) EA038056B1 (ru)
RU (1) RU2680760C1 (ru)
WO (1) WO2019194696A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822755A (zh) * 2021-09-27 2021-12-21 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法
CN117036008A (zh) * 2023-10-08 2023-11-10 中邮消费金融有限公司 一种多源数据的自动化建模方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2710914C1 (ru) * 2018-11-08 2020-01-14 Федеральное государственное бюджетное образовательное учреждение высшего образования "Уфимский государственный нефтяной технический университет" Автоматизированный способ пространственных экономических исследований
CN113033717B (zh) * 2021-05-26 2021-08-31 华控清交信息科技(北京)有限公司 一种模型生成方法、装置以及用于模型生成的装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212386A1 (en) * 2005-03-15 2006-09-21 Willey Dawn M Credit scoring method and system
US8407139B1 (en) * 2006-08-07 2013-03-26 Allstate Insurance Company Credit risk evaluation with responsibility factors
US20150019405A1 (en) * 2011-10-10 2015-01-15 Zestfinance, Inc. System and method for building and validating a credit scoring function

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2181216C1 (ru) * 2000-10-17 2002-04-10 Закрытое акционерное общество "Компания "Русский Стандарт" Способ принятия решений в сфере кредитования (скоринг) и система для его реализации

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212386A1 (en) * 2005-03-15 2006-09-21 Willey Dawn M Credit scoring method and system
US8407139B1 (en) * 2006-08-07 2013-03-26 Allstate Insurance Company Credit risk evaluation with responsibility factors
US20150019405A1 (en) * 2011-10-10 2015-01-15 Zestfinance, Inc. System and method for building and validating a credit scoring function

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822755A (zh) * 2021-09-27 2021-12-21 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法
CN113822755B (zh) * 2021-09-27 2023-09-05 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法
CN117036008A (zh) * 2023-10-08 2023-11-10 中邮消费金融有限公司 一种多源数据的自动化建模方法及系统

Also Published As

Publication number Publication date
EA038056B1 (ru) 2021-06-29
EA201700609A1 (ru) 2019-10-31
RU2680760C1 (ru) 2019-02-26

Similar Documents

Publication Publication Date Title
US20220122171A1 (en) Client server system for financial scoring with cash transactions
RU2680760C1 (ru) Компьютеризированный способ разработки и управления моделями скоринга
Bellini IFRS 9 and CECL Credit Risk Modelling and Validation: A Practical Guide with Examples Worked in R and SAS
Castro et al. Measuring and testing for the systemically important financial institutions
US20200134716A1 (en) Systems and methods for determining credit worthiness of a borrower
US20160148321A1 (en) Simplified screening for predicting errors in tax returns
US11836739B2 (en) Adaptive transaction processing system
US8412604B1 (en) Financial account segmentation system
US20110166979A1 (en) Connecting decisions through customer transaction profiles
WO2021032056A1 (zh) 一种处理批量任务的方法、装置、计算设备及存储介质
US8984022B1 (en) Automating growth and evaluation of segmentation trees
US11556807B2 (en) Automated account opening decisioning using machine learning
US20110099101A1 (en) Automated validation reporting for risk models
Karminsky et al. Comparative analysis of methods for forecasting bankruptcies of Russian construction companies
Lizares et al. Corporate financial distress: The case of publicly listed firms in an emerging market economy
CN112561691A (zh) 一种客户授信预测方法、装置、设备及存储介质
JP2016522933A (ja) 債務不履行となる企業の蓋然性の計算
US20220207420A1 (en) Utilizing machine learning models to characterize a relationship between a user and an entity
US20230237589A1 (en) Model output calibration
Berteloot et al. A novel credit rating migration modeling approach using macroeconomic indicators
Xu et al. Profit-and risk-driven credit scoring under parameter uncertainty: A multiobjective approach
US20220067460A1 (en) Variance Characterization Based on Feature Contribution
US20150356574A1 (en) System and method for generating descriptive measures that assesses the financial health of a business
Sabato & Managing Credit Risk for Retail Low-Default Portfolios
Sembina Building a Scoring Model Using the Adaboost Ensemble Model

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17936983

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17936983

Country of ref document: EP

Kind code of ref document: A1