WO2022048648A1 - 实现自动构建模型的方法、装置、电子设备和存储介质 - Google Patents

实现自动构建模型的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
WO2022048648A1
WO2022048648A1 PCT/CN2021/116497 CN2021116497W WO2022048648A1 WO 2022048648 A1 WO2022048648 A1 WO 2022048648A1 CN 2021116497 W CN2021116497 W CN 2021116497W WO 2022048648 A1 WO2022048648 A1 WO 2022048648A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
data
online
artificial intelligence
intelligence application
Prior art date
Application number
PCT/CN2021/116497
Other languages
English (en)
French (fr)
Inventor
张世健
周振华
王明
石光川
张陈丞
章进洲
Original Assignee
第四范式(北京)技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 第四范式(北京)技术有限公司 filed Critical 第四范式(北京)技术有限公司
Publication of WO2022048648A1 publication Critical patent/WO2022048648A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • the embodiments of the present disclosure relate to the technical field of machine learning, and in particular, to a method, an apparatus, an electronic device, and a non-transitory computer-readable storage medium for realizing automatic model building.
  • machine learning models is mainly implemented by professional modelers by manually writing codes or using graphical interfaces (such as DAG, Directed Acyclic Graph, directed acyclic graph). It is necessary to invest a high labor cost and time cost to obtain a satisfactory model, which is not conducive to the large-scale exploration and application of the model. Therefore, it is necessary to provide a solution for automatic model building.
  • graphical interfaces such as DAG, Directed Acyclic Graph, directed acyclic graph
  • An object of the embodiments of the present disclosure is to provide a new solution for realizing automatic model building.
  • an embodiment of the present disclosure proposes a method for automatically constructing a model, the method comprising:
  • the artificial intelligence application In response to the start-up instruction of the artificial intelligence application, the artificial intelligence application is deployed online to obtain online related data of the specified task; wherein, the artificial intelligence application is also used to base on the online related data and all the relevant data. Describe the model scheme, carry out model self-learning, and obtain an online model.
  • the method further includes: deploying the online model online to provide a batch estimation service for the specified task.
  • the deploying the online model includes: replacing the online model with a machine learning model that has been deployed online.
  • the batch estimation service includes: providing a batch estimation service interface, obtaining batch data to be estimated for the specified task based on the batch estimation service interface, and based on the batch estimation service interface to be estimated Data output batch estimation results.
  • acquiring the relevant data of the designated task includes: creating a data interface corresponding to the relevant data definition based on the relevant data definition of the designated task, and acquiring the designated task through the data interface wherein, the data interface takes the dynamic data table or the data group as an interface, or the data interface is an encapsulation interface, and the encapsulation interface is a unified interface obtained by encapsulating the dynamic data table and the data group.
  • the method before the artificial intelligence application in response to the specified task creates an instruction, the method further includes: providing a user interface, receiving the specified business scenario and the specified task input by the user based on the user interface, and based on the specified task.
  • the user interface receives an artificial intelligence application creation instruction triggered by a user, and the artificial intelligence application creation instruction corresponds to a specified business scenario and a specified task input by the user.
  • the artificial intelligence application configuration information includes one or more of the following:
  • the relevant data includes request data, exposure data, and feedback data.
  • the method further includes: splicing the request data and the exposure data in the relevant data to obtain behavior data;
  • the artificial intelligence application is configured to perform model solution exploration based on the behavior data, the feedback data, and the artificial intelligence application configuration information to obtain a model solution.
  • the method further includes: accumulating the relevant data into a first database; accordingly, the artificial intelligence application is used for, based on the first database, The relevant data accumulated in a database and the artificial intelligence application configuration information are used to explore the model scheme, and the model scheme is obtained; wherein, the model scheme includes the following scheme sub-items: feature engineering scheme, model algorithm and model hyperparameters; correspondingly , the deploying the artificial intelligence application online includes: deploying the model solution obtained through exploration online.
  • the model solution obtained by the exploration after the model solution obtained by the exploration is deployed online, the model solution generates intermediate data based on online related data of the specified task; the artificial intelligence application is further configured to return the intermediate data into the first database.
  • the artificial intelligence application is configured to perform model self-learning based on the online related data, the model solution and the intermediate data in the first database to obtain an online model.
  • the online model is obtained by training an offline model; wherein, the offline model is a model generated in the process of exploring the model solution, and when the model solution obtained from the exploration is deployed online, the offline model is also Offline model deployment goes online.
  • the online model is a model generated based on the model algorithm in the model solution and the hyperparameters of the model; and when the model solution obtained through exploration is deployed online, the offline model is not deployed online.
  • a scenario module configured to obtain relevant data of the designated task based on a designated task of a designated business scenario
  • the artificial intelligence application module is configured to respond to the artificial intelligence application creation instruction of the specified task, and obtain the artificial intelligence application configuration information; create the artificial intelligence application based on the artificial intelligence application configuration information; wherein, the artificial intelligence application is the first an instance of a service program, at least configured to perform model solution exploration based on the relevant data and the artificial intelligence application configuration information to obtain a model solution; in response to a startup instruction of the artificial intelligence application, deploy the artificial intelligence application online, to obtain online related data of the specified task; wherein, the artificial intelligence application is further configured to perform model self-learning based on the online related data and the model solution to obtain an online model.
  • the artificial intelligence application module is further configured to: deploy the online model online to provide a batch estimation service for the specified task.
  • the artificial intelligence application module is configured to replace the online model with the machine learning model that has been deployed online.
  • the artificial intelligence application module is further configured to provide a batch estimation service interface; after the online model is deployed and goes online, obtain the to-be-estimated batch of the specified task based on the batch estimation service interface data, and output batch estimation results based on the to-be-estimated batch data.
  • the scenario module is configured to: obtain a relevant data definition of the specified task; perform data connection with the specified business scenario based on the relevant data definition, and obtain relevant data of the specified task.
  • the scene module is configured to: create a data interface corresponding to the relevant data definition based on the relevant data definition of the specified task, and obtain the relevant data of the specified task through the data interface; wherein , the data interface uses a dynamic data table or a data group as an interface, or, the data interface is an encapsulation interface, and the encapsulation interface is a unified interface obtained by encapsulating the dynamic data table and the data group.
  • the artificial intelligence application module is further configured to: before responding to the artificial intelligence application creation instruction of the designated task, provide a user interface, and receive the designated business scenario and designated task input by the user based on the user interface , and receive an artificial intelligence application creation instruction triggered by the user based on the user interface, where the artificial intelligence application creation instruction corresponds to the specified business scenario and specified task input by the user.
  • the artificial intelligence application module is configured to: package the artificial intelligence application configuration information, the second service program instance and the third service program instance into an artificial intelligence application; wherein the second service program The instance is configured to perform model solution exploration based on the related data and the artificial intelligence application configuration information to obtain a model solution; wherein the third service program instance is configured to be based on the online related data and the model solution. , carry out model self-learning, and obtain an online model.
  • the artificial intelligence application configuration information includes one or more of the following:
  • the scene module is further configured to splicing request data and exposure data in the related data to obtain behavior data after acquiring the relevant data of the designated task; correspondingly, the artificial The intelligent application is configured to perform model solution exploration based on the behavior data, the feedback data and the artificial intelligence application configuration information to obtain a model solution.
  • the scene module is further configured to accumulate the relevant data into a first database after acquiring the relevant data of the specified task; correspondingly, the artificial intelligence application is configured to The relevant data accumulated in the first database and the artificial intelligence application configuration information are used to explore a model scheme to obtain a model scheme; wherein, the model scheme includes the following scheme sub-items: feature engineering scheme, model algorithm and model hyperparameters; corresponding Preferably, the artificial intelligence application module is configured to: deploy the model solution obtained through exploration and go online.
  • the model solution after the artificial intelligence application module deploys the model solution obtained through exploration, the model solution generates intermediate data based on online related data of the specified task; the artificial intelligence application is further configured to The intermediate data flows back into the first database.
  • the artificial intelligence application is configured to perform model self-learning based on the online related data, the model solution and the intermediate data in the first database to obtain an online model.
  • an embodiment of the present disclosure further provides an electronic device, including: a processor and a memory; the processor is configured to execute any embodiment of the first aspect by invoking a program or an instruction stored in the memory. method steps.
  • the model can be automatically constructed by specifying business scenarios, tasks, and artificial intelligence application configuration information, thereby reducing model construction costs.
  • a batch estimation service for a specified task can be provided.
  • the model solution obtained from exploration, and the intermediate data generated by the batch estimation service the model can be self-learned and the model can be automatically updated iteratively.
  • FIG. 1 is an exemplary application scenario diagram for realizing automatic model building provided by an embodiment of the present disclosure
  • FIG. 2 is an exemplary block diagram of a scene module provided by an embodiment of the present disclosure
  • FIG. 3 is an exemplary block diagram of an artificial intelligence application module provided by an embodiment of the present disclosure.
  • FIG. 4 is an exemplary architecture diagram of an AI application providing a batch estimation service provided by an embodiment of the present disclosure
  • FIG. 5 is an exemplary block diagram of an electronic device provided by an embodiment of the present disclosure.
  • FIG. 7 is an exemplary monitoring interface diagram of the effect of a self-learning model provided by an embodiment of the present disclosure
  • FIG. 8 is an exemplary distribution diagram of a batch estimated scoring result provided by an embodiment of the present disclosure.
  • FIG. 9 is an exemplary distribution diagram of feedback data provided by an embodiment of the present disclosure.
  • FIG. 10 is an exemplary change diagram of a model effect provided by an embodiment of the present disclosure.
  • Non-professional modelers can specify business scenarios, tasks, and artificial intelligence (AI, Artificial Intelligence) application configuration information, and then the solution can be based on AI application configuration information.
  • AI applications can explore model solutions based on the relevant data of specified tasks and AI application configuration information, and obtain model solutions; this solution can deploy AI applications online, and AI applications can be based on the obtained online related data and exploration.
  • Model scheme carry out model self-learning, and obtain online model.
  • this solution can fully automate the model building process, thereby reducing modeling costs; on the other hand, this solution can perform model self-learning, realize automatic iterative update of the model, and ensure the model prediction effect.
  • Models and applications can be built with low thresholds without professional modelers and machine learning knowledge reserves.
  • FIG. 1 is an exemplary application scenario diagram for realizing automatic model building according to an embodiment of the present disclosure.
  • the device for automatically constructing a model can perform data docking with a business scenario to realize automatic model building, wherein the business scenario can be specified by the user, and further, the user can also specify the task in the business scenario (may be It is understood as a business problem to be solved), that is, in the same business scenario, there can be multiple tasks, and for each task, the device that automatically builds the model can create a corresponding AI application, for example, one task creates an AI application; Different tasks create different AI applications. AI applications are configured to handle corresponding tasks, such as real-time estimation tasks or batch estimation tasks.
  • the device for automatically constructing a model may include, but is not limited to, a scene module 11 and an artificial intelligence application module 12 .
  • the scenario module 11 is configured to implement scenario definition.
  • the scenario definition can be completed by the user, for example, what business problem is solved under what business scenario, and the business problem can be a decision-based machine learning problem.
  • the scene module 11 receives the scene definition information input by the user.
  • the scenario module 11 may provide a user interface through which the user inputs scenario definition information to specify business scenarios and specify tasks.
  • the scenario definition information may include, but is not limited to, one or more of the following: scenario name, task name, task ID, related data definition of the task, and the like.
  • the relevant data definitions for different tasks are different.
  • the relevant data definitions may be data table schema definitions.
  • the schema definition includes, but is not limited to, one or more of the following: the name of one or more data tables, the fields included in each data table, and the data relationships among the plurality of data tables.
  • the scene module 11 is also configured for data access.
  • the scenario module 11 acquires the relevant data of the designated task based on the designated task of the designated business scenario.
  • relevant data may include, but is not limited to, request data, exposure data, and feedback data.
  • Scenario definition information may include, but is not limited to:
  • Relevant data includes but is not limited to: request data, exposure data, feedback data and business data.
  • Request data refers to information sent to AI applications. For example, 10,000 customers are recalled as a candidate set. Combined with other information, AI applications are used to help determine the probability that each customer may actually apply for a credit card. These 10,000 pieces of data are Request data; estimated by the AI application, not all 10,000 customers will call during the actual telemarketing. The business side will only select customers who are more likely to apply for credit cards for telemarketing, and only 100 may be selected. These 100 items are exposure data; finally, whether the customer has actually applied for a credit card after the phone call is feedback data.
  • the scenario may also contain business data.
  • Business data is other information that may help improve the estimated effect of AI applications, such as customer basic information, customer transaction flow records, customer data BO (Business Object) data such as credit records. Among them, there may be no business data, or there may be more than one.
  • a) Define the schema of each related data flow (request data flow, exposure data flow, feedback data flow and business data flow), for example, which fields are included in each data flow, and the specific information to be configured includes field name, field type and field remarks (optional), etc.
  • a) Define the time field for behavioral data.
  • the behavior data select a time type field as the main time field, and this time field should be the actual occurrence time of the behavior.
  • the label Defines the feedback field (label) and type of the feedback data. Select the label field in the feedback data. For the two-category scenario, the label is 1 or 0 representing positive and negative samples. In the regression scenario, the label is a continuous value that represents the actual situation, such as the value of PM2.5. After selecting the label field, you also need to choose what type of label belongs to, whether it is binary classification or regression, or multi-classification.
  • c) Define the concatenated fields of behavioral data and feedback data. Define which fields of behavior data and feedback data are used as associated keys for splicing.
  • the splicing key can also support multiple sets of keys, that is, when multiple fields are equal, it is considered that a certain behavior data is related to a certain feedback data. correspond.
  • d) Define the tag type and whether to use the fields in each data. For a certain field type, in order for automatic modeling to correctly identify the business meaning and achieve better results, the user needs to specify the specific tag type. For example, for an int type field, whether it is a continuous type or a discrete type, which will determine the automatic modeling What kind of data change strategy the algorithm does for this column of data. In addition, it is also necessary to mark whether each column of data is used in model solution exploration, because in actual business scenarios, there may be some fields that are meaningless and may not be included in learning, or some fields are strongly related to labels. It should not be incorporated into learning, so it needs to be annotated during use.
  • e Define the relationship between the data tables. It is necessary to define the data relationship between behavior data and business data, so that automatic modeling of multiple tables can be completed during automatic modeling.
  • the relationship type includes but is not limited to 1:1, 1:N, among which, in the 1:N relationship type, it is also necessary to specify the sub-table (assuming table A and table B, the data of table B will be spelled into table A to go , then the table type of table B is called the sub-table of table A), whether it is an event table or a slice table.
  • Data table splicing not only supports the connection between the behavior table and the business data table, but also supports the direct connection between the business data table and the business data table.
  • a business scenario can be formally created. After the business scenario is created, the device that automatically builds the model will automatically start a data splicing task to splicing the request data and exposure data into behavioral data for subsequent model solution exploration and model self-learning.
  • the artificial intelligence application module 12 is configured to implement AI application configuration.
  • the AI application configuration can be completed by the user, for example, which business data is used to participate in model solution exploration and model self-learning, and, for example, the data range used for model self-learning. Accordingly, the artificial intelligence application module 12 may receive the AI application configuration information input by the user. In some embodiments, the artificial intelligence application module 12 may provide a user interface through which the user enters AI application configuration information.
  • the artificial intelligence application module 12 may provide a user interface, and receive a user-triggered AI application creation based on the user interface. Instructions, AI application creation instructions correspond to the specified business scenarios and specified tasks entered by the user. After the user triggers the AI application creation instruction, for example, the user clicks the "AI application creation" button, the artificial intelligence application module 12 may respond to the AI application creation instruction and display a user interface, so as to obtain the AI input by the user through the user interface Application configuration information.
  • AI application configuration information may include, but is not limited to, one or more of the following:
  • the computing power level can be understood as the complexity of model solution exploration and model self-learning.
  • the higher the computing power level the wider the search space for model solution exploration and model self-learning, and the better the prediction effect of the model obtained by model self-learning.
  • the evaluation data range of the model specifies the data range of the model used to evaluate the self-learning output of the model.
  • the evaluation index of the model is, for example, an AUC (Area Under Curve) value and the like.
  • whether the model is automatically online specifies whether the model generated by the continuous iterative update of the model self-learning is automatically online. If the model is set to go online automatically, and the model generated by the model self-learning is better than the model that has been deployed online, the model generated by the model self-learning will be automatically online. If the model is not set to go online automatically, you can only manually go online with the model produced by the model's self-learning.
  • whether to use the offline model obtained by the model solution exploration specifies whether to bring the offline model online. If the offline model is not used, only after the model solution is online, the model solution will not output the estimated result, and the output to the business scenario is a default Estimated result (for example, the default predicted value), the default predicted value is for example 0.5, and the model needs to wait for the model to self-learn to output the model and go online before the model can output the estimated result. If an offline model is used, the offline model will also be online at the same time as the model solution is launched. The offline model can output the estimated results. However, since the data used for model solution exploration may be different from the online data, the offline model estimates may be less effective.
  • the default predicted value for example 0.5
  • a user interface may be displayed to prompt the user that the creation of the AI application is completed, and the user may trigger an instruction to start the AI application, for example, the user may click the "AI application" button on the user interface start up button.
  • the artificial intelligence application module 12 is further configured to deploy the AI application online.
  • the artificial intelligence application module 12 can respond to the startup instruction of the AI application, and deploy the AI application online, so that the AI application can obtain online related data of the specified task; wherein, the AI application is also configured to obtain online related data and exploration based on the relevant data.
  • the model scheme carry out model self-learning, and obtain an online model.
  • the model self-learning can use online related data to automatically learn the model on a regular or event-triggered basis, so that the latest data information and business changes can also be learned by the model, ensuring that the effect of the self-learning model continues to be good.
  • FIG. 2 is an exemplary block diagram of a scene module 20 according to an embodiment of the present disclosure.
  • the scene module 20 may be implemented as the scene module 11 in FIG. 1 or a part of the scene module 11 .
  • the scene module 20 can be divided into multiple units, for example, including but not limited to: a data access unit 21 , a scene spelling unit 22 and a data management unit 23 .
  • the data access unit 21 is configured to perform data connection with the business scenario.
  • the data access unit 21 may acquire relevant data of the specified task based on the specified task of the specified business scenario.
  • the data access unit 21 may obtain the relevant data definition of the specified task, and then perform data connection with the specified business scenario based on the relevant data definition, and obtain the relevant data of the specified task.
  • the data access unit 21 may create a data interface corresponding to the relevant data definition based on the relevant data definition of the specified task, and then obtain the relevant data of the specified task through the data interface.
  • the data interface takes the dynamic data table or the data group as the interface, or the data interface is the encapsulation interface, and the encapsulation interface is a unified interface obtained by encapsulating the dynamic data table and the data group.
  • the streaming import is, for example, a Kafka (distributed publish-subscribe messaging system) import and the like. From the data source, it supports local import, database import, FTP (File Transfer Protocol, file transfer protocol) import, HDFS (Hadoop Distributed File System, Hadoop distributed file system) import, hive (Hadoop-based data warehouse tool) import, etc. A variety of ways to meet the data import requirements of different business scenarios.
  • the data interface is an encapsulation interface
  • the encapsulation interface is a unified interface obtained by encapsulating the dynamic data table and the data group.
  • the underlying data storage implementation is not exposed to the user, thereby improving the user experience.
  • users only need to expose four types of data interfaces: Request data, Impression data, feedback data and business data. Users only need to perceive these four data interfaces, and no longer need to perceive the specific corresponding data. What is a data set.
  • the scene splicing unit 22 is configured to splicing the request data and the exposure data in the related data to obtain behavior data.
  • the scene stitching unit 22 constructs behavior data (also referred to as sample data) in an inner join manner from the request data and the exposure data.
  • the scene stitching unit 22 may use filters to process and flatten the request data and exposure data to construct behavioral data.
  • the scene splicing unit 22 may use a filter to filter the request data based on the exposure data to obtain intersection data; and then flatten the intersection data to obtain behavior data.
  • the exposure data has 10 pieces of data
  • the request data has 12 pieces of data
  • the exposure data and the request data have 10 pieces of the same data. Removed, and then processed the intersection data (the 10 identical data) by flattening to obtain behavior data.
  • the data management unit 23 may accumulate the relevant data of the designated task acquired by the data access unit 21 to the first database. In some embodiments, the data management unit 23 may accumulate the behavior data obtained by the scene spelling unit 22 into the first database. In some embodiments, the data management unit 23 may return the intermediate data generated in the process of exploring the model solution by the artificial intelligence application module 12 in FIG. 1 to the first database. The intermediate data may be wide-table feature data of the estimated sample. In some embodiments, the data management unit 23 may store the online related data in the second database.
  • each unit in the scene module 20 is only a logical function division, and there may be other division methods in actual implementation, such as the data access unit 21 , the scene spelling unit 22 and the data management unit 23 . At least two of the units can be implemented as one unit; the data access unit 21, the scene spelling unit 22 or the data management unit 23 can also be divided into multiple subunits. It can be understood that each unit or sub-unit can be implemented by electronic hardware, or a combination of computer software and electronic hardware. Whether these functions are performed in hardware or software depends on the specific application and design constraints of the technical solution. Those skilled in the art may use different methods for implementing the described functionality for each particular application.
  • FIG. 3 is an exemplary block diagram of an artificial intelligence application module 30 according to an embodiment of the present disclosure.
  • artificial intelligence application module 30 may be implemented as artificial intelligence application module 12 in FIG. 1 or as part of artificial intelligence application module 12 .
  • the application creation unit 32 is configured to create an AI application.
  • the application creation unit 32 creates an artificial intelligence application based on the AI application configuration information; wherein the AI application is a first service program instance, which is at least configured to perform a model solution based on the relevant data of the specified task and the AI application configuration information Explore to get model solutions.
  • the model scheme includes the following scheme sub-items: feature engineering scheme, model algorithm, and model hyperparameters.
  • the AI application may perform model solution exploration based on data in the first database (eg, one or more of request data, sample data, feedback data, business data, and exposure data) to obtain a model solution.
  • a model scheme includes the following scheme subitems: feature engineering scheme, model algorithm, and model hyperparameters.
  • the feature engineering solution at least has the function of spelling tables.
  • Feature engineering schemes can also have other capabilities, such as extracting features from data for use by model algorithms or models.
  • the model algorithm can be a commonly used machine learning algorithm, such as a supervised learning algorithm, including but not limited to: LR (Logistic Regression, logistic regression), GBDT (Gradient Boosting Decision Tree, gradient boosting iterative decision tree), DeepNN (Deep Neural Network , deep neural networks), etc.
  • the hyperparameters of the model are parameters that are preset before machine learning to assist model training, such as the number of categories in the clustering algorithm, the step size of the gradient descent method, the number of layers of the neural network, and the learning rate for training the neural network. .
  • the application online unit 33 may deploy and launch the model solution obtained by exploring the second service program instance of the AI application. Accordingly, the model solution deployed online can generate intermediate data based on the online related data of the specified task.
  • the third service program instance of the AI application can perform model self-learning based on online related data of the specified task, the model solution obtained by the second service program instance, and the intermediate data generated by the model solution to obtain an online model .
  • the application online unit 33 when the application online unit 33 deploys the model solution online, it also deploys online the offline model obtained during the model solution exploration process.
  • the offline model is based on the specified business scenario accumulated in the first database (ie the offline database).
  • the relevant data of the specified task is trained, and after the offline model is deployed and launched, the relevant data of the specified business scenario is estimated and served. Therefore, although the data obtained by the online and offline feature calculation may be inconsistent, the online and offline data are still consistent. source.
  • the application online unit 33 only deploys the model scheme online, but does not deploy the offline model obtained during the model scheme exploration process, which can avoid the online feature calculation and offline feature calculation after the offline model is directly deployed online.
  • the obtained data is inconsistent, which leads to the problem that the prediction effect of the offline model deployed online is poor.
  • the estimated result will not be generated.
  • the request data is received, the default estimated result is output to the business scenario, and the business scenario receives The default estimation result is ignored.
  • the third service program instance of the AI application may be generated based on the online related data of the specified task, the model algorithm and the hyperparameters of the model in the model solution obtained by the exploration of the second service program instance, and the model solution.
  • model self-learning is performed to generate an online model; and when the application online unit 33 deploys the model solution online, the offline model is not deployed online.
  • the application online unit 33 may deploy the online model online, so that the online model provides batch estimation services for specified tasks.
  • the application online unit 33 may provide a batch estimation service interface, and the batch estimation service interface is configured to obtain the batch estimation data of the specified task.
  • the online model deployed online can obtain the batch estimation data (multiple request data) through the batch estimation service interface, and output the batch estimation result based on the batch estimation data to be estimated.
  • taking a piece of request data as an example, when the online model receives a piece of request data, it uses the data in the second database and the received request data to perform online real-time based on the feature engineering solution in the model solution deployed online. Feature calculation to obtain the feature data of the estimated sample.
  • the online model uses the data in the second database and the received request data to perform online real-time based on the feature engineering solution in the model solution deployed online. Feature calculation to obtain the feature data of the estimated sample.
  • the online model receives the request data based on the feature engineering solution in the model solution deployed online, the data in the second database and the received request data are combined into a table and online real-time feature calculation to obtain a wide table Characteristic data, the characteristic data of the obtained estimated sample is wide-table characteristic data.
  • the online model can obtain the feature data (or wide table feature data) of the estimated sample based on the model solution deployed online, splicing the feature data and the feedback data to generate sample data with features and feedback, and the sample data may also include Other data, such as timestamp data, etc.
  • splicing feature data and exposure data before splicing feature data and feedback data in the online model, splicing feature data and exposure data to obtain feature data with exposure data; and then splicing feature data with exposure data and feedback data to generate exposure, feature and feedback sample data.
  • the online model returns the sample data with features and feedback to the first database for model self-learning, and the online model obtained from the model self-learning can be deployed online to ensure the data and features used in the model self-learning
  • the engineering solutions are consistent with the data and feature engineering solutions used in the model online prediction service, respectively, to achieve the consistency of the model self-learning effect and the model prediction effect.
  • specifying that the machine learning application deploys the model solution obtained through exploration includes: replacing the model solution obtained through exploration with the model solution that has been deployed online.
  • the application online unit 33 may replace the deployed and online machine learning model with the online model; or, deploy the online model online, and together with the deployed and online machine learning model, provide batch estimation services for specified tasks .
  • each unit in the artificial intelligence application module 30 is only a logical function division, and there may be other division methods in actual implementation, such as the application configuration unit 31 , the application creation unit 32 and the application online unit 33 . At least two of the units can be implemented as one unit; the application configuration unit 31 , the application creation unit 32 or the application online unit 33 can also be divided into multiple subunits. It can be understood that each unit or sub-unit can be implemented by electronic hardware, or a combination of computer software and electronic hardware. Whether these functions are performed in hardware or software depends on the specific application and design constraints of the technical solution. Those skilled in the art may use different methods for implementing the described functionality for each particular application.
  • FIG. 4 is an exemplary architecture diagram of an AI application providing a batch estimation service according to an embodiment of the present disclosure.
  • AI applications have at least two functions: model solution exploration and model self-learning.
  • the AI application may be the AI application created by the device for automatically constructing the model in FIG. 1 , and after the deployment of the AI application goes online, the model solution explored by the AI application is also deployed online, and the AI application is passed through the model The online model obtained by self-learning is also deployed online.
  • data management, model self-learning, and batch prediction services constitute a small closed loop; data management, model solution exploration, and batch prediction services constitute a large closed loop.
  • the small closed-loop ensures that the data and feature engineering solutions used in the model self-learning are the same as those used in the batch prediction service, so that the model self-learning effect and the model prediction effect are consistent.
  • the large closed-loop guarantees that the data used in the exploration of the model scheme (referred to as offline data) and the data used in the batch prediction service (referred to as online data) are of the same origin, realizing the same origin of offline and online data.
  • FIG. 5 is a schematic structural diagram of an electronic device provided by an embodiment of the present disclosure.
  • the apparatus for automatically constructing a model in FIG. 1 may be provided in an electronic device or implemented as an electronic device.
  • the electronic device includes: at least one processor 51 , at least one memory 52 and at least one communication interface 53 .
  • the various components in the electronic device are coupled together by a bus system 54 .
  • the communication interface 53 is configured for information transmission with external devices. Understandably, the bus system 54 is configured to enable connection communication between these components.
  • the bus system 54 also includes a power bus, a control bus and a status signal bus.
  • the various buses are labeled as bus system 54 in FIG. 5 .
  • memory 52 stores the following elements, executable units or data structures, or subsets thereof, or extended sets of them: operating systems and applications.
  • the operating system including various system programs, such as a framework layer, a core library layer, a driver layer, etc., is configured to implement various basic tasks and process hardware-based tasks.
  • Applications including various applications, such as a media player (Media Player), a browser (Browser), etc., are configured to implement various application tasks.
  • a program implementing the method for automatically constructing a model provided by the embodiments of the present disclosure may be included in an application program.
  • the processor 51 calls the program or instruction stored in the memory 52, specifically, the program or instruction stored in the application program, and the processor 51 is configured to execute the automatic construction provided by the embodiment of the present disclosure.
  • the steps of various embodiments of the method of the model are described.
  • the method for automatically constructing a model may be configured in the processor 51 or implemented by the processor 51 .
  • the processor 51 may be an integrated circuit chip with signal processing capability. In the implementation process, each step of the above-mentioned method can be completed by a hardware integrated logic circuit in the processor 51 or an instruction in the form of software.
  • the above-mentioned processor 51 can be a general-purpose processor, a digital signal processor (Digital Signal Processor, DSP), an application specific integrated circuit (Application Specific Integrated Circuit, ASIC), a ready-made programmable gate array (Field Programmable Gate Array, FPGA) or other Programmable logic devices, discrete gate or transistor logic devices, discrete hardware components.
  • a general purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • the steps of implementing the method for automatically constructing a model provided by the embodiments of the present disclosure may be directly embodied as being executed by a hardware decoding processor, or executed by a combination of hardware and software units in the decoding processor.
  • the software unit may be located in random access memory, flash memory, read-only memory, programmable read-only memory or electrically erasable programmable memory, registers and other storage media mature in the art.
  • the storage medium is located in the memory 52, and the processor 51 reads the information in the memory 52 and completes the steps of the method in combination with its hardware.
  • FIG. 6 is an exemplary flowchart of a method for automatically constructing a model provided by an embodiment of the present disclosure.
  • the execution body of the method is an electronic device.
  • the electronic device is used as the execution body to describe the flow of the method for automatically constructing a model.
  • step 601 the electronic device acquires relevant data of the specified task based on the specified task of the specified business scenario.
  • the electronic device may acquire the relevant data definition of the specified task, and then perform data connection with the specified business scenario based on the relevant data definition to acquire the relevant data of the specified task.
  • the relevant data definitions for a specified task may include, but are not limited to, multiple data tables, fields included in each data table, and data relationships among the multiple data tables.
  • the electronic device may create a data interface corresponding to the relevant data definition based on the relevant data definition of the specified task, and obtain the relevant data of the specified task through the data interface; wherein, the data interface uses a dynamic data table or a data group as an interface, Or, the data interface is an encapsulation interface, and the encapsulation interface is a unified interface obtained by encapsulating the dynamic data table and the data group.
  • the electronic device after acquiring the relevant data of the specified task, the electronic device accumulates the relevant data into the first database.
  • step 602 the electronic device acquires AI application configuration information in response to the AI application creation instruction of the specified task.
  • the electronic device further provides a user interface before responding to the AI application creation instruction of the designated task, and further receives the designated business scenario and designated task input by the user based on the user interface, and receives the AI application creation instruction triggered by the user based on the user interface. , wherein the AI application creation instruction corresponds to the specified business scenario and specified task input by the user.
  • AI application configuration information may include, but is not limited to, one or more of the following:
  • the electronic device creates an AI application based on the AI application configuration information; wherein the AI application is a first service program instance, which is at least configured to perform model solution exploration based on the relevant data of the specified task and the AI application configuration information, and obtain a model plan.
  • the AI application may perform model solution exploration based on the relevant data accumulated in the first database and AI application configuration information to obtain the model solution.
  • the AI application may perform model solution exploration based on behavior data in the first database, feedback data in related data, and AI application configuration information to obtain a model solution.
  • the model scheme includes the following scheme sub-items: feature engineering scheme, model algorithm, and model hyperparameters.
  • the electronic device packages the AI application configuration information, the second service program instance, and the third service program instance into an AI application; wherein the second service program instance is configured based on the relevant data of the specified task and the AI application configuration The information is used to explore the model scheme to obtain the model scheme; wherein, the third service program instance is configured to perform model self-learning based on the online related data and model scheme of the specified task to obtain the online model.
  • step 604 the electronic device responds to the startup instruction of the AI application, deploys the AI application online, and obtains online related data of the specified task; wherein, the AI application is also configured to perform model auto-automation based on the online related data and the model scheme. Learn, get online models.
  • the electronic device after the electronic device deploys the AI application and goes online, it can also deploy and go online the model solution obtained by the AI application (or the second service program instance of the AI application).
  • the model solution can generate intermediate data based on online related data of the specified task, and accordingly, the AI application can return the intermediate data to the first database.
  • the AI application (or the third service program instance of the AI application) may perform model self-learning based on the online related data of the specified task, the model solution, and the intermediate data in the first database to obtain an online model.
  • the AI application explores model solutions, not only to generate model solutions, but also to generate offline models corresponding to the model solutions.
  • the online model is obtained by training the offline model, that is, the AI application (or the first part of the AI application) is obtained by training the offline model.
  • Three service program instances obtain an online model by training an offline model; wherein, the offline model is a model generated during the process of AI application (or the second service program instance of AI application) exploring the model solution, and the electronic device will explore the obtained model solution
  • the offline model is also deployed online.
  • the AI application (or the third service program instance of the AI application) can be based on the online related data of the specified task, based on the first The model algorithm and the hyperparameters of the model in the model scheme obtained by the second service program instance, as well as the intermediate data generated by the model scheme, perform model self-learning and generate an online model.
  • the electronic device may deploy the online model online so that the online model provides batch prediction services for specified tasks.
  • the electronic device can replace the deployed and online machine learning model with the online model; or, deploy the online model online, and together with the deployed and online machine learning model, provide a batch estimation service for a specified task, so that Users can actively choose the model online estimation service, and can also continue to provide online estimation services by another machine learning model after one machine learning model goes offline for some reason.
  • the electronic device may provide a batch estimation service interface. Accordingly, the online model may obtain batch data to be estimated for a specified task based on the batch estimation service interface, and output batch estimation based on the batch estimation data to be estimated. result.
  • Embodiments of the present disclosure also provide a non-transitory computer-readable storage medium, where the non-transitory computer-readable storage medium stores programs or instructions, and the programs or instructions cause a computer to execute various embodiments of the method for automatically constructing a model, for example In order to avoid repeated description, the steps are not repeated here.
  • FIG. 7 is an exemplary monitoring interface diagram of the effect of a self-learning model provided by an embodiment of the present disclosure.
  • the self-learning model can be understood as the model obtained by the AI application through the self-learning of the model.
  • the monitoring interface of the effect of the self-learning model can display the change trend of the effect of the self-learning model, for example, the change curve of the self-learning model AUC (referred to as self-learning AUC) in FIG. 7 .
  • the monitoring interface of the effect of the self-learning model can also display the effect comparison between the self-learning model and the model (application model) used for batch estimation.
  • the abscissa is the time, and the ordinate is the model effect.
  • the monitoring interface of the effect of the self-learning model can also display the current state of the self-learning model of the AI application.
  • FIG. 8 is an exemplary distribution diagram of a batch prediction scoring result provided by an embodiment of the present disclosure.
  • the abscissa is the behavior occurrence time (which can be understood as the time when the batch prediction occurs), and the ordinate is the predicted value (that is, the batch prediction scoring result).
  • Figure 8 presents the distribution of predicted values for each day in the form of a box plot, and at the same time generates a curve of predicted mean values to represent the mean value of predicted values for each day.
  • FIG. 9 is an exemplary distribution diagram of feedback data provided by an embodiment of the present disclosure
  • the abscissa is the time when the behavior occurs (which can be understood as the time when the feedback data is obtained)
  • the ordinate is the proportion of the data, which respectively represent the feedback in the feedback data. The proportion of the data whose value is 1, the feedback value is 0, and the feedback data has not yet arrived.
  • the abscissa is the time when the behavior occurs (it can be understood as the time for calculating the AUC of the application model), and the ordinate is the application model effect.
  • the model indicators of the day are counted based on daily data, for example, AUC is counted in a two-class scenario.
  • the model can be automatically constructed by specifying business scenarios, tasks, and artificial intelligence application configuration information, thereby reducing model construction costs.
  • the model by managing the data of business scenarios (including but not limited to scenario splicing, etc.), reusable data for model building is obtained.
  • a batch estimation service for a specified task can be provided.
  • the model solution obtained from exploration, and the intermediate data generated by the batch estimation service the model can be self-learned and the model can be automatically updated iteratively.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stored Programmes (AREA)

Abstract

实现自动构建模型的方法、装置、电子设备和存储介质。实现自动构建模型的方法包括:基于指定业务场景的指定任务,获取指定任务的相关数据(601);响应指定任务的AI应用创建指令,获取AI应用配置信息(602);基于AI应用配置信息,创建AI应用;其中,AI应用为第一服务程序实例,至少用于基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案(603);响应AI应用的启动指令,将AI应用部署上线,以获取指定任务的线上相关数据;其中,AI应用还用于基于线上相关数据和模型方案,进行模型自学习,得到在线模型(604)。可见,对于不具有机器学习专业知识的人员,能够通过指定业务场景、任务和AI应用配置信息,实现模型自动构建,降低模型构建成本。

Description

实现自动构建模型的方法、装置、电子设备和存储介质
本公开要求于2020年09月03日提交中国专利局、申请号为2020109179012、发明名称为“实现自动构建模型的方法、装置、电子设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开实施例涉及机器学习技术领域,具体涉及一种实现自动构建模型的方法、装置、电子设备和非暂态计算机可读存储介质。
背景技术
目前,机器学习模型的构建主要是由专业建模人员通过手动编写代码或者使用图形化界面(如DAG,Directed Acyclic Graph,有向无环图)的方式来实现,然而,这两种实现方式均需要投入很高的人力成本和时间成本,才能得到一个比较满意的模型,不利于模型的大规模探索和应用,因此,有必要提供一种实现自动构建模型的方案。
发明内容
本公开实施例的一个目的是提供一种实现自动构建模型的新方案。
第一方面,本公开实施例提出一种实现自动构建模型的方法,所述方法包括:
基于指定业务场景的指定任务,获取所述指定任务的相关数据;
响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息;
基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;
响应所述人工智能应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述方法还包括:将所述在线模型部署上线,以提供针对所述指定任务的批量预估服务。
在一些实施例中,所述将所述在线模型部署上线包括:将所述在线模型替换已部署上线的机器学习模型。
在一些实施例中,所述批量预估服务包括:提供一个批量预估服务接口,基于所述批量预估服务接口获取所述指定任务的待预估批量数据,并基于所述待预估批量数据输出批量预估结果。
在一些实施例中,所述基于指定业务场景的指定任务,获取所述指定任务的相关数据包括:获取所述指定任务的相关数据定义;基于所述相关数据定义与所述指定业务场景进行数据对接,获取所述指定任务的相关数据。
在一些实施例中,所述指定任务的相关数据定义包括多个数据表、每个所述数据表包括的字段、所述多个数据表之间的数据关系。
在一些实施例中,所述获取所述指定任务的相关数据,包括:基于所述指定任务的相关数据定义,创建所述相关数据定义对应的数据接口,通过所述数据接口获取所述指定任务的相关数据;其中,所述数据接口以动态数据表或数据组为接口,或,所述数据接口为封装接口,所述封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,所述响应所述指定任务的人工智能应用创建指令之前,所述方法还包括:提供用户界面,基于所述用户界面接收用户输入的指定业务场景和指定任务,以及基于所述用户界面接收用户触发的人工智能应用创建指令,所述人工智能应用创建指令与用户输入的指定业务场景和指定任务相对应。
在一些实施例中,所述基于所述人工智能应用配置信息,创建人工智能应用包括:将所述人工智能应用配置信息、第二服务程序实例和第三服务程序实例打包为人工智能应用;其中,所述第二服务程序实例用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述第三服务程序实例用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述人工智能应用配置信息包括如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
在一些实施例中,所述相关数据包括:请求数据、曝光数据和反馈数据。
在一些实施例中,所述获取所述指定任务的相关数据后,所述方法还包括:将所述相关数据中的请求数据和曝光数据进行拼接,得到行为数据;
相应地,所述人工智能应用,用于基于所述行为数据、所述反馈数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,所述获取所述指定任务的相关数据后,所述方法还包括:将所述相关数据积累到第一数据库;相应地,所述人工智能应用,用于基于所述第一数据库中积累的相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数;相应地,所述将所述人工智能应用部署上线包括:将探索得到的模型方案部署上线。
在一些实施例中,所述将探索得到的模型方案部署上线后,所述模型方案基于所述指定任务的线上相关数据生成中间数据;所述人工智能应用还用于将所述中间数据回流到所述第一数据库中。
在一些实施例中,所述人工智能应用,用于基于所述线上相关数据、所述模型方案和所述第一数据库中的中间数据,进行模型自学习,得到在线模型。
在一些实施例中,所述在线模型通过训练离线模型得到;其中,所述离线模型为所述模型方案探索的过程中产生的模型,且将探索得到的模型方案部署上线时,还将所述离线模型部署上线。
在一些实施例中,所述在线模型为基于所述模型方案中的模型算法和模型的超参数生成的模型;且将探索得到的模型方案部署上线时,没有将离线模型部署上线。
第二方面,本公开实施例还提出一种实现自动构建模型的装置,所述装置包括:
场景模块,被配置为基于指定业务场景的指定任务,获取所述指定任务的相关数据;
人工智能应用模块,被配置为响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息; 基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少被配置为基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;响应所述人工智能应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还被配置为基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述人工智能应用模块还被配置为:将所述在线模型部署上线,以提供针对所述指定任务的批量预估服务。
在一些实施例中,所述人工智能应用模块被配置为:将所述在线模型替换已部署上线的机器学习模型。
在一些实施例中,所述人工智能应用模块还被配置为提供一个批量预估服务接口;所述在线模型部署上线后,基于所述批量预估服务接口获取所述指定任务的待预估批量数据,并基于所述待预估批量数据输出批量预估结果。
在一些实施例中,所述场景模块被配置为:获取所述指定任务的相关数据定义;基于所述相关数据定义与所述指定业务场景进行数据对接,获取所述指定任务的相关数据。
在一些实施例中,所述指定任务的相关数据定义包括多个数据表、每个所述数据表包括的字段、所述多个数据表之间的数据关系。
在一些实施例中,所述场景模块被配置为:基于所述指定任务的相关数据定义,创建所述相关数据定义对应的数据接口,通过所述数据接口获取所述指定任务的相关数据;其中,所述数据接口以动态数据表或数据组为接口,或,所述数据接口为封装接口,所述封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,所述人工智能应用模块,还被配置为:响应所述指定任务的人工智能应用创建指令之前,提供用户界面,基于所述用户界面接收用户输入的指定业务场景和指定任务,以及基于所述用户界面接收用户触发的人工智能应用创建指令,所述人工智能应用创建指令与用户输入的指定业务场景和指定任务相对应。
在一些实施例中,所述人工智能应用模块被配置为:将所述人工智能应用配置信息、第二服务程序实例和第三服务程序实例打包为人工智能应用;其中,所述第二服务程序实例被配置为基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述第三服务程序实例被配置为基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
在一些实施例中,所述人工智能应用配置信息包括如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
在一些实施例中,所述相关数据包括:请求数据、曝光数据和反馈数据。
在一些实施例中,所述场景模块,还被配置为获取所述指定任务的相关数据后,将所述相关数据中的请求数据和曝光数据进行拼接,得到行为数据;相应地,所述人工智能应用,被配置为基于所述行为数据、所述反 馈数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,所述场景模块还被配置为获取所述指定任务的相关数据后,将所述相关数据积累到第一数据库;相应地,所述人工智能应用,被配置为基于所述第一数据库中积累的相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数;相应地,所述人工智能应用模块被配置为:将探索得到的模型方案部署上线。
在一些实施例中,所述人工智能应用模块将探索得到的模型方案部署上线后,所述模型方案基于所述指定任务的线上相关数据生成中间数据;所述人工智能应用还被配置为将所述中间数据回流到所述第一数据库中。
在一些实施例中,所述人工智能应用,被配置为基于所述线上相关数据、所述模型方案和所述第一数据库中的中间数据,进行模型自学习,得到在线模型。
在一些实施例中,所述在线模型通过训练离线模型得到;其中,所述离线模型为所述模型方案探索的过程中产生的模型,且将探索得到的模型方案部署上线时,还将所述离线模型部署上线。
在一些实施例中,所述在线模型为基于所述模型方案中的模型算法和模型的超参数生成的模型;且将探索得到的模型方案部署上线时,没有将离线模型部署上线。
第三方面,本公开实施例还提出一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,被配置为执行如第一方面任一实施例的方法步骤。
第四方面,本公开实施例还提出一种非暂态计算机可读存储介质,被配置为存储程序或指令,所述程序或指令使计算机执行如第一方面任一实施例的方法步骤。
可见,本公开的至少一个实施例中,对于不具有机器学习专业知识的人员,能够通过指定业务场景、任务和人工智能应用配置信息,实现模型自动构建,降低模型构建成本。
在一些实施例中,通过对业务场景的数据进行管理(包括但不限于场景拼接等),得到能够复用的用于模型构建的数据。
在一些实施例中,通过将构建的模型部署上线,可提供针对指定任务的批量预估服务。另外,利用获取的线上数据、探索得到的模型方案和批量预估服务产生的中间数据,可进行模型自学习,实现模型自动迭代更新。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种实现自动构建模型的示例性应用场景图;
图2是本公开实施例提供的一种场景模块的示例性框图;
图3是本公开实施例提供的一种人工智能应用模块的示例性框图;
图4是本公开实施例提供的一种AI应用提供批量预估服务的示例性架构图;
图5是本公开实施例提供的一种电子设备的示例性框图;
图6是本公开实施例提供的一种实现自动构建模型的方法的示例性流程图;
图7是本公开实施例提供的一种自学习模型效果的示例性监控界面图;
图8是本公开实施例提供的一种批量预估打分结果的示例性分布图;
图9是本公开实施例提供的一种反馈数据的示例性分布图;
图10是本公开实施例提供的一种模型效果的示例性变化图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
由于目前机器学习模型的构建主要是由专业建模人员来完成,而专业建模人员的培养成本较大,导致专业建模人员的缺口在短期内无法得到快速弥补,不利于机器学习模型的大规模探索和应用。
另外,模型上线一段时间后,模型的预估效果会衰减,因此又需要专业建模人员进行重新建模调优,即每隔一段时间周期就需要重复的人员投入,使得建模越多,人员成本越高。因此,如何实现模型自动迭代更新,以确模型保预估效果,也是亟需解决的问题。
为此,本公开实施例提供一种实现自动构建模型的方案,非专业建模人员可以指定业务场景、任务和人工智能(AI,Artificial Intelligence)应用配置信息,进而该方案可基于AI应用配置信息自动创建AI应用,AI应用可以基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案;该方案可将AI应用部署上线,AI应用可以基于获取的线上相关数据和探索的模型方案,进行模型自学习,得到在线模型。一方面,该方案可以实现模型构建过程全自动化,进而降低建模成本;另一方面,该方案可以进行模型自学习,实现模型自动迭代更新,确保模型预估效果。在没有专业建模人员和机器学习知识储备的情况下,也能低门槛地构建出模型和应用。
图1为本公开实施例提供的一种实现自动构建模型的示例性应用场景图。如图1所示,实现自动构建模型的装置可与业务场景进行数据对接,实现自动构建模型,其中,业务场景可由用户指定,更进一步地,用户还可指定在该业务场景下的任务(可以理解为待解决的业务问题),也即,同一业务场景下,可以有多个任务,针对每个任务,实现自动构建模型的装置可以创建对应的AI应用,例如,一个任务创建一个AI应用;不同任务创建不同的AI应用。AI应用被配置为处理对应的任务,例如实时预估任务或批量预估任务。其中,实时预估是接收到一个预估请求就进行预估;而批量预估是非实时预估,通过定时或事件触发地以批量的方式进行预估,例如,在满足预设的批量预估条件时,才对多个预估请求进行批量预估,例如,当预估请求积累预设条数,才进行批量预估。
在图1中,实现自动构建模型的装置可包括但不限于场景模块11和人工智能应用模块12。
场景模块11,被配置为实现场景定义。在一些实施例中,场景定义可由用户完成,例如,在什么业务场景下解决什么业务问题,业务问题可以是决策类机器学习问题。相应地,场景模块11接收用户输入的场景定义信息。在一些实施例中,场景模块11可提供用户界面,用户通过用户界面输入场景定义信息,以指定业务场景和指定任务。在一些实施例中,场景定义信息可包括但不限于以下一个或多个:场景名称、任务名称、任务ID、任务的相关数据定义等。不同任务的相关数据定义不同。在一些实施例中,相关数据定义可以为数据 表模式(Schema)定义。在一些实施例中,Schema定义包括但不限于以下一个或多个:一个或多个数据表的名称、每个数据表包括的字段、多个数据表之间的数据关系。
在一些实施例中,场景模块11,还被配置为数据接入。例如,场景模块11基于指定业务场景的指定任务,获取指定任务的相关数据。在一些实施例中,相关数据可包括但不限于:请求数据、曝光数据和反馈数据。
例如,业务场景为信用卡电话营销场景,需要解决的业务问题为如何在打同样数量电话的情况下获得更多的信用卡订单。业务问题可转换成找到更有可能会办信用卡的客户,给这些客户打电话。定义业务问题就是找到X和Y,X即一次电话营销行为,Y即打完电话后客户是否办了信用卡。定义业务问题后,即可进行场景定义。
场景定义信息可包括但不限于:
1)场景的名称、备注等基本信息,用于识别和区分场景。
2)定义相关数据。相关数据包括但不限于:请求数据、曝光数据、反馈数据和业务数据。请求数据是指发送给AI应用的信息,例如召回了一万个客户作为候选集,结合其他信息想要通过AI应用来帮忙判断每个客户实际可能会办理信用卡的概率,这一万条数据就是请求数据;经由AI应用预估后,实际进行电话营销时不会一万个客户都打电话,业务方只会选择更有可能会办理信用卡的客户去进行电话营销,可能只选中了100条,这100条就是曝光数据;最后,打完电话后客户实际有没有办理信用卡则是反馈数据。除了请求数据、曝光数据和反馈数据外,场景中可能还包含业务数据,业务数据是其他可能有助于提升AI应用预估效果的信息,例如客户的基本信息、客户的交易流水记录、客户的征信记录等BO(Business Object)数据。其中,业务数据可能没有,也可能有多个。
a)定义各个相关数据流(请求数据流、曝光数据流、反馈数据流和业务数据流)的Schema,例如,每个数据流中都包含哪些字段,具体需要配置的信息包括字段名、字段类型和字段备注(可选填)等。
b)需要指出的是,在获取请求数据和曝光数据后,会根据请求数据和曝光数据以内连接(inner join)的方式构造出行为数据,行为数据可用于后续模型方案探索和模型自学习。
3)定义数据描述信息和各个数据表之间的关系。具体地:
a)定义行为数据的时间字段。在行为数据中选择一个时间类型字段作为主时间字段,这个时间字段应为行为的实际发生时间。
b)定义反馈数据的反馈字段(label)及类型。在反馈数据中选出其中的label字段,对于二分类场景来说label就是表示正负样本的1或0,在回归场景中label是一个表示实际情况的连续值,比如PM2.5的数值。在选出label字段后还需要选择label属于什么类型,是二分类还是回归,或者是多分类。
c)定义行为数据和反馈数据的拼接字段。定义行为数据和反馈数据各自以什么字段为关联key来进行拼接,其中拼接key还能支持多组key,即在多个字段均相等的情况下才认为某条行为数据是和某条反馈数据相对应。
d)定义各个数据中字段的标记类型和是否使用。对于某种字段类型,为了自动建模能够正确识别业务含义以取得更好的效果,需要用户来指定具体的标记类型,比如对于int类型字段,是连续类型还是离散类型,这会决定自动建模算法对于该列数据做怎样的数据变化策略。另外,还需要标记每一列数据是否在模型方案探索中使用,因为实际业务场景中,可能会存在某些字段是无意义的字段,可以不纳入学习,或者某些字段与label是存在强相关,不应纳入学习,所以需要在使用过程中进行标注。
e)定义数据表之间的关系。需要定义行为数据与业务数据之间是怎样的数据关系,方便自动建模时能够完成多表的自动建模。关系类型包含但不限于1:1、1:N,其中,在1:N的关系类型中,还需要指定副表(假设表A和表B,表B的数据会被拼到表A中去,那么表B称之为表A的副表)的表类型,是事件表还是切片表。数据表拼接不仅支持行为表与业务数据表连接,也支持业务数据表与业务数据表之间直接进行连接。
完成以上定义后,可以正式创建一个业务场景。业务场景创建后,实现自动构建模型的装置会自动启动一个数据拼接任务,用以将请求数据和曝光数据拼接出行为数据,以备后续模型方案探索和模型自学习使用。
人工智能应用模块12,被配置为实现AI应用配置。在一些实施例中,AI应用配置可由用户完成,例如,使用哪些业务数据参与模型方案探索和模型自学习,又例如,模型自学习所使用的数据范围。相应地,人工智能应用模块12可接收用户输入的AI应用配置信息。在一些实施例中,人工智能应用模块12可提供用户界面,用户通过用户界面输入AI应用配置信息。
在一些实施例中,从用户角度来看,用户在进行场景定义后,会想要创建对应的AI应用,因此,人工智能应用模块12可提供用户界面,基于用户界面接收用户触发的AI应用创建指令,AI应用创建指令与用户输入的指定业务场景和指定任务相对应。在用户触发了AI应用创建的指令后,例如,用户点击了“AI应用创建”按钮,那么人工智能应用模块12可响应AI应用创建指令,显示用户界面,以通过该用户界面获取用户输入的AI应用配置信息。
在一些实施例中,AI应用配置信息可包括但不限于如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
其中,算力等级可以理解为模型方案探索和模型自学习的复杂度。算力等级越高,模型方案探索和模型自学习会在更宽阔的搜索空间进行搜索,模型自学习得到的模型的预估效果越好。
其中,模型的评估数据范围指定了用于评估模型自学习产出的模型的数据范围。
其中,模型的评估指标例如为AUC(Area Under Curve)值等。
其中,模型是否自动上线,指定了模型自学习不断迭代更新产生的模型是否自动上线。若设置模型自动上线,则模型自学习产生的模型效果优于已部署上线的模型时,会将模型自学习产生的模型自动上线。若设置模型不自动上线,则只能通过手动方式上线模型自学习产出的模型。
其中,是否使用模型方案探索得到的离线模型,指定了是否将离线模型上线,若不使用离线模型,只将模型方案上线后,模型方案不会输出预估结果,向业务场景输出的是一个默认预估结果(例如,默认预测值),默认预测值例如为0.5,需要等待模型自学习产出模型并上线后,才能由模型输出预估结果。若使用离线模型,也即将模型方案上线的同时,还将离线模型上线,离线模型可以输出预估结果,但是由于模型方案探索使用的数据可能与线上数据存在差异,因此,离线模型的预估效果可能较差。
在一些实施例中,人工智能应用模块12,还被配置为创建AI应用。例如,人工智能应用模块12基于AI应用配置信息,创建人工智能应用;其中,AI应用为第一服务程序实例,至少被配置为基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。模型方案是用于建模的多种策略的集合,例如包括但不限于:如何筛选数据、如何构建特征,如何调优模型超参数、如何选择模型、如何训练模型等策略。在一些实施例中,人工智能应用模块12创建AI应用后,可显示用户界面,以提示用户AI应用创建完成,用户可以触发AI应用启动的指令,例如,用户可点击用户界面上的“AI应用启动”按钮。
在一些实施例中,人工智能应用模块12,还被配置为部署AI应用上线。例如,人工智能应用模块12可响应AI应用的启动指令,将AI应用部署上线,以使AI应用获取指定任务的线上相关数据;其中,AI应用还被配置为基于线上相关数据和探索得到的模型方案,进行模型自学习,得到在线模型。其中,模型自学习可以定时或事件触发地使用线上相关数据进行模型自动学习,使得最新的数据信息和业务变化也能被模型学习到,确保自学习模型效果持续良好。
图2为本公开实施例提供的一种场景模块20的示例性框图。在一些实施例中,场景模块20可以实现为图1中的场景模块11或者场景模块11的一部分。
如图2所示,场景模块20可划分为多个单元,例如包括但不限于:数据接入单元21、场景拼表单元22和数据管理单元23。
数据接入单元21,被配置为与业务场景进行数据对接。在一些实施例中,数据接入单元21可基于指定业务场景的指定任务,获取指定任务的相关数据。在一些实施例中,数据接入单元21可获取指定任务的相关数据定义,进而基于相关数据定义与指定业务场景进行数据对接,获取指定任务的相关数据。
在一些实施例中,数据接入单元21可基于指定任务的相关数据定义,创建相关数据定义对应的数据接口,进而通过数据接口获取指定任务的相关数据。其中,数据接口以动态数据表或数据组为接口,或,数据接口为封装接口,封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,数据接口以动态数据表或数据组为接口。数据接入单元21以动态数据表或数据组作为数据存储载体,动态数据表是指在数据表创建完成后仍然可以往其中增加数据(append)的数据表,数据组是指一系列同构(数据字段相同)数据切片的组合,新增数据时通过往数据组中新增数据切片的形式来实现数据的append。本实施例中,用户需要使用更多的数据来进行训练或预估时,是以对应的动态数据表或数据组为接口,导入数据。导入数据的方式包括但不限于单次导入、定时导入和流式导入的一种或多种。其中,流式导入例如为Kafka(分布式发布订阅消息系统)导入等。从数据源上,支持本地导入、数据库导入、FTP(File Transfer Protocol,文件传输协议)导入、HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)导入、hive(基于Hadoop的数据仓库工具)导入等多种方式,满足不同业务场景的数据导入需求。
在一些实施例中,数据接口为封装接口,封装接口是将动态数据表和数据组封装得到的统一接口。本实施例中,通过将动态数据表和数据组封装为统一的数据接口,不对用户暴露底层数据存储实现,提高用户的使用体验。例如,通过封装接口,对用户只需暴露请求(Request)数据、曝光(Impression)数据、反馈数据和业务数据四类数据接口,用户只需要感知这四个数据接口,不用再感知里面具体对应的数据组是什么。
场景拼接单元22,被配置为将相关数据中的请求数据和曝光数据进行拼接,得到行为数据。在一些实施例中,场景拼接单元22根据请求数据和曝光数据以内连接(inner join)的方式构造出行为数据(也可以称为 样本数据)。
在一些实施例中,场景拼接单元22可使用过滤器(filter)进行处理和压平(flatten)处理请求数据和曝光数据,构造出行为数据。
例如,场景拼接单元22可使用过滤器(filter)基于曝光数据对请求数据进行过滤,得到交集数据;进而通过压平(flatten)处理交集数据得到行为数据。例如,曝光数据有10条数据,请求数据有12条数据,曝光数据和请求数据有10条相同数据,场景拼接单元22通过filter过滤,得到这10条相同数据即为交集数据,把不同数据滤除掉,进而通过压平(flatten)处理交集数据(这10条相同数据)得到行为数据。
数据管理单元23,被配置为管理第一数据库中的数据和第二数据库中的数据。在一些实施例中,第一数据库为离线数据库。例如,离线数据库可以为分布式文件存储系统(HDFS,Hadoop Distributed File System),还可以为其他离线数据库。在一些实施例中,第二数据库为在线数据库,例如实时特征存储引擎(RtiDB),也可以为其他在线数据库。
在一些实施例中,数据管理单元23可将数据接入单元21获取的指定任务的相关数据积累到第一数据库。在一些实施例中,数据管理单元23可将场景拼表单元22得到的行为数据积累到第一数据库中。在一些实施例中,数据管理单元23可将图1中人工智能应用模块12探索模型方案过程中产生的中间数据回流到第一数据库中。其中,中间数据可以为预估样本的宽表特征数据。在一些实施例中,数据管理单元23可将线上相关数据存储到第二数据库中。
在一些实施例中,场景模块20中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如数据接入单元21、场景拼表单元22和数据管理单元23中的至少两个单元可以实现为一个单元;数据接入单元21、场景拼表单元22或数据管理单元23也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图3为本公开实施例提供的一种人工智能应用模块30的示例性框图。在一些实施例中,人工智能应用模块30可以实现为图1中的人工智能应用模块12或者人工智能应用模块12的一部分。
如图3所示,人工智能应用模块30可划分为多个单元,例如包括但不限于:应用配置单元31、应用创建单元32和应用上线单元33。
应用配置单元31,被配置为实现AI应用配置。在一些实施例中,应用配置单元31可接收用户输入的AI应用配置信息。在一些实施例中,响应指定任务的AI应用创建指令,获取AI应用配置信息。在一些实施例中,应用配置单元31提供用户界面,以用户界面接收用户触发的AI应用创建指令,当用户触发了AI应用创建指令后,应用配置单元31响应指定任务的AI应用创建指令,显示用户界面,以通过该用户界面获取用户输入的AI应用配置信息。
应用创建单元32,被配置为创建AI应用。在一些实施例中,应用创建单元32基于AI应用配置信息,创建人工智能应用;其中,AI应用为第一服务程序实例,至少被配置为基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。其中,模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数。
在一些实施例中,AI应用可基于第一数据库中的数据(例如请求数据、样本数据、反馈数据、业务数据、曝光数据中一个或多个)进行模型方案探索,得到模型方案。模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数。特征工程方案至少具有拼表功能。特征工程方案还可以具有其他功能,例如从数据中提取特征以供模型算法或模型使用。模型算法可以为目前常用的机器学习算法,例如有监督学习算法,包括但不限于:LR(Logistic Regression,逻辑回归)、GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)、DeepNN(Deep Neural Network,深度神经网络)等。模型的超参数是在机器学习之前预先设置的用于辅助模型训练的参数,例如聚类算法中的类别个数、梯度下降法的步长、神经网络的层数、训练神经网络的学习速率等。
在一些实施例中,AI应用在探索模型方案时,可生成至少两个模型方案,其中,不同模型方案之间至少有一个方案子项不同。在一些实施例中,指定机器学习应用基于第一数据库中的数据分别采用至少两个模型方案进行模型训练,可得到模型本身的参数,其中模型本身的参数例如:神经网络中的权重、支持向量机中的支持向量、线性回归或逻辑回归中的系数等。在一些实施例中,AI应用可基于机器学习模型评价指标,对至少两个模型方案所分别训练出的模型进行评价,进而基于评价结果从至少两个模型方案中进行选择,得到探索到的模型方案。其中机器学习模型评价指标例如为AUC(Area Under Curve)值等。
在一些实施例中,AI应用可基于第一数据库中积累的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。在一些实施例中,AI应用可基于第一数据库中积累的行为数据、反馈数据和AI应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,应用创建单元32可将AI应用配置信息、第二服务程序实例和第三服务程序实例打包为AI应用。其中,第二服务程序实例被配置为基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。其中,第三服务程序实例被配置为基于指定任务的线上相关数据和探索得到的模型方案,进行模型自学习,得到在线模型。
应用上线单元33,被配置为部署AI应用上线。在一些实施例中,应用上线单元33可响应AI应用的启动指令,将AI应用部署上线,以使AI应用获取指定任务的线上相关数据,进而AI应用的第三服务程序实例基于指定任务的线上相关数据和探索得到的模型方案,进行模型自学习,得到在线模型。
在一些实施例中,应用上线单元33可将AI应用的第二服务程序实例探索得到的模型方案部署上线。相应地,部署上线的模型方案可基于指定任务的线上相关数据生成中间数据。在一些实施例中,AI应用的第三服务程序实例可基于指定任务的线上相关数据、第二服务程序实例探索得到的模型方案和模型方案生成的中间数据,进行模型自学习,得到在线模型。
在一些实施例中,应用上线单元33将模型方案部署上线时,还将模型方案探索过程中得到的离线模型部署上线,离线模型是基于第一数据库(即离线数据库)中积累的指定业务场景的指定任务的相关数据训练得到,并且离线模型部署上线后是对指定业务场景的相关数据进行预估服务,因此,虽然线上线下特征计算得到的数据可能不一致,但仍实现了线上线下数据同源。
在一些实施例中,AI应用的第三服务程序实例通过训练离线模型得到在线模型;其中,离线模型为AI应用的第二服务程序实例探索模型方案的过程中产生的模型,且应用上线单元33将模型方案部署上线时,还将离线模型部署上线。在一些实施例中,AI应用的第三服务程序实例通过模型方案中的模型算法和模型的超参 数训练离线模型,更新离线模型本身的参数取值,得到在线模型。
在一些实施例中,应用上线单元33仅将模型方案部署上线,而没有将模型方案探索过程中得到的离线模型部署上线,可避免离线模型直接部署上线后由于线上特征计算和线下特征计算得到的数据存在不一致,导致部署上线的离线模型的预估效果较差的问题。另外,由于仅将模型方案部署上线,没有将离线模型部署上线,因此在并不会生成预估结果,当接收到请求数据时,向业务场景输出的是默认的预估结果,业务场景接收到默认的预估结果后不予理会。
在一些实施例中,AI应用的第三服务程序实例可基于指定任务的线上相关数据、基于第二服务程序实例探索得到的模型方案中的模型算法和模型的超参数、以及模型方案生成的中间数据,进行模型自学习,生成在线模型;且应用上线单元33将模型方案部署上线时,没有将离线模型部署上线。
在一些实施例中,应用上线单元33可将在线模型部署上线,以使在线模型提供针对指定任务的批量预估服务。在一些实施例中,应用上线单元33可提供一个批量预估服务接口,该批量预估服务接口被配置为获取指定任务的待批量预估数据。相应地,部署上线的在线模型可通过该批量预估服务接口获取待批量预估数据(多条请求数据),并基于待预估批量数据输出批量预估结果。
在一些实施例中,以一条请求数据为例,在线模型接收到一条请求数据时,基于部署上线的模型方案中的特征工程方案,利用第二数据库中的数据和接收的请求数据进行线上实时特征计算,得到预估样本的特征数据。在一些实施例中,在线模型接收到请求数据时,基于部署上线的模型方案中的特征工程方案,对第二数据库中的数据和接收的请求数据进行拼表和线上实时特征计算得到宽表特征数据,得到的预估样本的特征数据为宽表特征数据。
在一些实施例中,在线模型可基于部署上线的模型方案得到预估样本的特征数据(或宽表特征数据),拼接特征数据和反馈数据生成带特征和反馈的样本数据,样本数据还可包括其他数据,例如时间戳数据等。在一些实施例中,在线模型拼接特征数据和反馈数据之前,拼接特征数据和曝光数据,得到带曝光数据的特征数据;进而拼接带曝光数据的特征数据和反馈数据,生成带曝光、特征和反馈的样本数据。在一些实施例中,在线模型将带特征和反馈的样本数据回流到第一数据库中,以便进行模型自学习,模型自学习得到的在线模型可部署上线,保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案是一致的,实现模型自学习效果和模型预估效果一致性。
在一些实施例中,AI应用的第三服务程序实例进行模型自学习的过程为:基于带特征和反馈的样本数据,通过模型方案中的模型算法和模型的超参数进行训练,得到在线模型。
在一些实施例中,指定机器学习应用将探索得到的模型方案部署上线包括:将探索得到的模型方案替换已部署上线的模型方案。
在一些实施例中,应用上线单元33可将在线模型替换已部署上线的机器学习模型;或,将在线模型部署上线,并与已部署上线的机器学习模型共同提供针对指定任务的批量预估服务。
在一些实施例中,人工智能应用模块30中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如应用配置单元31、应用创建单元32和应用上线单元33中的至少两个单元可以实现为一个单元;应用配置单元31、应用创建单元32或应用上线单元33也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方 式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图4为本公开实施例提供的一种AI应用提供批量预估服务的实例性架构图。如图4所示,AI应用至少具有两个功能:模型方案探索和模型自学习。在一些实施例中,AI应用可以为图1中实现自动构建模型的装置创建的AI应用,且在部署AI应用上线后,将AI应用探索得到的模型方案也部署上线,并将AI应用通过模型自学习得到的在线模型也部署上线。
结合图4,AI应用提供批量预估服务的过程描述如下:
在定义业务场景后,可与业务场景进行数据对接,实现数据管理,数据管理例如为图2所示的数据管理单元23的功能。当AI应用上线后,AI应用的第二服务程序实例可基于进行模型方案探索,得到模型方案,进而可将模型方案部署上线提供批量预估服务(实质上不会输出批量预估结果,输出的是默认预估结果,因此图中用虚线表示),模型方案会将中间数据回流。AI应用的第三服务程序实例可基于回流的中间数据和模型方案,进行模型自学习,产出在线模型,进而可将在线模型部署上线提供批量预估服务。
可将,图4中,数据管理、模型自学习、批量预估服务构成小闭环;数据管理、模型方案探索、批量预估服务构成大闭环。其中,小闭环保证模型自学习用到的数据和特征工程方案分别与批量预估服务用到的数据和特征工程方案相同,实现模型自学习效果和模型预估效果一致性。大闭环保证模型方案探索用到的数据(简称线下数据)和批量预估服务用到的数据(简称线上数据)是同源的,实现了线下线上的数据同源。
图5是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中,图1中实现自动构建模型的装置可以设置于电子设备中或实现为电子设备。
如图5所示,电子设备包括:至少一个处理器51、至少一个存储器52和至少一个通信接口53。电子设备中的各个组件通过总线系统54耦合在一起。通信接口53,被配置为与外部设备之间的信息传输。可理解地,总线系统54被配置为实现这些组件之间的连接通信。总线系统54除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5中将各种总线都标为总线系统54。
可以理解,本实施例中的存储器52可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器52存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,被配置为实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,被配置为实现各种应用任务。实现本公开实施例提供的实现自动构建模型的方法的程序可以包含在应用程序中。
在本公开实施例中,处理器51通过调用存储器52存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器51被配置为执行本公开实施例提供的实现自动构建模型的方法各实施例的步骤。
本公开实施例提供的实现自动构建模型的方法可以应被配置为处理器51中,或者由处理器51实现。处理器51可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的实现自动构建模型的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器52,处理器51读取存储器52中的信息,结合其硬件完成方法的步骤。
图6为本公开实施例提供的一种实现自动构建模型的方法的示例性流程图。该方法的执行主体为电子设备,为便于描述,以下实施例中以电子设备为执行主体说明实现自动构建模型的方法的流程。
如图6所示,在步骤601中,电子设备基于指定业务场景的指定任务,获取指定任务的相关数据。
在一些实施例中,电子设备可获取指定任务的相关数据定义,进而基于相关数据定义与指定业务场景进行数据对接,获取指定任务的相关数据。
在一些实施例中,指定任务的相关数据定义可包括但不限于:多个数据表、每个数据表包括的字段、多个数据表之间的数据关系。
在一些实施例中,电子设备可基于指定任务的相关数据定义,创建相关数据定义对应的数据接口,通过数据接口获取指定任务的相关数据;其中,数据接口以动态数据表或数据组为接口,或,数据接口为封装接口,封装接口是将动态数据表和数据组封装得到的统一接口。
在一些实施例中,电子设备在获取指定任务的相关数据后,将相关数据积累到第一数据库。
在一些实施例中,指定任务的相关数据可包括但不限于:请求数据、曝光数据和反馈数据。在一些实施例中,电子设备获取指定任务的相关数据后,还将相关数据中的请求数据和曝光数据进行拼接,得到行为数据。电子设备可将行为数据积累到第一数据库中。
在步骤602中,电子设备响应指定任务的AI应用创建指令,获取AI应用配置信息。
在一些实施例中,电子设备响应指定任务的AI应用创建指令之前,还提供用户界面,进而基于用户界面接收用户输入的指定业务场景和指定任务,以及基于用户界面接收用户触发的AI应用创建指令,其中,AI应用创建指令与用户输入的指定业务场景和指定任务相对应。
在一些实施例中,电子设备响应指定任务的AI应用创建指令之后,还提供用户界面,进而基于用户界面接收用户输入的AI应用配置信息。
在一些实施例中,AI应用配置信息可包括但不限于如下中的一种或多种:
模型方案探索和模型自学习所使用的业务数据;
模型方案探索和模型自学习所使用的数据范围;
模型方案探索和模型自学习的算力等级;
模型的评估数据范围;
模型的评估指标;
模型是否自动上线;
是否使用模型方案探索得到的离线模型。
在步骤603中,电子设备基于AI应用配置信息,创建AI应用;其中,AI应用为第一服务程序实例,至少被配置为基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。在一些实施例中,AI应用可基于第一数据库中积累的相关数据和AI应用配置信息进行模型方案探索,得到模型方案。在一些实施例中,AI应用可基于第一数据库中的行为数据、相关数据中的反馈数据和AI应用配置信息进行模型方案探索,得到模型方案。
在一些实施例中,模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数。
在一些实施例中,电子设备将AI应用配置信息、第二服务程序实例和第三服务程序实例打包为AI应用;其中,第二服务程序实例被配置为基于指定任务的相关数据和AI应用配置信息进行模型方案探索,得到模型方案;其中,第三服务程序实例被配置为基于指定任务的线上相关数据和模型方案,进行模型自学习,得到在线模型。
在步骤604中,电子设备响应AI应用的启动指令,将AI应用部署上线,以获取指定任务的线上相关数据;其中,AI应用还被配置为基于线上相关数据和模型方案,进行模型自学习,得到在线模型。
在一些实施例中,电子设备将AI应用部署上线后,还可将AI应用(或AI应用的第二服务程序实例)探索得到的模型方案部署上线。
在一些实施例中,电子设备将模型方案部署上线后,模型方案可基于指定任务的线上相关数据生成中间数据,相应地,AI应用可将中间数据回流到第一数据库中。在一些实施例中,AI应用(或AI应用的第三服务程序实例)可基于指定任务的线上相关数据、模型方案和第一数据库中的中间数据,进行模型自学习,得到在线模型。
AI应用进行探索模型方案,不仅可以生成模型方案,而且还可以生成该模型方案对应的离线模型。
在一些实施例中,若将探索得到的模型方案部署上线时,还将离线模型部署上线,则在进行模型自学习时,在线模型通过训练离线模型得到,也即AI应用(或AI应用的第三服务程序实例)通过训练离线模型得到在线模型;其中,离线模型为AI应用(或AI应用的第二服务程序实例)探索模型方案的过程中产生的模型,且电子设备将探索得到的模型方案部署上线时,还将离线模型部署上线。
在一些实施例中,若将探索得到的模型方案部署上线时,没有将离线模型部署上线,则AI应用(或AI应用的第三服务程序实例)可基于指定任务的线上相关数据、基于第二服务程序实例探索得到的模型方案中的模型算法和模型的超参数、以及模型方案生成的中间数据,进行模型自学习,生成在线模型。
在一些实施例中,电子设备可将在线模型部署上线,以使在线模型提供针对指定任务的批量预估服务。在一些实施例中,电子设备可将在线模型替换已部署上线的机器学习模型;或,将在线模型部署上线,并与已部署上线的机器学习模型共同提供针对指定任务的批量预估服务,以便用户主动选择模型在线预估服务,还可以在一个机器学习模型因故下线后由另一个机器学习模型继续提供在线预估服务。
在一些实施例中,电子设备可提供一个批量预估服务接口,相应地,在线模型可基于批量预估服务接口获取指定任务的待预估批量数据,并基于待预估批量数据输出批量预估结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。
本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如实现自动构建模型的方法各实施例的步骤,为避免重复描述,在此不再赘述。
图7是本公开实施例提供的一种自学习模型效果的示例性监控界面图。其中,自学习模型可以理解为AI应用通过模型自学习得到的模型。图7中,自学习模型效果的监控界面可以显示自学习模型效果的变化趋势,例如图7中的自学习模型AUC(简称自学习AUC)变化曲线。图7中,自学习模型效果的监控界面还可以显示自学习模型和批量预估所使用模型(应用模型)的效果对比。横坐标是时间,纵坐标是模型效果。图7中,自学习模型效果的监控界面还可以显示AI应用当前模型自学习的状态。
图8是本公开实施例提供的一种批量预估打分结果的示例性分布图。图8中,横坐标是行为发生时间(可以理解为批量预估发生的时间),纵坐标是预测值(也即批量预估打分结果)。图8以箱型图的方式来呈现每一天的预测值分布情况,同时会生成一条预测均值的曲线,来表示每一天预测值的均值。
图9是本公开实施例提供的一种反馈数据的示例性分布图,横坐标为行为发生时间(可以理解为获取反馈数据的时间),纵坐标为数据所占比例,分别表示反馈数据中反馈值为1、反馈值为0以及反馈数据还未到达的数据各自所占的比例。
图10是本公开实施例提供的一种批量预估所使用模型(应用模型)效果的示例性变化图,横坐标为行为发生时间(可以理解为计算应用模型AUC的时间),纵坐标为应用模型效果。本实施例中,以每天的数据来统计当天的模型指标,比如二分类场景中统计AUC。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
工业实用性
本公开的至少一个实施例中,对于不具有机器学习专业知识的人员,能够通过指定业务场景、任务和人工智能应用配置信息,实现模型自动构建,降低模型构建成本。在一些实施例中,通过对业务场景的数据进行管理(包括但不限于场景拼接等),得到能够复用的用于模型构建的数据。在一些实施例中,通过将构建的模型部署上线,可提供针对指定任务的批量预估服务。另外,利用获取的线上数据、探索得到的模型方案和批量预估服务产生的中间数据,可进行模型自学习,实现模型自动迭代更新。

Claims (36)

  1. 一种实现自动构建模型的方法,其中,所述方法包括:
    基于指定业务场景的指定任务,获取所述指定任务的相关数据;
    响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息;
    基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;
    响应所述人工智能应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
  2. 根据权利要求1所述的方法,其中,所述方法还包括:
    将所述在线模型部署上线,以提供针对所述指定任务的批量预估服务。
  3. 根据权利要求2所述的方法,其中,所述将所述在线模型部署上线包括:
    将所述在线模型替换已部署上线的机器学习模型。
  4. 根据权利要求2或3所述的方法,其中,所述批量预估服务包括:提供一个批量预估服务接口,基于所述批量预估服务接口获取所述指定任务的待预估批量数据,并基于所述待预估批量数据输出批量预估结果。
  5. 根据权利要求1至4任一项所述的方法,其中,所述基于指定业务场景的指定任务,获取所述指定任务的相关数据包括:
    获取所述指定任务的相关数据定义;
    基于所述相关数据定义与所述指定业务场景进行数据对接,获取所述指定任务的相关数据。
  6. 根据权利要求5所述的方法,其中,所述指定任务的相关数据定义包括多个数据表、每个所述数据表包括的字段、所述多个数据表之间的数据关系。
  7. 根据权利要求5或6所述的方法,其中,所述获取所述指定任务的相关数据,包括:基于所述指定任务的相关数据定义,创建所述相关数据定义对应的数据接口,通过所述数据接口获取所述指定任务的相关数据;
    其中,所述数据接口以动态数据表或数据组为接口,或,所述数据接口为封装接口,所述封装接口是将动态数据表和数据组封装得到的统一接口。
  8. 根据权利要求1至7任一项所述的方法,其中,所述响应所述指定任务的人工智能应用创建指令之前,所述方法还包括:
    提供用户界面,基于所述用户界面接收用户输入的指定业务场景和指定任务,以及基于所述用户界面接收用户触发的人工智能应用创建指令,所述人工智能应用创建指令与用户输入的指定业务场景和指定任务相对应。
  9. 根据权利要求1至8任一项所述的方法,其中,所述基于所述人工智能应用配置信息,创建人工智能应用包括:
    将所述人工智能应用配置信息、第二服务程序实例和第三服务程序实例打包为人工智能应用;
    其中,所述第二服务程序实例用于基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;
    其中,所述第三服务程序实例用于基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模 型。
  10. 根据权利要求1至9任一项所述的方法,其中,所述人工智能应用配置信息包括如下中的一种或多种:
    模型方案探索和模型自学习所使用的业务数据;
    模型方案探索和模型自学习所使用的数据范围;
    模型方案探索和模型自学习的算力等级;
    模型的评估数据范围;
    模型的评估指标;
    模型是否自动上线;
    是否使用模型方案探索得到的离线模型。
  11. 根据权利要求1至10任一项所述的方法,其中,所述相关数据包括:请求数据、曝光数据和反馈数据。
  12. 根据权利要求11所述的方法,其中,所述获取所述指定任务的相关数据后,所述方法还包括:将所述相关数据中的请求数据和曝光数据进行拼接,得到行为数据;
    相应地,所述人工智能应用,用于基于所述行为数据、所述反馈数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案。
  13. 根据权利要求11或12所述的方法,其中,所述获取所述指定任务的相关数据后,所述方法还包括:将所述相关数据积累到第一数据库;
    相应地,所述人工智能应用,用于基于所述第一数据库中积累的相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数;
    相应地,所述将所述人工智能应用部署上线包括:将探索得到的模型方案部署上线。
  14. 根据权利要求13所述的方法,其中,所述将探索得到的模型方案部署上线后,所述模型方案基于所述指定任务的线上相关数据生成中间数据;
    所述人工智能应用还用于将所述中间数据回流到所述第一数据库中。
  15. 根据权利要求14所述的方法,其中,所述人工智能应用,用于基于所述线上相关数据、所述模型方案和所述第一数据库中的中间数据,进行模型自学习,得到在线模型。
  16. 根据权利要求15所述的方法,其中,所述在线模型通过训练离线模型得到;其中,所述离线模型为所述模型方案探索的过程中产生的模型,且将探索得到的模型方案部署上线时,还将所述离线模型部署上线。
  17. 根据权利要求15或16所述的方法,其中,所述在线模型为基于所述模型方案中的模型算法和模型的超参数生成的模型;且将探索得到的模型方案部署上线时,没有将离线模型部署上线。
  18. 一种实现自动构建模型的装置,其中,所述装置包括:
    场景模块,被配置为基于指定业务场景的指定任务,获取所述指定任务的相关数据;
    人工智能应用模块,被配置为响应所述指定任务的人工智能应用创建指令,获取人工智能应用配置信息;基于所述人工智能应用配置信息,创建人工智能应用;其中,所述人工智能应用为第一服务程序实例,至少被配置为基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;响应所述人工智能 应用的启动指令,将所述人工智能应用部署上线,以获取所述指定任务的线上相关数据;其中,所述人工智能应用还被配置为基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
  19. 根据权利要求18所述的装置,其中,所述人工智能应用模块还被配置为:将所述在线模型部署上线,以提供针对所述指定任务的批量预估服务。
  20. 根据权利要求19所述的装置,其中,所述人工智能应用模块被配置为:
    将所述在线模型替换已部署上线的机器学习模型。
  21. 根据权利要求19或20所述的装置,其中,所述人工智能应用模块还被配置为提供一个批量预估服务接口;
    所述在线模型部署上线后,基于所述批量预估服务接口获取所述指定任务的待预估批量数据,并基于所述待预估批量数据输出批量预估结果。
  22. 根据权利要求18至21任一项所述的装置,其中,所述场景模块被配置为:
    获取所述指定任务的相关数据定义;
    基于所述相关数据定义与所述指定业务场景进行数据对接,获取所述指定任务的相关数据。
  23. 根据权利要求22所述的装置,其中,所述指定任务的相关数据定义包括多个数据表、每个所述数据表包括的字段、所述多个数据表之间的数据关系。
  24. 根据权利要求22或23所述的装置,其中,所述场景模块被配置为:基于所述指定任务的相关数据定义,创建所述相关数据定义对应的数据接口,通过所述数据接口获取所述指定任务的相关数据;
    其中,所述数据接口以动态数据表或数据组为接口,或,所述数据接口为封装接口,所述封装接口是将动态数据表和数据组封装得到的统一接口。
  25. 根据权利要求18至24任一项所述的装置,其中,所述人工智能应用模块,还被配置为:
    响应所述指定任务的人工智能应用创建指令之前,提供用户界面,基于所述用户界面接收用户输入的指定业务场景和指定任务,以及基于所述用户界面接收用户触发的人工智能应用创建指令,所述人工智能应用创建指令与用户输入的指定业务场景和指定任务相对应。
  26. 根据权利要求18至24任一项所述的装置,其中,所述人工智能应用模块被配置为:
    将所述人工智能应用配置信息、第二服务程序实例和第三服务程序实例打包为人工智能应用;
    其中,所述第二服务程序实例被配置为基于所述相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;
    其中,所述第三服务程序实例被配置为基于所述线上相关数据和所述模型方案,进行模型自学习,得到在线模型。
  27. 根据权利要求18至24任一项所述的装置,其中,所述人工智能应用配置信息包括如下中的一种或多种:
    模型方案探索和模型自学习所使用的业务数据;
    模型方案探索和模型自学习所使用的数据范围;
    模型方案探索和模型自学习的算力等级;
    模型的评估数据范围;
    模型的评估指标;
    模型是否自动上线;
    是否使用模型方案探索得到的离线模型。
  28. 根据权利要求18至27任一项所述的装置,其中,所述相关数据包括:请求数据、曝光数据和反馈数据。
  29. 根据权利要求28所述的装置,其中,所述场景模块,还被配置为获取所述指定任务的相关数据后,将所述相关数据中的请求数据和曝光数据进行拼接,得到行为数据;
    相应地,所述人工智能应用,被配置为基于所述行为数据、所述反馈数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案。
  30. 根据权利要求28或29所述的装置,其中,所述场景模块还被配置为获取所述指定任务的相关数据后,将所述相关数据积累到第一数据库;
    相应地,所述人工智能应用,被配置为基于所述第一数据库中积累的相关数据和所述人工智能应用配置信息进行模型方案探索,得到模型方案;其中,所述模型方案包括以下方案子项:特征工程方案、模型算法和模型的超参数;
    相应地,所述人工智能应用模块被配置为:将探索得到的模型方案部署上线。
  31. 根据权利要求30所述的装置,其中,所述人工智能应用模块将探索得到的模型方案部署上线后,所述模型方案基于所述指定任务的线上相关数据生成中间数据;
    所述人工智能应用还被配置为将所述中间数据回流到所述第一数据库中。
  32. 根据权利要求31所述的装置,其中,所述人工智能应用,被配置为基于所述线上相关数据、所述模型方案和所述第一数据库中的中间数据,进行模型自学习,得到在线模型。
  33. 根据权利要求32所述的装置,其中,所述在线模型通过训练离线模型得到;其中,所述离线模型为所述模型方案探索的过程中产生的模型,且将探索得到的模型方案部署上线时,还将所述离线模型部署上线。
  34. 根据权利要求32或33所述的装置,其中,所述在线模型为基于所述模型方案中的模型算法和模型的超参数生成的模型;且将探索得到的模型方案部署上线时,没有将离线模型部署上线。
  35. 一种电子设备,其中,包括:处理器和存储器;
    所述处理器通过调用所述存储器存储的程序或指令,被配置为执行如权利要求1至17任一项所述方法的步骤。
  36. 一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至17任一项所述方法的步骤。
PCT/CN2021/116497 2020-09-03 2021-09-03 实现自动构建模型的方法、装置、电子设备和存储介质 WO2022048648A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010917901.2 2020-09-03
CN202010917901.2A CN112149838A (zh) 2020-09-03 2020-09-03 实现自动构建模型的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
WO2022048648A1 true WO2022048648A1 (zh) 2022-03-10

Family

ID=73891038

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/116497 WO2022048648A1 (zh) 2020-09-03 2021-09-03 实现自动构建模型的方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN112149838A (zh)
WO (1) WO2022048648A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149838A (zh) * 2020-09-03 2020-12-29 第四范式(北京)技术有限公司 实现自动构建模型的方法、装置、电子设备和存储介质
CN113570457A (zh) * 2021-06-28 2021-10-29 交通银行股份有限公司 一种基于自修复建模的反洗钱系统及其方法
CN114385733A (zh) * 2021-12-31 2022-04-22 上海柯林布瑞信息技术有限公司 Etl过程中数据模型统一创建方法和装置
CN114385876B (zh) * 2022-01-13 2022-09-13 北京九章云极科技有限公司 一种模型搜索空间生成方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292204A1 (en) * 2015-03-30 2016-10-06 Avaya Inc. System and method for compiling and dynamically updating a collection of frequently asked questions
CN107908743A (zh) * 2017-11-16 2018-04-13 百度在线网络技术(北京)有限公司 人工智能应用构建方法和装置
CN110503208A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 多模型探索中的资源调度方法和资源调度装置
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111209931A (zh) * 2019-12-23 2020-05-29 深圳智链物联科技有限公司 数据处理方法、平台、终端设备及存储介质
CN112149838A (zh) * 2020-09-03 2020-12-29 第四范式(北京)技术有限公司 实现自动构建模型的方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891627B2 (en) * 2017-02-15 2021-01-12 Salesforce.Com, Inc. Methods and apparatus for using artificial intelligence entities to provide information to an end user
CN111444170B (zh) * 2018-12-28 2023-10-03 第四范式(北京)技术有限公司 基于预测业务场景的自动机器学习方法和设备
CN111008707A (zh) * 2019-12-09 2020-04-14 第四范式(北京)技术有限公司 自动化建模方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292204A1 (en) * 2015-03-30 2016-10-06 Avaya Inc. System and method for compiling and dynamically updating a collection of frequently asked questions
CN107908743A (zh) * 2017-11-16 2018-04-13 百度在线网络技术(北京)有限公司 人工智能应用构建方法和装置
CN110503208A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 多模型探索中的资源调度方法和资源调度装置
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111209931A (zh) * 2019-12-23 2020-05-29 深圳智链物联科技有限公司 数据处理方法、平台、终端设备及存储介质
CN112149838A (zh) * 2020-09-03 2020-12-29 第四范式(北京)技术有限公司 实现自动构建模型的方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112149838A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
WO2022048648A1 (zh) 实现自动构建模型的方法、装置、电子设备和存储介质
US11526338B2 (en) System and method for inferencing of data transformations through pattern decomposition
US20190124020A1 (en) Chatbot Skills Systems And Methods
CN109471900B (zh) 图表类数据自定义动作数据交互方法及系统
US10453165B1 (en) Computer vision machine learning model execution service
CN108171528B (zh) 一种归因方法及归因系统
CN105719126B (zh) 一种基于生命周期模型的互联网大数据任务调度的系统及方法
WO2021228264A1 (zh) 一种应用机器学习的方法、装置、电子设备及存储介质
CN110781180B (zh) 一种数据筛选方法和数据筛选装置
WO2019062673A1 (zh) 一种基于输入输出语义化实现的管理信息化的方法和系统
CN110633959A (zh) 基于图结构的审批任务创建方法、装置、设备及介质
CN112463986A (zh) 信息存储的方法及装置
CN105335466A (zh) 一种音频数据的检索方法与装置
CN109800069A (zh) 一种实现数据治理的方法及装置
CN115062676B (zh) 数据处理方法、装置及计算机可读存储介质
WO2022089613A1 (zh) 应用机器学习的文本分类方法、装置和电子设备
JP2010072876A (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
WO2022037689A1 (zh) 一种基于数据形式的数据处理方法和应用机器学习的方法
CN113722341B (zh) 一种运营数据处理方法及相关装置
CN112559883B (zh) 用于评估推荐系统的方法、装置、电子设备以及可读介质
US20220366329A1 (en) Modeling device of business logic representation model and modeling method thereof
US20240220876A1 (en) Artificial intelligence (ai) based data product provisioning
CN116527957A (zh) 一种素材管理方法、装置、服务器、客户端及介质
CN117744336A (zh) 模型处理方法、装置、计算机设备和模型处理系统
CN117909734A (zh) 标签生成装置、方法、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21863710

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21863710

Country of ref document: EP

Kind code of ref document: A1