WO2022198752A1 - 推送模型训练方法、数据推送方法、装置及存储介质 - Google Patents

推送模型训练方法、数据推送方法、装置及存储介质 Download PDF

Info

Publication number
WO2022198752A1
WO2022198752A1 PCT/CN2021/091176 CN2021091176W WO2022198752A1 WO 2022198752 A1 WO2022198752 A1 WO 2022198752A1 CN 2021091176 W CN2021091176 W CN 2021091176W WO 2022198752 A1 WO2022198752 A1 WO 2022198752A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
data
user
item type
sample user
Prior art date
Application number
PCT/CN2021/091176
Other languages
English (en)
French (fr)
Inventor
程磊
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022198752A1 publication Critical patent/WO2022198752A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the embodiments of the present application relate to the technical field of big data, and in particular, to a push model training method, a data push method, an apparatus, and a storage medium.
  • the data push system has always been a research hotspot in the field of information, and it has always been a hot topic of discussion in major conferences on data mining and machine learning. Because of this, researchers from all over the world have carried out research and discussion on recommender systems.
  • Today, data push systems are used in various fields, such as: e-commerce (Amazon, Taobao, Jingdong) uses data push systems to provide users with favorite products, and information retrieval (Google, Baidu, Sogou) uses data push systems to recommend users effectively information, etc.
  • recommender system has brought great convenience to people's life. It not only helps users obtain valuable information, but also reduces the time it takes for users to obtain effective information. Therefore, the study of recommender system is of great significance. matter.
  • the above data push method is used to obtain the user data of the target sample users and neighboring users. When the sample users do not have neighboring users, the accuracy of obtaining item type data by relying on neighboring users is low.
  • embodiments of the present application provide a push model training method, device, computer equipment, and computer-readable storage medium, which are used to solve the problem of using the existing project data type push method, resulting in the result of the project type data output model. problems with low accuracy.
  • a push model training method including:
  • an embodiment of the present application also provides a push model training device, including:
  • the preprocessing module is used to obtain multiple user data of multiple sample users and multiple item type label data corresponding to the multiple sample users, and preprocess the attribute information of the multiple user data of the multiple sample users , to obtain multiple sample user clusters;
  • the model processing module is used to input multiple user data of each sample user in each sample user cluster into the to-be-trained model, and output the first sample of each sample user corresponding to each item type data according to the to-be-trained model this preference;
  • an encoding module configured to encode the first sample preference degree of each item type data corresponding to each sample user respectively, and generate the first sample preference degree encoded data corresponding to each item type data;
  • a determination module configured to determine the sample preference output encoded data from the first sample preference encoded data corresponding to each item type data of each sample user;
  • the extraction module is used for extracting the sample preference label coding data corresponding to the preference sample item type data of each sample user from the plurality of item type label data corresponding to each sample user;
  • a generating module configured to compare the sample preference output encoded data of each sample user with the sample preference label encoded data according to a cost function, to generate a loss value
  • An adjustment module configured to adjust one or more model parameters of the to-be-trained model according to the loss value to obtain an item data recommendation model.
  • an embodiment of the present application further provides a computer device, the computer device includes a memory, a processor, and a computer program stored in the memory and executable on the processor, the processor executes the The computer program also performs the following steps:
  • an embodiment of the present application further provides a computer-readable storage medium, where a computer program is stored in the computer-readable storage medium, and the computer program can be executed by at least one processor, so that the at least one processor A processor performs the following steps:
  • an embodiment of the present application also provides a data push method, including:
  • the item data recommendation model outputting the first preference degree of the target user corresponding to each item type data
  • the push model training method, device, computer equipment, and computer-readable storage medium acquire multiple user data of multiple sample users and multiple corresponding item type label data, and perform a training procedure on the multiple sample users. Preprocessing to obtain multiple sample user clusters; input multiple user data of each sample user in each sample user cluster into the model to be trained, and output the data of each sample user corresponding to each item type according to the model.
  • the first sample preference degree; the sample preference degree is obtained according to the plurality of first sample preference degrees, and the output encoded data is obtained, and the model is iterated through the cost function to adjust the parameters; thereby effectively improving the project type data of the optimized model. Efficiency and accuracy of push.
  • FIG. 1 is a flow chart of steps of a method for training a push model according to Embodiment 1 of the present application;
  • FIG. 2 is a flowchart of steps of a method for training a push model according to Embodiment 1 of the present application;
  • FIG. 3 is a flow chart of steps of a method for training a push model according to Embodiment 1 of the present application;
  • FIG. 4 is a flow chart of steps of a method for training a push model according to Embodiment 1 of the present application;
  • FIG. 5 is a flow chart of steps of a method for training a push model according to Embodiment 1 of the present application;
  • FIG. 6 is a schematic diagram of a program module of the push model training device according to the second embodiment of the application.
  • FIG. 7 is a schematic diagram of a hardware structure of a computer device according to Embodiment 3 of the present application.
  • FIG. 8 is a flow chart of the steps of the data push method according to the fifth embodiment of the present application.
  • FIG. 1 shows a flowchart of steps of a method for training a push model according to an embodiment of the present application. It can be understood that the flowchart in this embodiment of the method is not used to limit the sequence of executing steps.
  • the following is an exemplary description with a computer device as the execution subject, as follows:
  • the push model training method may include steps S100-S600, wherein:
  • Step S100 Acquire multiple user data of multiple sample users and multiple item type label data corresponding to the multiple sample users, and preprocess the attribute information of the multiple user data of the multiple sample users to obtain multiple sample users. sample user clusters.
  • sample user data of multiple sample users such as sample user name, sample user gender, sample user age, sample user occupation, etc.
  • Qu (male, 23, teacher)
  • the age is 23, and the occupation is teacher (teacher).
  • multiple sample user clusters can also be obtained through the following operations: Step S200 , extracting from multiple user data of the multiple sample users A plurality of gender data, according to the preset first classification and coding rules, respectively encode the gender data of each sample user to obtain the first encoded data; step S202, extract a plurality of user data from the plurality of sample users.
  • step S204 extract a plurality of user data from the plurality of sample users pieces of occupational data, and determine a plurality of occupational categories according to the number of sample users corresponding to the plurality of occupational data; step S206, encode the plurality of occupational categories according to the preset third classification and coding rules to obtain each sample user Corresponding third coded data; Step S208, according to the first coded data, the second coded data and the third coded data of each sample user, generate the user attribute coded data of each sample user; And step S210, according to the user attribute coding data of each sample user and a preset cluster analysis algorithm, calculate and obtain a plurality of sample user clusters.
  • the attribute information in the user data of the sample users needs to be preprocessed by K-means clustering method (k-means clustering method).
  • K-means clustering method K-means clustering method
  • the basic data of sample users is preprocessed by means of digital coding [1-9].
  • the preset first classification coding rule is expressed as coding male gender as 1 and gender female coding as 2; for age data, the preset second classification coding rule is expressed as dividing the age of sample users according to the age range
  • the children’s group (0-19 years old), the youth group (20-39 years old), the senior group (40-59 years old), the actual age group (60-79 years old) and the elderly group (80 years old and above), and the corresponding The codes are 1, 2, 3, 4, and 5; for occupational data, the occupation categories of all sample users and the number of sample users in each occupation are counted.
  • the preset third classification coding rule is expressed as the number of sample users according to each occupation.
  • the occupations in the top 20% are individually coded, and the remaining occupations are grouped into one category and coded for that category. For example, among the 21 occupations, the occupations with the top 4 sample users are coded separately, and the remaining occupations are grouped into one category, so the top 4 occupations and the remaining occupations of the sample users are coded as 1, 2, 3, 4, 5.
  • step S300 according to the preset cluster analysis algorithm, select a plurality of cluster centers from the user attribute coding data of the plurality of sample users; Step S302, calculate the distance between each sample user and each cluster center; Step S304, determine the sample attribute category of each sample user, and the sample attribute category of each sample user is the distance between each sample user and each sample user.
  • the sample attribute category corresponding to the cluster center with the shortest distance among the distances between the cluster centers; and step S306 classifying the plurality of sample users according to the sample attribute category of each sample user to obtain a plurality of sample user clusters.
  • the cluster analysis algorithm may be a k-means clustering algorithm.
  • Step S102 inputting multiple user data of each sample user in each sample user cluster into the model to be trained, and outputting the first sample preference of each sample user corresponding to each item type data according to the model to be trained .
  • the step S102 may further include steps S400-S406, wherein: step S400, according to the multiple user data and the data of each sample user in each sample user cluster The first association relationship between each item data, the user item matrix corresponding to each sample user is obtained, and the item type corresponding to each sample user is obtained according to the second association relationship between each item data and the item type data.
  • Step S402 according to the product of the user item matrix and the item type matrix, generate the number of comments of each sample user for each item type data
  • Step S404 for each sample user and each item type data
  • the number of comments is summed to obtain the total number of comments of each sample user
  • step S406 according to the ratio of the number of comments of each item type data of each sample user to the total number of comments of each sample user, generate each sample user.
  • Each sample user corresponds to the first sample preference degree of each item type data.
  • the first sample preference of each sample user for each item type data is obtained by analysis.
  • the preference degree represents the preference degree of the sample user for the item type data.
  • the model to be trained includes an input layer, a first hidden layer, a second hidden layer and an output layer.
  • the item type recommendation model specifically includes an input layer, two hidden layers and an output layer.
  • the number of input neurons is N in
  • the number of neurons in the first layer of the hidden layer is
  • the number of neurons in the output layer is N out .
  • the hidden layer adopts the Dropout strategy
  • the activation function is ReLu
  • the activation function of the output layer is Softmax.
  • the number of hidden layer neurons in the item type recommendation model is determined by the Kolmogorov theorem. There is an equal relationship between the number of input layer neurons and the number of hidden layer neurons, see formula 4:
  • Step S104 Encode the first sample preference degree of each item type data corresponding to each sample user respectively, and generate the first sample preference degree encoded data corresponding to each item type data.
  • the score of the sample user on the item indicates the preference degree of the sample user to the item, and the preference degree is encoded to obtain the first preference degree encoded data, as shown in Table 1 below.
  • Table 1 The first sample preference coding table of the sample user item type data
  • first sample preference degree and the first preference degree encoded data of the plurality of sample users corresponding to the plurality of item type data are aggregated to establish a corresponding relationship.
  • U 1 Take U 1 as an example, where I i represents the ith item and Li represents the ith type. Its training dataset is shown in Table 2 below.
  • Step S106 from the first sample preference degree encoded data corresponding to each item type data of each sample user, determine the sample preference degree and output the encoded data.
  • the first sample preference degree is determined, and the encoded data of the first sample preference degree corresponding to the first sample preference degree is determined as the sample preference degree output encoded data.
  • the input of each neuron in the hidden layer and the output layer comes from the linear weighted sum of the output values of all neurons in the previous layer.
  • the training data of the value adopts the Dropout strategy, see Equation 5:
  • nonlinear mapping is performed on the output value of the previous layer (ie, the input value of the hidden layer) through the activation function of each hidden layer and output layer, so that the neural network has hierarchical learning Ability.
  • the activation function in the hidden layer adopts ReLU
  • the activation function in the output layer adopts Softmax, respectively, as shown in formula 6:
  • nth neuron of the lth layer in the item type recommendation model represents the output value of the nth neuron of the lth layer in the item type recommendation model
  • k l represents the total number of neurons in the lth layer.
  • Step S108 Extract the sample preference label coding data corresponding to the preference sample item type data of each sample user from the plurality of item type label data corresponding to each sample user.
  • Step S110 compare the sample preference output encoded data of each sample user with the sample preference label encoded data to generate a loss value.
  • the output value is obtained through the item type recommendation model, it needs to be compared with the encoded data of the sample preference label based on the cost function.
  • it is often divided into cross entropy criterion and least mean square error method.
  • the embodiment of the present application adopts the cross-entropy criterion.
  • the specific cross-entropy criterion is shown in Equation 8:
  • Li represents the difference between the ith output value and the target value, that is, Li represents the difference between the sample preference output encoded data of the i th sample user and the sample preference label encoded data; t ij represents the ith sample preference label.
  • Step S112 Adjust one or more model parameters of the to-be-trained model according to the loss value to obtain an item data recommendation model.
  • the step of adjusting one or more model parameters of the to-be-trained model according to the loss value to obtain an item data recommendation model includes:
  • Step S500 calculating the learning rate of each model parameter in the model to be trained by using the adaptive moment estimation algorithm and the loss value; and step S502, adjusting the learning rate of each model parameter according to the learning rate of each model parameter. model parameters to obtain the item data recommendation model.
  • the item data recommendation model can be an optimized deep neural network model.
  • the solution of the cost function adopts the Adam algorithm, that is, an adaptive moment estimation method (Adaptive Moment Estimation).
  • the loss value calculated by the cost function, the learning rate of each model parameter is updated through the first-order matrix and the second-order matrix of the gradient, and then the updated model parameters are obtained, which makes the training and convergence effect of the model better.
  • This embodiment of the present application first performs K-means clustering on sample users according to user attributes, and divides them into different user clusters, and then performs data processing on user data in different user clusters, including input layer data processing and output layer data processing, According to the processed data, the corresponding relationship between item types and user item scores is established for model training, and then the model is trained to obtain the best model.
  • the training of the model includes linear summation, activation function, cost function and cost function solution.
  • the trained model and de-encoding get the predicted score of the target item.
  • the optimization of parameters helps to improve the efficiency of model training. When the user has a certain number of rating items, using the model to predict can produce a satisfactory recommendation effect.
  • FIG. 6 shows a schematic diagram of program modules of the push model training apparatus of the present application.
  • the push model training apparatus 20 may include or be divided into one or more program modules, and the one or more program modules are stored in a storage medium and executed by one or more processors to complete
  • the present application can also implement the above push model training method.
  • the program modules referred to in the embodiments of the present application refer to a series of computer program instruction segments capable of performing specific functions, and are more suitable for describing the execution process of the push model training apparatus 20 in the storage medium than the programs themselves. The following description will specifically introduce the functions of each program module in this embodiment:
  • the preprocessing module 600 is configured to obtain multiple user data of multiple sample users and multiple item type label data corresponding to the multiple sample users, and pre-process the attribute information of the multiple user data of the multiple sample users. process to obtain multiple sample user clusters.
  • the model processing module 610 is used to input multiple user data of each sample user in each sample user cluster into the model to be trained, and output the first data of each sample user corresponding to each item type data according to the model to be trained. sample preference.
  • the encoding module 620 is configured to encode the first sample preference degree of each item type data corresponding to each sample user respectively, and generate the first sample preference degree encoded data corresponding to each item type data.
  • the determining module 630 is configured to determine the sample preference degree and output the encoded data from the first sample preference degree encoded data corresponding to each item type data of each sample user.
  • the extraction module 640 is configured to extract the sample preference label coding data corresponding to the preference sample item type data of each sample user from the plurality of item type label data corresponding to each sample user.
  • the generating module 650 is configured to compare the sample preference output encoded data of each sample user with the sample preference label encoded data according to the cost function to generate a loss value.
  • the adjustment module 660 is configured to adjust one or more model parameters of the to-be-trained model according to the loss value, so as to obtain an item data recommendation model.
  • the preprocessing module 600 is further configured to: extract a plurality of gender data from the plurality of user data of the plurality of sample users, and encode them respectively according to the preset first classification and coding rules gender data of each sample user to obtain first encoded data; extract multiple age data from multiple user data of the multiple sample users, and encode each sample according to the preset second classification and encoding rules Age data of the user to obtain second encoded data; multiple occupational data are extracted from multiple user data of the multiple sample users, and multiple occupational categories are determined according to the number of sample users corresponding to the multiple occupational data; According to the preset third classification and coding rules, encode the plurality of occupational categories to obtain third coded data corresponding to each sample user; according to the first coded data and the second coded data of each sample user and the third coded data, generating coded data of user attributes of each sample user; according to the coded data of user attributes of each sample user and a preset cluster analysis algorithm, a plurality of sample user clusters are obtained by calculation.
  • the preprocessing module 600 is further configured to: select a plurality of cluster centers from the user attribute coding data of the plurality of sample users according to the preset cluster analysis algorithm; Calculate the distance between each sample user and each cluster center; determine the sample attribute category of each sample user, and the sample attribute category of each sample user is the distance between each sample user and each cluster center.
  • the model processing module 610 is further configured to: obtain, according to the first association relationship between the plurality of user data of each sample user in each sample user cluster and each item data, to obtain The user item matrix corresponding to each sample user, and according to the second association relationship between each item data and item type data, the item type matrix corresponding to each sample user is obtained; according to the user item matrix and the item type matrix product to generate the number of comments of each sample user on each item type data; sum the number of comments of each sample user and each item type data to obtain the total number of comments of each sample user; respectively according to The ratio of the number of comments of each item type data of each sample user to the total number of comments of each sample user generates the first sample preference degree of each sample user corresponding to each item type data.
  • the adjustment module 660 is further configured to: calculate the learning rate of each model parameter in the to-be-trained model through the adaptive moment estimation algorithm and the loss value; The learning rate of the model parameters, and each model parameter is adjusted to obtain the item data recommendation model.
  • the computer device 2 is a device that can automatically perform numerical calculation and/or information processing according to pre-set or stored instructions.
  • the computer equipment 2 may be a rack-type server, a blade-type server, a tower-type server or a cabinet-type server (including an independent server, or a server cluster composed of multiple servers) and the like.
  • the computer device 2 at least includes, but is not limited to, a memory 21 , a processor 22 , a network interface 23 , and a push model training device 20 that can communicate with each other through a system bus. in:
  • the memory 21 includes at least one type of computer-readable storage medium, and the readable storage medium includes a flash memory, a hard disk, a multimedia card, a card-type memory (for example, SD or DX memory, etc.), a random access memory ( RAM), static random access memory (SRAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), programmable read only memory (PROM), magnetic memory, magnetic disks, optical disks, and the like.
  • the memory 21 may be an internal storage unit of the computer device 2 , such as a hard disk or a memory of the computer device 2 .
  • the memory 21 may also be an external storage device of the computer device 2, such as a plug-in hard disk, a smart memory card (Smart Media Card, SMC), a secure digital (Secure Digital, SD) card, flash memory card (Flash Card), etc.
  • the memory 21 may also include both the internal storage unit of the computer device 2 and its external storage device.
  • the memory 21 is generally used to store the operating system and various application software installed on the computer device 2 , such as the program code of the push model training apparatus 20 in the above-mentioned embodiment, and the like.
  • the memory 21 can also be used to temporarily store various types of data that have been output or will be output.
  • the processor 22 may be a central processing unit (Central Processing Unit, CPU), a controller, a microcontroller, a microprocessor, or other data processing chips.
  • the processor 22 is typically used to control the overall operation of the computer device 2 .
  • the processor 22 is configured to run the program code or process data stored in the memory 21, for example, run the push model training apparatus 20, so as to implement the push model training method of the above embodiment.
  • the network interface 23 may include a wireless network interface or a wired network interface, and the network interface 23 is generally used to establish a communication connection between the computer equipment 2 and other electronic devices.
  • the network interface 23 is used to connect the computer device 2 with an external terminal through a network, and establish a data transmission channel and a communication connection between the computer device 2 and the external terminal.
  • the network can be an intranet (Intranet), the Internet (Internet), a Global System of Mobile communication (GSM), a Wideband Code Division Multiple Access (WCDMA), a 4G network, 5G Wireless or wired network such as network, Bluetooth (Bluetooth), Wi-Fi, etc.
  • FIG. 7 only shows the computer device 2 having components 20-23, but it should be understood that it is not required to implement all of the shown components, and that more or less components may be implemented instead.
  • the push model training apparatus 20 stored in the memory 21 may also be divided into one or more program modules, and the one or more program modules are stored in the memory 21 and are composed of one or more program modules.
  • a plurality of processors are executed to complete the present application.
  • FIG. 6 shows a schematic diagram of program modules for implementing the second embodiment of the push model training apparatus 20.
  • the push model training apparatus 20 may be divided into a preprocessing module 600, a processing module 610, a coding module 620 , determination module 630 , extraction module 640 , generation module 650 and adjustment module 660 .
  • the program module referred to in this application refers to a series of computer program instruction segments capable of completing specific functions, and is more suitable for describing the execution process of the push model training apparatus 20 in the computer device 2 than a program.
  • the specific functions of the program modules 600-660 have been described in detail in the second embodiment, and are not repeated here.
  • This embodiment also provides a computer-readable storage medium, such as a flash memory, a hard disk, a multimedia card, a card-type memory (for example, SD or DX memory, etc.), random access memory (RAM), static random access memory (SRAM), only Read-only memory (ROM), Electrically Erasable Programmable Read-Only Memory (EEPROM), Programmable Read-Only Memory (PROM), magnetic memory, magnetic disk, optical disk, server, App application mall, etc., on which computer programs are stored, When the program is executed by the processor, the corresponding function is realized.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the computer-readable storage medium of this embodiment is used to store the push model training apparatus 20, and when executed by the processor, implements the push model training method of the foregoing embodiment.
  • FIG. 8 shows a flow chart of the steps of the data push method according to the embodiment of the present application. It can be understood that the flowchart in this embodiment of the method is not used to limit the sequence of executing steps.
  • the following is an exemplary description with a computer device as the execution subject, as follows:
  • the data push method may include steps S800-S808, wherein:
  • Step S800 acquiring multiple user data, historical item type scoring data and multiple item type data of the target user; Step S802, inputting the multiple user data into the item data recommendation model described in any of the above embodiments; Step S804, outputting the first preference degree of the target user corresponding to each item type data according to the item data recommendation model; Step S806, determining the target preference degree from the first preference degree of each item type data, and determining that the item type data corresponding to the target preference degree is the target item type data; and step S808, pushing the target item type data to the client.
  • the target project is subjected to data processing, and then model training is performed to obtain the prediction result.

Abstract

本申请实施例提供一种推送模型训练方法,包括获取多个样本用户的多个用户数据,预处理多个用户数据,得到多个样本用户簇;将每个样本用户的多个用户数据输入待训练模型中,输出每个样本用户对应每个项目类型数据的第一样本喜好度;编码每个项目类型数据对应的第一样本喜好度,得到对应的第一样本喜好度编码数据,并从中确定样本喜好度输出编码数据;获取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;根据代价函数,比对每个样本用户的样本喜好度输出编码数据与样本喜好度标签编码数据,以调整待训练模型的模型参数,以得到项目数据推荐模型。本申请有效地提高了优化后的模型进行项目类型数据推送的效率和准确率。

Description

推送模型训练方法、数据推送方法、装置及存储介质
本申请要求于2021年3月24日提交中国专利局、申请号为202110311438.1、发明名称为“推送模型训练方法、数据推送方法、装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种推送模型训练方法、数据推送方法、装置及存储介质。
背景技术
数据推送系统一直是信息领域的研究热点,在数据挖掘和机器学习的各大会议中,它一直作为讨论的热点。正因为如此,汇集了世界各地的学者对推荐系统展开了研究与探讨。如今,数据推送系统被应用于各个领域,例如:电子商务(Amazon、淘宝、京东)利用数据推送系统为用户提供喜爱的商品,信息检索(Google、百度、搜狗)利用数据推送系统为用户推荐有效的信息等。
不管是学术研究,还是商业应用,数据推送系统已经成为人们生活中不可或缺的重要技术。推荐系统的应用给人们的生活带来了极大的方便,它不仅帮助用户获取有价值的信息,而且可以减少用户获取有效信息所花费的时间,因此推荐系统的研究是一项具有重大意义的事情。
发明人意识到目前主流的数据推送系统都是基于混合的推荐,他们的实现方式虽然千奇百怪,但是都需要依赖于近邻用户才能给出推荐,且都需要海量的目标用户数据和近邻用户数据。采取上述数据推送的方式,要获取目标样本用户和近邻用户的用户数据,当样本用户不存在近邻用户的时候,通过依靠近邻用户得到项目类型数据的准确率较低。
发明内容
有鉴于此,本申请实施例提供了一种推送模型训练方法、装置、计算机设备及计算机可读存储介质,用于解决采用现有的项目数据类型推送方式,导致项目类型数据输出模型的结果的准确率较低的问题。
本申请实施例是通过下述技术方案来解决上述技术问题:
一种推送模型训练方法,包括:
获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值;及
根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
为了实现上述目的,本申请实施例还提供一种推送模型训练装置,包括:
预处理模块,用于获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
模型处理模块,用于将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
编码模块,用于分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
确定模块,用于从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
提取模块,用于从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
生成模块,用于根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值;及
调整模块,用于根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
为了实现上述目的,本申请实施例还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时还执行以下步骤:
获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值;及
根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
为了实现上述目的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行以下步骤:
获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度 标签编码数据,以生成损失值;及
根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
为了实现上述目的,本申请实施例还提供一种数据推送方法,包括:
获取目标用户的多个用户数据、历史项目类型评分数据和多个项目类型数据;
将所述多个用户数据、历史项目类型评分数据和多个项目类型数据,输入至上述任一实施例所述的项目数据推荐模型中;
根据所述项目数据推荐模型,输出所述目标用户对应每个项目类型数据的第一喜好度;
从所述每个项目类型数据的第一喜好度中确定目标喜好度,并确定所述目标喜好度对应的项目类型数据为目标项目类型数据;及
将所述目标项目类型数据推送至客户端。
本申请实施例提供的推送模型训练方法、装置、计算机设备及计算机可读存储介质,获取多个样本用户的多个用户数据和对应的多个项目类型标签数据,对所述多个样本用户进行预处理,得到多个样本用户簇;将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,并根据所述模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;根据多个第一样本喜好度获取样本喜好度输出编码数据,并通过代价函数对模型进行迭代,以调整参数;进而有效地提高了优化后的模型进行项目类型数据推送的效率和准确率。
以下结合附图和具体实施例对本申请进行详细描述,但不作为对本申请的限定。
附图说明
图1为本申请实施例一之推送模型训练方法的步骤流程图;
图2为本申请实施例一之推送模型训练方法的步骤流程图;
图3为本申请实施例一之推送模型训练方法的步骤流程图;
图4为本申请实施例一之推送模型训练方法的步骤流程图;
图5为本申请实施例一之推送模型训练方法的步骤流程图;
图6为本申请实施例二之推送模型训练装置的程序模块示意图;
图7为本申请实施例三之计算机设备的硬件结构示意图;
图8为本申请实施例五之数据推送方法的步骤流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
实施例一
请参阅图1,示出了本申请实施例之推送模型训练方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述,具体如下:
如图1所示,所述推送模型训练方法可以包括步骤S100~S600,其中:
步骤S100,获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇。
在当前网络环境下,可以准确获取多个样本用户的多个用户数据,例如样本用户姓名、样本用户性别、样本用户年龄、样本用户职业等。定义样本用户集合为Q={Q 1,Q 2,…,Q u…,Q c},其中,Q 1、Q 2、…、Q u、…、Q c均为样本用户,u和c均为正整数。其中,样本用户的属性信息集合为Q u=(q 1,q 2,…,q e),其中,Q u表示第u个样本用户,u∈[1,c],q e表示第u个样本用户的第e个用户数据,例如,当Q u=(男,23,teacher)时,表示样本用户Q u的性别为男,年龄为23,职业为teacher(老师)。
为了更好地构建训练数据,在示例性的实施例中,请参阅图2,多个样本用户簇还可以通过以下操作得到:步骤S200,从所述多个样本用户的多个用户数据中提取多个性别数据,根据预设的第一分类编码规则,分别编码每个样本用户的性别数据,以得到第一编码数据;步骤S202,从所述多个样本用户的多个用户数据中提取多个年龄数据,根据预设的第二分类编码规则,编码所述每个样本用户的年龄数据,以得到第二编码数据;步骤S204,从所述多个样本用户的多个用户数据中提取多个职业数据,根据所述多个职业数据对应的样本用户数量,确定多个职业类别;步骤S206,根据预设的第三分类编码规则,编码所述多个职业类别,以得到每个样本用户对应的第三编码数据;步骤S208,根据每个样本用户的所述第一编码数据、所述第二编码数据以及所述第三编码数据,生成每个样本用户的用户属性编码数据;及步骤S210,根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,计算得到多个样本用户簇。
在构建模型的训练数据集之前,还需要通过K-means聚类法(k均值聚类法)对样本用户的用户数据中的属性信息进行预处理。采用数字编码[1-9]的方式对样本用户的基本数据进行预处理。针对性别数据,预设的第一分类编码规则表示为将性别男编码为1和性别女编码为2;针对年龄数据,预设的第二分类编码规则表示为根据年龄段范围将样本用户年龄划分为少儿组(0~19岁),青年组(20~39岁),壮年组(40~59岁),实年组(60~79岁)和老年组(80岁及以上),并依次对应编码为1、2、3、4、5;针对职业数据,统计所有样本用户的职业类别及每种职业的样本用户数量,预设的第三分类编码规则表示为根据每种职业的样本用户数量进行降序排名,对排在前20%的职业给予单独编码,剩余的职业归为一类,并对该类进行编码。例如,21个职业中,取样本用户数量排名前4的职业进行单独编码,剩余的职业归为一类,所以样本用户的排名前4和剩余的职业编码依次为1、2、3、4、5。经过数字编码后,样本用户的属性信息可以表示为数字编码,接上例,当Q u=(男,23,teacher)时,Qu=(1,1,5)。
为了更好地将样本用户进行归类分析,请参阅图3,在示例性的实施例中,所述根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,生成多个样本用户簇的步骤还可以通过执行如下操作得到,其中:步骤S300,根据所述预设的聚类分析算法,从所述多个样本用户的用户属性编码数据中选取多个聚类中心;步骤S302,计算每个样本用户与每个聚类中心的距离;步骤S304,确定每个样本用户的样本属性类别,所述每个样本用 户的样本属性类别为所述每个样本用户与每个聚类中心的距离中最短距离的聚类中心对应的样本属性类别;及步骤S306,根据所述每个样本用户的样本属性类别,分类所述多个样本用户,以得到多个样本用户簇。
示例性的,聚类分析算法可以是k-means聚类算法。
步骤S102,将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度。
在示例性的实施例中,如图4所示,所述步骤S102还可以进一步包括步骤S400~S406,其中:步骤S400,根据每个样本用户簇中的每个样本用户的多个用户数据和每个项目数据之间的第一关联关系,得到每个样本用户对应的用户项目矩阵,并根据每个项目数据和项目类型数据之间的第二关联关系,得到每个样本用户对应的项目类型矩阵;步骤S402,根据所述用户项目矩阵和项目类型矩阵的乘积,生成所述每个样本用户对每个项目类型数据的评论次数;步骤S404,对每个样本用户与每个项目类型数据的评论次数进行求和,以得到每个样本用户的总评论次数;及步骤S406,分别根据每个样本用户的每个项目类型数据的评论次数与每个样本用户的总评论次数的比值,生成每个样本用户对应每个项目类型数据的第一样本喜好度。
计算样本用户u对项目的类型l的评论次数,可以用S ul表示,l∈[1,m],它是通过样本用户-项目矩阵
Figure PCTCN2021091176-appb-000001
和项目-类型矩阵
Figure PCTCN2021091176-appb-000002
的对应项相乘得到。在
Figure PCTCN2021091176-appb-000003
中,当样本用户u存在对项目I i的评分时,
Figure PCTCN2021091176-appb-000004
否则,
Figure PCTCN2021091176-appb-000005
同理,在
Figure PCTCN2021091176-appb-000006
中,当项目I i中属于类型l时,
Figure PCTCN2021091176-appb-000007
否则
Figure PCTCN2021091176-appb-000008
如具体见公式1:
Figure PCTCN2021091176-appb-000009
计算样本用户u对所有项目类型数据的总评论次数,用S u表示。具体见公式2:
Figure PCTCN2021091176-appb-000010
最后,计算每个样本用户u对于每个项目类型数据l的第一喜好度,用P ul表示,具体见公式3:
Figure PCTCN2021091176-appb-000011
通过计算样本用户对于项目类型数据反馈的评分数据以及评论数据,分析得到每个样本用户对于每个项目类型数据的第一样本喜好度。其中,喜好度表示样本用户对于项目类型数据的喜好程度。
在示例性的实施例中,所述待训练模型包括输入层、第一隐含层、第二隐含层和输出层。
项目类型推荐模型训练前,需要搭建模型并确定方法。项目类型推荐模型具体包括一个输入层、两个隐含层和一个输出层。输入神经元的个数为N in,隐藏层第l层神经元的个数为
Figure PCTCN2021091176-appb-000012
输出层神经元的个数为N out。隐含层采用Dropout(丢弃)策略,激活函数为ReLu,输出层的激活函数为Softmax。
项目类型推荐模型中隐含层神经元的个数采用Kolmogorov(柯尔莫戈洛夫)定理来 确定,输入层神经元数目与隐含层神经元的数目存在等量关系,见公式4:
Figure PCTCN2021091176-appb-000013
步骤S104,分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据。
在示例性的实施例中,样本用户对项目的评分表示了样本用户对项目的喜好程度,将喜好程度进行编码,得到第一喜好度编码数据,见下表1。
Figure PCTCN2021091176-appb-000014
表1样本用户项目类型数据的第一样本喜好度编码表
进一步地,将多个样本用户对应多个项目类型数据的第一样本喜好度以及第一喜好度编码数据进行汇总,建立对应关系。以U 1为例,其中,I i表示第i个项目,L i表示第i个类型。其训练数据集如下表2所示。
Figure PCTCN2021091176-appb-000015
表2用户-项目类型-喜好度关系对应表
步骤S106,从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据。
解码每个样本用户对应的多个样本喜好度编码数据,得到多个第一样本喜好度编码数据对应的第一样本喜好度,从多个第一样本喜好度中获取分值最大的第一样本喜好度,并将该第一样本喜好度对应的第一样本喜好度编码数据,确定为样本喜好度输出编码数据。
对所述多个训练数据进行前向传播训练时,隐含层和输出层中每一个神经元的输入都来自前一层所有神经元输出值的线性加权和,为了防止过度拟合,对输入值的训练数据采取Dropout策略,见公式5:
Figure PCTCN2021091176-appb-000016
其中,
Figure PCTCN2021091176-appb-000017
表示项目类型推荐模型中第l层第n个神经元的输入值,
Figure PCTCN2021091176-appb-000018
表示第l-1层第i个神经元与当前神经元连接的权值,
Figure PCTCN2021091176-appb-000019
表示经过Dropout后第l-1层第i个神经元的输出值,
Figure PCTCN2021091176-appb-000020
表示第l层第n个神经元的偏置值,k l-1表示第l-1层神经元的总个数。
Figure PCTCN2021091176-appb-000021
表示第l-1层第i个神经元的输出值,r l-1表示第l-1层神经元选择的概率,它是一个Bernoulli(伯努利)函数,以概率p随机生成一个0、1的向量。构建好输入层、隐含层以及输出层的神经元个数以及输出值之间的关联关系,有助于对训练数据进行有效筛选,有助于提升模型训 练的效率。
在示例性的实施例中,经由每个隐含层、输出层的激活函数对于上一层的输出值(即该隐含层的输入值)进行非线性映射,使得神经网络具备了分层学习的能力。隐含层中的激活函数采用ReLU,输出层的激活函数采用Softmax,分别见公式6:
Figure PCTCN2021091176-appb-000022
和公式7:
Figure PCTCN2021091176-appb-000023
其中,
Figure PCTCN2021091176-appb-000024
表示项目类型推荐模型中第l层第n个神经元的输出值,
Figure PCTCN2021091176-appb-000025
表示项目类型推荐模型中第l层第n个神经元的输入值,k l表示第l层神经元的总个数。
通过确定好每一层的神经元个数以及激活函数来搭建好项目类型推荐模型,有助于训练数据的有效训练以及模型的参数优化。
步骤S108,从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据。
步骤S110,根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值。
在示例性的实施例中,当通过项目类型推荐模型得到输出值后需要基于代价函数与样本喜好度标签编码数据进行比对。根据项目的类型的不同,常分为交叉熵准则和最小均方差法。示例性的,本申请实施例采用交叉熵准则。交叉熵准则具体见公式8:
Figure PCTCN2021091176-appb-000026
其中,L i表示第i个输出值与目标值的差值,即L i表示第i个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据的差值;t ij表示第i个输入信号对应的第j个实际类,p ij表示第i个输入信号对应的第j个预测类。
步骤S112,根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
如图5所示,在示例性的实施例中,所述根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型的步骤,包括:
步骤S500,通过自适应矩估计算法和所述损失值,计算所述待训练模型中每个模型参数的学习率;及步骤S502,根据所述每个模型参数的学习率,调整所述每个模型参数,以得到所述项目数据推荐模型。
项目数据推荐模型可以为优化后的深度神经网络模型。
在示例性的实施例中,代价函数的求解采用Adam算法,即自适应时刻估计方法(Adaptive Moment Estimation)。
通过代价函数计算得到的损失值,通过梯度的一阶矩阵和二阶矩阵更新每个模型参数的学习率,进而得到更新后的模型参数;使得模型的训练和收敛效果更好。
本申请实施例先根据用户属性对样本用户进行K-means聚类,划分为不同的用户簇,然后在不同的用户簇中对用户数据进行数据处理,包括输入层数据处理和输出层数据处理,根据处理的数据建立项目类型与用户项目评分的对应关系用于模型训练,随后对模型进行 训练得到最佳的模型,模型的训练包括线性求和、激活函数、代价函数和代价函数求解,最后通过训练好的模型和反编码得到目标项目的预测评分。且在模型的搭建时,着重于每一层神经元的确定,以构建出合适的项目类型数据推送模型,再将训练数据输入到确定好神经元排布的模型中进行训练,有助于模型参数的优化,有助于模型训练效率的提升。在用户存在一定的评分项目数时,利用模型进行预测可以产生令人满意的推荐效果。
实施例二
请继续参阅图6,示出了本申请推送模型训练装置的程序模块示意图。在本实施例中,推送模型训练装置20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请,并可实现上述推送模型训练方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述推送模型训练装置20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
预处理模块600,用于获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇。
模型处理模块610,用于将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度。
编码模块620,用于分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据。
确定模块630,用于从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据。
提取模块640,用于从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据。
生成模块650,用于根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值。
调整模块660,用于根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
在示例性的实施例中,所述预处理模块600,还用于:从所述多个样本用户的多个用户数据中提取多个性别数据,根据预设的第一分类编码规则,分别编码每个样本用户的性别数据,以得到第一编码数据;从所述多个样本用户的多个用户数据中提取多个年龄数据,根据预设的第二分类编码规则,编码所述每个样本用户的年龄数据,以得到第二编码数据;从所述多个样本用户的多个用户数据中提取多个职业数据,根据所述多个职业数据对应的样本用户数量,确定多个职业类别;根据预设的第三分类编码规则,编码所述多个职业类别,以得到每个样本用户对应的第三编码数据;根据每个样本用户的所述第一编码数据、所述第二编码数据以及所述第三编码数据,生成每个样本用户的用户属性编码数据;根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,计算得到多个样本用户簇。
在示例性的实施例中,所述预处理模块600,还用于:根据所述预设的聚类分析算法,从所述多个样本用户的用户属性编码数据中选取多个聚类中心;计算每个样本用户与每个聚类中心的距离;确定每个样本用户的样本属性类别,所述每个样本用户的样本属性类别为所述每个样本用户与每个聚类中心的距离中最短距离的聚类中心对应的样本属性类别;根据所述每个样本用户的样本属性类别,分类所述多个样本用户,以得到多个样本用户簇。
在示例性的实施例中,所述模型处理模块610,还用于:根据每个样本用户簇中的每个样本用户的多个用户数据和每个项目数据之间的第一关联关系,得到每个样本用户对应的用户项目矩阵,并根据每个项目数据和项目类型数据之间的第二关联关系,得到每个样 本用户对应的项目类型矩阵;根据所述用户项目矩阵和项目类型矩阵的乘积,生成所述每个样本用户对每个项目类型数据的评论次数;对每个样本用户与每个项目类型数据的评论次数进行求和,以得到每个样本用户的总评论次数;分别根据每个样本用户的每个项目类型数据的评论次数与每个样本用户的总评论次数的比值,生成每个样本用户对应每个项目类型数据的第一样本喜好度。
在示例性的实施例中,所述调整模块660,还用于:通过自适应矩估计算法和所述损失值,计算所述待训练模型中每个模型参数的学习率;根据所述每个模型参数的学习率,调整所述每个模型参数,以得到所述项目数据推荐模型。
实施例三
参阅图7,是本申请实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及推送模型训练装置20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如上述实施例的推送模型训练装置20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行推送模型训练装置20,以实现上述实施例的推送模型训练方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述推送模型训练装置20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本申请。
例如,图6示出了所述实现推送模型训练装置20实施例二的程序模块示意图,该实施例中,所述基于推送模型训练装置20可以被划分为预处理模块600、处理模块610、编码模块620、确定模块630、提取模块640、生成模块650及调整模块660。其中,本申请 所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述推送模型训练装置20在所述计算机设备2中的执行过程。所述程序模块600-660的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。所述计算机可读存储介质可以是非易失性,也可以是易失性。本实施例的计算机可读存储介质用于存储推送模型训练装置20,被处理器执行时实现上述实施例的推送模型训练方法。
实施例五
请参阅图8,示出了本申请实施例之数据推送方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述,具体如下:
如图8所示,所述数据推送方法可以包括步骤S800~S808,其中:
步骤S800,获取目标用户的多个用户数据、历史项目类型评分数据和多个项目类型数据;步骤S802,将所述多个用户数据输入至上述任一实施例所述的项目数据推荐模型中;步骤S804,根据所述项目数据推荐模型,输出所述目标用户对应每个项目类型数据的第一喜好度;步骤S806,从所述每个项目类型数据的第一喜好度中确定目标喜好度,并确定所述目标喜好度对应的项目类型数据为目标项目类型数据;及步骤S808,将所述目标项目类型数据推送至客户端。
当加入新项目时,将目标项目先进行数据处理,然后经过模型训练,便得到预测结果。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种推送模型训练方法,其中,包括:
    获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
    将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
    分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
    从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
    从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
    根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值;及
    根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
  2. 根据权利要求1所述的推送模型训练方法,其中,所述对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇的步骤,包括:
    从所述多个样本用户的多个用户数据中提取多个性别数据,根据预设的第一分类编码规则,分别编码每个样本用户的性别数据,以得到第一编码数据;
    从所述多个样本用户的多个用户数据中提取多个年龄数据,根据预设的第二分类编码规则,编码所述每个样本用户的年龄数据,以得到第二编码数据;
    从所述多个样本用户的多个用户数据中提取多个职业数据,根据所述多个职业数据对应的样本用户数量,确定多个职业类别;
    根据预设的第三分类编码规则,编码所述多个职业类别,以得到每个样本用户对应的第三编码数据;
    根据每个样本用户的所述第一编码数据、所述第二编码数据以及所述第三编码数据,生成每个样本用户的用户属性编码数据;
    根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,计算得到多个样本用户簇。
  3. 根据权利要求2所述的推送模型训练方法,其中,所述根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,计算得到多个样本用户簇的步骤,包括:
    根据所述预设的聚类分析算法,从所述多个样本用户的用户属性编码数据中选取多个聚类中心;
    计算每个样本用户与每个聚类中心的距离;
    确定每个样本用户的样本属性类别,所述每个样本用户的样本属性类别为所述每个样本用户与每个聚类中心的距离中最短距离的聚类中心对应的样本属性类别;
    根据所述每个样本用户的样本属性类别,分类所述多个样本用户,以得到多个样本用户簇。
  4. 根据权利要求3所述的推送模型训练方法,其中,所述将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度的步骤,包括:
    根据每个样本用户簇中的每个样本用户的多个用户数据和每个项目数据之间的第一关联关系,得到每个样本用户对应的用户项目矩阵,并根据每个项目数据和项目类型数据之间的第二关联关系,得到每个样本用户对应的项目类型矩阵;
    根据所述用户项目矩阵和项目类型矩阵的乘积,生成所述每个样本用户对每个项目类型数据的评论次数;
    对每个样本用户与每个项目类型数据的评论次数进行求和,以得到每个样本用户的总评论次数;
    分别根据每个样本用户的每个项目类型数据的评论次数与每个样本用户的总评论次数的比值,生成每个样本用户对应每个项目类型数据的第一样本喜好度。
  5. 根据权利要求1所述的推送模型训练方法,其中,所述待训练模型包括输入层、第一隐含层、第二隐含层和输出层。
  6. 根据权利要求1所述的推送模型训练方法,其中,所述根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型的步骤,包括:
    通过自适应矩估计算法和所述损失值,计算所述待训练模型中每个模型参数的学习率;
    根据所述每个模型参数的学习率,调整所述每个模型参数,以得到所述项目数据推荐模型。
  7. 一种数据推送方法,其中,包括:
    获取目标用户的多个用户数据、历史项目类型评分数据和多个项目类型数据;
    将所述多个用户数据、历史项目类型评分数据和多个项目类型数据输入至如权利要求1~6任一项所述的项目数据推荐模型中;
    根据所述项目数据推荐模型,输出所述目标用户对应每个项目类型数据的第一喜好度;
    从所述每个项目类型数据的第一喜好度中确定目标喜好度,并确定所述目标喜好度对应的项目类型数据为目标项目类型数据;及
    将所述目标项目类型数据推送至客户端。
  8. 一种推送模型训练装置,其中,包括:
    预处理模块,用于获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
    模型处理模块,用于将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
    编码模块,用于分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
    确定模块,用于从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
    提取模块,用于从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
    生成模块,用于根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值;及
    调整模块,用于根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
  9. 根据权利要求8所述的推送模型训练装置,其中,所述预处理模块还用于:
    从所述多个样本用户的多个用户数据中提取多个性别数据,根据预设的第一分类编码规则,分别编码每个样本用户的性别数据,以得到第一编码数据;
    从所述多个样本用户的多个用户数据中提取多个年龄数据,根据预设的第二分类编码规则,编码所述每个样本用户的年龄数据,以得到第二编码数据;
    从所述多个样本用户的多个用户数据中提取多个职业数据,根据所述多个职业数据对应的样本用户数量,确定多个职业类别;
    根据预设的第三分类编码规则,编码所述多个职业类别,以得到每个样本用户对应的第三编码数据;
    根据每个样本用户的所述第一编码数据、所述第二编码数据以及所述第三编码数据,生成每个样本用户的用户属性编码数据;
    根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,计算得到多个样本用户簇。
  10. 根据权利要求9所述的推送模型训练装置,其中,所述预处理模块还用于:
    根据所述预设的聚类分析算法,从所述多个样本用户的用户属性编码数据中选取多个聚类中心;
    计算每个样本用户与每个聚类中心的距离;
    确定每个样本用户的样本属性类别,所述每个样本用户的样本属性类别为所述每个样本用户与每个聚类中心的距离中最短距离的聚类中心对应的样本属性类别;
    根据所述每个样本用户的样本属性类别,分类所述多个样本用户,以得到多个样本用户簇。
  11. 根据权利要求10所述的推送模型训练装置,其中,所述模型处理模块还用于:
    根据每个样本用户簇中的每个样本用户的多个用户数据和每个项目数据之间的第一关联关系,得到每个样本用户对应的用户项目矩阵,并根据每个项目数据和项目类型数据之间的第二关联关系,得到每个样本用户对应的项目类型矩阵;
    根据所述用户项目矩阵和项目类型矩阵的乘积,生成所述每个样本用户对每个项目类型数据的评论次数;
    对每个样本用户与每个项目类型数据的评论次数进行求和,以得到每个样本用户的总评论次数;
    分别根据每个样本用户的每个项目类型数据的评论次数与每个样本用户的总评论次数的比值,生成每个样本用户对应每个项目类型数据的第一样本喜好度。
  12. 根据权利要求8所述的推送模型训练装置,其中,所述待训练模型包括输入层、第一隐含层、第二隐含层和输出层。
  13. 根据权利要求8所述的推送模型训练装置,其中,所述调整模块还用于:
    通过自适应矩估计算法和所述损失值,计算所述待训练模型中每个模型参数的学习率;
    根据所述每个模型参数的学习率,调整所述每个模型参数,以得到所述项目数据推荐模型。
  14. 一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时执行以下步骤:
    获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
    将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
    分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
    从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
    从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
    根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值;及
    根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
  15. 如权利要求14所述的计算机设备,其中,所述处理器执行所述计算机程序时还执行以下步骤:
    从所述多个样本用户的多个用户数据中提取多个性别数据,根据预设的第一分类编码规则,分别编码每个样本用户的性别数据,以得到第一编码数据;
    从所述多个样本用户的多个用户数据中提取多个年龄数据,根据预设的第二分类编码规则,编码所述每个样本用户的年龄数据,以得到第二编码数据;
    从所述多个样本用户的多个用户数据中提取多个职业数据,根据所述多个职业数据对应的样本用户数量,确定多个职业类别;
    根据预设的第三分类编码规则,编码所述多个职业类别,以得到每个样本用户对应的第三编码数据;
    根据每个样本用户的所述第一编码数据、所述第二编码数据以及所述第三编码数据,生成每个样本用户的用户属性编码数据;
    根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,计算得到多个样本用户簇。
  16. 如权利要求15所述的计算机设备,其中,所述处理器执行所述计算机程序时还执行以下步骤:
    根据所述预设的聚类分析算法,从所述多个样本用户的用户属性编码数据中选取多个聚类中心;
    计算每个样本用户与每个聚类中心的距离;
    确定每个样本用户的样本属性类别,所述每个样本用户的样本属性类别为所述每个样本用户与每个聚类中心的距离中最短距离的聚类中心对应的样本属性类别;
    根据所述每个样本用户的样本属性类别,分类所述多个样本用户,以得到多个样本用户簇。
  17. 如权利要求16所述的计算机设备,其中,所述处理器执行所述计算机程序时还执行以下步骤:
    根据每个样本用户簇中的每个样本用户的多个用户数据和每个项目数据之间的第一关联关系,得到每个样本用户对应的用户项目矩阵,并根据每个项目数据和项目类型数据之间的第二关联关系,得到每个样本用户对应的项目类型矩阵;
    根据所述用户项目矩阵和项目类型矩阵的乘积,生成所述每个样本用户对每个项目类型数据的评论次数;
    对每个样本用户与每个项目类型数据的评论次数进行求和,以得到每个样本用户的总评论次数;
    分别根据每个样本用户的每个项目类型数据的评论次数与每个样本用户的总评论次数的比值,生成每个样本用户对应每个项目类型数据的第一样本喜好度。
  18. 一种计算机可读存储介质,其中,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行以下步骤:
    获取多个样本用户的多个用户数据和所述多个样本用户对应的多个项目类型标签数据,对所述多个样本用户的多个用户数据的属性信息进行预处理,得到多个样本用户簇;
    将每个样本用户簇中的每个样本用户的多个用户数据输入待训练模型中,根据所述待训练模型输出每个样本用户对应每个项目类型数据的第一样本喜好度;
    分别编码所述每个样本用户对应的所述每个项目类型数据的第一样本喜好度,生成所述每个项目类型数据对应的第一样本喜好度编码数据;
    从所述每个样本用户对应每个项目类型数据对应的第一样本喜好度编码数据中,确定样本喜好度输出编码数据;
    从每个样本用户对应的多个项目类型标签数据中提取每个样本用户的偏好样本项目类型数据对应的样本喜好度标签编码数据;
    根据代价函数,比对所述每个样本用户的样本喜好度输出编码数据与所述样本喜好度标签编码数据,以生成损失值;及
    根据所述损失值调整所述待训练模型的一个或多个模型参数,以得到项目数据推荐模型。
  19. 如权利要求18所述的计算机可读存储介质,其中,所述处理器执行所述计算机程序时还执行以下步骤:
    从所述多个样本用户的多个用户数据中提取多个性别数据,根据预设的第一分类编码规则,分别编码每个样本用户的性别数据,以得到第一编码数据;
    从所述多个样本用户的多个用户数据中提取多个年龄数据,根据预设的第二分类编码规则,编码所述每个样本用户的年龄数据,以得到第二编码数据;
    从所述多个样本用户的多个用户数据中提取多个职业数据,根据所述多个职业数据对应的样本用户数量,确定多个职业类别;
    根据预设的第三分类编码规则,编码所述多个职业类别,以得到每个样本用户对应的第三编码数据;
    根据每个样本用户的所述第一编码数据、所述第二编码数据以及所述第三编码数据,生成每个样本用户的用户属性编码数据;
    根据所述每个样本用户的用户属性编码数据和预设的聚类分析算法,计算得到多个样本用户簇。
  20. 如权利要求19所述的计算机设备,其中,所述处理器执行所述计算机程序时还执行以下步骤:
    根据所述预设的聚类分析算法,从所述多个样本用户的用户属性编码数据中选取多个聚类中心;
    计算每个样本用户与每个聚类中心的距离;
    确定每个样本用户的样本属性类别,所述每个样本用户的样本属性类别为所述每个样本用户与每个聚类中心的距离中最短距离的聚类中心对应的样本属性类别;
    根据所述每个样本用户的样本属性类别,分类所述多个样本用户,以得到多个样本用户簇。
PCT/CN2021/091176 2021-03-24 2021-04-29 推送模型训练方法、数据推送方法、装置及存储介质 WO2022198752A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110311438.1 2021-03-24
CN202110311438.1A CN113033090B (zh) 2021-03-24 2021-03-24 推送模型训练方法、数据推送方法、装置及存储介质

Publications (1)

Publication Number Publication Date
WO2022198752A1 true WO2022198752A1 (zh) 2022-09-29

Family

ID=76473121

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/091176 WO2022198752A1 (zh) 2021-03-24 2021-04-29 推送模型训练方法、数据推送方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN113033090B (zh)
WO (1) WO2022198752A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995814A (zh) * 2023-03-23 2023-04-21 佛山市电子政务科技有限公司 一种基于大数据的公共电力资源调配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376063A (zh) * 2011-11-29 2012-03-14 北京航空航天大学 一种基于社会化标签的个性化推荐系统优化方法
CN103336793A (zh) * 2013-06-09 2013-10-02 中国科学院计算技术研究所 一种个性化论文推荐方法及其系统
CN105205081A (zh) * 2014-06-27 2015-12-30 华为技术有限公司 物品推荐方法和装置
CN107801096A (zh) * 2017-10-30 2018-03-13 广东欧珀移动通信有限公司 视频播放的控制方法、装置、终端设备及存储介质
US20190197013A1 (en) * 2017-12-22 2019-06-27 Microsoft Technology Licensing, Llc Parallelized block coordinate descent for machine learned models

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326777B2 (en) * 2009-07-31 2012-12-04 Yahoo! Inc. Supplementing a trained model using incremental data in making item recommendations
CN106202519A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 一种结合用户评论内容和评分的项目推荐方法
CN108076154B (zh) * 2017-12-21 2019-12-31 Oppo广东移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN108491431B (zh) * 2018-02-09 2021-09-17 淮阴工学院 一种基于自编码机和聚类的混合推荐方法
CN109165249B (zh) * 2018-08-07 2020-08-04 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
US11551280B2 (en) * 2018-11-01 2023-01-10 Netflix, Inc. Method, manufacture, and system for recommending items to users
CN109902753B (zh) * 2019-03-06 2023-01-13 深圳市珍爱捷云信息技术有限公司 用户推荐模型训练方法、装置、计算机设备和存储介质
CN110297848B (zh) * 2019-07-09 2024-02-23 深圳前海微众银行股份有限公司 基于联邦学习的推荐模型训练方法、终端及存储介质
CN111242748B (zh) * 2020-02-21 2023-04-07 腾讯科技(深圳)有限公司 用于向用户推荐项目的方法、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376063A (zh) * 2011-11-29 2012-03-14 北京航空航天大学 一种基于社会化标签的个性化推荐系统优化方法
CN103336793A (zh) * 2013-06-09 2013-10-02 中国科学院计算技术研究所 一种个性化论文推荐方法及其系统
CN105205081A (zh) * 2014-06-27 2015-12-30 华为技术有限公司 物品推荐方法和装置
CN107801096A (zh) * 2017-10-30 2018-03-13 广东欧珀移动通信有限公司 视频播放的控制方法、装置、终端设备及存储介质
US20190197013A1 (en) * 2017-12-22 2019-06-27 Microsoft Technology Licensing, Llc Parallelized block coordinate descent for machine learned models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995814A (zh) * 2023-03-23 2023-04-21 佛山市电子政务科技有限公司 一种基于大数据的公共电力资源调配方法

Also Published As

Publication number Publication date
CN113033090B (zh) 2023-03-03
CN113033090A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
Li et al. Conflicts to harmony: A framework for resolving conflicts in heterogeneous data by truth discovery
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
US10860809B2 (en) Word embeddings and virtual terms
US10191966B2 (en) Enabling advanced analytics with large data sets
CN113822776B (zh) 课程推荐方法、装置、设备及存储介质
US11841851B1 (en) Systems, methods, and graphical user interfaces for taxonomy-based classification of unlabeled structured datasets
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113420212A (zh) 基于深度特征学习的推荐方法、装置、设备及存储介质
WO2022198752A1 (zh) 推送模型训练方法、数据推送方法、装置及存储介质
Liu et al. How much topological structure is preserved by graph embeddings?
Srujana et al. Machine learning vs. survival analysis models: a study on right censored heart failure data
CN113342994A (zh) 一种基于无采样协作知识图网络的推荐系统
WO2023284516A1 (zh) 基于知识图谱的信息推荐方法、装置、设备、介质及产品
CN113255824B (zh) 训练分类模型和数据分类的方法和装置
CN115344698A (zh) 标签处理方法、装置、计算机设备、存储介质和程序产品
Wu et al. Crowdsourcing truth inference via reliability-driven multi-view graph embedding
Li et al. An improved slope one algorithm for collaborative filtering
CN113961720A (zh) 预测实体关系的方法和关系预测模型的训练方法、装置
CN109255079B (zh) 一种基于稀疏线性方法的云服务个性推荐系统及方法
Lakshminarayan et al. Topological data analysis in digital marketing
Liu POI recommendation model using multi-head attention in location-based social network big data
Shanthakumar et al. Item based recommendation using matrix-factorization-like embeddings from deep networks
Shao et al. Web and Big Data: Third International Joint Conference, APWeb-WAIM 2019, Chengdu, China, August 1–3, 2019, Proceedings, Part I
CN117252665B (zh) 业务推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21932369

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21932369

Country of ref document: EP

Kind code of ref document: A1