WO2020134011A1 - 展示信息组合确定方法、装置、存储介质及电子设备 - Google Patents

展示信息组合确定方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
WO2020134011A1
WO2020134011A1 PCT/CN2019/094743 CN2019094743W WO2020134011A1 WO 2020134011 A1 WO2020134011 A1 WO 2020134011A1 CN 2019094743 W CN2019094743 W CN 2019094743W WO 2020134011 A1 WO2020134011 A1 WO 2020134011A1
Authority
WO
WIPO (PCT)
Prior art keywords
display information
combination
return value
candidate
reinforcement learning
Prior art date
Application number
PCT/CN2019/094743
Other languages
English (en)
French (fr)
Inventor
李亦锬
余林韵
陈嘉闽
黄训蓬
李磊
Original Assignee
北京字节跳动网络技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京字节跳动网络技术有限公司 filed Critical 北京字节跳动网络技术有限公司
Publication of WO2020134011A1 publication Critical patent/WO2020134011A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Definitions

  • the present disclosure relates to the field of computer technology, and in particular, to a method, device, storage medium, and electronic device for determining combination of display information.
  • the series of information is a series of display information.
  • the display information can be displayed in the booth to obtain a certain return value.
  • the booth can be a virtual or actual carrier for displaying the display information.
  • the purpose of the present disclosure is to provide a method, device, storage medium and electronic device for determining a combination of display information to automatically generate a combination of display information.
  • a method for determining a combination of display information includes:
  • N candidate display information in the database where the N candidate display information is all or part of all display information in the database, where N is a positive integer greater than 1;
  • the candidate display information is input to a target decision model corresponding to the candidate display information to obtain a target display information combination, the target display information combination includes M of the candidate display information, and the target decision model uses reinforcement learning
  • the network model is built, and the target decision model is used to determine the display information combination that can obtain the maximum return value according to the input display information, where 1 ⁇ M ⁇ N.
  • the target decision model corresponding to the candidate display information is obtained in the following manner:
  • the reinforcement learning network model is trained to obtain the target decision model.
  • training the reinforcement learning network model to obtain the target decision model according to the N candidate display information, the historical display information combination, and the actual return value corresponding to the historical display information combination includes:
  • the actual return value corresponding to the information combination is determined to be the actual return value corresponding to the first display information combination, and the actual return value corresponding to the first display information combination is input into the reinforcement learning network model for adjustment
  • the current reinforcement learning network model is determined as the target decision model.
  • the obtaining N candidate display information in the database includes:
  • At least the first display information corresponding to the actual return value greater than or equal to the preset return value threshold during separate display is determined as the candidate display information.
  • the determining at least the first display information corresponding to the actual return value corresponding to the individual display as being greater than or equal to a preset return value threshold as the candidate display information includes:
  • the method further includes:
  • the actual return value is input to the target decision model to update the weight parameter corresponding to each candidate display information in the target display information combination in the target decision model.
  • the weight parameter of the candidate display information in the target decision model is related to the probability of selecting the candidate display information when the target decision model generates the display information combination, and the higher the actual return value corresponding to the display information combination, the update
  • the weighting parameter of the candidate display information in the combination of display information in the target decision model increases more.
  • a display information combination determination device comprising:
  • the obtaining module is used to obtain N candidate display information in the database, where the N candidate display information is all or part of all display information in the database, where N is a positive integer greater than 1;
  • a determining module configured to input the candidate display information into a target decision model corresponding to the candidate display information to obtain a target display information combination, the target display information combination including M of the candidate display information, the target decision
  • the model is built using a reinforcement learning network model, and the target decision model is used to determine the combination of display information that can obtain the maximum return value based on the input display information, where 1 ⁇ M ⁇ N.
  • the determination module includes:
  • a first obtaining submodule configured to obtain a historical display information combination and an actual return value corresponding to the historical display information combination, wherein the historical display information combination includes M of the candidate display information;
  • the training sub-module is configured to train the reinforcement learning network model according to the N candidate display information, the historical display information combination and the actual return value corresponding to the historical display information combination to obtain the target decision model.
  • the training sub-module is configured to: initialize the reinforcement learning network model, and generate a first combination of display information according to the N candidate display information and the reinforcement learning network model, the first display information
  • the combination includes M of the candidate display information; determine the same historical display information combination as the first display information combination, and determine the actual return value corresponding to the historical display information combination as the actual corresponding to the first display information combination Return value; input the actual return value corresponding to the first display information combination into the reinforcement learning network model to adjust the weight of each candidate display information in the first display information combination in the reinforcement learning network model Parameters; trigger the training submodule to repeatedly execute the generating of the first display information combination according to the N candidate display information and the reinforcement learning network model, and the determination of the same historical display as the first display information combination Information combination, and determine the actual return value corresponding to the historical display information combination as the actual return value corresponding to the first display information combination, and input the actual return value corresponding to the first display information combination to the In the reinforcement learning network model, the weight parameters of the candidate display information in the first
  • the acquisition module includes:
  • a second obtaining submodule configured to obtain first display information in the database, where the first display information is display information that has been separately displayed;
  • a third obtaining submodule configured to obtain the actual return value corresponding to when the first display information is displayed alone;
  • the determination submodule is configured to determine at least first display information corresponding to an actual return value corresponding to a separate display that is greater than or equal to a preset return value threshold as the candidate display information.
  • the determining sub-module is configured to: determine, as the candidate display information, the first display information corresponding to the actual return value greater than or equal to a preset return value threshold when separately displayed, and to store the data in the database
  • the other display information other than the first display information is determined as the candidate display information.
  • the device further includes:
  • the recording module is used to record the actual return value corresponding to the target display information combination
  • An update module is used to input the actual return value to the target decision model to update the weight parameter corresponding to each candidate display information in the target display information combination in the target decision model.
  • the weight parameter of the candidate display information in the target decision model is related to the probability of selecting the candidate display information when the target decision model generates the display information combination, and the higher the actual return value corresponding to the display information combination, the update
  • the weighting parameter of the candidate display information in the combination of display information in the target decision model increases more.
  • a computer-readable storage medium on which a computer program is stored, which when executed by a processor implements the method of the first aspect of the present disclosure.
  • an electronic device which includes:
  • a processor is configured to execute the computer program in the memory to implement the method of the first aspect of the present disclosure.
  • N candidate display information in the database is obtained, and the candidate display information is input into a target decision model corresponding to the candidate display information to obtain the target display information combination.
  • the target decision model is constructed using a reinforcement learning network model, and the target decision model is used to determine the combination of display information that can obtain the maximum return value based on the input display information.
  • the use of reinforcement learning methods can automatically generate the target display information combination, saving manpower, in addition, the target display information combination can also obtain the maximum return value, and maximize the user benefits.
  • FIG. 1 is a flowchart of a method for determining a combination of display information according to an embodiment of the present disclosure
  • FIG. 2 is a flowchart of an exemplary implementation of the step of obtaining N candidate display information in a database in the method for determining a combination of display information provided by the present disclosure
  • FIG. 3 is a flowchart of an exemplary implementation manner of obtaining a target decision model corresponding to candidate display information in the method for determining a combination of display information provided by the present disclosure
  • FIG. 4 is a block diagram of a display information combination determination device provided according to an embodiment of the present disclosure.
  • FIG. 5 is a block diagram of an electronic device according to an exemplary embodiment.
  • FIG. 1 is a flowchart of a method for determining a combination of display information according to an embodiment of the present disclosure. As shown in FIG. 1, the method may include the following steps.
  • step 11 N candidate display information in the database is obtained.
  • N is a positive integer greater than 1.
  • the N candidate display information may be all the display information in the database.
  • the N candidate display information may be a part of all the display information in the database.
  • obtaining N candidate display information in the database in step 11 may directly obtain all display information in the database as N candidate display information, where N is the number of all display information in the database.
  • obtaining N candidate display information in the database in step 11 may randomly select N display information as candidate display information from all display information in the database, where N is less than all display information in the database Of the number.
  • step 11 may include the following steps:
  • step 21 the first presentation information in the database is obtained.
  • the first display information is display information that has been displayed separately.
  • step 22 the actual return value corresponding to when the first display information is displayed alone is obtained.
  • the actual return value corresponding to each of the first display information when displayed separately can be obtained.
  • step 23 at least the first display information corresponding to the actual return value when being displayed alone is greater than or equal to the preset return value threshold is determined as the candidate display information.
  • the first display information corresponding to the actual return value when being displayed alone is greater than or equal to the preset return threshold may be determined as the candidate display information.
  • the display information in the database can be filtered to obtain candidate display information, that is, the display information that can obtain a high return value when displayed alone is used as the candidate display information, so that the candidate display information itself has the ability to obtain a high return value A certain advantage, which has a positive effect on obtaining a high return value for the target display information combination determined subsequently.
  • the first display information in the database may also be excluded The other display information is determined as candidate display information.
  • the candidate display information includes not only the first display information corresponding to the actual return value greater than or equal to the preset return value threshold when being displayed alone, but also display information that has not been shown in the database.
  • the display information that can obtain a high return value when displayed alone can be used as candidate display information, so that the candidate display information itself has certain advantages in obtaining a high return value, so as to display information for the target determined later
  • the combination of high return value has a positive effect.
  • step 12 the candidate display information is input to the target decision model corresponding to the candidate display information to obtain the target display information combination.
  • the target display information combination may include M candidate display information, and 1 ⁇ M ⁇ N.
  • the target decision model is constructed using a reinforcement learning network model, and the target decision model is used to determine the combination of display information that can obtain the maximum return value based on the input display information.
  • Reinforcement learning network models learn in a "trial and error" manner, and guide behavior through rewards obtained by interacting with the environment.
  • the goal of reinforcement learning is to maximize the reward of the reinforcement learning network model.
  • Reinforcement learning is different from supervised learning, which is mainly manifested in reinforcement signals.
  • the reinforcement signal provided by the environment in reinforcement learning is an evaluation of the quality of the action, rather than telling the reinforcement learning network model how to generate the correct action. Because the external environment provides little information, the reinforcement learning network model needs to be learned on its own experience. Among them, the reinforcement learning network model obtains the current state information of the external environment, adopts heuristic behavior to the environment, and obtains the environmental feedback evaluation of the action and the new environment state.
  • the reinforcement learning network model can learn the optimization model step by step, so that the behaviors it chooses can get the greatest reward in the environment.
  • the reinforcement learning network model may be a multi-arm slot machine model.
  • the action generated by the reinforcement learning network model is to generate a combination of display information, and the reward caused by the action is determined by the actual return value of the generated combination of display information. For example, if the actual return value of the impression information combination generated by the reinforcement learning network model this time is increased compared with the actual return value of the impression information combination generated last time, it can be considered that the impression information combination generated this time results in If the environment is positively rewarded, then the tendency of the reinforcement learning network model to subsequently generate the corresponding combination of display information will increase.
  • the specific operation of the reinforcement learning network model to enhance the tendency to produce a certain action may be to increase the weight parameter of each display information in the reinforcement information network model in the display information combination of this time.
  • the weight parameter of the display information in the reinforcement learning network model may be related to the probability of selecting the display information when the reinforcement learning network model generates the combination of the display information. For example, the greater the weight parameter of a certain display information in the reinforcement learning network model, the higher the probability that the display information is selected when the reinforcement learning network model generates a combination of display information. In this way, after generating the display information combination again and again and collecting the corresponding actual return value, gradually optimizing the reinforcement learning network model, the display information combination generated by the reinforcement learning network model can obtain the maximum return value.
  • a reinforcement network learning model may be initialized first, and the initialized reinforcement network learning model is directly used as the target decision model corresponding to the N candidate display information.
  • the weight parameters of each candidate display information in the target decision model are random.
  • the target decision model corresponding to the candidate display information when obtaining the target decision model corresponding to the candidate display information, it may be first determined whether there is a combination of historical display information.
  • the historical display information combination may include M candidate display information, and 1 ⁇ M ⁇ N.
  • the first condition is that the display information in the combination is candidate display information
  • the second condition is the number of display information in the combination and the target decision model to be built.
  • the number of display information in the generated target display information combination is the same, that is, they are all M. If there is a combination of historical display information, it means that the corresponding combination of display information has been displayed before building the target decision model. Therefore, the data related to these historical display information combinations can be collected to assist in obtaining the target decision model. Therefore, in this embodiment, as shown in FIG. 3, the target decision model corresponding to the candidate presentation information can be obtained by the following steps.
  • step 31 the historical display information combination and the actual return value corresponding to the historical display information combination are obtained.
  • step 32 the reinforcement learning network model is trained according to the N candidate display information, the historical display information combination, and the actual return value corresponding to the historical display information combination to obtain the target decision model.
  • step 32 may include the following steps:
  • the first display information combination is generated according to the N candidate display information and the reinforcement learning network model
  • the third step determine the same historical display information combination as the first display information combination, and determine the actual return value corresponding to the historical display information combination as the actual return value corresponding to the first display information combination;
  • the actual return value corresponding to the first display information combination is input into the reinforcement learning network model to adjust the weight parameters of each candidate display information in the first display information combination in the reinforcement learning network model;
  • the current reinforcement learning network model is determined as the target decision model.
  • the first display information combination includes M candidate display information.
  • the weight parameter of each candidate display information in the first display information combination in the reinforcement learning network model may be related to the probability of selecting the candidate display information when the reinforcement learning network model generates the first display information combination, and the first display information combination corresponds to The higher the actual return value of, the higher the degree of increase in the weighting parameter of the candidate display information in the first display information combination in the reinforcement learning network model when the reinforcement learning network model is updated.
  • the weight parameters of each candidate display information in the current reinforcement learning network model are random.
  • the current reinforcement learning network model may generate the first combination of display information according to the N candidate display information.
  • the same historical display information combination as the first display information combination can be determined. If such a historical display information combination exists, the actual return value corresponding to the historical display information combination is determined as the first Display the actual return value corresponding to the information combination. Therefore, it can be considered that the actual return value corresponding to the first display information combination is the return value corresponding to the actual display of the first display information combination, so the actual return value corresponding to the first display information combination can be input to the reinforcement learning network model In order to adjust the weight parameters of each candidate display information in the first display information combination in the reinforcement learning network model.
  • a comparison threshold can be set in advance to compare the actual return value corresponding to the first display information combination with the comparison threshold to determine the current The increase or decrease of the actual return value corresponding to the first display information combination.
  • the comparison threshold can be set to zero.
  • the actual return value corresponding to the first impression information combination generated this time can also be compared with the actual return value corresponding to the first impression information combination generated last time.
  • the degree of change determines the degree of adjustment to the weight parameter of each candidate display information in the first combination of display information this time. For example, if the actual return value corresponding to the first display information combination generated this time is increased more than the actual return value corresponding to the first display information combination generated last time, the For the weight parameter, the weight parameter of each candidate display information corresponding to the first display information generated this time in the reinforcement learning network model can be adjusted by a large increase.
  • the second step, the third step, and the fourth step can be repeatedly performed, that is, generating a new first display information combination to adjust the corresponding weight parameter in the reinforcement learning network model until the number of repeated executions reaches the preset number of times .
  • the number of repeated executions can be calculated from the first repeated execution.
  • the preset number of times can be set manually, for example, it can be determined according to the number of historical display information combinations. For example, the preset number of times can be greater than or equal to the number of historical display information combinations to apply as many historical display information combinations as possible.
  • the current reinforcement learning network model can be determined as the target decision model.
  • the target decision model constructed above is generated for the N candidate display information, and the target decision model is used to generate a display information combination containing M candidate display information for the N candidate display information. If there is a change in the content or amount of candidate display information, or the amount of display information included in the combination of display information that the target decision model needs to generate changes, then it is necessary to re-collect relevant data and rebuild the target decision model.
  • the historical display information combination that has been displayed and the actual return value corresponding to the historical display information combination can be used to assist in the construction of the target decision model, so that the target decision model constructed can have certain advantages when it is first applied, and can be obtained Higher return value.
  • step 32 may include the following steps:
  • the first display information combination is generated according to the N candidate display information and the reinforcement learning network model
  • the third step determine the same historical display information combination as the first display information combination, and determine the actual return value corresponding to the historical display information combination as the actual return value corresponding to the first display information combination;
  • the actual return value corresponding to the first display information combination is input into the reinforcement learning network model to adjust the weight parameters of each candidate display information in the first display information combination in the reinforcement learning network model;
  • the current reinforcement learning network model is determined as the target decision model.
  • the actual return value of all historical display information combinations is input to the reinforcement learning network model to adjust the weight parameters of the candidate display information combinations in the reinforcement learning network model, which refers to the first display information combination generated by the reinforcement learning network model at each time All historical display information combinations have been covered, that is to say, the currently collected historical display information combinations and the actual return values corresponding to the historical display information combinations have all been used, and are used to adjust each candidate display information in the reinforcement learning network model. There is no other data available for the weight parameters, so there is no need to continue training the reinforcement learning network model. In addition, as for the other steps in the above embodiments, detailed execution methods are described above, and are not repeated here.
  • the target decision model constructed above is generated for the N candidate display information, and the target decision model is used to generate a display information combination containing M candidate display information for the N candidate display information. If there is a change in the content or amount of candidate display information, or the amount of display information included in the combination of display information that the target decision model needs to generate changes, then it is necessary to re-collect relevant data and rebuild the target decision model.
  • the N candidate display information in the database is obtained, and the candidate display information is input into the target decision model corresponding to the candidate display information to obtain the target display information combination.
  • the target decision model is constructed using a reinforcement learning network model, and the target decision model is used to determine the display information combination that can obtain the maximum return value according to the input display information.
  • the target display information combination can be automatically generated to save manpower.
  • the target display information combination can obtain the maximum return value and maximize the user's benefit.
  • the method provided by the present disclosure may further include the following steps:
  • the actual return value is input to the target decision model to update the weight parameters corresponding to each candidate display information in the target display information combination in the target decision model.
  • the weight parameter of the candidate display information in the target decision model is related to the probability of selecting the candidate display information when the target decision model generates the target display information combination, and the higher the actual return rate corresponding to the target display information combination, the target is updated
  • the candidate display information in the target display information combination has a higher weighting parameter in the target decision model.
  • weight parameter updating is the same as the above principle, and related descriptions have been given above, which will not be repeated here.
  • the actual return value corresponding to the target display information combination can be collected to adjust the weight parameters corresponding to each candidate display information in the target display information combination in order to optimize the target decision model and thus make the target decision model The effect is even better, so that the target display information combination generated later can get a greater return value.
  • FIG. 4 is a block diagram of a display information combination determination device provided according to an embodiment of the present disclosure. As shown in FIG. 4, the display information combination determining device 40 may include:
  • the obtaining module 41 is used to obtain N candidate display information in the database, where the N candidate display information is all or part of all display information in the database, where N is a positive integer greater than 1;
  • the determination module 42 is used to input candidate display information into a target decision model corresponding to the candidate display information to obtain a target display information combination, the target display information combination includes M candidate display information, and the target decision model uses a reinforcement learning network The model is built, and the target decision model is used to determine the combination of display information that can obtain the maximum return value based on the input display information, where 1 ⁇ M ⁇ N.
  • the determination module 42 may include:
  • a first obtaining submodule configured to obtain a historical display information combination and an actual return value corresponding to the historical display information combination, where the historical display information combination includes M candidate display information;
  • the training sub-module is used to train the reinforcement learning network model according to the N candidate display information, the historical display information combination and the actual return value corresponding to the historical display information combination to obtain the target decision model.
  • the training submodule is configured to: initialize the reinforcement learning network model, and generate a first display information combination according to the N candidate display information and the reinforcement learning network model, the first display information combination includes M candidates Display information; determine the same historical display information combination as the first display information combination, and determine the actual return value corresponding to the historical display information combination as the actual return value corresponding to the first display information combination; the first display information The actual return value corresponding to the combination is input into the reinforcement learning network model to adjust the weight parameters of each candidate display information in the first display information combination in the reinforcement learning network model; the training submodule is triggered to repeat execution according to the N The candidate display information and the reinforcement learning network model generate a first display information combination, determine the same historical display information combination as the first display information combination, and determine the actual return value corresponding to the historical display information combination as the first display information Combining the actual return value corresponding to the combination, and inputting the actual return value corresponding to the first display information combination into the reinforcement learning network model to adjust the weight of the candidate display information in the first display information combination in the
  • the obtaining module 41 may include:
  • a second obtaining submodule configured to obtain the first display information in the database, where the first display information is display information that has been separately displayed;
  • a third obtaining submodule used to obtain the actual return value corresponding to when the first display information is displayed alone;
  • the determination submodule is configured to determine at least the first display information corresponding to the actual return value corresponding to the single display when it is greater than or equal to the preset return value threshold as the candidate display information.
  • the determining sub-module is configured to: determine, as the candidate display information, the first display information corresponding to the actual return value corresponding to the separate display when it is greater than or equal to a preset return value threshold, and divide the first display information from the database The display information other than the display information is determined as the candidate display information.
  • the display information combination determining device 40 may further include:
  • the recording module is used to record the actual return value corresponding to the target display information combination
  • the update module is used to input the actual return value to the target decision model to update the weight parameter corresponding to each candidate display information in the target display information combination in the target decision model.
  • the weight parameter of the candidate display information in the target decision model is related to the probability of selecting the candidate display information when the target decision model generates the display information combination, and the higher the actual return value corresponding to the display information combination, the update
  • the weighting parameter of the candidate display information in the combination of display information in the target decision model increases more.
  • Fig. 5 is a block diagram of an electronic device according to an exemplary embodiment.
  • the electronic device 1900 may be provided as a server.
  • the electronic device 1900 includes a processor 1922, the number of which may be one or more, and a memory 1932 for storing a computer program executable by the processor 1922.
  • the computer program stored in the memory 1932 may include one or more modules each corresponding to a set of instructions.
  • the processor 1922 may be configured to execute the computer program to perform the above-mentioned display information combination determination method.
  • the electronic device 1900 may further include a power supply component 1926 and a communication component 1950, which may be configured to perform power management of the electronic device 1900, and the communication component 1950 may be configured to implement communication of the electronic device 1900, for example, wired Or wireless communication.
  • the electronic device 1900 may also include an input/output (I/O) interface 1958.
  • the electronic device 1900 can operate based on an operating system stored in the memory 1932, such as Windows Server TM , Mac OS X TM , Unix TM , Linux TM, and so on.
  • a computer-readable storage medium including program instructions is also provided.
  • the program instructions are executed by a processor, the method for determining the combination of display information described above is implemented.
  • the computer-readable storage medium may be the above-mentioned memory 1932 including program instructions, and the above-mentioned program instructions may be executed by the processor 1922 of the electronic device 1900 to complete the above-mentioned display information combination determination method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种展示信息组合确定方法、装置、存储介质及电子设备。所述方法包括:获取数据库中的N个候选展示信息(11),所述N个候选展示信息为数据库中所有展示信息的全部或部分,其中,N为大于1的正整数;将所述候选展示信息输入至与所述候选展示信息对应的目标决策模型,获得目标展示信息组合(12),所述目标展示信息组合包括M个所述候选展示信息,所述目标决策模型是利用强化学习网络模型构建的,且所述目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合,其中,1≤M<N。这样,利用强化学习方法,可自动生成目标展示信息组合,节省人力,还可以使目标展示信息组合能够获得最大的回报值,使用户利益最大化。

Description

展示信息组合确定方法、装置、存储介质及电子设备
相关申请的交叉引用
本申请要求2018年12月29日在中国知识产权局提交的中国专利申请No.201811647015.1的优先权,通过引用将该中国专利申请公开的全部内容并入本文。
技术领域
本公开涉及计算机技术领域,具体地,涉及一种展示信息组合确定方法、装置、存储介质及电子设备。
背景技术
信息流(Feeds)是社交媒体移动应用中最重要的创新点之一,即当用户加载显示界面时为用户呈现一系列信息。该一系列信息就是一系列展示信息,展示信息可以在展位进行展示,从而获得一定的回报值。展位可以为用于对展示信息进行展示的虚拟或实际的载体。在数据库中存在多种可供展示的展示信息,而在实际的展示中,由于每一次可用于展示的展位数量有限,这些可供展示的展示信息无法全部展示,只能从中选择一部分进行展示,这一部分展示信息可视为展示信息组合。现有技术中,对于展示信息组合的确定需要人工收集数据后进行人为选择,这样,一方面需要投入大量的人力、物力、时间等,效率很低,另一方面,由于人工选择的方式受限于个人经验等因素,会使确定出的展示信息组合得到的回报值无法估量,易出现回报值过低的情况。
发明内容
本公开的目的是提供一种展示信息组合确定方法、装置、存储介质及电子设备,以自动生成展示信息组合。
为了实现上述目的,根据本公开的第一方面,提供一种展示信息组合确定方法,所述方法包括:
获取数据库中的N个候选展示信息,所述N个候选展示信息为数据库中所有展示信息的全部或部分,其中,N为大于1的正整数;
将所述候选展示信息输入至与所述候选展示信息对应的目标决策模型,获得目标展示信息组合,所述目标展示信息组合包括M个所述候选展示信息,所述目标决策模型是利用强化学习网络模型构建的,且所述目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合,其中,1≤M<N。
可选地,与所述候选展示信息对应的所述目标决策模型通过以下方式获得:
获取历史展示信息组合以及所述历史展示信息组合对应的实际回报值,其中,所述历史展示信息组合包括M个所述候选展示信息;
根据所述N个候选展示信息、所述历史展示信息组合以及所述历史展示信息组合对应的实际回报值,对强化学习网络模型进行训练,以获得所述目标决策模型。
可选地,所述根据所述N个候选展示信息、所述历史展示信息组合以及所述历史展示信息组合对应的实际回报值对强化学习网络模型进行训练以获得所述目标决策模型包括:
初始化所述强化学习网络模型,并根据所述N个候选展示信息和所述强化学习网络模型生成第一展示信息组合,所述第一展示信息组合包括M个所述候选展示信息;
确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值;
将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模型中,以调整所述第一展示信息组合中各候选展示信息在所述强化学习网络模型中的权重参数;
重复执行所述根据所述N个候选展示信息和所述强化学习网络模型生成 第一展示信息组合,以及所述确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值,以及所述将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模型中,以调整所述第一展示信息组合中候选展示信息在所述强化学习网络模型中的权重参数的步骤,直至所述重复执行的次数达到预设次数;
将当前的所述强化学习网络模型确定为所述目标决策模型。
可选地,所述获取数据库中的N个候选展示信息包括:
获取所述数据库中的第一展示信息,所述第一展示信息为已被单独展示过的展示信息;
获取所述第一展示信息被单独展示时对应的实际回报值;
至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息。
可选地,所述至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息包括:
将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息,以及,将所述数据库中除所述第一展示信息之外的其他展示信息确定为所述候选展示信息。
可选地,所述方法还包括:
记录所述目标展示信息组合对应的实际回报值;
将所述实际回报值输入至所述目标决策模型,以更新所述目标决策模型中与所述目标展示信息组合中各候选展示信息对应的权重参数。
可选地,候选展示信息在目标决策模型中的权重参数与目标决策模型生成展示信息组合时选择该候选展示信息的几率相关,并且,展示信息组合对应的实际回报值越高,则在更新所述目标决策模型时,该展示信息组合中的候选展示信息在所述目标决策模型中的权重参数的增大程度越高。
根据本公开的第二方面,提供一种展示信息组合确定装置,所述装置包括:
获取模块,用于获取数据库中的N个候选展示信息,所述N个候选展示 信息为数据库中所有展示信息的全部或部分,其中,N为大于1的正整数;
确定模块,用于将所述候选展示信息输入至与所述候选展示信息对应的目标决策模型,获得目标展示信息组合,所述目标展示信息组合包括M个所述候选展示信息,所述目标决策模型是利用强化学习网络模型构建的,且所述目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合,其中,1≤M<N。
可选地,所述确定模块包括:
第一获取子模块,用于获取历史展示信息组合以及所述历史展示信息组合对应的实际回报值,其中,所述历史展示信息组合包括M个所述候选展示信息;
训练子模块,用于根据所述N个候选展示信息、所述历史展示信息组合以及所述历史展示信息组合对应的实际回报值,对强化学习网络模型进行训练,以获得所述目标决策模型。
可选地,所述训练子模块被配置成:初始化所述强化学习网络模型,并根据所述N个候选展示信息和所述强化学习网络模型生成第一展示信息组合,所述第一展示信息组合包括M个所述候选展示信息;确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值;将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模型中,以调整所述第一展示信息组合中各候选展示信息在所述强化学习网络模型中的权重参数;触发所述训练子模块重复执行所述根据所述N个候选展示信息和所述强化学习网络模型生成第一展示信息组合,以及所述确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值,以及所述将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模型中,以调整所述第一展示信息组合中候选展示信息在所述强化学习网络模型中的权重参数,直至所述重复执行的次数达到预设次数;将当前的所述强化学习网络模型确定为所述目标决策模型。
可选地,所述获取模块包括:
第二获取子模块,用于获取所述数据库中的第一展示信息,所述第一展示信息为已被单独展示过的展示信息;
第三获取子模块,用于获取所述第一展示信息被单独展示时对应的实际回报值;
确定子模块,用于至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息。
可选地,所述确定子模块被配置成:将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息,以及,将所述数据库中除所述第一展示信息之外的其他展示信息确定为所述候选展示信息。
可选地,所述装置还包括:
记录模块,用于记录所述目标展示信息组合对应的实际回报值;
更新模块,用于将所述实际回报值输入至所述目标决策模型,以更新所述目标决策模型中与所述目标展示信息组合中各候选展示信息对应的权重参数。
可选地,候选展示信息在目标决策模型中的权重参数与目标决策模型生成展示信息组合时选择该候选展示信息的几率相关,并且,展示信息组合对应的实际回报值越高,则在更新所述目标决策模型时,该展示信息组合中的候选展示信息在所述目标决策模型中的权重参数的增大程度越高。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述的方法。
根据本公开的第四方面,提供一种电子设备,其包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述的方法。
通过上述技术方案,获取数据库中的N个候选展示信息,将候选展示信息输入至与该候选展示信息对应的目标决策模型,获得目标展示信息组合。其中,目标决策模型是利用强化学习网络模型构建的,且目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合。这样,利 用强化学习方法,可自动生成目标展示信息组合,节省人力,另外,还可以使目标展示信息组合能够获得最大的回报值,使用户利益最大化。
附图说明
附图是用来帮助对本公开的进一步理解,并且构成说明书的一部分,与下面的具体描述一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的展示信息组合确定方法的流程图;
图2是根据本公开提供的展示信息组合确定方法中,获取数据库中的N个候选展示信息的步骤的一种示例性实现方式的流程图;
图3是根据本公开提供的展示信息组合确定方法中,获得与候选展示信息对应的目标决策模型的方式的一种示例性实现方式的流程图;
图4是根据本公开的一种实施方式提供的展示信息组合确定装置的框图;
图5是根据示例性实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开的说明书和权利要求书以及上述附图中的术语“第一”等是用于区别类似的对象,而不必理解为描述特定的顺序或先后次序。
图1是根据本公开的一种实施方式提供的展示信息组合确定方法的流程图。如图1所示,该方法可以包括以下步骤。
在步骤11中,获取数据库中的N个候选展示信息。
其中,N为大于1的正整数。示例地,N个候选展示信息可以为数据库中所有的展示信息。再例如,N个候选展示信息可以为数据库中所有的展示信息的一部分。
在一种可能的实施方式中,步骤11中获取数据库中的N个候选展示信息可以直接获取数据库中的所有展示信息作为N个候选展示信息,这里N即为 数据库中所有展示信息的个数。
在另一种可能的实施方式中,步骤11中获取数据库中的N个候选展示信息可以从数据库中的所有展示信息中随机选取N个展示信息作为候选展示信息,这里N小于数据库中所有展示信息的个数。
在另一种可能的实施方式中,如图2所示,步骤11可以包括以下步骤:
在步骤21中,获取数据库中的第一展示信息。
其中,第一展示信息为已被单独展示过的展示信息。
在步骤22中,获取第一展示信息被单独展示时对应的实际回报值。
针对已被单独展示过的第一展示信息,能够获取到第一展示信息被单独展示时各自对应的实际回报值。
在步骤23中,至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为候选展示信息。
在一种可能的实施例中,可以将单独展示时对应的实际回报值大于或者等于预设回报阈值的第一展示信息确定为候选展示信息。
采用上述方式,可以对数据库中的展示信息进行筛选以得到候选展示信息,即将单独展示时能够得到高回报值的展示信息作为候选展示信息,从而使候选展示信息本身在获得高回报值方面就具备一定的优势,从而对后续确定的目标展示信息组合获得高回报值具有积极效果。
在另一种可能的实施例中,除了将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为候选展示信息外,还可以将数据库中除第一展示信息之外的其他展示信息确定为候选展示信息。
也就是说,候选展示信息除了包括单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息外,还包括数据库中未被展示过的展示信息。
采用上述方式,一方面,可以将单独展示时能够得到高回报值的展示信息作为候选展示信息,从而使候选展示信息本身在获得高回报值方面具备一定的优势,从而对后续确定的目标展示信息组合获得高回报值具有积极效果。另一方面,也可以减小未被单独展示过的展示信息在候选展示信息选取中的劣势,避免出现未被单独展示过的展示信息总是不被选取为候选展示信息的 情况。
现在回到图1,在步骤12中,将候选展示信息输入至与该候选展示信息对应的目标决策模型,获得目标展示信息组合。
其中,目标展示信息组合可以包括M个候选展示信息,且1≤M<N。目标决策模型是利用强化学习网络模型构建的,且目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合。
下面将对强化学习进行简单介绍。强化学习网络模型以“试错”的方式进行学习,通过与环境进行交互获得的奖赏来指导行为。强化学习的目标是使强化学习网络模型获得最大的奖赏,强化学习不同于监督学习,主要表现在强化信号上。强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价,而不是告诉强化学习网络模型如何去产生正确的动作。由于外部环境提供的信息很少,强化学习网络模型需要靠自身的经历进行学习。其中,强化学习网络模型获取外部环境的当前状态信息,对环境采取试探行为,并获取环境反馈的对此动作的评价和新的环境状态。如果强化学习网络模型的某动作导致环境正的奖赏,那么强化学习网络模型以后产生这个动作的趋势便会加强;反之,强化学习网络模型产生这个动作的趋势将减弱。通过这样的方式,强化学习网络模型通过逐步学习优化模型,可以使其选择的行为能够获得环境最大的奖赏。示例地,强化学习网络模型可以为多臂老虎机模型。
下面对本公开利用强化学习的原理进行简要说明。在本公开中,最终的目标是使展示信息组合能够尽可能获得高回报值。因此,强化学习网络模型所产生的动作就是生成展示信息组合,而动作导致的奖赏则通过生成的展示信息组合的实际回报值判定。例如,强化学习网络模型此次生成的展示信息组合所得到的实际回报值相较于上次生成的展示信息组合所得到的实际回报值有所增加,则可认为此次生成的展示信息组合导致环境正的奖赏,那么强化学习网络模型后续生成此次对应的展示信息组合的趋势将会增强。示例地,强化学习网络模型增强产生某一动作的趋势的具体的操作可以为增大此次的展示信息组合中各个展示信息在强化学习网络模型中的权重参数。其中,展示信息在强化学习网络模型中的权重参数可以与强化学习网络模型生成展示信息组合时选择该展示信息的几率相关。例如,某展示信息在强化学习网络 模型中的权重参数越大,则该展示信息在强化学习网络模型生成展示信息组合时被选择的几率越高。通过这样的方式,在一次又一次生成展示信息组合并收集相应的实际回报值后,逐步优化强化学习网络模型,可以使强化学习网络模型所生成的展示信息组合能够获得最大回报值。
在一种可能的实施方式中,可以首先初始化一强化网络学习模型,并直接将该初始化的强化网络学习模型作为与N个候选展示信息对应的目标决策模型。在这种实施方式中,目标决策模型内各个候选展示信息的权重参数是随机的。
在另一种可能的实施方式中,在获得与候选展示信息对应的目标决策模型时,可以首先确定是否存在历史展示信息组合。历史展示信息组合可以包括M个候选展示信息,且1≤M<N。也就是说,历史展示信息组合需满足两个条件,第一个条件是组合内的展示信息均为候选展示信息,第二个条件是组合内的展示信息个数与欲构建的目标决策模型所要生成的目标展示信息组合内展示信息个数相同,也就是均为M个。若存在历史展示信息组合,则说明在构建目标决策模型之前,已经有相应的展示信息组合被展示,因此可以将与这些历史展示信息组合相关的数据收集起来,用以辅助获得目标决策模型。因此,在这种实施方式中,如图3所示,与候选展示信息对应的目标决策模型可以通过以下步骤获得。
在步骤31中,获取历史展示信息组合以及历史展示信息组合对应的实际回报值。
在步骤32中,根据N个候选展示信息、历史展示信息组合以及历史展示信息组合对应的实际回报值,对强化学习网络模型进行训练,以获得目标决策模型。
在一种可能的实施例中,步骤32可以包括以下步骤:
在第一步骤中,初始化强化学习网络模型;
在第二步骤中,根据N个候选展示信息和强化学习网络模型生成第一展示信息组合;
在第三步骤中,确定与第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为第一展示信息组合对应的实 际回报值;
在第四步骤中,将第一展示信息组合对应的实际回报值输入至强化学习网络模型中,以调整第一展示信息组合中各候选展示信息在强化学习网络模型中的权重参数;
重复执行上述第二步骤、以及第三步骤、以及第四步骤,直至重复执行的次数达到预设次数;
将当前的强化学习网络模型确定为目标决策模型。
其中,第一展示信息组合包括M个候选展示信息。第一展示信息组合中每一个候选展示信息在强化学习网络模型中的权重参数可以与强化学习网络模型生成第一展示信息组合时选择该候选展示信息的几率相关,并且,第一展示信息组合对应的实际回报值越高,则在更新强化学习网络模型时,该第一展示信息组合中的候选展示信息在强化学习网络模型中的权重参数的增大程度越高。
首先,初始化强化学习网络模型。此时,当前的强化学习网络模型内各个候选展示信息的权重参数是随机的。之后,当前的强化学习网络模型可以根据N个候选展示信息生成第一展示信息组合。
在生成第一展示信息组合后,可以确定与第一展示信息组合相同的历史展示信息组合,若存在这样的历史展示信息组合,则将与该历史展示信息组合对应的实际回报值确定为第一展示信息组合对应的实际回报值。从而,可以认为该与第一展示信息组合对应的实际回报值就是第一展示信息组合实际展示所对应的回报值,因此可以将该第一展示信息组合对应的实际回报值输入至强化学习网络模型中,以调整第一展示信息组合中各候选展示信息在强化学习网络模型中的权重参数。而若不存在与第一展示信息组合相同的历史展示信息组合,则说明对于当前的第一展示信息组合没有可以参考的实际数据,因此可以忽略此次生成的第一展示信息组合而重新生成新的第一展示信息组合。
其中,若此次生成的第一展示信息组合对应的实际回报值有所增加,则增大该第一展示信息组合中各个候选展示信息在当前强化学习网络模型的权重参数。初始情况下,由于第一展示信息组合对应的实际回报值没有比较的 对象,因此可以预先设置一个比较阈值,将第一展示信息组合对应的实际回报值与该比较阈值进行比较,以判断此次第一展示信息组合对应的实际回报值的增加或减小情况。示例地,该比较阈值可以设置为0。
另外,在调整强化学习网络模型的权重参数的过程中,还可以根据此次生成的第一展示信息组合对应的实际回报值相较于上次生成的第一展示信息组合对应的实际回报值的变化程度确定对此次的第一展示信息组合中各候选展示信息的权重参数的调整程度。例如,若此次生成的第一展示信息组合对应的实际回报值相较于上次生成的第一展示信息组合对应的实际回报值的增加程度较大,则在此次调整强化学习网络模型的权重参数时,可以将此次生成的第一展示信息组合对应的各个候选展示信息在强化学习网络模型中的权重参数以较大的增加幅度调整。
之后,可以重复执行上述第二步骤、第三步骤以及第四步骤,也就是生成新的第一展示信息组合对强化学习网络模型内的相应权重参数进行调整,直至重复执行的次数达到预设次数。这里,重复执行的次数可以从第一次重复执行开始计算。示例地,若在初始情况下,第二步骤、第三步骤以及第四步骤被执行过一次后,开始重复执行第二步骤、第三步骤以及第四步骤,那么在此次重复执行后,重复执行次数为1。预设次数可以人为进行设定,例如可以根据历史展示信息组合的数量确定,示例地,预设次数可以大于或者等于历史展示信息组合的数量,以尽可能多地应用历史展示信息组合。在重复执行的次数达到预设次数后,则可以将当前的强化学习网络模型确定为目标决策模型。
需要说明的是,上述构建的目标决策模型是针对上述N个候选展示信息所生成的,并且该目标决策模型用于针对这N个候选展示信息生成含M个候选展示信息的展示信息组合。若候选展示信息的内容或者数量存在变化,或者目标决策模型需要生成的展示信息组合所包含的展示信息的数量存在变化,则均需要重新收集相关的数据重新构建目标决策模型。
通过上述方式,可以利用已被展示过的历史展示信息组合以及历史展示信息组合对应的实际回报值辅助构建目标决策模型,使构建的目标决策模型在初次应用时即可具备一定的优势,能够得到较高的回报值。
在另一种可能的实施例中,步骤32可以包括以下步骤:
在第一步骤中,初始化强化学习网络模型;
在第二步骤中,根据N个候选展示信息和强化学习网络模型生成第一展示信息组合;
在第三步骤中,确定与第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为第一展示信息组合对应的实际回报值;
在第四步骤中,将第一展示信息组合对应的实际回报值输入至强化学习网络模型中,以调整第一展示信息组合中各候选展示信息在强化学习网络模型中的权重参数;
重复执行上述第二步骤、以及第三步骤、以及第四步骤,直至所有的历史展示信息组合的实际回报值均被输入至强化学习网络模型以调整强化学习网络模型中候选展示信息组合的权重参数;
将当前的强化学习网络模型确定为目标决策模型。
所有的历史展示信息组合的实际回报值均被输入至强化学习网络模型以调整强化学习网络模型中候选展示信息组合的权重参数,是指强化学习网络模型在各次所生成的第一展示信息组合已经覆盖了全部的历史展示信息组合,也就是说,当前收集的历史展示信息组合以及历史展示信息组合对应的实际回报值均被使用过,且用于调整强化学习网络模型内各个候选展示信息的权重参数,已经没有其他数据可用,因此,可以不必再对强化学习网络模型继续进行训练。另外,关于上述实施例中的其他步骤,详细的执行方式在上文中均有描述,此处不赘述。
需要说明的是,上述构建的目标决策模型是针对上述N个候选展示信息所生成的,并且该目标决策模型用于针对这N个候选展示信息生成含M个候选展示信息的展示信息组合。若候选展示信息的内容或者数量存在变化,或者目标决策模型需要生成的展示信息组合所包含的展示信息的数量存在变化,则均需要重新收集相关的数据重新构建目标决策模型。
通过上述方案,获取数据库中的N个候选展示信息,将候选展示信息输入至与该候选展示信息对应的目标决策模型,获得目标展示信息组合。其中, 目标决策模型是利用强化学习网络模型构建的,且目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合。这样,利用强化学习方法,可自动生成目标展示信息组合,节省人力,另外,还可以使目标展示信息组合能够获得最大的回报值,使用户利益最大化。
在一种可能的实施方式中,本公开提供的方法还可以包括以下步骤:
记录目标展示信息组合对应的实际回报值;
将实际回报值输入至目标决策模型,以更新目标决策模型中与目标展示信息组合中各候选展示信息对应的权重参数。
其中,候选展示信息在目标决策模型中的权重参数与目标决策模型生成目标展示信息组合时选择该候选展示信息的几率相关,并且,目标展示信息组合对应的实际回报率越高,则在更新目标决策模型时,该目标展示信息组合中的候选展示信息在目标决策模型中的权重参数的增大程度越高。
另外,上述权重参数的更新与上文原理相同,且在上文中已有相关说明,此处不赘述。
通过上述方案,可通过收集目标展示信息组合对应的实际回报值,用以调整目标决策模型中与目标展示信息组合中各候选展示信息对应的权重参数,以优化目标决策模型,从而使目标决策模型的效果更加出色,使后续生成的目标展示信息组合能够获得更大的回报值。
需要说明的是,利用强化学习方法构建模型的方法与流程均为本领域技术人员公知,为理解方便在上文中对于其中的一种可能的情况进行了简要说明,但是本公开中构建模型的方式并不局限于此,对于其他的实现方式此处不赘述。
图4是根据本公开的一种实施方式提供的展示信息组合确定装置的框图。如图4所示,展示信息组合确定装置40可以包括:
获取模块41,用于获取数据库中的N个候选展示信息,该N个候选展示信息为数据库中所有展示信息的全部或部分,其中,N为大于1的正整数;
确定模块42,用于将候选展示信息输入至与该候选展示信息对应的目标决策模型,获得目标展示信息组合,该目标展示信息组合包括M个候选展示信息,该目标决策模型是利用强化学习网络模型构建的,且该目标决策模型 用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合,其中,1≤M<N。
可选地,确定模块42可以包括:
第一获取子模块,用于获取历史展示信息组合以及该历史展示信息组合对应的实际回报值,其中,该历史展示信息组合包括M个候选展示信息;
训练子模块,用于根据该N个候选展示信息、该历史展示信息组合以及该历史展示信息组合对应的实际回报值,对强化学习网络模型进行训练,以获得该目标决策模型。
可选地,该训练子模块被配置成:初始化该强化学习网络模型,并根据该N个候选展示信息和该强化学习网络模型生成第一展示信息组合,该第一展示信息组合包括M个候选展示信息;确定与该第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为该第一展示信息组合对应的实际回报值;将该第一展示信息组合对应的实际回报值输入至该强化学习网络模型中,以调整该第一展示信息组合中各候选展示信息在该强化学习网络模型中的权重参数;触发该训练子模块重复执行根据该N个候选展示信息和该强化学习网络模型生成第一展示信息组合,确定与该第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为该第一展示信息组合对应的实际回报值,以及将该第一展示信息组合对应的实际回报值输入至该强化学习网络模型中,以调整该第一展示信息组合中候选展示信息在该强化学习网络模型中的权重参数,直至重复执行的次数达到预设次数;将当前的该强化学习网络模型确定为该目标决策模型。
可选地,获取模块41可以包括:
第二获取子模块,用于获取该数据库中的第一展示信息,该第一展示信息为已被单独展示过的展示信息;
第三获取子模块,用于获取该第一展示信息被单独展示时对应的实际回报值;
确定子模块,用于至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为该候选展示信息。
可选地,该确定子模块被配置成:将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为该候选展示信息,以及,将该数据库中除该第一展示信息之外的其他展示信息确定为该候选展示信息。
可选地,展示信息组合确定装置40还可以包括:
记录模块,用于记录该目标展示信息组合对应的实际回报值;
更新模块,用于将该实际回报值输入至该目标决策模型,以更新该目标决策模型中与该目标展示信息组合中各候选展示信息对应的权重参数。
可选地,候选展示信息在目标决策模型中的权重参数与目标决策模型生成展示信息组合时选择该候选展示信息的几率相关,并且,展示信息组合对应的实际回报值越高,则在更新该目标决策模型时,该展示信息组合中的候选展示信息在该目标决策模型中的权重参数的增大程度越高。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1900可以被提供为一服务器。参照图5,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的展示信息组合确定方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如Windows Server TM,Mac OS X TM,Unix TM,Linux TM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的展示信息组合确定方法。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的展示信息组合确定方 法。
以上结合附图详细描述了本公开的示例性实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的构思,就应被视为在本公开的范围内。

Claims (10)

  1. 一种展示信息组合确定方法,包括:
    获取数据库中的N个候选展示信息,所述N个候选展示信息为数据库中所有展示信息的全部或部分,其中,N为大于1的正整数;
    将所述候选展示信息输入至与所述候选展示信息对应的目标决策模型,获得目标展示信息组合,所述目标展示信息组合包括M个所述候选展示信息,所述目标决策模型是利用强化学习网络模型构建的,且所述目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合,其中,1≤M<N。
  2. 根据权利要求1所述的展示信息组合确定方法,其中,与所述候选展示信息对应的所述目标决策模型通过以下方式获得:
    获取历史展示信息组合以及所述历史展示信息组合对应的实际回报值,其中,所述历史展示信息组合包括M个所述候选展示信息;
    根据所述N个候选展示信息、所述历史展示信息组合以及所述历史展示信息组合对应的实际回报值,对强化学习网络模型进行训练,以获得所述目标决策模型。
  3. 根据权利要求2所述的展示信息组合确定方法,其中,所述根据所述N个候选展示信息、所述历史展示信息组合以及所述历史展示信息组合对应的实际回报值对强化学习网络模型进行训练以获得所述目标决策模型包括:
    初始化所述强化学习网络模型,并根据所述N个候选展示信息和所述强化学习网络模型生成第一展示信息组合,所述第一展示信息组合包括M个所述候选展示信息;
    确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值;
    将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模 型中,以调整所述第一展示信息组合中各候选展示信息在所述强化学习网络模型中的权重参数;
    重复执行所述根据所述N个候选展示信息和所述强化学习网络模型生成第一展示信息组合,以及所述确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值,以及所述将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模型中,以调整所述第一展示信息组合中候选展示信息在所述强化学习网络模型中的权重参数的步骤,直至所述重复执行的次数达到预设次数;
    将当前的所述强化学习网络模型确定为所述目标决策模型。
  4. 根据权利要求1所述的展示信息组合确定方法,其中,所述获取数据库中的N个候选展示信息包括:
    获取所述数据库中的第一展示信息,所述第一展示信息为已被单独展示过的展示信息;
    获取所述第一展示信息被单独展示时对应的实际回报值;
    至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息。
  5. 根据权利要求4所述的展示信息组合确定方法,其中,所述至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息包括:
    将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息,以及,将所述数据库中除所述第一展示信息之外的其他展示信息确定为所述候选展示信息。
  6. 根据权利要求1所述的展示信息组合确定方法,其中,所述方法还包括:
    记录所述目标展示信息组合对应的实际回报值;
    将所述实际回报值输入至所述目标决策模型,以更新所述目标决策模型中与所述目标展示信息组合中各候选展示信息对应的权重参数。
  7. 根据权利要求3或6所述的展示信息组合确定方法,其中,候选展示信息在目标决策模型中的权重参数与目标决策模型生成展示信息组合时选择该候选展示信息的几率相关,并且,展示信息组合对应的实际回报值越高,则在更新所述目标决策模型时,该展示信息组合中的候选展示信息在所述目标决策模型中的权重参数的增大程度越高。
  8. 一种展示信息组合确定装置,包括:
    获取模块,用于获取数据库中的N个候选展示信息,所述N个候选展示信息为数据库中所有展示信息的全部或部分,其中,N为大于1的正整数;
    确定模块,用于将所述候选展示信息输入至与所述候选展示信息对应的目标决策模型,获得目标展示信息组合,所述目标展示信息组合包括M个所述候选展示信息,所述目标决策模型是利用强化学习网络模型构建的,且所述目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合,其中,1≤M<N。
  9. 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
  10. 一种电子设备,包括:
    存储器,其上存储有计算机程序;
    处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述的方法。
PCT/CN2019/094743 2018-12-29 2019-07-04 展示信息组合确定方法、装置、存储介质及电子设备 WO2020134011A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811647015.1A CN111401594A (zh) 2018-12-29 2018-12-29 展示信息组合确定方法、装置、存储介质及电子设备
CN201811647015.1 2018-12-29

Publications (1)

Publication Number Publication Date
WO2020134011A1 true WO2020134011A1 (zh) 2020-07-02

Family

ID=71126070

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/094743 WO2020134011A1 (zh) 2018-12-29 2019-07-04 展示信息组合确定方法、装置、存储介质及电子设备

Country Status (2)

Country Link
CN (1) CN111401594A (zh)
WO (1) WO2020134011A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658212B (zh) * 2022-11-16 2023-03-21 北京极致车网科技有限公司 一种多终端数据的可视化展示控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065170A2 (en) * 2002-02-01 2003-08-07 Manugistics Atlanta, Inc. Market response modeling
CN107798608A (zh) * 2017-10-19 2018-03-13 深圳市耐飞科技有限公司 一种投资产品组合推荐方法及系统
CN107908735A (zh) * 2017-11-15 2018-04-13 北京三快在线科技有限公司 信息展示方法和装置以及计算设备
CN108108821A (zh) * 2017-12-29 2018-06-01 广东欧珀移动通信有限公司 模型训练方法及装置
CN108345419A (zh) * 2017-01-25 2018-07-31 华为技术有限公司 一种信息推荐列表的生成方法及装置
CN109062919A (zh) * 2018-05-31 2018-12-21 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065170A2 (en) * 2002-02-01 2003-08-07 Manugistics Atlanta, Inc. Market response modeling
CN108345419A (zh) * 2017-01-25 2018-07-31 华为技术有限公司 一种信息推荐列表的生成方法及装置
CN107798608A (zh) * 2017-10-19 2018-03-13 深圳市耐飞科技有限公司 一种投资产品组合推荐方法及系统
CN107908735A (zh) * 2017-11-15 2018-04-13 北京三快在线科技有限公司 信息展示方法和装置以及计算设备
CN108108821A (zh) * 2017-12-29 2018-06-01 广东欧珀移动通信有限公司 模型训练方法及装置
CN109062919A (zh) * 2018-05-31 2018-12-21 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置

Also Published As

Publication number Publication date
CN111401594A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US11521056B2 (en) System and methods for intrinsic reward reinforcement learning
KR102242516B1 (ko) 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련
US9536191B1 (en) Reinforcement learning using confidence scores
US20170032245A1 (en) Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
KR20200110400A (ko) 학습 데이터 증강 정책
WO2019018375A1 (en) NEURONAL ARCHITECTURE RESEARCH FOR CONVOLUTION NEURAL NETWORKS
US11911702B2 (en) AI parameter configuration method and apparatus for racing AI model, AI parameter configuration device, and storage medium
CN110520868A (zh) 分布式强化学习
WO2017004626A1 (en) Systems and methods for providing reinforcement learning in a deep learning system
CN110781969B (zh) 基于深度强化学习的空调风量控制方法、装置以及介质
CN106850289B (zh) 结合高斯过程与强化学习的服务组合方法
CN111406264A (zh) 神经架构搜索
CN107457780B (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
CN111798114A (zh) 一种模型训练、订单处理方法、装置、设备及存储介质
JP6892424B2 (ja) ハイパーパラメータチューニング方法、装置及びプログラム
US20210312295A1 (en) Information processing method, information processing device, and information processing program
Wang et al. Cooling strategies for the moment-generating function in Bayesian global optimization
CN110599068A (zh) 一种基于粒子群优化算法的云资源调度方法
EP4290351A1 (en) Environment modeling method and apparatus based on decision flow graph, and electronic device
WO2022001965A1 (zh) 数据库配置参数调整方法、设备及存储介质
CN110447041A (zh) 噪声神经网络层
CN114895773B (zh) 异构多核处理器的能耗优化方法、系统、装置及存储介质
CN114675975B (zh) 一种基于强化学习的作业调度方法、装置及设备
CN105989376B (zh) 一种基于神经网络的手写识别系统、装置和移动终端
CN115766104A (zh) 一种基于改进的Q-learning网络安全决策自适应生成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19902793

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 06/10/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19902793

Country of ref document: EP

Kind code of ref document: A1