WO2019029046A1 - 一种视频推荐方法及系统 - Google Patents

一种视频推荐方法及系统 Download PDF

Info

Publication number
WO2019029046A1
WO2019029046A1 PCT/CN2017/112123 CN2017112123W WO2019029046A1 WO 2019029046 A1 WO2019029046 A1 WO 2019029046A1 CN 2017112123 W CN2017112123 W CN 2017112123W WO 2019029046 A1 WO2019029046 A1 WO 2019029046A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
user
information data
learning network
model
Prior art date
Application number
PCT/CN2017/112123
Other languages
English (en)
French (fr)
Inventor
张桐
刘海宝
汪念
Original Assignee
深圳市耐飞科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市耐飞科技有限公司 filed Critical 深圳市耐飞科技有限公司
Publication of WO2019029046A1 publication Critical patent/WO2019029046A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • a model establishing unit configured to solve a stealth factor feature between the user and the video according to the collected data, and establish the factorization machine model according to the stealth factor feature;
  • the enhanced learning network model includes an Actor network and a Critic network
  • a pre-video recommendation set obtaining unit configured to input the historical behavior information data and the initial recommendation video to the factorization machine model to obtain a pre-video recommendation set;
  • a video judging unit configured to simulate, according to a pre-established state probability transition matrix, whether the user views the video with the highest expected value of the reward
  • FIG. 1 is a schematic flowchart of a video recommendation method according to Embodiment 1 of the present invention.
  • the method further includes:
  • the collected data is subjected to a pre-processing workflow such as cleaning and warehousing, which specifically includes: a vectorized expression of the attribute tag of the user or the video, wherein the word2vec tool can be used to vector the statement or vocabulary. Representation; the historical behavior data generated by the user on the video, in addition to explicit behavior (such as scoring, collection, etc.), set certain weight parameters for other types of behavior, so as to obtain the user's comprehensive rating of a video. .
  • the time characteristics of the user watching the video is also a more important factor, reflecting the user's interest change and the current video preference tendency in the time series.
  • the collected data is transformed into structured data by preprocessing and stored in a database.
  • the establishing a factorization machine model according to the collected data, and training the reinforcement learning network model specifically includes:
  • the role of the factor breaker model is mainly to generate a certain number of pre-recommended video collections for the user.
  • Enter the current state of a user into the factorization machine model that is, the historical behavior information data of the user watching the video until now, and set the number of videos that need to be recommended for the user, and run the factorization machine model to output the user.
  • Pre-recommended video collection includes top-K pre-recommended videos, with the top-K parameter set to 20% of the total number of all recommendable videos.
  • the enhanced learning network model includes an Actor network and a Critic network
  • the reinforcement learning network model includes an Actor, Critic, Actor target, and Critic target network structure, wherein the Actor and Critic network structures are fully connected neural networks.
  • the intensive learning network model first initialize the Actor, Critic, Actor target, Critic target network structure.
  • the current state of a certain user that is, the collected behavior information data
  • the behavior information data is input into the enhanced learning network model
  • an initial action that is, an initial training video is generated by the Actor network.
  • the current state of the user and the initial action generated by the Actor network are input into the factorization machine model as a hypothetical new state, and the training video recommendation set of the user is obtained, which has top-K pre-recommended training videos.
  • the training video recommendation set generated by the factorization machine model is returned to the reinforcement learning network model, as an action set space selected by the Actor network, the search iteratively moves the action set space, and a final execution action is generated through the Critic network calculation, that is, selecting a reward
  • the video with the highest expected value is recommended.
  • the final execution action is calculated by the following formula:
  • a represents the final execution action and A k represents the action collection space.
  • ⁇ Q is the Critic network weight parameter
  • argmax represents the action of selecting the maximum reward expectation value.
  • the user's feedback on the final execution action generated by the Critic network is divided into two cases, one is to click on the recommended video, and the other is to ignore the recommended video.
  • determining whether the user will click or view the recommended video is calculated through a pre-established user-video state probability transfer matrix, and the user selects the final execution action reward value through the user- The predicted score matrix of the video is calculated.
  • the learning network structure weight parameters include the weight parameter of the Critic network, the weight parameter of the Actor network, and the Critic target and Actor target network weight parameters.
  • the weight parameter of the Critic network is updated by minimizing the loss function L( ⁇ Q ), and the update formula is as follows:
  • y i represents the target output
  • r i represents the reward value
  • represents the reward discount coefficient
  • ⁇ Q′ is the Critic target network weight parameter
  • ⁇ Q is the Critic network weight parameter
  • the weighting parameters of the Actor network are updated by the sampling gradient, and the update formula is as follows:
  • ⁇ ⁇ represents the Actor network weight parameter
  • represents the correlation coefficient
  • ⁇ Q and ⁇ ⁇ represent the Critic and Actor network weight parameters, respectively
  • ⁇ Q′ and ⁇ ⁇ ′ represent the Critic target and Actor target network weight parameters, respectively.
  • the user's new state is input to the reinforcement learning network model, and the above steps are executed cyclically, and the iteratively updating the reinforcement learning network structure weight parameter until the completion of the reinforcement learning network model training is completed. until.
  • the obtaining, according to the historical behavior information data, the user's recommended video based on the factorization machine model and the trained intensive learning network model specifically includes:
  • the video with the highest expected value of the bonus is used as the recommended video of the user.
  • the user is personalized and recommended by using the established factorization machine model and the trained reinforcement learning network model.
  • the user ID is obtained, and the current state of the user, that is, the historical behavior information data of the user to the currently viewed video, is input into the trained enhanced learning network model, and the Actor network outputs an initial recommended video, and then the current state and initial state of the user.
  • the recommended video composes the user's new state input into the current latest factoring machine model, resulting in a pre-video recommendation set with top-K videos.
  • the pre-video recommendation set is returned to the Critic network, and a video with the highest expected value is output.
  • the state probability transfer matrix is used to calculate whether the user will watch the video with the largest reward expectation value output by the Critic network. If the state probability transfer matrix calculates that the user will eventually watch the video, the video is used as the final recommended video.
  • the method further includes:
  • the recommended video is added to the historical behavior information data of the user as the new state of the user, and is input to the enhanced learning network model after training, and the above steps are executed cyclically, and one recommended video may be outputted once per loop, wherein the loop is performed.
  • the number of iterations depends on the number of videos that need to be recommended for the user, and all recommended videos constitute a collection of recommended videos that are presented to the user.
  • the actual feedback information of the recommended video in the recommended video set by the user is recorded, that is, the viewing condition of the recommended video in the recommended video set by the user in actual operation. According to the actual feedback information, repeat the training steps of the factorization machine model and the reinforcement learning network model to update the factorization machine model and The learning network model is strengthened, and then the video recommendation step is performed according to the updated factorization machine model and the enhanced learning network model, and the latest recommended video for recommending the user is obtained.
  • the method further includes:
  • the predicted score calculated by the predictive scoring matrix is the reward value of the user selecting a certain video. When the predicted score is larger, the user is more likely to select the video.
  • the embodiment of the invention can utilize the advantage of the factorization machine model in recommendation and the structural characteristics of the deep neural network, and construct a video personalized recommendation method based on the theoretical framework Actor-Critic structure of deep reinforcement learning, wherein the reinforcement learning network model utilization factor
  • the pre-recommended video set generated by the decomposition machine model can obtain the video with the largest reward value through the neural network selection recommendation, and then form the interactive system by the user state and the reinforcement learning agent, and continuously generate the recommended video for the user, and finally constitute the user.
  • a collection of videos for personalized recommendations In the process of implementing the recommendation, the large-scale discrete motion is abstracted into a continuous action in the reinforcement learning process, which improves the recommendation speed and ensures the accuracy of the recommendation.
  • the embodiment of the present invention provides a video recommendation system, which can implement all the processes of the video recommendation method.
  • the video recommendation system includes:
  • the collecting module 1 is configured to collect user information data, video information data, and behavior information data generated by the user watching the video;
  • the recommended video obtaining module 3 is configured to acquire historical behavior information data of the user to the currently viewed video, and obtain the user based on the factorization machine model and the trained intensive learning network model according to the historical behavior information data. Recommended video; and,
  • the model optimization module 4 is configured to record actual feedback information of the recommended video by the user, and optimize the factorizer model and the trained enhanced learning network model according to the actual feedback information.
  • model training module specifically includes:
  • a model establishing unit configured to solve a stealth factor feature between the user and the video according to the collected data, and establish the factorization machine model according to the stealth factor feature;
  • a training video acquisition unit configured to input the collected behavior information data to the reinforcement learning network model and the factorization machine model, and obtain a training video with a maximum reward expectation value
  • a reward value calculation unit configured to calculate, according to a pre-established prediction score matrix, a reward value of a training video in which the user views the reward expectation value is the largest, and add the user's viewing behavior data to the behavior information data;
  • a model updating unit configured to update a reinforcement learning network structure weight parameter according to the behavior information data, the reward value, the viewing behavior data, and the added behavior information data, to update the reinforcement learning network model;
  • a model training unit configured to input the added behavior information data to the updated reinforcement learning network model and the factorization machine model to continue to update the reinforcement learning network structure weight parameter until the enhancement is completed Learn the training of the network model.
  • the enhanced learning network model includes an Actor network and a Critic network
  • the recommended video obtaining module specifically includes:
  • An initial recommendation video obtaining unit configured to input the historical behavior information data to the trained enhanced learning network model, and output an initial recommendation video by the Actor network;
  • a pre-video recommendation set obtaining unit configured to input the historical behavior information data and the initial recommendation video to the factorization machine model to obtain a pre-video recommendation set;
  • a video output unit configured to return the pre-video recommendation set to the trained enhanced learning network model, and output, by the Critic network, a video with a maximum expected value
  • a video judging unit configured to simulate, according to a pre-established state probability transition matrix, whether the user views the video with the highest expected value of the reward
  • the recommended video obtaining unit is configured to use, as the recommended video of the user, the video with the largest expected value of the reward when determining that the user views the video with the highest expected value of the bonus.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种视频推荐方法及视频推荐系统,其中,所述方法包括:采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据(S1);根据所采集的数据建立因子分解机模型,并训练强化学习网络模型(S2);获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频(S3);记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型(S4)。通过以上方法能够有效提高视频推荐的准确率和推荐速度。

Description

一种视频推荐方法及系统 技术领域
本发明涉及计算机技术领域,尤其涉及一种视频推荐方法及系统。
背景技术
随着各类视频平台内容的不断丰富和快速地更新速度特点,用户在面对过量的信息却很难找到自己真正感兴趣的内容,因此为用户推荐符合其兴趣品味的视频内容,提高视频推荐的准确率已经成为各大视频平台运营商重点的研究领域之一。
目前常用的推荐算法包括基于内容、知识、图谱的推荐,协同过滤推荐等。其中运用较多的是协同过滤推荐,包含基于用户的协同过滤和基于物品的协同过滤两类推荐算法,协同过滤在不同的应用场景下可以产生较高的准确率,但当用户数或物品数较多时推荐系统的性能则会受到限制,同时难以解决冷启动问题。
发明内容
本发明针对现有技术中存在的问题,提供了一种视频推荐方法及系统,能够有效提高视频推荐的准确率和推荐速度。
本发明就上述技术问题而提出的技术方案如下:
一方面,本发明提供一种视频推荐方法,包括:
采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
进一步地,所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型,具体包括:
根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;
将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频,具体包括:
将所采集的行为信息数据输入至所述强化学习网络模型,由所述Actor网络输出一个训练初始推荐视频;
将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型,获得训练视频推荐集合;
将所述训练视频推荐集合返回至所述强化学习网络模型,由所述Critic网络计算输出一个奖励期望值最大的训练视频。
进一步地,所述根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频,具体包括:
将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
若判定用户观看所述奖励期望值最大的视频,则将所述奖励期望值最大的视频作为用户的推荐视频。
进一步地,在所述将所述奖励期望值最大的视频作为用户的推荐视频之后,还包括:
将所述推荐视频添加到所述历史行为信息数据中,并根据添加后的历史行为信息数据,基于所述因子分解机模型和所述训练后的强化学习网络模型,继续获取用户的推荐视频,直到获取预设数量的推荐视频为止。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
根据所采集的视频信息数据,计算视频与视频之间的相似性,获得视频相似矩阵;
根据所述视频相似矩阵,建立状态概率转移矩阵;
根据用户观看视频所产生的行为信息数据,获得用户对视频的评分矩阵;
根据所述状态概率转移矩阵和所述评分矩阵,建立所有用户对所有视频的预测评分矩阵。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
对所采集的数据进行清洗和入库,以将所采集的数据转换为结构化数据,并存入数据库。
另一方面,本发明提供一种视频推荐系统,包括:
采集模块,用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
模型训练模块,用于根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
推荐视频获取模块,用于获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;以及,
模型优化模块,用于记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
进一步地,所述模型训练模块具体包括:
模型建立单元,用于根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
训练视频获取单元,用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
奖励值计算单元,用于根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
模型更新单元,用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;以及,
模型训练单元,用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述推荐视频获取模块具体包括:
初始推荐视频获取单元,用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
预视频推荐集合获取单元,用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
视频输出单元,用于将所述预视频推荐集合返回至所述训练后的强化学习 网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
视频判断单元,用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;以及,
推荐视频获取单元,用于在判定用户观看所述奖励期望值最大的视频时,将所述奖励期望值最大的视频作为用户的推荐视频。
本发明实施例提供的技术方案带来的有益效果是:
通过采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据,建立因子分解机模型,同时训练强化学习网络模型,以基于因子分解机模型和训练后的强化学习网络模型为用户进行个性化的视频推荐,并根据用户对推荐视频的实际反馈信息,不断优化因子分解机模型和训练后的强化学习网络模型,以将所推荐的视频结果产生的回报率最大化,从而提高推荐的速率和准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的视频推荐方法的流程示意图;
图2是本发明实施例一提供的视频推荐方法中视频推荐原理图;
图3是本发明实施例二提供的视频推荐系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种视频推荐方法,参见图1,该方法包括:
S1、采集用户信息数据、视频信息数据和用户观看视频所产生的行为信 息数据;
S2、根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
S3、获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
S4、记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
需要说明的是,在视频推荐中,数据采集主要包括三个部分:用户信息、视频信息和用户观看视频所产生的行为信息。其中,用户信息具体包括用户ID、性别、年龄、职业、星座、学历、所在地区等用户属性信息;视频信息具体包括视频ID、视频名称、上线时间、出品人、导演演员、视频内容所属类型等标签信息(如爱情片、战争片、文艺片等);行为信息具体包括用户对视频所产生的一系列历史行为信息,可能是评分、评论、点赞、收藏、点击、观看(包含观看时间,观看起始点,快进等具体信息)、在线缓存或下载等用户行为信息。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
对所采集的数据进行清洗和入库,以将所采集的数据转换为结构化数据,并存入数据库。
需要说明的是,在采集数据后,对采集的数据进行清洗和入库等预处理工作流程,具体包括:用户或视频所带属性标签的向量化表达,其中可用word2vec工具对语句或词汇进行向量化表示;用户对视频所产生的历史行为数据,除显性行为(如评分、收藏等行为)外,对其他各类行为类型设置一定的权重参数,从而得到用户对某一视频的综合评分情况。同时,用户观看视频的时间特征也是一个较为重要的因素,在时间序列上反映了用户的兴趣变化和当前视频喜好倾向。将所采集的数据通过预处理后变换为结构化数据,并存入数据库。
进一步地,所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型,具体包括:
根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;
将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
需要说明的是,将所采集的数据进行训练数据和测试数据的分割。其中,训练数据用于建立因子分解机模型,主要通过用户ID、视频ID、用户对视频的评分、观看时间等形成用户-视频数据对,并结合用户信息、视频信息进行矩阵因子分解,求解用户和视频之间一定数量的隐形因子特征,并采用随机梯度下降或最小二乘法或蒙特卡洛算法对因子分解机模型进行优化训练。
因子分解机模型的作用主要是为用户产生一定数量的预推荐视频集合。向因子分解机模型输入某一用户的当前状态,即截止到当前为止用户观看视频的历史行为信息数据,并设置需要为该用户推荐的视频个数,运行因子分解机模型,即可输出该用户的预推荐视频集合。预推荐视频集合包括top-K个预推荐视频,其中top-K参数设定为全部可推荐视频总数的20%。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频,具体包括:
将所采集的行为信息数据输入至所述强化学习网络模型,由所述Actor网络输出一个训练初始推荐视频;
将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型,获得训练视频推荐集合;
将所述训练视频推荐集合返回至所述强化学习网络模型,由所述Critic网络计算输出一个奖励期望值最大的训练视频。
需要说明的是,强化学习网络模型包括Actor、Critic、Actor target、Critic target网络结构,其中,Actor和Critic网络结构为全连接神经网络。在训练强化学习网络模型时,先初始化Actor、Critic、Actor target、Critic target网络结构。进而,随机获取某一用户的当前状态,即所采集的行为信息数据,并将该行为信息数据输入至强化学习网络模型中,由Actor网络产生一个初始动作,即一个训练初始推荐视频。将用户的当前状态和Actor网络产生的初始动作作为一个假设新状态,输入至因子分解机模型中,获得该用户的训练视频推荐集合,其中具有top-K个预推荐训练视频。将因子分解机模型产生的训练视频推荐集合返回至强化学习网络模型中,作为Actor网络可选择的动作集合空间,搜索迭代该动作集合空间,通过Critic网络计算产生一个最终执行动作,即选择一个奖励期望值最大的视频进行推荐。其中,最终执行动作通过以下公式计算获得:
Figure PCTCN2017112123-appb-000001
其中,a表示最终执行动作,Ak表示动作集合空间,
Figure PCTCN2017112123-appb-000002
表示Critic网络在状态s中采取动作aj能够得到的奖励期望值,θQ为Critic网络权重参数,argmax表示选择奖励期望值最大的动作。
映射到实际情景下,用户对Critic网络产生的最终执行动作的反馈分为两种情况,一种是点击该推荐视频,一种是忽略该推荐视频。在强化学习网络模型训练的虚拟模拟中,决定用户是否会点击或观看推荐视频,是通过预先建立的用户-视频的状态概率转移矩阵计算得到,而用户选择最终执行动作的奖励值是通过用户-视频的预测评分矩阵计算得到。
基于预测评分矩阵计算用户在当前状态下选择最终执行动作的奖励值,并将该最终执行动作(即用户观看了该奖励期望值最大的视频的观看行为数据)添加到用户的历史行为信息数据中,得到用户的新状态。将用户当前状态、观看行为数据、奖励值、新状态存入回放缓存中。在回放缓存中进行mini-batch采样,更新强化学习网络结构权值参数,以更新强化学习网络模型。其中,强 化学习网络结构权值参数包括Critic网络的权值参数、Actor网络的权值参数和Critic target、Actor target网络权重参数。
通过最小化损失函数L(θQ)更新Critic网络的权值参数,其更新公式如下:
Figure PCTCN2017112123-appb-000003
Figure PCTCN2017112123-appb-000004
其中,yi表示目标输出,ri表示奖励值,γ表示奖励折扣系数,
Figure PCTCN2017112123-appb-000005
表示Actor网络在状态si+1下选择执行动作ai+1的策略函数,
Figure PCTCN2017112123-appb-000006
表示在状态si+1中采取动作ai+1能够得到的最大奖励值,θQ′为Critic target网络权重参数,θQ为Critic网络权重参数。
利用采样梯度更新Actor网络的权值参数,其更新公式如下:
Figure PCTCN2017112123-appb-000007
其中,θπ表示Actor网络权重参数,
Figure PCTCN2017112123-appb-000008
表示Actor网络在状态s下对应于动作空间的映射函数,
Figure PCTCN2017112123-appb-000009
表示括号内式子对权重θπ的求导数。
另外,Critic target、Actor target网络权重参数的更新公式如下:
θQ′←τθQ+(1-τ)θQ′
θπ′←τθπ+(1-τ)θπ′
其中,τ表示相关系数,θQ、θπ分别表示Critic、Actor网络权重参数,θQ′、θπ′分别表示Critic target、Actor target网络权重参数。
在更新强化学习网络结构权值参数后,将用户的新状态输入至强化学习网络模型,以循环执行上述步骤,持续迭代对强化学习网络结构权值参数进行更新,直到完成强化学习网络模型的训练为止。
进一步地,所述根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频,具体包括:
将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模 型,获得预视频推荐集合;
将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
若判定用户观看所述奖励期望值最大的视频,则将所述奖励期望值最大的视频作为用户的推荐视频。
需要说明的是,在建立因子分解机模型和训练强化学习网络模型后,利用建立的因子分解机模型和训练好的强化学习网络模型对用户进行个性化推荐。先获取用户ID,将用户当前状态,即用户截止到当前所观看视频的历史行为信息数据,输入至训练好的强化学习网络模型中,Actor网络输出一个初始推荐视频,再将用户当前状态与初始推荐视频组成用户新状态输入至当前最新的因子分解机模型中,得到具有top-K个视频的预视频推荐集合。将预视频推荐集合返回至Critic网络中,输出一个奖励期望值最大的视频。经过状态概率转移矩阵计算用户是否会观看Critic网络输出的奖励期望值最大的视频,若状态概率转移矩阵计算出用户最终会观看该视频,则将该视频作为最终的推荐视频。
进一步地,在所述将所述奖励期望值最大的视频作为用户的推荐视频之后,还包括:
将所述推荐视频添加到所述历史行为信息数据中,并根据添加后的历史行为信息数据,基于所述因子分解机模型和所述训练后的强化学习网络模型,继续获取用户的推荐视频,直到获取预设数量的推荐视频为止。
需要说明的是,将推荐视频加入到用户的历史行为信息数据中作为用户的新状态,输入至训练后的强化学习网络模型,循环执行上述步骤,每循环迭代一次可能输出一个推荐视频,其中循环迭代次数取决于需要为用户进行推荐的视频数量,所有推荐视频构成推荐视频集合,展示给用户。
记录用户对推荐视频集合中的推荐视频的实际反馈信息,即用户在实际操作中对推荐视频集合中的推荐视频的观看情况。根据该实际反馈信息,重复上述因子分解机模型和强化学习网络模型的训练步骤,以更新因子分解机模型和 强化学习网络模型,进而再根据更新后的因子分解机模型和强化学习网络模型,执行上述视频推荐步骤,获得对用户进行推荐的最新推荐视频。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
根据所采集的视频信息数据,计算视频与视频之间的相似性,获得视频相似矩阵;
根据所述视频相似矩阵,建立状态概率转移矩阵;
根据用户观看视频所产生的行为信息数据,获得用户对视频的评分矩阵;
根据所述状态概率转移矩阵和所述评分矩阵,建立所有用户对所有视频的预测评分矩阵。
其中,预测评分矩阵计算出的预测评分即为用户选择某一视频的奖励值,当预测评分越大,则认为用户选择该视频的可能性越大。
参见图2,是本发明实施例所提供的视频推荐方法的原理图。先对用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据进行采集和预处理,获取用户状态,将用户状态输入至Actor网络,输出一个预推荐视频,再将用户状态和预推荐视频假设为新状态,输入至因子分解机模型,输出具有top-K个视频的预推荐视频集合,再将预推荐视频集合返回至Critic网络,输出一个最终动作1,将最终动作1添加到用户状态中作为新状态,继续进行视频推荐,以获得最终动作2、最终动作3、……、最终动作N,将N个最终动作构建的视频推荐集合推荐给用户。
本发明实施例能够利用因子分解机模型在推荐上的优势和深度神经网络的结构特点,基于深度强化学习的理论框架Actor-Critic结构构建一种视频个性化推荐方法,其中强化学习网络模型利用因子分解机模型所产生的预推荐视频集合,通过神经网络选择推荐后可获得奖励值最大的视频,然后将用户状态和强化学习智能体形成交互系统,不断地为用户生成推荐视频,最终构成为用户进行个性化推荐的视频集合。在实现推荐的过程中,将大规模离散动作抽象为强化学习过程中的连续动作,在提高推荐速度的同时也保证了推荐的准确率。
实施例二
本发明实施例提供了一种视频推荐系统,能够实现上述视频推荐方法的所有流程,参见图3,所述视频推荐系统包括:
采集模块1,用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
模型训练模块2,用于根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
推荐视频获取模块3,用于获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;以及,
模型优化模块4,用于记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
进一步地,所述模型训练模块具体包括:
模型建立单元,用于根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
训练视频获取单元,用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
奖励值计算单元,用于根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
模型更新单元,用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;以及,
模型训练单元,用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述推荐视频获取模块具体包括:
初始推荐视频获取单元,用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
预视频推荐集合获取单元,用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
视频输出单元,用于将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
视频判断单元,用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;以及,
推荐视频获取单元,用于在判定用户观看所述奖励期望值最大的视频时,将所述奖励期望值最大的视频作为用户的推荐视频。
本发明实施例能够利用因子分解机模型在推荐上的优势和深度神经网络的结构特点,基于深度强化学习的理论框架Actor-Critic结构构建一种视频个性化推荐方法,其中强化学习网络模型利用因子分解机模型所产生的预推荐视频集合,通过神经网络选择推荐后可获得奖励值最大的视频,然后将用户状态和强化学习智能体形成交互系统,不断地为用户生成推荐视频,最终构成为用户进行个性化推荐的视频集合。在实现推荐的过程中,将大规模离散动作抽象为强化学习过程中的连续动作,在提高推荐速度的同时也保证了推荐的准确率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

  1. 一种视频推荐方法,其特征在于,包括:
    采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
    根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
    获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
    记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
  2. 如权利要求1所述的视频推荐方法,其特征在于,所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型,具体包括:
    根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
    将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
    根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
    根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;
    将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
  3. 如权利要求2所述的视频推荐方法,其特征在于,所述强化学习网络模型包括动作Actor网络和评价者Critic网络;
    所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频,具体包括:
    将所采集的行为信息数据输入至所述强化学习网络模型,由所述Actor网 络输出一个训练初始推荐视频;
    将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型,获得训练视频推荐集合;
    将所述训练视频推荐集合返回至所述强化学习网络模型,由所述Critic网络计算输出一个奖励期望值最大的训练视频。
  4. 如权利要求3所述的视频推荐方法,其特征在于,所述根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频,具体包括:
    将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
    将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
    将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
    根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
    若判定用户观看所述奖励期望值最大的视频,则将所述奖励期望值最大的视频作为用户的推荐视频。
  5. 如权利要求4所述的视频推荐方法,其特征在于,在所述将所述奖励期望值最大的视频作为用户的推荐视频之后,还包括:
    将所述推荐视频添加到所述历史行为信息数据中,并根据添加后的历史行为信息数据,基于所述因子分解机模型和所述训练后的强化学习网络模型,继续获取用户的推荐视频,直到获取预设数量的推荐视频为止。
  6. 如权利要求4所述的视频推荐方法,其特征在于,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
    根据所采集的视频信息数据,计算视频与视频之间的相似性,获得视频相似矩阵;
    根据所述视频相似矩阵,建立状态概率转移矩阵;
    根据用户观看视频所产生的行为信息数据,获得用户对视频的评分矩阵;
    根据所述状态概率转移矩阵和所述评分矩阵,建立所有用户对所有视频的预测评分矩阵。
  7. 如权利要求1所述的视频推荐方法,其特征在于,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
    对所采集的数据进行清洗和入库,以将所采集的数据转换为结构化数据,并存入数据库。
  8. 一种视频推荐系统,其特征在于,包括:
    采集模块,用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
    模型训练模块,用于根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
    推荐视频获取模块,用于获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
    模型优化模块,用于记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
  9. 如权利要求8所述的视频推荐系统,其特征在于,所述模型训练模块具体包括:
    模型建立单元,用于根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
    训练视频获取单元,用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
    奖励值计算单元,用于根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
    模型更新单元,用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述 强化学习网络模型;以及,
    模型训练单元,用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
  10. 如权利要求8所述的视频推荐系统,其特征在于,所述强化学习网络模型包括动作Actor网络和评价者Critic网络;
    所述推荐视频获取模块具体包括:
    初始推荐视频获取单元,用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
    预视频推荐集合获取单元,用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
    视频输出单元,用于将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
    视频判断单元,用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
    推荐视频获取单元,用于在判定用户观看所述奖励期望值最大的视频时,将所述奖励期望值最大的视频作为用户的推荐视频。
PCT/CN2017/112123 2017-08-11 2017-11-21 一种视频推荐方法及系统 WO2019029046A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710687544.3A CN107515909B (zh) 2017-08-11 2017-08-11 一种视频推荐方法及系统
CN201710687544.3 2017-08-11

Publications (1)

Publication Number Publication Date
WO2019029046A1 true WO2019029046A1 (zh) 2019-02-14

Family

ID=60723054

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/112123 WO2019029046A1 (zh) 2017-08-11 2017-11-21 一种视频推荐方法及系统

Country Status (2)

Country Link
CN (1) CN107515909B (zh)
WO (1) WO2019029046A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851651A (zh) * 2019-11-08 2020-02-28 杭州趣维科技有限公司 一种个性化视频推荐方法及系统
US20230164569A1 (en) * 2021-11-24 2023-05-25 Samsung Electronics Co., Ltd. System and method for selecting 5g n3iwf server based on context-aware selection criteria
US11983609B2 (en) 2019-07-10 2024-05-14 Sony Interactive Entertainment LLC Dual machine learning pipelines for transforming data and optimizing data transformation

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566287A (zh) * 2018-01-08 2018-09-21 福建星瑞格软件有限公司 一种基于深度学习的集群服务器运维优化方法
CN108280165B (zh) * 2018-01-18 2020-05-05 四川大学 基于状态转移的奖励值音乐推荐方法
CN110097191B (zh) * 2018-01-29 2024-02-27 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
CN108388624B (zh) * 2018-02-12 2022-05-17 科大讯飞股份有限公司 多媒体信息推荐方法及装置
CN108537624B (zh) * 2018-03-09 2021-08-03 西北大学 一种基于深度学习的旅游服务推荐方法
CN108490784B (zh) * 2018-04-19 2024-01-12 云南佳叶现代农业发展有限公司 基于强化学习的烟叶烘烤曲线推荐方法
CN109062919B (zh) * 2018-05-31 2021-06-15 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置
CN108810573B (zh) * 2018-06-14 2022-01-04 广东互通宽带网络服务有限公司 一种支持向量机进行智能流量缓存预测的方法及系统
CN108900594B (zh) * 2018-06-21 2021-03-19 中国联合网络通信集团有限公司 移动视频的优化方法、装置及系统
CN110737799B (zh) * 2018-07-03 2023-06-27 阿里巴巴集团控股有限公司 视频搜索的方法、装置、设备和介质
CN108921221B (zh) * 2018-07-04 2022-11-18 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109388731A (zh) * 2018-08-31 2019-02-26 昆明理工大学 一种基于深度神经网络的音乐推荐方法
CN110933499B (zh) * 2018-09-19 2021-12-24 飞狐信息技术(天津)有限公司 一种视频点击率的预估方法及装置
CN109543066B (zh) 2018-10-31 2021-04-23 北京达佳互联信息技术有限公司 视频推荐方法、装置和计算机可读存储介质
GB2596923B (en) * 2018-11-29 2022-12-14 January Inc Systems, methods, and devices for biophysical modeling and response prediction
CN111263229B (zh) * 2018-11-30 2023-06-16 南京超聚通信科技有限公司 一种视频分发方法、装置及电子设备
CN109408729B (zh) * 2018-12-05 2022-02-08 广州市百果园信息技术有限公司 推荐物料确定方法、装置、存储介质和计算机设备
CN109451038A (zh) * 2018-12-06 2019-03-08 北京达佳互联信息技术有限公司 一种信息推送方法、装置、服务器及计算机可读存储介质
CN111382307B (zh) * 2018-12-27 2023-10-17 深圳Tcl新技术有限公司 一种基于深度神经网络的视频推荐方法、系统及存储介质
CN111385659B (zh) * 2018-12-29 2021-08-17 广州市百果园信息技术有限公司 一种视频推荐方法、装置、设备及存储介质
CN109831684B (zh) * 2019-03-11 2022-08-19 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN111753182B (zh) * 2019-03-28 2024-05-17 北京达佳互联信息技术有限公司 多媒体信息推荐方法、装置、电子设备及可读存储介质
CN110135951B (zh) * 2019-05-15 2021-07-27 网易(杭州)网络有限公司 游戏商品的推荐方法、装置及可读存储介质
US11281734B2 (en) * 2019-07-03 2022-03-22 International Business Machines Corporation Personalized recommender with limited data availability
CN110413893A (zh) * 2019-07-31 2019-11-05 腾讯科技(北京)有限公司 对象推送方法、装置、计算机设备及存储介质
CN110727855A (zh) * 2019-08-28 2020-01-24 广东工业大学 一种基于改进因子分解机的个性化推荐方法
CN110851699A (zh) * 2019-09-16 2020-02-28 中国平安人寿保险股份有限公司 基于深度强化学习的信息流推荐方法、装置、设备及介质
CN110851707B (zh) * 2019-10-11 2021-06-04 筑客网络技术(上海)有限公司 一种用于建材招投标平台的智能推荐方法
CN110659947A (zh) * 2019-10-11 2020-01-07 沈阳民航东北凯亚有限公司 商品推荐方法及装置
CN112712385B (zh) * 2019-10-25 2024-01-12 北京达佳互联信息技术有限公司 广告推荐方法、装置、电子设备及存储介质
CN110825966B (zh) * 2019-10-31 2022-03-04 广州市百果园信息技术有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质
CN111104595B (zh) * 2019-12-16 2023-04-07 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111158546B (zh) * 2019-12-27 2022-02-11 北京奇艺世纪科技有限公司 媒体信息的展示方法和装置、存储介质、电子装置
CN111159558B (zh) * 2019-12-31 2023-07-18 支付宝(杭州)信息技术有限公司 一种推荐列表的生成方法、装置和电子设备
CN113254795B (zh) * 2020-02-11 2023-11-07 北京京东振世信息技术有限公司 一种推荐模型的训练方法和装置
CN111858846A (zh) * 2020-03-05 2020-10-30 北京嘀嘀无限科技发展有限公司 一种信息处理方法及装置
CN111488488A (zh) * 2020-04-10 2020-08-04 杭州趣维科技有限公司 一种基于图挖掘的用户兴趣探测方法
CN113596528B (zh) * 2020-04-30 2022-10-04 北京达佳互联信息技术有限公司 视频推送模型的训练方法、装置、服务器及存储介质
CN112529636A (zh) * 2020-12-18 2021-03-19 平安科技(深圳)有限公司 商品推荐方法、装置、计算机设备及介质
CN112507104B (zh) * 2020-12-18 2022-07-22 北京百度网讯科技有限公司 对话系统获取方法、装置、存储介质及计算机程序产品
CN113065060B (zh) * 2021-02-18 2022-11-29 山东师范大学 基于深度学习的教育平台课程推荐方法及系统
CN113207010B (zh) * 2021-06-02 2022-06-17 清华大学 模型训练方法、直播推荐方法、设备、存储介质
CN115065872A (zh) * 2022-06-17 2022-09-16 联通沃音乐文化有限公司 一种影音视频的智能推荐方法及系统
CN117235366B (zh) * 2023-09-19 2024-06-18 北京学说科技有限公司 基于内容关联性的协同推荐方法及系统
CN117440182B (zh) * 2023-10-25 2024-06-07 北京华星酷娱文化传媒有限公司 一种基于视频内容分析和用户标签的智能推荐方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102957950A (zh) * 2012-07-23 2013-03-06 华东师范大学 一种用于视频推荐的用户隐式评分方法
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法
US20140304265A1 (en) * 2013-04-08 2014-10-09 Art.Com, Inc. Discovering and presenting décor harmonized with a décor style
CN104156472A (zh) * 2014-08-25 2014-11-19 四达时代通讯网络技术有限公司 一种视频推荐方法及系统
CN104331411A (zh) * 2014-09-19 2015-02-04 华为技术有限公司 推荐项目的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339562A (zh) * 2008-08-15 2009-01-07 北京航空航天大学 引入兴趣模型反馈更新机制的门户个性化推荐服务系统
US9064017B2 (en) * 2011-06-01 2015-06-23 D2L Corporation Systems and methods for providing information incorporating reinforcement-based learning and feedback
CN105488216B (zh) * 2015-12-17 2020-08-21 上海中彦信息科技股份有限公司 基于隐式反馈协同过滤算法的推荐系统及方法
CN106940801B (zh) * 2016-01-04 2019-10-22 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102957950A (zh) * 2012-07-23 2013-03-06 华东师范大学 一种用于视频推荐的用户隐式评分方法
US20140304265A1 (en) * 2013-04-08 2014-10-09 Art.Com, Inc. Discovering and presenting décor harmonized with a décor style
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法
CN104156472A (zh) * 2014-08-25 2014-11-19 四达时代通讯网络技术有限公司 一种视频推荐方法及系统
CN104331411A (zh) * 2014-09-19 2015-02-04 华为技术有限公司 推荐项目的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983609B2 (en) 2019-07-10 2024-05-14 Sony Interactive Entertainment LLC Dual machine learning pipelines for transforming data and optimizing data transformation
CN110851651A (zh) * 2019-11-08 2020-02-28 杭州趣维科技有限公司 一种个性化视频推荐方法及系统
CN110851651B (zh) * 2019-11-08 2022-07-22 杭州小影创新科技股份有限公司 一种个性化视频推荐方法及系统
US20230164569A1 (en) * 2021-11-24 2023-05-25 Samsung Electronics Co., Ltd. System and method for selecting 5g n3iwf server based on context-aware selection criteria

Also Published As

Publication number Publication date
CN107515909B (zh) 2020-05-19
CN107515909A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
WO2019029046A1 (zh) 一种视频推荐方法及系统
US10713317B2 (en) Conversational agent for search
EP4181026A1 (en) Recommendation model training method and apparatus, recommendation method and apparatus, and computer-readable medium
US11574207B2 (en) Proximal factorization machine interface engine
US20150356658A1 (en) Systems And Methods For Serving Product Recommendations
CN106447463A (zh) 一种基于马尔科夫决策过程模型的商品推荐方法
CN105760443A (zh) 项目推荐系统、项目推荐装置以及项目推荐方法
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
Chen et al. Generative inverse deep reinforcement learning for online recommendation
WO2020065611A1 (en) Recommendation method and system and method and system for improving a machine learning system
Dai et al. BTR: a feature-based Bayesian task recommendation scheme for crowdsourcing system
Chen et al. Session-based recommendation: Learning multi-dimension interests via a multi-head attention graph neural network
KR102368043B1 (ko) 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법
CN115631008B (zh) 商品推荐方法、装置、设备及介质
Lu et al. Multi-trends enhanced dynamic micro-video recommendation
Hossain et al. Development of an Intelligent Job Recommender System for Freelancers using Client's Feedback Classification and Association Rule Mining Techniques.
JP2023533723A (ja) 検索クエリについての解釈の評価
CN116484092A (zh) 基于用户长短期偏好的分层注意力网络序列推荐方法
Zhong et al. Incorporating tie strength in robust social recommendation
CN110851708A (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN115600009A (zh) 一种考虑用户未来偏好的基于深度强化学习的推荐方法
CN113569139A (zh) 一种个性化会话推荐方法和系统
JP2013029896A (ja) アイテム推薦装置及び方法及びプログラム
Chang et al. A Stock-Movement Aware Approach for Discovering Investors' Personalized Preferences in Stock Markets
CN115470397B (zh) 内容推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 25/06/2020).

122 Ep: pct application non-entry in european phase

Ref document number: 17920767

Country of ref document: EP

Kind code of ref document: A1