WO2019029046A1

WO2019029046A1 - 一种视频推荐方法及系统

Info

Publication number: WO2019029046A1
Application number: PCT/CN2017/112123
Authority: WO
Inventors: 张桐; 刘海宝; 汪念
Original assignee: 深圳市耐飞科技有限公司
Priority date: 2017-08-11
Filing date: 2017-11-21
Publication date: 2019-02-14
Also published as: CN107515909B; CN107515909A

Abstract

一种视频推荐方法及视频推荐系统，其中，所述方法包括：采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据（S1）；根据所采集的数据建立因子分解机模型，并训练强化学习网络模型（S2）；获取用户截止到当前所观看视频的历史行为信息数据，并根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频（S3）；记录用户对所述推荐视频的实际反馈信息，并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型（S4）。通过以上方法能够有效提高视频推荐的准确率和推荐速度。

Description

一种视频推荐方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频推荐方法及系统。

背景技术

随着各类视频平台内容的不断丰富和快速地更新速度特点，用户在面对过量的信息却很难找到自己真正感兴趣的内容，因此为用户推荐符合其兴趣品味的视频内容，提高视频推荐的准确率已经成为各大视频平台运营商重点的研究领域之一。

目前常用的推荐算法包括基于内容、知识、图谱的推荐，协同过滤推荐等。其中运用较多的是协同过滤推荐，包含基于用户的协同过滤和基于物品的协同过滤两类推荐算法，协同过滤在不同的应用场景下可以产生较高的准确率，但当用户数或物品数较多时推荐系统的性能则会受到限制，同时难以解决冷启动问题。

发明内容

本发明针对现有技术中存在的问题，提供了一种视频推荐方法及系统，能够有效提高视频推荐的准确率和推荐速度。

本发明就上述技术问题而提出的技术方案如下：

一方面，本发明提供一种视频推荐方法，包括：

采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据；

根据所采集的数据建立因子分解机模型，并训练强化学习网络模型；

获取用户截止到当前所观看视频的历史行为信息数据，并根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频；

记录用户对所述推荐视频的实际反馈信息，并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。

进一步地，所述根据所采集的数据建立因子分解机模型，并训练强化学习网络模型，具体包括：

根据所采集的数据求解用户与视频之间的隐形因子特征，并根据所述隐形因子特征建立所述因子分解机模型；

将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型，计算获得一个奖励期望值最大的训练视频；

根据预先建立的预测评分矩阵，计算用户观看所述奖励期望值最大的训练视频的奖励值，并将用户的观看行为数据添加到所述行为信息数据中；

根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据，更新强化学习网络结构权值参数，以更新所述强化学习网络模型；

将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型，以继续更新所述强化学习网络结构权值参数，直到完成所述强化学习网络模型的训练为止。

进一步地，所述强化学习网络模型包括Actor网络和Critic网络；

所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型，计算获得一个奖励期望值最大的训练视频，具体包括：

将所采集的行为信息数据输入至所述强化学习网络模型，由所述Actor网络输出一个训练初始推荐视频；

将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型，获得训练视频推荐集合；

将所述训练视频推荐集合返回至所述强化学习网络模型，由所述Critic网络计算输出一个奖励期望值最大的训练视频。

进一步地，所述根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频，具体包括：

将所述历史行为信息数据输入至所述训练后的强化学习网络模型，由所述Actor网络输出一个初始推荐视频；

将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型，获得预视频推荐集合；

将所述预视频推荐集合返回至所述训练后的强化学习网络模型，由所述Critic网络输出一个奖励期望值最大的视频；

根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频；

若判定用户观看所述奖励期望值最大的视频，则将所述奖励期望值最大的视频作为用户的推荐视频。

进一步地，在所述将所述奖励期望值最大的视频作为用户的推荐视频之后，还包括：

将所述推荐视频添加到所述历史行为信息数据中，并根据添加后的历史行为信息数据，基于所述因子分解机模型和所述训练后的强化学习网络模型，继续获取用户的推荐视频，直到获取预设数量的推荐视频为止。

进一步地，在所述根据所采集的数据建立因子分解机模型，并训练强化学习网络模型之前，还包括：

根据所采集的视频信息数据，计算视频与视频之间的相似性，获得视频相似矩阵；

根据所述视频相似矩阵，建立状态概率转移矩阵；

根据用户观看视频所产生的行为信息数据，获得用户对视频的评分矩阵；

根据所述状态概率转移矩阵和所述评分矩阵，建立所有用户对所有视频的预测评分矩阵。

对所采集的数据进行清洗和入库，以将所采集的数据转换为结构化数据，并存入数据库。

另一方面，本发明提供一种视频推荐系统，包括：

采集模块，用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据；

模型训练模块，用于根据所采集的数据建立因子分解机模型，并训练强化学习网络模型；

推荐视频获取模块，用于获取用户截止到当前所观看视频的历史行为信息数据，并根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频；以及，

模型优化模块，用于记录用户对所述推荐视频的实际反馈信息，并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。

进一步地，所述模型训练模块具体包括：

模型建立单元，用于根据所采集的数据求解用户与视频之间的隐形因子特征，并根据所述隐形因子特征建立所述因子分解机模型；

训练视频获取单元，用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型，计算获得一个奖励期望值最大的训练视频；

奖励值计算单元，用于根据预先建立的预测评分矩阵，计算用户观看所述奖励期望值最大的训练视频的奖励值，并将用户的观看行为数据添加到所述行为信息数据中；

模型更新单元，用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据，更新强化学习网络结构权值参数，以更新所述强化学习网络模型；以及，

模型训练单元，用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型，以继续更新所述强化学习网络结构权值参数，直到完成所述强化学习网络模型的训练为止。

所述推荐视频获取模块具体包括：

初始推荐视频获取单元，用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型，由所述Actor网络输出一个初始推荐视频；

预视频推荐集合获取单元，用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型，获得预视频推荐集合；

视频输出单元，用于将所述预视频推荐集合返回至所述训练后的强化学习网络模型，由所述Critic网络输出一个奖励期望值最大的视频；

视频判断单元，用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频；以及，

推荐视频获取单元，用于在判定用户观看所述奖励期望值最大的视频时，将所述奖励期望值最大的视频作为用户的推荐视频。

本发明实施例提供的技术方案带来的有益效果是：

通过采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据，建立因子分解机模型，同时训练强化学习网络模型，以基于因子分解机模型和训练后的强化学习网络模型为用户进行个性化的视频推荐，并根据用户对推荐视频的实际反馈信息，不断优化因子分解机模型和训练后的强化学习网络模型，以将所推荐的视频结果产生的回报率最大化，从而提高推荐的速率和准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的视频推荐方法的流程示意图；

图2是本发明实施例一提供的视频推荐方法中视频推荐原理图；

图3是本发明实施例二提供的视频推荐系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种视频推荐方法，参见图1，该方法包括：

S1、采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据；

S2、根据所采集的数据建立因子分解机模型，并训练强化学习网络模型；

S3、获取用户截止到当前所观看视频的历史行为信息数据，并根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频；

S4、记录用户对所述推荐视频的实际反馈信息，并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。

需要说明的是，在视频推荐中，数据采集主要包括三个部分：用户信息、视频信息和用户观看视频所产生的行为信息。其中，用户信息具体包括用户ID、性别、年龄、职业、星座、学历、所在地区等用户属性信息；视频信息具体包括视频ID、视频名称、上线时间、出品人、导演演员、视频内容所属类型等标签信息(如爱情片、战争片、文艺片等)；行为信息具体包括用户对视频所产生的一系列历史行为信息，可能是评分、评论、点赞、收藏、点击、观看(包含观看时间，观看起始点，快进等具体信息)、在线缓存或下载等用户行为信息。

需要说明的是，在采集数据后，对采集的数据进行清洗和入库等预处理工作流程，具体包括：用户或视频所带属性标签的向量化表达，其中可用word2vec工具对语句或词汇进行向量化表示；用户对视频所产生的历史行为数据，除显性行为(如评分、收藏等行为)外，对其他各类行为类型设置一定的权重参数，从而得到用户对某一视频的综合评分情况。同时，用户观看视频的时间特征也是一个较为重要的因素，在时间序列上反映了用户的兴趣变化和当前视频喜好倾向。将所采集的数据通过预处理后变换为结构化数据，并存入数据库。

需要说明的是，将所采集的数据进行训练数据和测试数据的分割。其中，训练数据用于建立因子分解机模型，主要通过用户ID、视频ID、用户对视频的评分、观看时间等形成用户-视频数据对，并结合用户信息、视频信息进行矩阵因子分解，求解用户和视频之间一定数量的隐形因子特征，并采用随机梯度下降或最小二乘法或蒙特卡洛算法对因子分解机模型进行优化训练。

因子分解机模型的作用主要是为用户产生一定数量的预推荐视频集合。向因子分解机模型输入某一用户的当前状态，即截止到当前为止用户观看视频的历史行为信息数据，并设置需要为该用户推荐的视频个数，运行因子分解机模型，即可输出该用户的预推荐视频集合。预推荐视频集合包括top-K个预推荐视频，其中top-K参数设定为全部可推荐视频总数的20％。

需要说明的是，强化学习网络模型包括Actor、Critic、Actor target、Critic target网络结构，其中，Actor和Critic网络结构为全连接神经网络。在训练强化学习网络模型时，先初始化Actor、Critic、Actor target、Critic target网络结构。进而，随机获取某一用户的当前状态，即所采集的行为信息数据，并将该行为信息数据输入至强化学习网络模型中，由Actor网络产生一个初始动作，即一个训练初始推荐视频。将用户的当前状态和Actor网络产生的初始动作作为一个假设新状态，输入至因子分解机模型中，获得该用户的训练视频推荐集合，其中具有top-K个预推荐训练视频。将因子分解机模型产生的训练视频推荐集合返回至强化学习网络模型中，作为Actor网络可选择的动作集合空间，搜索迭代该动作集合空间，通过Critic网络计算产生一个最终执行动作，即选择一个奖励期望值最大的视频进行推荐。其中，最终执行动作通过以下公式计算获得：

其中，a表示最终执行动作，A_k表示动作集合空间，

表示Critic网络在状态s中采取动作a_j能够得到的奖励期望值，θ^Q为Critic网络权重参数，argmax表示选择奖励期望值最大的动作。

映射到实际情景下，用户对Critic网络产生的最终执行动作的反馈分为两种情况，一种是点击该推荐视频，一种是忽略该推荐视频。在强化学习网络模型训练的虚拟模拟中，决定用户是否会点击或观看推荐视频，是通过预先建立的用户-视频的状态概率转移矩阵计算得到，而用户选择最终执行动作的奖励值是通过用户-视频的预测评分矩阵计算得到。

基于预测评分矩阵计算用户在当前状态下选择最终执行动作的奖励值，并将该最终执行动作(即用户观看了该奖励期望值最大的视频的观看行为数据)添加到用户的历史行为信息数据中，得到用户的新状态。将用户当前状态、观看行为数据、奖励值、新状态存入回放缓存中。在回放缓存中进行mini-batch采样，更新强化学习网络结构权值参数，以更新强化学习网络模型。其中，强化学习网络结构权值参数包括Critic网络的权值参数、Actor网络的权值参数和Critic target、Actor target网络权重参数。

通过最小化损失函数L(θ^Q)更新Critic网络的权值参数，其更新公式如下：

其中，y_i表示目标输出，r_i表示奖励值，γ表示奖励折扣系数，

表示Actor网络在状态s_i+1下选择执行动作a_i+1的策略函数，

表示在状态s_i+1中采取动作a_i+1能够得到的最大奖励值，θ^Q′为Critic target网络权重参数，θ^Q为Critic网络权重参数。

利用采样梯度更新Actor网络的权值参数，其更新公式如下：

其中，θ^π表示Actor网络权重参数，

表示Actor网络在状态s下对应于动作空间的映射函数，

表示括号内式子对权重θ^π的求导数。

另外，Critic target、Actor target网络权重参数的更新公式如下：

θ^Q′←τθ^Q+(1-τ)θ^Q′；

θ^π′←τθ^π+(1-τ)θ^π′；

其中，τ表示相关系数，θ^Q、θ^π分别表示Critic、Actor网络权重参数，θ^Q′、θ^π′分别表示Critic target、Actor target网络权重参数。

在更新强化学习网络结构权值参数后，将用户的新状态输入至强化学习网络模型，以循环执行上述步骤，持续迭代对强化学习网络结构权值参数进行更新，直到完成强化学习网络模型的训练为止。

需要说明的是，在建立因子分解机模型和训练强化学习网络模型后，利用建立的因子分解机模型和训练好的强化学习网络模型对用户进行个性化推荐。先获取用户ID，将用户当前状态，即用户截止到当前所观看视频的历史行为信息数据，输入至训练好的强化学习网络模型中，Actor网络输出一个初始推荐视频，再将用户当前状态与初始推荐视频组成用户新状态输入至当前最新的因子分解机模型中，得到具有top-K个视频的预视频推荐集合。将预视频推荐集合返回至Critic网络中，输出一个奖励期望值最大的视频。经过状态概率转移矩阵计算用户是否会观看Critic网络输出的奖励期望值最大的视频，若状态概率转移矩阵计算出用户最终会观看该视频，则将该视频作为最终的推荐视频。

需要说明的是，将推荐视频加入到用户的历史行为信息数据中作为用户的新状态，输入至训练后的强化学习网络模型，循环执行上述步骤，每循环迭代一次可能输出一个推荐视频，其中循环迭代次数取决于需要为用户进行推荐的视频数量，所有推荐视频构成推荐视频集合，展示给用户。

记录用户对推荐视频集合中的推荐视频的实际反馈信息，即用户在实际操作中对推荐视频集合中的推荐视频的观看情况。根据该实际反馈信息，重复上述因子分解机模型和强化学习网络模型的训练步骤，以更新因子分解机模型和强化学习网络模型，进而再根据更新后的因子分解机模型和强化学习网络模型，执行上述视频推荐步骤，获得对用户进行推荐的最新推荐视频。

根据所述视频相似矩阵，建立状态概率转移矩阵；

其中，预测评分矩阵计算出的预测评分即为用户选择某一视频的奖励值，当预测评分越大，则认为用户选择该视频的可能性越大。

参见图2，是本发明实施例所提供的视频推荐方法的原理图。先对用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据进行采集和预处理，获取用户状态，将用户状态输入至Actor网络，输出一个预推荐视频，再将用户状态和预推荐视频假设为新状态，输入至因子分解机模型，输出具有top-K个视频的预推荐视频集合，再将预推荐视频集合返回至Critic网络，输出一个最终动作1，将最终动作1添加到用户状态中作为新状态，继续进行视频推荐，以获得最终动作2、最终动作3、……、最终动作N，将N个最终动作构建的视频推荐集合推荐给用户。

本发明实施例能够利用因子分解机模型在推荐上的优势和深度神经网络的结构特点，基于深度强化学习的理论框架Actor-Critic结构构建一种视频个性化推荐方法，其中强化学习网络模型利用因子分解机模型所产生的预推荐视频集合，通过神经网络选择推荐后可获得奖励值最大的视频，然后将用户状态和强化学习智能体形成交互系统，不断地为用户生成推荐视频，最终构成为用户进行个性化推荐的视频集合。在实现推荐的过程中，将大规模离散动作抽象为强化学习过程中的连续动作，在提高推荐速度的同时也保证了推荐的准确率。

实施例二

本发明实施例提供了一种视频推荐系统，能够实现上述视频推荐方法的所有流程，参见图3，所述视频推荐系统包括：

采集模块1，用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据；

模型训练模块2，用于根据所采集的数据建立因子分解机模型，并训练强化学习网络模型；

推荐视频获取模块3，用于获取用户截止到当前所观看视频的历史行为信息数据，并根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频；以及，

模型优化模块4，用于记录用户对所述推荐视频的实际反馈信息，并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。

进一步地，所述模型训练模块具体包括：

所述推荐视频获取模块具体包括：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种视频推荐方法，其特征在于，包括：

采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据；

根据所采集的数据建立因子分解机模型，并训练强化学习网络模型；

获取用户截止到当前所观看视频的历史行为信息数据，并根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频；

记录用户对所述推荐视频的实际反馈信息，并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
如权利要求1所述的视频推荐方法，其特征在于，所述根据所采集的数据建立因子分解机模型，并训练强化学习网络模型，具体包括：

根据所采集的数据求解用户与视频之间的隐形因子特征，并根据所述隐形因子特征建立所述因子分解机模型；

将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型，计算获得一个奖励期望值最大的训练视频；

根据预先建立的预测评分矩阵，计算用户观看所述奖励期望值最大的训练视频的奖励值，并将用户的观看行为数据添加到所述行为信息数据中；

根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据，更新强化学习网络结构权值参数，以更新所述强化学习网络模型；

将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型，以继续更新所述强化学习网络结构权值参数，直到完成所述强化学习网络模型的训练为止。
如权利要求2所述的视频推荐方法，其特征在于，所述强化学习网络模型包括动作Actor网络和评价者Critic网络；

所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型，计算获得一个奖励期望值最大的训练视频，具体包括：

将所采集的行为信息数据输入至所述强化学习网络模型，由所述Actor网络输出一个训练初始推荐视频；

将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型，获得训练视频推荐集合；

将所述训练视频推荐集合返回至所述强化学习网络模型，由所述Critic网络计算输出一个奖励期望值最大的训练视频。
如权利要求3所述的视频推荐方法，其特征在于，所述根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频，具体包括：

将所述历史行为信息数据输入至所述训练后的强化学习网络模型，由所述Actor网络输出一个初始推荐视频；

将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型，获得预视频推荐集合；

将所述预视频推荐集合返回至所述训练后的强化学习网络模型，由所述Critic网络输出一个奖励期望值最大的视频；

根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频；

若判定用户观看所述奖励期望值最大的视频，则将所述奖励期望值最大的视频作为用户的推荐视频。
如权利要求4所述的视频推荐方法，其特征在于，在所述将所述奖励期望值最大的视频作为用户的推荐视频之后，还包括：

将所述推荐视频添加到所述历史行为信息数据中，并根据添加后的历史行为信息数据，基于所述因子分解机模型和所述训练后的强化学习网络模型，继续获取用户的推荐视频，直到获取预设数量的推荐视频为止。
如权利要求4所述的视频推荐方法，其特征在于，在所述根据所采集的数据建立因子分解机模型，并训练强化学习网络模型之前，还包括：

根据所采集的视频信息数据，计算视频与视频之间的相似性，获得视频相似矩阵；

根据所述视频相似矩阵，建立状态概率转移矩阵；

根据用户观看视频所产生的行为信息数据，获得用户对视频的评分矩阵；

根据所述状态概率转移矩阵和所述评分矩阵，建立所有用户对所有视频的预测评分矩阵。
如权利要求1所述的视频推荐方法，其特征在于，在所述根据所采集的数据建立因子分解机模型，并训练强化学习网络模型之前，还包括：

对所采集的数据进行清洗和入库，以将所采集的数据转换为结构化数据，并存入数据库。
一种视频推荐系统，其特征在于，包括：

采集模块，用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据；

模型训练模块，用于根据所采集的数据建立因子分解机模型，并训练强化学习网络模型；

推荐视频获取模块，用于获取用户截止到当前所观看视频的历史行为信息数据，并根据所述历史行为信息数据，基于所述因子分解机模型和训练后的强化学习网络模型，获得用户的推荐视频；

模型优化模块，用于记录用户对所述推荐视频的实际反馈信息，并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
如权利要求8所述的视频推荐系统，其特征在于，所述模型训练模块具体包括：

模型建立单元，用于根据所采集的数据求解用户与视频之间的隐形因子特征，并根据所述隐形因子特征建立所述因子分解机模型；

训练视频获取单元，用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型，计算获得一个奖励期望值最大的训练视频；

奖励值计算单元，用于根据预先建立的预测评分矩阵，计算用户观看所述奖励期望值最大的训练视频的奖励值，并将用户的观看行为数据添加到所述行为信息数据中；

模型更新单元，用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据，更新强化学习网络结构权值参数，以更新所述强化学习网络模型；以及，

模型训练单元，用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型，以继续更新所述强化学习网络结构权值参数，直到完成所述强化学习网络模型的训练为止。
如权利要求8所述的视频推荐系统，其特征在于，所述强化学习网络模型包括动作Actor网络和评价者Critic网络；

所述推荐视频获取模块具体包括：

初始推荐视频获取单元，用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型，由所述Actor网络输出一个初始推荐视频；

预视频推荐集合获取单元，用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型，获得预视频推荐集合；

视频输出单元，用于将所述预视频推荐集合返回至所述训练后的强化学习网络模型，由所述Critic网络输出一个奖励期望值最大的视频；

视频判断单元，用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频；

推荐视频获取单元，用于在判定用户观看所述奖励期望值最大的视频时，将所述奖励期望值最大的视频作为用户的推荐视频。