WO2021042826A1

WO2021042826A1 - 一种视频播放完整度预测方法及装置

Info

Publication number: WO2021042826A1
Application number: PCT/CN2020/097861
Authority: WO
Inventors: 许良武
Original assignee: 苏宁云计算有限公司
Priority date: 2019-09-05
Filing date: 2020-06-24
Publication date: 2021-03-11
Also published as: CN110704674A; CN110704674B; CA3153598A1

Abstract

一种视频播放完整度预测方法及装置，属于大数据及深度学习技术领域。所述方法包括：输入用户视频播放特征向量的待测数据（101）；通过预设视频播放完整度预测模型进行计算（102）；输出所述待测数据的视频播放完整度值（103），其中，所述预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，所述用户视频播放特征向量至少包括用户特征向量和视频特征向量。该方法通过引入播放完整度改进策略，对用户视频播放完整度预测，在观看时长这一重要信息流方面获取了用户更贴近真实的兴趣数据，提升了对用户兴趣的识别准确度，从而提升了推荐的真实相关度，实现了用户观看时长和满意度的较大提升。

Description

一种视频播放完整度预测方法及装置

技术领域

本发明涉及大数据及深度学习技术领域，特别涉及一种视频播放完整度预测方法及装置。

背景技术

视频推荐系统就是在海量用户和视频的基础上，依托大数据分析和人工智能技术，通过研究用户的兴趣偏好构建视频推荐系统，将用户感兴趣的高质量视频推荐给目标用户，解决信息过载问题，达到千人千面的效果，提升用户停留时长和满意度。视频推荐系统通常包括召回和排序两个阶段，召回阶段就是从海量视频里选出一部分候选集，排序阶段就是对召回阶段的候选集进行更精准的统一计算，从候选集中筛选出用户最感兴趣的少量优质视频。

目前有些视频播放平台注册用户数达数亿，日均UV(UniqueVisitor，独立访问用户数)超过千万，移动端日均播放量则更高。为了使得用户在海量视频中发现自己感兴趣的内容。通过收集多个维度的数据(包含用户的基本信息、用户的播放历史、视频的属性、环境的属性等)，构建推荐系统，将用户和潜在喜欢的视频联系起来。短视频推荐可以使用的信息较少，一般只有标题和视频类别等信息，目前常用的排序模型采用CTR(Click-Through-Rate，点击通过率)预估的方法。基于点击模型可能助长了标题党，这样并不能带来用户停留时长的提升，影响用户观看时长和满意度的提升。而观看时长作为信息流的重要优化目标，因此在短视频排序模型迫切需要引入播放完整度优化，提升推荐的真实相关度，以达到用户观看时长和满意度的提升。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种视频播放完整度预测方法及装置，通过引入播放完整度改进策略，对用户视频播放完整度预测，在观看时长这一重要信息流方面获取了用户更贴近真实的兴趣数据，提升了对用户兴趣的识别准确度，从而提升了推荐的真实相关度，实现了用户观看时长和满意度的较大提升。

所述技术方案如下：

一方面，提供了一种视频播放完整度预测方法，所述方法包括：

输入用户视频播放特征向量的待测数据；

通过预设视频播放完整度预测模型进行计算；

输出所述待测数据的视频播放完整度值，

其中，所述预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，所述用户视频播放特征向量至少包括用户特征向量和视频特征向量。

进一步地，所述方法还包括：

收集用户视频播放信息数据；

对所述用户视频播放信息数据进行筛选，获取筛选结果；

对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据。

进一步地，收集所述用户视频播放信息数据，包括：获取包括用户信息、用户播放历史信息、视频信息及用户客户端信息在内的所述用户视频播放信息数据；和/或，

对所述用户视频播放信息数据进行筛选，获取筛选结果，包括：利用包括用户协同、用户搜索、主题模型、热门推荐、用户画像和视频标签的多通道召回方式，对所述用户视频播放信息数据进行筛选，获取筛选结果；和/或，

对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据，包括：利用通过word2vec模型和IDF权值训练对预设海量语料库训练得到的词向量，对所述筛选结果中的视频标题和视频分类标签进行分词，生成视频词向量，然后根据所述用户播放历史信息结合时间衰减进行词向量计算，生成用户词向量。

进一步地，所述预设视频播放完整度预测模型包含三个隐藏层的DNN。

进一步地，所述预设视频播放完整度预测模型是通过将所述用户视频播放训练数据输入训练得到的，其中，所述用户视频播放训练数据为自变量，所述用户观看历史视频播放完整度值为因变量，所述用户视频播放训练数据是根据用户播放历史信息构建的历史用户向量、历史视频向量组合的特征向量。

进一步地，所述方法还包括：

对所述待测数据的视频播放完整度值进行由高到低的排序操作，获取top N的视频排序结果，将所述视频排序结果根据优先级别推荐给对应用户，其中N为大于1的整数。

另一方面，提供了一种视频播放完整度预测装置，所述装置包括模型计算模块，所述模型计算模块用于：

输入用户视频播放特征向量的待测数据，通过预设视频播放完整度预测模型进行计算，输出所述待测数据的视频播放完整度值，其中，所述预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，所述用户视频播放特征向量至少包括用户特征向量和视频特征向量。

进一步地，所述装置还包括数据收集模块、数据筛选模块和向量生成模块，所述数据收集模块收集所述用户视频播放信息数据；所述数据筛选模块对所述用户视频播放信息数据进行筛选，获取筛选结果；所述向量生成模块对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据。

进一步地，所述数据收集模块获取包括用户信息、用户播放历史信息、视频信息及用户客户端信息在内的所述用户视频播放信息数据；和/或，

所述数据筛选模块利用包括用户协同、用户搜索、主题模型、热门推荐、用户画像和视频标签的多通道召回方式，对所述用户视频播放信息数据进行筛选，获取筛选结果；和/或，

所述向量生成模块对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据，包括：利用通过word2vec模型和IDF权值训练对预设海量语料库训练得到的词向量，对所述筛选结果中的视频标题和视频分类标签进行分词，生成视频词向量，然后根据所述用户播放历史信息结合时间衰减进行词向量计算，生成用户词向量。

进一步地，所述装置还包括数据推荐模块，所述数据推荐模块用于对所述待测数据的视频播放完整度值进行由高到低的排序操作，获取top N的视频排序结果，将所述视频排序结果根据优先级别推荐给对应用户，其中N为大于1的整数。

本发明实施例提供的技术方案带来的有益效果是：

1、通过一改传统的CTR预估方法，引入视频播放完整度指标，通过训练好的预设视频播放完整度预测模型针对不同用户的视频播放完整度进行预测，通过视频播放完整度的预测结果，在观看时长这一重要信息流方面获取了用户更贴近真实的兴趣数据，提升了对用户兴趣的识别准确度，从而提升了推荐的真实相关度，实现了用户观看时长和满意度的较大提升；

2、通过用户画像向量化表示，结合用户行为的时间衰减体现用户的兴趣转移，并且用户画像过程中，过滤掉热点视频和误点视频，避免对用户真实兴趣的影响，用户画像更准确；

3、通过收集用户行为数据、视频质量、视频信息等相关数据，有效地进行了用户特征、视频属性等进行向量化表示，各时段播放视频占比，各类别占比，以及其他环境信息等，通过深度学习建模并针对用户未观看视频预测可能的播放完整度，在短视频推荐排序模型的应用，将不同特征和不同数据源融合，取得不错的效果，提升了用户的平均观看时长；

4、通过构建用户特征、视频特征、上下文特征以及客户端分类等特征，采用深度学习建模，通过AB Test，在随机选择的10％的用户群体应用播放完整度预估方式，通过最终报表对比CTR、日均播放量、用户平均播放完整度等指标。最终在CTR微降的情况下，带来用户平均播放完整度和日均播放量较大程度的提升；

5、在视频推荐领域采用TF-IDF算法，通过IDF值有效地突出了视频的关键信息；

6、通过短视频播放完整度的预测来提升推荐的真实相关性，寻求在用户停留时长的增长。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的视频播放完整度预测方法流程图；

图2是本发明另一实施例提供的视频播放完整度预测方法流程图；

图3是203步骤中进行特征工程构建的优选实施方式演示图；

图4是本发明实施例提供的预设视频播放完整度预测模型的优选实施方式演示图；

图5是本发明一实施例提供的视频播放完整度预测装置结构示意图；

图6是本发明另一实施例提供的视频播放完整度预测装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在本发明的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

本发明实施例提供的视频播放完整度预测方法及装置，通过一改传统的CTR预估方法，引入视频播放完整度指标，通过训练好的预设视频播放完整度预测模型针对不同用户的视频播放完整度进行预测，通过视频播放完整度的预测结果，在观看时长这一重要信息流方面获取了用户更贴近真实的兴趣数据，提升了对用户兴趣的识别准确度，从而提升了推荐的真实相关度，实现了用户观看时长和满意度的较大提升。因此该视频播放完整度预测方法及装置可广泛应用于涉及用户兴趣挖掘、用户需求匹配或用户推荐的多种网络视频应用场景。

下面结合具体实施例及附图，对本发明实施例提供的视频播放完整度预测方法及装置详细说明。

图1是本发明一实施例提供的视频播放完整度预测方法流程图。如图1所示，该频播放完整度预测方法包括以下步骤：

101、输入用户视频播放特征向量的待测数据；

102、通过预设视频播放完整度预测模型进行计算；

103、输出待测数据的视频播放完整度值。

其中，有别于传统用户技术中仅采用标题、视频类别或视频点击率等较少收集信息，这里的用户视频播放特征向量至少包括用户特征向量和视频特征向量，用户特征包括用户画像、用户历史播放记录或用户相关的其他信息，视频特征包括视频类别、视频时长、视频时间、视频播放完整度记录或其他与发布视频有关的其他信息。除用户特征向量和视频特征向量之外，用户视频播放特征向量还可以包括用户客户端分类信息等其他与视频播放相关的信息。另外，预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，具体采用的视频播放完整度预测模型，可以根据需要进行自己设计构建相应深度学习模型进行训练得到，也可以采用现有技术中任何可能的深度学习模型训练得到，本发明实施例不对其加以特别限定。

图2是本发明另一实施例提供的视频播放完整度预测方法流程图。如图2所示，该视频播放完整度预测方法包括以下步骤：

201收集用户视频播放信息数据。

具体地，获取包括用户信息、用户播放历史信息、视频信息及用户客户端信息在内的用户视频播放信息数据。

此过程为进行用户视频播放信息的数据收集阶段，用户视频播放信息主要包括用户信息、用户播放历史信息、视频信息及用户客户端信息几类，用户信息主要是指用户画像信息，包括用户的基本属性信息(性别、年龄等)，用户播放历史信息包括用户历史播放各小时占比、用户观看各类视频占比等，客户端信息包括用户设备类型、运营商类型等。除此之外，根据需要，用户视频播放信息还可以收集用户观看每个视频的时间、用户位置信息等与用户播放视频次级关联的上下文信息。

值得注意的是，步骤201收集用户视频播放信息数据的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

202、对用户视频播放信息数据进行筛选，获取筛选结果。

具体地，对用户视频播放信息数据进行筛选，获取筛选结果，包括：利用包括用户协同、用户搜索、主题模型、热门推荐、用户画像和视频标签的多通道召回方式，对用户视频播放信息数据进行筛选，获取筛选结果。

此过程为用户视频播放信息数据粗筛的召回阶段，优选地，主要是对用户视频播放信息数据中的视频信息进行筛选。因为视频规模庞大，可能达到数百万量级，直接输入模型进行数据预处理成本太高，时间也会非常慢，所以可以通过召回阶段粗略筛选出一些质量较高或者说更可能符合用户喜好的视频信息。召回通常采用多通道召回，如用户协同、用户搜索、主题模型、热门推荐、用户画像和视频标签等，从而从海量视频里选出一部分期望候选集。

值得注意的是，步骤202对用户视频播放信息数据进行筛选的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

203、对筛选结果进行特征提取，生成用户视频播放特征向量的待测数据。

具体地，对筛选结果进行特征提取，生成用户视频播放特征向量的待测数据，包括：利用通过word2vec模型和IDF权值训练对预设海量语料库训练得到的词向量，对筛选结果中的视频标题和视频分类标签进行分词，生成视频词向量，然后根据用户播放历史信息结合时间衰减进行词向量计算，生成用户词向量。这里的用户词向量和视频词向量对应上述的用户特征向量和视频特征向量。

该过程为特征工程阶段，如图3所示，优选地，在大量语料库上，通过分词以及word2vec模型，训练出每个词200维的词向量，通过向量化的形式来表征词的潜在含义，以此来表示词与词之间的关系，将视频标题分词处理并结合训练得到的IDF等信息，计算获得视频的词向量表示。根据用户历史播放视频的词向量表示，结合时间衰减，计算用户的词向量表示，在计算用户向量的过程中，按照视频标签类别统计用户top3标签的视频且占比超过10％。根据对用户的播放历史分析发现，占比较低的视频标签对应的视频并非用户潜在兴趣点，这部分的播放往往是热点视频或者是用户的误点操作，通过特征提取可将其丢弃。

值得注意的是，步骤203对筛选结果进行特征提取，生成用户视频播放特征向量的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

204、输入用户视频播放特征向量的待测数据。

预设视频播放完整度预测模型是通过将用户视频播放训练数据输入训练得到的，其中，用户视频播放训练数据为自变量，用户观看历史视频播放完整度值为因变量，用户视频播放训练数据是根据用户播放历史信息构建的历史用户向量、历史视频向量组合的特征向量，用于训练得到期望的预设视频播放完整度预测模型。

优选地，预设视频播放完整度预测模型包含三个隐藏层的DNN，输入层的输入信息包括用户的词向量表示(由用户历史播放视频分词并结合IDF权重计算得到各视频词向量，再综合考虑时间衰减计算得到的200维词向量)、用户的基础画像(性别、年龄等)、各时段播放视频占比(按小时)、各类别视频占比等；视频的词向量(200维)、视频的质量(平均播放完整度、视频热度等)、视频发布时间、视频类别；设备类型、运营商类型；地区；当前时间段等。

值得注意的是，步骤204输入用户视频播放特征向量的待测数据的数据内容和形式，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

205、通过预设视频播放完整度预测模型进行计算。

206、输出待测数据的视频播放完整度值。

优选地，206步骤之后，还包括以下步骤：

对待测数据的视频播放完整度值进行由高到低的排序操作，获取topN的视频排序结果，将视频排序结果根据优先级别推荐给对应用户，其中N为大于1的整数。需要注意的是，根据需要也可将视频播放完整度值排序操作的步骤，设计在预设视频播放完整度预测模型计算流程中，正如图4所示，本发明实施例不对其加以特别限定。

图5是本发明一实施例提供的视频播放完整度预测装置结构示意图，如图5所示，该视频播放完整度预测装置包括模型计算模块1，模型计算模块1用于：输入用户视频播放特征向量的待测数据，通过预设视频播放完整度预测模型进行计算，输出待测数据的视频播放完整度值，其中，预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，用户视频播放特征向量至少包括用户特征向量和视频特征向量。

图6是本发明另一实施例提供的视频播放完整度预测装置结构示意图。如图6所示，该视频播放完整度预测装置2包括数据收集模块21、数据筛选模块22、向量生成模块23、模型计算模块24和数据推荐模块25。

其中，数据收集模块21收集用户视频播放信息数据。具体地，数据收集模块21获取包括用户信息、用户播放历史信息、视频信息及用户客户端信息在内的用户视频播放信息数据。

数据筛选模块22对用户视频播放信息数据进行筛选，获取筛选结果。具体地，数据筛选模块22利用包括用户协同、用户搜索、主题模型、热门推荐、用户画像和视频标签的多通道召回方式，对用户视频播放信息数据进行筛选，获取筛选结果。

向量生成模块23对筛选结果进行特征提取，生成用户视频播放特征向量。具体地，向量生成模块23对筛选结果进行特征提取，生成用户视频播放特征向量的待测数据，包括：利用通过word2vec模型和IDF权值训练对预设海量语料库训练得到的词向量，对筛选结果中的视频标题和视频分类标签进行分词，生成视频词向量，然后根据用户播放历史信息结合时间衰减进行词向量计算，生成用户词向量。这里的用户词向量和视频词向量对应下述的用户特征向量和视频特征向量。

模型计算模块24输入用户视频播放特征向量的待测数据，通过预设视频播放完整度预测模型进行计算，输出待测数据的视频播放完整度值，其中，预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，用户视频播放特征向量至少包括用户特征向量和视频特征向量。

数据推荐模块25，对待测数据的视频播放完整度值进行由高到低的排序操作，获取topN的视频排序结果，将视频排序结果根据优先级别推荐给对应用户，其中N为大于1的整数。

下面介绍本发明实施例提供的视频播放完整度预测方法及装置的一优选实施方式。

首先，本实施例的分词工具自带词库，另外增加娱乐明星、影视剧名称、体育明星、球队信息等作为补充词库，在爬虫系统获取的网易新闻、百度百科、维基百科等构成的海量语料库，针对语料库进行分词并进行词向量训练，最终得到每个词的词向量表示(词向量维度为200维，由实验效果确定，然后对向量进行归一化)。

在上述语料库下，进行TF-IDF训练得到IDF值，进行归一化，然后将补充词库进行权重提升为1，类似于attention机制，对这些词语投入更多的专注度。

视频信息表如下表1所示，其携带有视频id、视频标题信息、分类标签、视频标签信息、发布时间等。将视频信息进行分词，并查词语的词向量表，结合IDF值表加权计算得到当前视频的词向量表示(进行归一化)。

表1视频信息表

用户画像获取阶段，即用户词向量的计算过程，针对的目标用户群为活跃用户，也就是最近一个周期内(如最近30天)有一定播放量(如播放超过10个视频)且近期较为活跃的用户(如最近7天有播放记录)。用户的词向量计算按照标签类别进行细化，例如用户近一个周期内播放视频数为100个，其中体育60个，财经20个，搞笑15个，社会4个，健康1个；在用户画像过程中分别针对占比TOP3且占比超过10％的标签类别下进行用户画像，通过该方法可以获取用户的主要兴趣点，剔除掉少量的误点操作以及并不能代表用户兴趣点的热点视频。在本例中，体育占60％，财经占20％，搞笑占15％，社会占4％，健康占1％；因此需要针对当前用户在体育、财经、搞笑三个维度对用户进行画像，计算用户相应维度的词向量表示。

在用户不同的标签类别下进行用户词向量计算的过程中，结合时间衰减因素(如衰减周期5天，衰减系数0.95，例如当前日期之前第12天播放的视频，跨越两个衰减周期，需要衰减0.95^2)计算用户的词向量表示。

在特征工程构建阶段，用户词向量(200维)、视频词向量(200维)、用户观看该类别占比、用户历史播放各小时占比、用户性别、用户年龄(按照20岁以上、20～30岁、30～40岁、40～50岁、50岁以上进行划分，on-hot编码)、当前视频分类标签、视频时长(单位秒)、视频发布时间(距离当前时间的天数)、视频平均播放完整度(最近24小时被用户播放的平均播放完整度)、热度等级(按播放次数划分为5个等级，one-hot编码)、用户观看视频时间(星期几、当前的时段，进行one-hot编码)、位置信息(按照省份进行one-hot编码)、终端类型(one-hot编码)、运营商类型(one-hot编码)。

根据最近一个周期内(如最近30天)，用户的播放记录构建上述特征，结合用户对视频的播放完整度，训练深度学习模型。

针对召回阶段给用户的推荐结果集，通过模型预测目标用户对于未播放视频的可能的播放完整度，根据播放完整度进行倒排生成最终的推荐结果集。

需要说明的是：上述实施例提供的视频播放完整度预测装置在触发视频播放完整度预测业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频播放完整度预测装置与视频播放完整度预测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

综上所述，本发明实施例提供的视频播放完整度预测方法及装置，相比现有技术，具有以下有益效果：

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种视频播放完整度预测方法，其特征在于，所述方法包括：

输入用户视频播放特征向量的待测数据；

通过预设视频播放完整度预测模型进行计算；

输出所述待测数据的视频播放完整度值，

其中，所述预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，所述用户视频播放特征向量至少包括用户特征向量和视频特征向量。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

收集用户视频播放信息数据；

对所述用户视频播放信息数据进行筛选，获取筛选结果；

对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据。
根据权利要求2所述的方法，其特征在于，

收集所述用户视频播放信息数据，包括：获取包括用户信息、用户播放历史信息、视频信息及用户客户端信息在内的所述用户视频播放信息数据；和/或，

对所述用户视频播放信息数据进行筛选，获取筛选结果，包括：利用包括用户协同、用户搜索、主题模型、热门推荐、用户画像和视频标签的多通道召回方式，对所述用户视频播放信息数据进行筛选，获取筛选结果；和/或，

对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据，包括：利用通过word2vec模型和IDF权值训练对预设海量语料库训练得到的词向量，对所述筛选结果中的视频标题和视频分类标签进行分词，生成视频词向量，然后根据所述用户播放历史信息结合时间衰减进行词向量计算，生成用户词向量。
根据权利要求1所述的方法，其特征在于，所述预设视频播放完整度预测模型包含三个隐藏层的DNN。
根据权利要求4所述的方法，其特征在于，所述预设视频播放完整度预测模型是通过将所述用户视频播放训练数据输入训练得到的，其中，所述用户视频播放训练数据为自变量，所述用户观看历史视频播放完整度值为因变量，所述用户视频播放训练数据是根据用户播放历史信息构建的历史用户向量、历史视频向量组合的特征向量。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述待测数据的视频播放完整度值进行由高到低的排序操作，获取topN的视频排序结果，将所述视频排序结果根据优先级别推荐给对应用户，其中N为大于1的整数。
一种视频播放完整度预测装置，其特征在于，所述装置包括模型计算模块，所述模型计算模块用于：

输入用户视频播放特征向量的待测数据，通过预设视频播放完整度预测模型进行计算，输出所述待测数据的视频播放完整度值，其中，所述预设视频播放完整度预测模型是通过用户视频播放训练数据训练得到的，所述用户视频播放特征向量至少包括用户特征向量和视频特征向量。
根据权利要求7所述的装置，其特征在于，所述装置还包括数据收集模块、数据筛选模块和向量生成模块，所述数据收集模块收集用户视频播放信息数据；所述数据筛选模块对所述用户视频播放信息数据进行筛选，获取筛选结果；所述向量生成模块对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据。
根据权利要求8所述的装置，其特征在于，

所述数据收集模块获取包括用户信息、用户播放历史信息、视频信息及用户客户端信息在内的所述用户视频播放信息数据；和/或，

所述数据筛选模块利用包括用户协同、用户搜索、主题模型、热门推荐、用户画像和视频标签的多通道召回方式，对所述用户视频播放信息数据进行筛选，获取筛选结果；和/或，

所述向量生成模块对所述筛选结果进行特征提取，生成所述用户视频播放特征向量的待测数据，包括：利用通过word2vec模型和IDF权值训练对预设海量语料库训练得到的词向量，对所述筛选结果中的视频标题和视频分类标签进行分词，生成视频词向量，然后根据所述用户播放历史信息结合时间衰减进行词向量计算，生成用户词向量。
根据权利要求7所述的装置，其特征在于，所述装置还包括数据推荐模块，所述数据推荐模块用于对所述待测数据的视频播放完整度值进行由高到低的排序操作，获取topN的视频排序结果，将所述视频排序结果根据优先级别推荐给对应用户，其中N为大于1的整数。