WO2018166288A1

WO2018166288A1 - 信息呈现方法和装置

Info

Publication number: WO2018166288A1
Application number: PCT/CN2018/072285
Authority: WO
Inventors: 李川; 游正朋
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2017-03-15
Filing date: 2018-01-11
Publication date: 2018-09-20
Also published as: CN108629224B; CN108629224A

Abstract

本申请公开了信息呈现方法和装置。该方法的一具体实施方式包括：检测目标视频中的关键帧，其中，关键帧为目标视频中图像熵大于预设的图像熵阈值的帧；响应于检测到关键帧，从关键帧中检测目标物品的图像；响应于从关键帧中检测到目标物品的图像，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数；若大于预定的帧数，则获取与目标物品的图像匹配的待呈现信息，并在连续呈现目标物品的图像的帧中呈现待呈现信息。该实施方式能够对目标视频中的目标物品针对性地呈现待呈现信息，提高信息推送的准确率。

Description

信息呈现方法和装置

相关申请的交叉引用

本申请要求于2017年3月15日提交的中国专利申请号为“201710152564.0”的优先权，其全部内容作为整体并入本申请中。

技术领域

本申请涉及计算机技术领域，具体涉及视频技术领域，尤其涉及信息呈现方法和装置。

背景技术

随着互联网的快速普及和数字影像采集处理技术的发展，网络视频行业迅速崛起，并在人们的日常生活中起着越来越重要的作用。作为一种包含图像、声音、文字等多信息的综合性媒体，视频具有强大的信息承载和传播能力，因此视频的语义分析和理解早已成为多媒体信息处理领域的一个重要研究方向。另一方面，随着电子商务平台快速成长，网络购物逐渐成为人们最长选用的购物方式，这为网络视频行业与电子商务的有机结合带来了商机。

分析视频内容并将其与用户个性化信息相结合，形成个性化的广告推荐系统有助于提升广告的点击率及转化率，另一方面个性化的广告推荐能有效降低观众只能被动接受既定的广告的不适感。因此，针对各种网络视频的内容分析并进行网络购物等相关广告服务信息的个性化推荐具有重要的研究意义和实用价值。

发明内容

本申请的目的在于提出一种改进的信息呈现方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种信息呈现方法，该方法包括：检测目标视频中的关键帧，其中，关键帧为目标视频中图像熵大于预设的图像熵阈值的帧；响应于检测到关键帧，从关键帧中检测目标物品的图像；响应于从关键帧中检测到目标物品的图像，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数；若大于预定的帧数，则获取与目标物品的图像匹配的待呈现信息，并在连续呈现目标物品的图像的帧中呈现待呈现信息。

在一些实施例中，检测目标视频中的关键帧，包括：获取图像熵大于预设的图像熵阈值的帧作为关键帧；按照目标视频的播放顺序，获取关键帧之后的图像熵大于预设的图像熵阈值的第一帧；确定第一帧与关键帧的相似度是否小于预设的相似度阈值；若小于预设的相似度阈值，则确定出第一帧为关键帧。

在一些实施例中，从关键帧中检测目标物品的图像，包括：基于预先训练的卷积神经网络从关键帧中检测目标物品的图像，其中，卷积神经网络用于识别目标物品的图像特征并根据图像特征确定目标物品的图像。

在一些实施例中，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数，包括：采用压缩跟踪算法确定目标物品的图像是否连续呈现在关键帧之后的不同的帧中；若连续呈现，则累计连续呈现目标物品的图像的帧的数目，并确定帧的数目是否大于预定的帧数。

在一些实施例中，在连续呈现目标物品的图像的帧中呈现待呈现信息，包括：确定目标物品的图像在连续呈现目标物品的图像的帧中的位置信息；根据位置信息确定待呈现信息的呈现位置；在呈现位置上呈现待呈现信息。

在一些实施例中，获取与目标物品的图像匹配的待呈现信息，包括：获取待呈现信息集合，其中，待呈现信息包括图片；确定待呈现信息集合中每条待呈现信息中的图片与目标物品的图像之间的相似度；按照相似度由大到小的顺序从待呈现信息集合中选取至少一条待呈现信息。

在一些实施例中，待呈现信息包括文字信息；以及获取与目标物品的图像匹配的待呈现信息，包括：获取与目标物品的图像的类别匹配的文字信息。

在一些实施例中，获取与目标物品的图像匹配的待呈现信息，包括：获取通过终端观看目标视频的用户的类别标签，其中，用户的类别标签是通过对用户的行为数据进行大数据分析得到的；从待呈现信息集合中获取与用户的类别标签匹配的至少一条待呈现信息。

第二方面，本申请实施例提供了一种信息呈现装置，该装置包括：关键帧检测单元，用于检测目标视频中的关键帧，其中，关键帧为目标视频中图像熵大于预设的图像熵阈值的帧；图像检测单元，用于响应于检测到关键帧，从关键帧中检测目标物品的图像；确定单元，用于响应于从关键帧中检测到目标物品的图像，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数；呈现单元，用于若大于预定的帧数，则获取与目标物品的图像匹配的待呈现信息，并在连续呈现目标物品的图像的帧中呈现待呈现信息。

在一些实施例中，关键帧检测单元进一步用于：获取图像熵大于预设的图像熵阈值的帧作为关键帧；按照目标视频的播放顺序，获取关键帧之后的图像熵大于预设的图像熵阈值的第一帧；确定第一帧与关键帧的相似度是否小于预设的相似度阈值；若小于预设的相似度阈值，则确定出第一帧为关键帧。

在一些实施例中，图像检测单元进一步用于：基于预先训练的卷积神经网络从关键帧中检测目标物品的图像，其中，卷积神经网络用于识别目标物品的图像特征并根据图像特征确定目标物品的图像。

在一些实施例中，确定单元进一步用于：采用压缩跟踪算法确定目标物品的图像是否连续呈现在关键帧之后的不同的帧中；若连续呈现，则累计连续呈现目标物品的图像的帧的数目，并确定帧的数目是否大于预定的帧数。

在一些实施例中，呈现单元进一步用于：确定目标物品的图像在连续呈现目标物品的图像的帧中的位置信息；根据位置信息确定待呈现信息的呈现位置；在呈现位置上呈现待呈现信息。

在一些实施例中，呈现单元进一步用于：获取待呈现信息集合，其中，待呈现信息包括图片；确定待呈现信息集合中每条待呈现信息中的图片与目标物品的图像之间的相似度；按照相似度由大到小的顺序从待呈现信息集合中选取至少一条待呈现信息。

在一些实施例中，待呈现信息包括文字信息；以及呈现单元进一步用于：获取与目标物品的图像的类别匹配的文字信息。

在一些实施例中，呈现单元进一步用于：获取通过终端观看目标视频的用户的类别标签，其中，用户的类别标签是通过对用户的行为数据进行大数据分析得到的；从待呈现信息集合中获取与用户的类别标签匹配的至少一条待呈现信息。

第三方面，本申请实施例提供了一种设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实施例中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一实施例中的方法。

本申请实施例提供的信息呈现方法和装置，通过检测目标视频中的关键帧中的目标物品的图像，在连续呈现目标物品的图像的帧上呈现待呈现信息，本申请基于目标视频的内容进行针对性的信息呈现，提高了信息呈现的精准度，从而降低成本并提高用户的点击率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的信息呈现方法的一个实施例的流程图；

图3a是根据本申请的信息呈现方法的压缩向量的构建过程的示意图；

图3b是根据本申请的信息呈现方法的信息呈现过程的示意图；

图4是根据本申请的信息呈现方法的又一个实施例的流程图；

图5是根据本申请的信息呈现装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的信息呈现方法或信息呈现装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种支持播放视频文件的客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持视频播放的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、 102、103上显示的视频提供支持的后台视频服务器。后台视频服务器可以对接收到的视频播放请求等数据进行分析等处理，并将处理结果(例如视频数据)反馈给终端设备。

需要说明的是，本申请实施例所提供的信息呈现方法一般由服务器105执行，相应地，信息呈现装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的信息呈现方法的一个实施例的流程200。该信息呈现方法，包括以下步骤：

步骤201，检测目标视频中的关键帧。

在本实施例中，信息呈现方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行视频播放的终端接收视频播放请求，根据视频播放请求获取目标视频，并检测目标视频中的关键帧。其中，关键帧为该目标视频中图像熵大于预设的图像熵阈值的帧。图像熵表示为图像灰度级集合的比特平均数，单位比特/像素，也描述了图像信源的平均信息量。图像熵的定义为：

其中H是图像熵，p _i是图像中灰度为i的像素的概率。获取目标视频中图像熵大于预设的图像熵阈值的帧，可以去除视频中的空白帧，进一步降低算法的的复杂度。

在本实施例的一些可选的实现方式中，检测目标视频中的关键帧，包括：获取图像熵大于预设的图像熵阈值的帧作为关键帧；按照目标视频的播放顺序，获取关键帧之后的图像熵大于预设的图像熵阈值的第一帧；确定第一帧与关键帧的相似度是否小于预设的相似度阈值；若小于预设的相似度阈值，则确定出第一帧为关键帧。一般情况下，目标视频中包含多个独立的场景，在每个独立的场景中提取出包含目标物品的图像的关键帧，有助于减少重复检测，从而降低算法的复杂度。本申请利用视频中连续帧的事件信息，检出视频中的关键帧。所谓事件是指将视频分为独立的帧单元，在每个单元中帧与帧之间连续性较强，图像信息差异较小，而不同单元之间的图像差异度较大。图像的相似度采用图像之间像素差值刻画。如下式所示：

sim＝-abs(curFrame-preFrame) (公式2)

其中sim是相似度，curFrame,preFrame分别为同一像素点在连续两帧图像中的像素值，abs为绝对值。按照视频的播放顺序，获取到的第一个图像熵大于预设的图像熵阈值的帧作为关键帧，该关键帧上任一像素点的像素值为preFrame。该关键帧之后的帧中与该像素点处在相同位置的另一像素点的像素值为curFrame，如果根据公式2计算得到的sim的值小于预设的相似度阈值，则将该关键帧之后的帧也确定为关键帧。

步骤202，响应于检测到关键帧，从关键帧中检测目标物品的图像。

在本实施例中，关键帧中可能存在多个物品的图像，例如，T恤、帽子、鞋、饮料等图像。可以从这些图像中检测出目标物品的图像，进行针对性地信息呈现。而不是呈现关键帧中包含的所有物品的图像相关信息。例如，需要呈现与T恤相关的信息时，将T恤作为目标物品，检测T恤的图像。

在本实施例的一些可选的实现方式中，从关键帧中检测目标物品的图像，包括：基于预先训练的卷积神经网络从关键帧中检测目标物品的图像，其中，卷积神经网络用于识别目标物品的图像特征并根据图像特征确定目标物品的图像。用卷积神经网提取目标物品，能够有效识别目标物品的图像在关键帧中的位置以及类别信息，从而便于后续目标追踪以及物品推荐。对于一张输入卷积神经网络的图片，首先提取候选区域，每张图片提取1000个候选区域，然后对每个候选区域进行图片大小归一化，然后采用卷积神经网提取候选区域的高维特征，最后通过全连接层，对候选区域进行分类。通过对每个区域进行分类，从而提取关键帧上的目标物品的图像，还可以确定其位置。本申请的预先训练出的网络检测的目标可以包括衣物类，如鞋子，上衣，短裤，短裙，连衣裙等。这些信息对于后续的物品推荐有重要意义。目标物品的位置信息便于后续目标跟踪的位置初始化。

卷积神经网络(Convolutional Neural Networks，CNN)是一种人工神经网络。卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是计算层，网络的每个计算层由多个特征映射层组成，每个特征映射层是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个特征提取层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而融合后提升分类或预测的准确性。该卷积神经网络可用于识别关键帧中的目标物品的特征，其中，该目标物品的特征可包括目标物品的颜色、纹理、阴影、方向变化、质地等特征。

步骤203，响应于从关键帧中检测到目标物品的图像，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数。

在本实施例中，可采用多种跟踪算法在连续帧中跟踪步骤202中检测到的目标物品的图像。只有在连续多个帧中都出现了目标物品的图像，再呈现待呈现信息才有意义。选取目标物品的图像存在时间超过一定阈值的帧进行投放，一方面用户有足够的时间去点击待呈现信息，例如广告，一方面也可以有效降低待呈现信息数量，从而不影响用户的观影体验。用户点击信息条目即可进入待呈现信息对应的物品网页。可采用诸如跟踪学习和检测(TLD，tracking learning and detection)等跟踪算法来进行目标物品的图像的跟踪。

在本实施例的一些可选的实现方式中，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数，包括：采用压缩跟踪算法确定目标物品的图像是否连续呈现在关键帧之后的不同的帧中；若连续呈现，则累计连续呈现目标物品的图像的帧的数目，并确定帧的数目是否大于预定的帧数。压缩跟踪是一种简单高效地基于压缩感知的跟踪算法。首先利用符合压缩感知(restricted isometry property，RIP)条件的随机感知矩对多尺度图像特征进行降维，然后在降维后的特征上采用简单的朴素贝叶斯分类器进行分类。和一般的模式分类架构一样：先提取图像的特征，再通过分类器对其分类，不同在于这里特征提取采用压缩感知，分类器采用朴素贝叶斯。然后每帧通过在线学习更新分类器。

压缩跟踪算法流程如下：

(1)在t帧的时候，我们采样得到若干张目标(正样本)和背景(负样本)的图像片，然后对他们进行多尺度变换，再通过一个稀疏测量矩阵对多尺度图像特征进行降维，然后通过降维后的特征(包括目标和背景，属二分类问题)去训练朴素贝叶斯分类器。

(2)在t+1帧的时候，我们在上一帧跟踪到的目标位置的周围采样n个扫描窗口(避免去扫描整幅图像)，通过同样的稀疏测量矩阵对其降维，提取特征，然后用第t帧训练好的朴素贝叶斯分类器进行分类，分类分数最大的窗口就认为是目标窗口。这样就实现了从t帧到t+1帧的目标跟踪。

压缩向量的构建过程如图3a所示，图3a表明一个n×m的稀疏矩阵，它可以将一个高维图像空间的x(m维)变换到一个低维的空间v(n维)，数学表达就是：v＝Rx，其中，矩阵R中，301、303和302分别代表矩阵元素为负数、正数和零。箭头表示测量矩阵R的一行的一个非零元素感知x中的一个元素，等价于一个方形窗口滤波器和输入图像某一固定位置的灰度卷积。

通过采用上面的稀疏随机矩阵R将x投影到低维空间的v。这个随机矩阵R只需要在程序启动时计算一次，然后在跟踪过程中保持不变。通过积分图，我们可以高效的计算v。

分类器的构建过程如下所示：对每个样本z(m维向量)，它的低维表示是v(n维向量，n远小于m)。假定v中的各元素是独立分布的。可以通过朴素贝叶斯分类器来建模。

其中，H(v)是分类器，y∈{0,1}代表样本标签，y＝0表示负样本，y＝1表示正样本，假设两个类的先验概率相等，p(y＝1)＝p(y＝0)＝0.5。假定在分类器H(v)中的条件概率p(v _i|y＝1)和p(v _i|y＝0)也属于高斯分布，其均值和方差分别为

为适应长时跟踪，需要不断更新模型，即根据新检测到的样本去重新计算正负样本的均值和方差，其更新方式如下：

公式4和公式5中λ>0是学习因子，在实际应用中为避免误差的累积，本申请取λ＝0.85。

步骤204，若大于预定的帧数，则获取与目标物品的图像匹配的待呈现信息，并在连续呈现目标物品的图像的帧中呈现待呈现信息。

在本实施例中，基于步骤202的目标物品图像的检测和步骤203的目标物品图像的跟踪步骤，可以从目标视频中提取到目标物品的种类、轨迹、出现的帧数以及时长等。这些信息将有助于实现针对用户信息的个性化推荐。从预设的待呈现信息库里匹配出待呈现信息，通过修改帧数据或者叠加的方式将待呈现信息与呈现目标物品的图像的帧组合成新的帧，以在新生成的帧中呈现待呈现信息。该待呈现信息可以是链接到网页上的文字或图片。如图3b所示，在目标视频中的关键帧中检测出目标物品“T恤”304，从预设的待呈现信息库里匹配出与“T恤”相关联的能够链接到网页的图片305并在关键帧中呈现。用户点击图片305后，可进入相关网页浏览与“T恤”相关联的信息。在目标视频中的关键帧中检测出目标物品“鞋”306，从预设的待呈现信息库里匹配出与“鞋”相关联的能够链接到网页的图片307并在关键帧中呈现。用户点击图片307后，可进入相关网页浏览与“鞋”相关联的信息。

在本实施例的一些可选的实现方式中，在连续呈现目标物品的图像的帧中呈现待呈现信息，包括：确定目标物品的图像在连续呈现目标物品的图像的帧中的位置信息；根据位置信息确定待呈现信息的呈现位置；在呈现位置上呈现待呈现信息。待呈现信息的呈现位置可以在目标物品的图像附近，也可以在其它不遮挡目标物品的图像的位置。可根据目标物品的图像的大小确定待呈现信息的呈现位置，例如，如果目标物品是一双鞋子，而待呈现信息是鞋子广告，其占据的位置比鞋子图像本身还要大，则不适宜在鞋子的图像上贴广告，而应该在鞋子图像旁边加广告。如果目标物品是个衣柜，由于衣柜图像的尺寸比较大，因此比较适合在衣柜图像上直接叠加待呈现信息。

本申请的上述实施例提供的方法通过将目标视频的内容和待呈现信息相关联，实现了富于针对性的信息呈现，提高了待呈现信息的命中率。

进一步参考图4，其示出了信息呈现方法的又一个实施例的流程400。该信息呈现方法的流程400，包括以下步骤：

步骤401，检测目标视频中的关键帧。

步骤402，响应于检测到关键帧，从关键帧中检测目标物品的图像。

步骤403，响应于从关键帧中检测到目标物品的图像，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数。

步骤401-403与步骤201-203基本相同，因此不再赘述。

步骤404，若大于预定的帧数，则获取待呈现信息集合。

在本实施例中，当步骤403中确定的帧数大于预定的帧数时，从预设的待呈现信息库里匹配出和目标物品图像相似度较高的待呈现信息。该待呈现信息可以包括图片。

步骤405，确定待呈现信息集合中每条待呈现信息中的图片与目标物品的图像之间的相似度。

在本实施例中，如果该待呈现信息中包括图片，则可以确定图片的直方图与目标物品的图像的直方图之间的相似度。首先对目标物品图像与待呈现信息的图片的像素数据，生成各自直方图数据，对各自图像直方图数据进行归一化再使用巴氏系数(Bhattacharyya coefficient)算法对直方图数据进行计算，最终得出图像相似度值，其值范围在[0, 1]之间，0表示极其不同，1表示极其相似(相同)。

在本实施例的一些可选的实现方式中，如果该待呈现信息包括文字信息，则获取与目标物品的图像的类别匹配的文字信息。根据文字信息中的关键词确定类别，与目标物品的图像的类别进行匹配，得到相似度。例如，文字信息为“XX球鞋售价299元”，该文字信息与目标物品“球鞋”的图像的相似度可以达到90％，目标物品“球鞋”的图像与文字信息“XX皮鞋售价299元”的相似度可以达到70％，目标物品“球鞋”的图像与文字信息“XX篮球售价299元”的相似度可能仅为10％。

步骤406，按照相似度由大到小的顺序从待呈现信息集合中选取至少一条待呈现信息。

在本实施例中，基于步骤405确定的相似度选取至少一条待呈现信息。所选取的待呈现信息的数目可以与目标物品的图像的面积大小成正比。例如，面积比较大的图像可以多显示几条待呈现信息。面积比较小的图像最好只显示一条待呈现信息，以避免喧宾夺主。

在本实施例的一些可选的实现方式中，获取与目标物品的图像匹配的待呈现信息，包括：获取通过终端观看目标视频的用户的类别标签，其中，用户的类别标签是通过对用户的行为数据进行大数据分析得到的；从待呈现信息集合中获取与用户的类别标签匹配的至少一条待呈现信息。即，基于用户的个人特征对待呈现信息进行进一步筛选，对用户针对性地选取待呈现信息。例如，通过大数据分析可以确定观看目标视频的用户为女性，则可选取女性用品相关信息作为待呈现信息。

可以通过建立一个用户、待呈现信息、目标物品的图像组合的待呈现信息推荐模型，可以有效预测待呈现信息的点击率(ctr，Click-Through-Rate)，推送预估点击率最高的待呈现信息，从而提升待呈现信息投放的转化率。该推荐模型的特征主要包括用户特征、待呈现信息所涉及的物品的特征以及从目标视频检测出的目标物品的图像的特征三种。用户的特征主要包括用户的年龄、性别、地域、职业、平台等可通过用户大数据画像得到的信息。待呈现信息涉及的物品的特征主要包括目标物品的种类、价格、物品产地(或卖家所在地)、待呈现信息总体点击率。在目标物品的图像的特征主要包括在目标视频中检测到的目标物品的图像与待呈现信息涉及的物品的相似度以及目标视频中目标物品的图像出现的时长。

对待呈现信息涉及的物品的特征的处理主要包括离散化和特征交叉两种。

(一)离散化

待呈现信息推荐模型的特征主要包括以上论述的三个种类，初始的特征中包括离散特征(如用户性别、用户地域等)和连续特征(如物品价格、用户年龄、目标物品的图像与待呈现信息涉及的物品的相似度、待呈现信息的点击率等)。其中点击率与年龄虽然都是连续数值，但其本身意义不同，年龄大小的比较对待呈现信息推荐没有意义，而点击率的大小则是有意义的，因此需要对上述特征做离散化的处理。

离散化特征的处理方式如下：将连续特征做分段处理。如点击率ctr分为10段，如果ctr＝0.05，则对应特征位置1。其他类型的特征处理类似。

(二)特征交叉

特征离散化处理之后，可以将处理之后的特征拉伸为一个向量，作为最终特征。但这种方式是线性模型，忽略了特征之间的相互作用。如性别和物品种类的组合对待呈现信息点击率有很直接的影响。因此对特征进行交叉能有效提升模型预测的准确率。特征交叉的方法即把两个特征组合形成新的连续特征，如性别和物品类别(m类)组合之后则产生2m个离散的特征。

设本申请形成的离散特征向量为x，特征的维度为113。其中x1～x10为用户年龄特征段；x11～x18为用户地域特征段；x19～x25为用户职业特征段；x26～x30为用户观看视频平台特征段；x31～x38为物品类别特征段；x39～x50为物品价格特征段；x51～x58为物品地域特征段；x59～x60为物品点击率特征段；x61～x65为检测目标出现时长特征段；x66～x75为检测目标与广告物品相似度特征段；x76～x91为物品类别/用户性别组合特征段；x92～x113为用户性别/物品价格组合特征段。

基于逻辑回归模型推荐待呈现信息。逻辑回归模型(Logic Regression,LR)，是一个被广泛应用在广告推荐中的算法。设训练数据集为D＝(x ¹,y ¹),(x ²,y ²)...(x ^N,y ^N)，其中

为构建特征，y ⁱ广告是否被点击，1为点击，-1为未点击。

LR的基本假设为，条件概率P(y＝1|x；θ)满足如下表达式：

这里的g(θ ^Tx)是提到的sigmoid函数，x是特征向量，θ是参数向量，相应的决策函数为：

y ^*＝1,if P(y＝1|x)＞0.5 (公式7)

模型的数学形式确定后，接下来即求解模型中的参数。采用了最大似然估计，即找到一组参数，使得在这组参数下数据的似然度(概率)越大。在逻辑回归模型中，似然度L(θ)可表示为：

L(θ)＝P(D|θ)＝∏P(y|x；θ)＝∏g(θ ^Tx) ^y(1-g(θ ^Tx)) ^1-y (公式8)

取对数可以得到对数似然度l(θ)：

l(θ)＝∑ylog g(θ ^Tx)+(1-y)log(1-g(θ ^Tx)) (公式9)

在LR模型中，最大化上述似然函数即可得到最优参数。本申请采用梯度下降迭代求解参数，通过在每一步选取使目标函数变化最快的一个方向调整参数的值来逼近最优值。

模型训练完成之后，即得到推荐待呈现信息的推荐系统。计算从待呈现信息库里检索到的预定数目个待呈现信息进行点击率预测，选取预估点击率最高的待呈现信息进行呈现。

从图4中可以看出，与图2对应的实施例相比，本实施例中的信息呈现方法的流程400突出了对待呈现信息进行选择的步骤。从而能够准确地选择待呈现信息，提取待呈现信息的命中率，尽量呈现有效的待呈现信息，降低投放待呈现信息的成本。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种信息呈现装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的信息呈现装置500包括：关键帧检测单元501、图像检测单元502、确定单元503和呈现单元504。其中，关键帧检测单元501用于检测目标视频中的关键帧，其中，关键帧为目标视频中图像熵大于预设的图像熵阈值的帧；图像检测单元502用于响应于检测到关键帧，从关键帧中检测目标物品的图像；确定单元503用于响应于从关键帧中检测到目标物品的图像，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数；呈现单元504用于若大于预定的帧数，则获取与目标物品的图像匹配的待呈现信息，并在连续呈现目标物品的图像的帧中呈现待呈现信息。

在本实施例中，信息呈现装置500的关键帧检测单元501、图像检测单元502、确定单元503和呈现单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。

在本实施例的一些可选的实现方式中，关键帧检测单元501进一步用于：获取图像熵大于预设的图像熵阈值的帧作为关键帧；按照目标视频的播放顺序，获取关键帧之后的图像熵大于预设的图像熵阈值的第一帧；确定第一帧与关键帧的相似度是否小于预设的相似度阈值；若小于预设的相似度阈值，则确定出第一帧为关键帧。

在本实施例的一些可选的实现方式中，图像检测单元502进一步用于：基于预先训练的卷积神经网络从关键帧中检测目标物品的图像，其中，卷积神经网络用于识别目标物品的图像特征并根据图像特征确定目标物品的图像。

在本实施例的一些可选的实现方式中，确定单元503进一步用于：采用压缩跟踪算法确定目标物品的图像是否连续呈现在关键帧之后的不同的帧中；若连续呈现，则累计连续呈现目标物品的图像的帧的数目，并确定帧的数目是否大于预定的帧数。

在本实施例的一些可选的实现方式中，呈现单元504进一步用于：确定目标物品的图像在连续呈现目标物品的图像的帧中的位置信息；根据位置信息确定待呈现信息的呈现位置；在呈现位置上呈现待呈现信息。

在本实施例的一些可选的实现方式中，呈现单元504进一步用于：获取待呈现信息集合，其中，待呈现信息包括图片；确定待呈现信息集合中每条待呈现信息中的图片与目标物品的图像之间的相似度；按照相似度由大到小的顺序从待呈现信息集合中选取至少一条待呈现信息。

在本实施例的一些可选的实现方式中，待呈现信息包括文字信息；以及呈现单元504进一步用于：获取与目标物品的图像的类别匹配的文字信息。

在本实施例的一些可选的实现方式中，呈现单元504进一步用于：获取通过终端观看目标视频的用户的类别标签，其中，用户的类别标签是通过对用户的行为数据进行大数据分析得到的；从待呈现信息集合中获取与用户的类别标签匹配的至少一条待呈现信息。

下面参考图6，其示出了适于用来实现本申请实施例的设备的计算机系统600的结构示意图。图6示出的设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括关键帧检测单元、图像检测单元、确定单元和呈现单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，关键帧检测单元还可以被描述为“检测目标视频中的关键帧的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：检测目标视频中的关键帧，其中，关键帧为目标视频中图像熵大于预设的图像熵阈值的帧；响应于检测到关键帧，从关键帧中检测目标物品的图像；响应于从关键帧中检测到目标物品的图像，确定在关键帧之后连续呈现目标物品的图像的帧的数目是否大于预定的帧数；若大于预定的帧数，则获取与目标物品的图像匹配的待呈现信息，并在连续呈现目标物品的图像的帧中呈现待呈现信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种信息呈现方法，其特征在于，所述方法包括：

检测目标视频中的关键帧，其中，所述关键帧为所述目标视频中图像熵大于预设的图像熵阈值的帧；

响应于检测到所述关键帧，从所述关键帧中检测目标物品的图像；

响应于从所述关键帧中检测到所述目标物品的图像，确定在所述关键帧之后连续呈现所述目标物品的图像的帧的数目是否大于预定的帧数；

若大于预定的帧数，则获取与所述目标物品的图像匹配的待呈现信息，并在所述连续呈现所述目标物品的图像的帧中呈现所述待呈现信息。
根据权利要求1所述的方法，其特征在于，所述检测目标视频中的关键帧，包括：

获取图像熵大于预设的图像熵阈值的帧作为关键帧；

按照所述目标视频的播放顺序，获取所述关键帧之后的图像熵大于预设的图像熵阈值的第一帧；

确定所述第一帧与所述关键帧的相似度是否小于预设的相似度阈值；

若小于预设的相似度阈值，则确定出所述第一帧为关键帧。
根据权利要求1所述的方法，其特征在于，从所述关键帧中检测目标物品的图像，包括：

基于预先训练的卷积神经网络从所述关键帧中检测目标物品的图像，其中，所述卷积神经网络用于识别所述目标物品的图像特征并根据所述图像特征确定所述目标物品的图像。
根据权利要求1所述的方法，其特征在于，所述确定在所述关键帧之后连续呈现所述目标物品的图像的帧的数目是否大于预定的帧数，包括：

采用压缩跟踪算法确定所述目标物品的图像是否连续呈现在所述关键帧之后的不同的帧中；

若连续呈现，则累计连续呈现所述目标物品的图像的帧的数目，并确定所述帧的数目是否大于预定的帧数。
根据权利要求1所述的方法，其特征在于，所述在所述连续呈现所述目标物品的图像的帧中呈现所述待呈现信息，包括：

确定所述目标物品的图像在所述连续呈现所述目标物品的图像的帧中的位置信息；

根据所述位置信息确定所述待呈现信息的呈现位置；

在所述呈现位置上呈现所述待呈现信息。
根据权利要求1-5任一项中所述的方法，其特征在于，所述获取与所述目标物品的图像匹配的待呈现信息，包括：

获取待呈现信息集合，其中，所述待呈现信息包括图片；

确定所述待呈现信息集合中每条待呈现信息中的图片与所述目标物品的图像之间的相似度；

按照相似度由大到小的顺序从所述待呈现信息集合中选取至少一条待呈现信息。
根据权利要求1所述的方法，其特征在于，所述待呈现信息包括文字信息；以及

所述获取与所述目标物品的图像匹配的待呈现信息，包括：

获取与所述目标物品的图像的类别匹配的文字信息。
根据权利要求1所述的方法，其特征在于，所述获取与所述目标物品的图像匹配的待呈现信息，包括：

获取通过终端观看所述目标视频的用户的类别标签，其中，所述用户的类别标签是通过对所述用户的行为数据进行大数据分析得到的；

从待呈现信息集合中获取与所述用户的类别标签匹配的至少一条待呈现信息。
一种信息呈现装置，其特征在于，所述装置包括：

关键帧检测单元，用于检测目标视频中的关键帧，其中，所述关键帧为所述目标视频中图像熵大于预设的图像熵阈值的帧；

图像检测单元，用于响应于检测到所述关键帧，从所述关键帧中检测目标物品的图像；

确定单元，用于响应于从所述关键帧中检测到所述目标物品的图像，确定在所述关键帧之后连续呈现所述目标物品的图像的帧的数目是否大于预定的帧数；

呈现单元，用于若大于预定的帧数，则获取与所述目标物品的图像匹配的待呈现信息，并在所述连续呈现所述目标物品的图像的帧中呈现所述待呈现信息。
根据权利要求9所述的装置，其特征在于，所述关键帧检测单元进一步用于：

获取图像熵大于预设的图像熵阈值的帧作为关键帧；

按照所述目标视频的播放顺序，获取所述关键帧之后的图像熵大于预设的图像熵阈值的第一帧；

确定所述第一帧与所述关键帧的相似度是否小于预设的相似度阈值；

若小于预设的相似度阈值，则确定出所述第一帧为关键帧。
根据权利要求9所述的装置，其特征在于，所述图像检测单元进一步用于：

基于预先训练的卷积神经网络从所述关键帧中检测目标物品的图像，其中，所述卷积神经网络用于识别所述目标物品的图像特征并根据所述图像特征确定所述目标物品的图像。
根据权利要求9所述的装置，其特征在于，所述确定单元进一步用于：

采用压缩跟踪算法确定所述目标物品的图像是否连续呈现在所述关键帧之后的不同的帧中；

若连续呈现，则累计连续呈现所述目标物品的图像的帧的数目，并确定所述帧的数目是否大于预定的帧数。
根据权利要求9所述的装置，其特征在于，所述呈现单元进一步用于：

确定所述目标物品的图像在所述连续呈现所述目标物品的图像的帧中的位置信息；

根据所述位置信息确定所述待呈现信息的呈现位置；

在所述呈现位置上呈现所述待呈现信息。
根据权利要求9-13任一项中所述的装置，其特征在于，所述呈现单元进一步用于：

获取待呈现信息集合，其中，所述待呈现信息包括图片；

确定所述待呈现信息集合中每条待呈现信息中的图片与所述目标物品的图像之间的相似度；

按照相似度由大到小的顺序从所述待呈现信息集合中选取至少一条待呈现信息。
根据权利要求9所述的装置，其特征在于，所述待呈现信息包括文字信息；以及

所述呈现单元进一步用于：

获取与所述目标物品的图像的类别匹配的文字信息。
根据权利要求9所述的装置，其特征在于，所述呈现单元进一步用于：

获取通过终端观看所述目标视频的用户的类别标签，其中，所述用户的类别标签是通过对所述用户的行为数据进行大数据分析得到的；

从待呈现信息集合中获取与所述用户的类别标签匹配的至少一条待呈现信息。
一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。