WO2012167568A1

WO2012167568A1 - 视频广告播放方法、设备和系统

Info

Publication number: WO2012167568A1
Application number: PCT/CN2011/082747
Authority: WO
Inventors: 王玮
Original assignee: 华为技术有限公司
Priority date: 2011-11-23
Filing date: 2011-11-23
Publication date: 2012-12-13
Also published as: US20140257995A1; EP2785058A1; CN103503463A; EP2785058A4

Abstract

本发明实施例提供一种视频广告播放方法、设备和系统。一种方法包括：接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个，视频文件的图像特征数据、字幕文本和音频文本由客户端分别根据当前播放的视频文件的视频画面、视频字幕和音频内容分析获取；根据视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到视频文件的特征融合结果向量；将待投放的各个广告文件的特征融合结果向量与视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件；将匹配的广告文件发送给客户端。本发明实施例，实现客户端播放的广告更适合客户端当前正在播放的场景。

Description

视频广告播放方法、设备和系统技术领域本发明涉及信息技术领域，特别涉及一种视频广告播放方法、设备和系统。背景技术近几年来，网络广告快速发展，网络广告已成为商家重要的宣传方式。然而，现在的网民掌握了更多的网络资源，对广告信息更加敏感和警惕，因此，有必要提高广告投放的内容与目标视频文件的适应性，使广告投放的内容与当前视频播放的场景相适应，使广告达到更为良好的投放效果。

一种方式是通过人工方式确定视频内容，并为视频添加标签，在视频播放时根据标签查找与视频相匹配的广告进行播放。然而，这种方法耗费大量人力成本，并且无法获知视频的播放进度和内容，无法根据当前正在播放的场景投放合适的广告。

另一种方式服务器预先为要在客户端播放的视频文件设置广告索引，并且将广告索引发送给客户端，当客户端播放视频文件时，客户端根据广告索引中预先编的播放次序选中要播放的广告向服务器请求播放。然而，这种方法一旦广告索引文件编排确定之后，修改比较困难，并且服务器无法获知视频的播放进度和内容，无法根据当前正在播放的场景投放合适的广告。发明内容本发明实施例提供了一种视频广告播放方法、设备和系统，以实现客户端根据当前正在播放的场景投放合适的广告。

一方面，本发明实施例提供一种视频广告播放方法，包括：

接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个，所述视频文件的图像特征数据、字幕文本和音频文本由所述客户端分别根据当前播放的所述视频文件的视频画面、视频字幕和音频内容分析获取；

根据所述视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到所述视频文件的特征融合结果向量；

将待投放的各个广告文件的特征融合结果向量与所述视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件；

将所述匹配的广告文件发送给所述客户端。

本发明实施例还提供另一种视频广告播放方法，包括：

根据当前播放的视频文件的视频画面和 /或视频字幕和 /或音频内容，分析获取所述视频画面的图像特征数据，所述视频字幕的字幕文本和所述音频内容的音频文本中的至少一个；

将所述视频文件的图像特征数据、所述字幕文本和所述音频文本中的至少一个发送给服务器，以使所述服务器根据所述视频文件的图像特征数据、所述字幕文本和所述音频文本中的至少一个确定匹配的广告文件；

播放所述服务器发送的匹配的广告文件。

另一方面，本发明实施例还提供一种服务器，包括：

接收器，用于接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个，所述视频文件的图像特征数据、字幕文本和音频文本由所述客户端分别根据当前播放的所述视频文件的视频画面、视频字幕和音频内容分析获取；

处理器，用于根据所述视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到所述视频文件的特征融合结果向量；将待投放的各个广告文件的特征融合结果向量与所述视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件；发送器，用于将所述匹配的广告文件发送给所述客户端。

本发明实施例还提供一种客户端，包括：

处理器，用于根据当前播放的视频文件的视频画面和 /或视频字幕和 /或音频内容，分析获取所述视频画面的图像特征数据，所述视频字幕的字幕文本和所述音频内容的音频文本中的至少一个；

发送器，用于将所述视频文件的图像特征数据、所述字幕文本和所述音频文本中的至少一个发送给服务器，以使所述服务器根据所述视频文件的图像特征数据、所述字幕文本和所述音频文本中的至少一个确定匹配的广告文件；

播放器，用于播放所述服务器发送的匹配的广告文件。再一方面，本发明实施例还提供一种视频广告播放系统，包括客户端和服务器；

所述客户端用于：根据当前播放的视频文件的视频画面和 /或视频字幕和 /或音频内容，分析获取所述视频画面的图像特征数据，所述视频字幕的字幕文本和所述音频内容的音频文本中的至少一个；将所述视频文件的图像特征数据、所述字幕文本和所述音频文本中的至少一个发送给服务器，以使所述服务器根据所述视频文件的图像特征数据、所述字幕文本和所述音频文本中的至少一个确定匹配的广告文件；播放所述服务器发送的匹配的广告文件；所述服务器用于：接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个，所述视频文件的图像特征数据、字幕文本和音频文本由所述客户端分别根据当前播放的所述视频文件的视频画面、视频字幕和音频内容分析获取；根据所述视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到所述视频文件的特征融合结果向量；将待投放的各个广告文件的特征融合结果向量与所述视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件；将所述匹配的广告文件发送给所述客户端。

本发明实施例提供的视频广告播放方法、设备和系统，客户端根据当前播放的视频画面分析获取图像特征数据、字幕文本和音频文本的至少一个发送给服务器，服务器根据客户端提供的这些特征数据得到视频文件的特征融合结果向量，并与待投放的各个广告文件的特征融合结果向量进行相似度匹配计算确定相匹配的广告文件，再将匹配的广告发送给客户端播放，从而使客户端播放的广告更适合客户端当前正在播放的场景。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明提供的视频广告播放方法一个实施例的流程图；

图 2为本发明提供的视频广告播放方法又一个实施例的流程图；图 3为本发明提供的视频广告播放方法另一个实施例的流程图；图 4为本发明提供的视频广告播放方法再一个实施例的流程图；图 5为本发明提供的服务器一个实施例的结构示意图；

图 6为本发明提供的服务器又一个实施例的结构示意图；

图 7为本发明提供的客户端一个实施例的结构示意图；

图 8为本发明提供的视频广告播放系统一个实施例的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1为本发明提供的视频广告播放方法一个实施例的流程图，如图 1所示，该方法包括：

S101、根据当前播放的视频文件的视频画面和 /或视频字幕和 /或音频内容，分析获取视频画面的图像特征数据，视频字幕的字幕文本和音频内容的音频文本中的至少一个。

S102、将视频文件的图像特征数据、字幕文本和音频文本中的至少一个发送给服务器，以使服务器根据视频文件的图像特征数据、字幕文本和音频文本中的至少一个确定匹配的广告文件。

S103、播放服务器发送的匹配的广告文件。

以上步骤的执行主体为客户端，具体可以是个人计算机、手机等终端设备上的各种视频播放器。

客户端可以根据当前播放的视频文件的视频内容，获得指定位置的当前播放画面，提取当前播放的视频画面的图像特征数据，客户端可以采用现有的各种图像特征数据提取算法，例如：尺度不变特征转换（Scale-invariant feature transform; SIFT )算法等。其中，客户端提取的图像特征数据可以包括：

视频画面的颜色特征：通常可以采用颜色累积直方图数据来表示，颜色累积直方图数据用于描述图像颜色的统计分布特征，并且具有平移，尺度，旋转不变性；视频画面的纹理特征：通常可以采用灰度共生矩阵数据来表示，可以用灰度共生矩阵数据的各种统计量作为纹理特征的度量。灰度共生矩阵来表示图像中相距（△ X,△ y)的两个灰度像素同时出现的联合概率分布。若图像的灰度级为 L级，那么共生矩阵为 Ι_ χ L矩阵；视频画面的形状特征：可以用图像的轮廓特征表示，还可以用图像的区域特征表示。图像的轮廓特征主要针对物体的外边界，而图像的区域特征则针对整个形状区域，通过对边界特征的描述来获取图像的形状参数。

客户端还可以利用现有的语音识别技术，将视频文件的语音中的词汇内容转换为计算机可读的输入，例如：按键、二进制编码或者字符序列。

如果客户端当前播放的视频上具有字幕，则进一步的，客户端还可以根据当前播放的视频文件，提取字幕得到字幕文本。因此，客户端发送给服务器的特征数据还包括字幕文本。

客户端可以采用现有技术中的各种视频文字提取方法提取字幕文本。提取字幕文本的过程可以包括：客户端可以将视频片段切割成视频图像，针对视频图像进行处理；然后再判断视频图像中是否包含有文字信息，以及文字信息在视频图像中的位置，并将文字区域切割出来；客户端可以利用文字信息在时间上的冗余特性，找到包含有同一文本的多个连续帧，利用多帧融合等方法使得文字区域得到增强；然而再将提取出来的文字区域进行灰度化和二值化，对得到的白底黑字或黑底白字的文字图片进行识别，得到字幕文本。其中，对文字图片进行识别可以采用现有的光学字符识别（Optical Character Recognition, OCR)等技术实现。

需要说明的是，以上仅是给出了客户端分析获取视频画面的图像特征数据，视频字幕的字幕文本和音频内容的音频文本的一种实施方式，而实际上，客户端还可以采用其他方式对当前播放的视频画面进行分析，获取视频画面的图像特征数据，视频字幕的字幕文本和音频内容的音频文本中的至少一个。

客户端可以将分析获取的图像特征数据、音频文本和字幕文本中的至少一个发送给服务器，相应的，服务器可以将接收到的图像特征数据、音频文本和字幕文本中的至少一个，与本地存储的各种广告文件相匹配，确定与客户端当前播放的视频画面向匹配的广告文件。服务器确定了匹配的广告文件之后，可以将匹配的广告文件或者是广告链接发送到客户端，供客户端播放。

本实施例提供的视频广告播放方法，客户端根据当前播放的视频画面分析获取图像特征数据、字幕文本和音频文本的至少一个发送给服务器，服务器根据客户端提供的这些特征数据得到视频文件的特征融合结果向量，并与待投放的各个广告文件的特征融合结果向量进行相似度匹配计算确定相匹配的广告文件，再将匹配的广告发送给客户端播放，从而使客户端播放的广告更适合客户端当前正在播放的场景。图 2为本发明提供的视频广告播放方法又一个实施例的流程图，如图 2所示，该方法包括：

5201、接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个，视频文件的图像特征数据、字幕文本和音频文本由客户端分别根据当前播放的视频文件的视频画面、视频字幕和音频内容分析获取。

5202、根据视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到视频文件的特征融合结果向量。

5203、将待投放的各个广告文件的特征融合结果向量与视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件。

5204、将匹配的广告文件发送给客户端。

以上步骤的执行主体为服务器。

客户端可以根据当前播放的视频内容，获得指定位置的当前播放画面，提取当前播放的视频画面的图像特征数据，具体可以包括：用于表示视频画面图像颜色特征的颜色累积直方图数据、用于表示视频画面图像纹理特征的灰度共生矩阵数据、用于表示视频画面图像形状特征的灰度梯度方向矩阵数据等。客户端还可以利用现有的语音识别技术，是将人类的语音中的词汇内容转换为计算机可读的输入，例如：按键、二进制编码或者字符序列。

在另一种实施场景下，如果客户端当前播放的视频上具有字幕，则客户端还可以根据当前播放的视频文件，提取字幕得到字幕文本，这种场景下，客户端发送给服务器的视频文件的特征数据中还包括：视频文件的字幕文本。

服务器可以预先收集若干图片或视频画面，这些图片可以是视频中某些重要画面或指定需要插播广告的视频画面，服务器可以对这些图片或视频画面进行图像特征提取，得到图像特征数据。这些图像特征数据可以包括：用于表示视频画面图像颜色特征的颜色累积直方图数据、用于表示视频画面图像纹理特征的灰度共生矩阵数据、用于表示视频画面图像形状特征的灰度梯度方向矩阵数据等。服务器可以对选取的这些图片进行标注，标注这些图片的内容或者所属类别。服务器可以建立图像特征数据与标注之间的关系，采用机器学习算法，例如：支持向量机（Support Vector Machine; SVM ) 算法，对选取的特征数据进行训练，得到图像特征数据分类模型。机器学习算法的实质是：机器可以通过对训练图片的图像特征数据和标注进行学习，得到一些 "经验 "，从而能够对新数据进行分类。而机器通过学习得到的 "经验，，即为图像特征数据分类模型。

类似的，服务器也可以预先选择若干字幕文件和音频文件，通过机器学习算法，例如： SVM算法，分别对这些字幕文件和音频文件的特征数据以及标注进行训练，从而分别得到字幕文本分类模型和音频文本分类模型。

服务器接收到客户端发送的图像特征数据、字幕文本和音频文本中的至少一个后，一方面，服务器可以将图像特征数据输入图像特征数据分类模型进行分类，得到图形特征数据结果向量，该向量包括多个维度，每一维度可以代表一种类别，例如：体育类、财经类、娱乐类等。该向量的每一维度表示了输入的图像特征数据属于对应类别的可能性，某一类别对应维度的数值越大，说明输入的图像特征属于该类别的可能性越大。即，服务器将输入的图像特征数据输入图像特征数据分类模型并输出图像特征数据结果向量的过程，实际上是对图像特征数据进行分类的过程。

同样的，服务器可以将字幕文本输入字幕文本分类模型，得到字幕文本分类结果向量；服务器还可以将音频文本输入音频文本分类模型，得到音频文本分类结果向量。

在分别获取图像特征数据结果向量、字幕文本分类结果向量和音频文本分类结果向量中的至少一个之后，服务器可以进一步对图形特征数据分类结果向量、字幕文本分类结果向量以及音频文本分类结果向量中的至少一个进行加权融合计算，即，分别根据图像特征数据结果向量表示的图像特征数据所属类别，和 /或字幕文本分类结果向量表示的字幕文本所属类别，和 /或音频文本分类结果向量所属类别三者进行加权融合，得到视频文件的特征融合结果向量，该特征融合结果向量表示了客户端当前播放的视频内容所属的类别。其中，服务器进行加权融合的过程可以采用现有技术提供的各种加权融合算法。

另一方面，服务器也可以预先获取需要投放的各种广告文件对应的图像特征数据和 /或音频文本，对于有字幕的广告文件，服务器还可以进一步获取需要投放的各广告文件的字幕文本，并将每个广告文件对应的图像特征数据和 /或音频文本和 /或字幕文本，分别输入到图像特征数据分类模型、音频文本分类模型以及字幕文本分类模型中，得到每个广告文件对应的图像特征数据结果向量、音频文本分类结果向量和字幕文本分类结果向量，再对广告文件的图像特征数据结果向量、和 /或音频文本分类结果向量和 /或包括的字幕文本分类结果向量进行融合计算，得到广告文件的特征融合结果向量。服务器获取客户端正在播放的视频文件对应的特征融合结果向量和需要投放的每个广告对应的特征融合结果向量之后，可以进一步将该视频文件对应的特征融合结果向量与各种需要投放的广告文件对应的特征融合结果向量进行相似度匹配计算，根据相似度的高低确定一个或多个与客户端当前播放视频内容最为匹配的广告文件。其中，服务器进行相似度匹配的过程可以采用现有技术提供的各种相似度匹配算法。

服务器确定了匹配的广告文件之后，可以将匹配的广告文件或者是广告链接发送到客户端，以供客户端播放。

本实施例提供的视频广告播放方法，客户端根据当前播放的视频画面分析获取图像特征数据、字幕文本和音频文本的至少一个发送给服务器，服务器根据客户端提供的这些特征数据得到视频文件的特征融合结果向量，并与待投放的各个广告文件的特征融合结果向量进行相似度匹配计算确定相匹配的广告文件，再将匹配的广告发送给客户端播放，从而使客户端播放的广告更适合客户端当前正在播放的场景。

图 3为本发明提供的视频广告播放方法另一个实施例的流程图，如图 3 所示，本实施例提供了客户端向服务器提供的视频文件的特征数据包括：图像特征数据、字幕文本和音频文本中的至少一个，服务器根据图像特征数据、字幕文本和、音频文本中的至少一个确定相匹配的广告的一个具体实施例，该方法包括：

S301a、服务器对收集的训练视频画面进行图像特征提取，得到训练视频画面的图像特征数据 , 对训练视频画面进行文本标注 , 得到训练视频画面的标注数据，对训练视频画面的图像特征数据和标注数据进行支持向量机 SVM训练，得到图像特征数据分类模型。

服务器可以收集若干图片，这些图片可以是视频中某些重要画面或指定需要插播广告的视频画面，这些图片在此命名为训练视频画面。服务器对训练视频画面进行图像特征提取，得到训练视频画面的图像特征数据，这些图像特征数据可以包括：用于表示视频画面图像颜色特征的颜色累积直方图数据、用于表示视频画面图像纹理特征的灰度共生矩阵数据、用于表示视频画面图像形状特征的灰度梯度方向矩阵数据等。

服务器还可以进一步对训练视频画面进行文本标注，即，对训练视频画面按照所属类别进行分类，例如：可以分为体育类、财经类、娱乐类等，从而得到训练视频画面的标注数据。服务器可以将训练视频画面的图像特征数据和标注数据作为 SVM 分类算法的输入，对图像特征数据和标注数据进行支持向量机 SVM训练，得到图像特征数据分类模型。即，机器可以通过对训练图片的图像特征数据和标注数据进行学习，得到一些 "经验 "，从而能够对新数据进行分类。而机器通过学习得到的 "经验" 即为图像特征数据分类模型。

S301 b、服务器对收集的训练视频进行字幕提取，得到训练视频的字幕文本，对训练视频进行文本标注，得到训练视频的标注数据，对训练视频的字幕文本和标注数据进行 SVM训练，得到字幕文本分类模型。

与 S301 a类似的，服务器可以收集包含字幕的训练视频，并对这些训练视频进行字幕提取，得到训练视频的字幕文本。并且，服务器可以对训练视频进行文本标注，得到训练视频的标注数据，然后将训练视频的字幕文本和标注数据作为 SVM分类算法的输入，对训练视频的字幕文本和标注数据进行 S VM训练，得到字幕文本分类模型。

S301c、服务器对收集的训练音频内容进行音频提取，得到训练音频的音频文本，对训练音频进行文本标注，得到训练音频的标注数据，对训练音频的视频文本和标注数据进行 SVM训练，得到音频文本分类模型。

与 S301 a类似的，服务器还可以收集包含音频的训练视频，对这些训练音频内容进行音频提取，得到训练音频内容的音频文本。服务器还需要对训练视频画面音频进行文本标注，得到训练视频画面音频的文本标注，然而将训练音频内容的音频文本和标注数据作为 SVM分类算法的输入，对训练音频内容的视频音频文本和标注数据进行 SVM训练，得到音频文本分类模型。

S301a-S301c为服务器通过 SVM训练得到图像特征数据分类模型、字幕文本分类模型和音频文本分类模型的过程。以上几个步骤之间的顺序不分先后。

S302、服务器接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本。

S303a、服务器将视频文件的图像特征数据输入预设的图像特征数据分类模型进行分类，得到视频文件的图形特征数据分类结果向量；和 /或，服务器将视频文件的字幕文本输入预设的字幕文本分类模型进行分类，得到视频文件的字幕文本分类结果向量；和 /或，服务器将视频文件的音频文本输入预设的音频文本分类模型进行分类，得到视频文件的音频文本分类结果向量；其中，图像特征数据分类模型、字幕文本分类模型和音频文本分类模型具有相同的分类维度。

由于服务器预先建立的图像特征数据分类模型、字幕文本分类模型和音频文本分类模型分别为用于对图像特征数据、字幕文本和音频文本进行分类的经验模型，因此，从图像特征数据分类模型、字幕文本分类模型和音频文本分类模型输出的视频文件的图形特征数据分类结果向量、字幕文本分类结果向量和音频文本分类结果向量分别体现了视频文件的图像特征数据、字幕文本和音频文本所属的类别。

由于图像特征数据分类模型、字幕文本分类模型和音频文本分类模型的类别和维度均相同，因此，视频文件的图像特征数据分类结果向量、字幕文

(丄人…丄）本分类结果向量和音频文本分类结果向量的默认值均可以取： , 其中包括 η个 1/η, η表示分类类别的维度数。

需要说明的是，如果客户端可以向服务器发送视频文件的图像特征数据、字幕文本或者音频文本中的一个或多个，例如：某个视频无音频，则客户端可以向服务器发送图像特征数据和字幕文本；则这种场景下，服务器可以取音频文本分类结果向量为默认值。其他情况不——列举。

与获得视频文件的图形特征数据分类结果向量、字幕文本分类结果向量和视频文本分类结果向量相对应的，服务器还可以根据各个待投放的广告文件视频画面、视频字幕和音频内容分别获取各广告文件的图像特征数据、字幕文本和音频文本，并分别将各广告文件的图像特征数据、字幕文本和音频文本分别输入至图像特征数据分类模型、字幕文本分类模型和音频文本分类模型，得到各广告的图像特征数据分类结果向量、字幕文本分类结果向量或音频文本分类结果向量，即服务器还需要执行 S303M和 S303b2的操作，以便进行后续的匹配操作。

S303b1、服务器根据待投放的各广告文件的视频画面和 /或视频字幕和 / 或音频内容，分别获取各广告文件的图像特征数据、字幕文本和音频文本中的至少一个。

其中，服务器获取各广告文件的图像特征数据、字幕文本和音频文本的操作可以参考前述实施例中客户端获取视频文件的图像特征数据、字幕文本和音频文本的具体过程，在此不再赘述。

S303b2、服务器将各广告文件的图像特征数据输入图像特征数据分类模型进行分类，得到各广告文件的图像特征数据分类结果向量；和 /或，将各广告文件的字幕文本输入字幕文本分类模型进行分类，得到各广告文件的字幕文本分类结果向量；和 /或，将各广告文件的音频文本输入音频文本分类模型进行分类，得到各广告文件的音频文本分类结果向量。

其中，广告文件的图像特征数据分类结果向量、广告文件的字幕文本分类结果向量和广告文件的音频文本分类结果向量具有相同的分类维度

需要说明的是， S303b1和 S303b2的操作可以在服务器接收到客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个之前进行，也可以在收到图像特征数据、字幕文本和音频文本中的至少一个之后进行。

S304a、服务器对视频文件的图形特征数据分类结果向量、字幕文本分类结果向量以及音频文本分类结果向量中的至少一个进行加权融合计算，得到视频文件的特征融合结果向量。

本实施例提供了加权融合计算的一种方法，假设分类维度为 n维，视频文件的图像特征数据分类模型得到的视频文件的图像特征数据分类结果向量为：

ΰ = (H ,H ,...H ). 其中，表示图形特征数据分类结果向量， 0<^W'<1, i=1,2,〜n, ^W '为图像特征数据输入图像特征数据分类模型后得到的图像特征数据分类结果向量在维度 i的得分值。

字幕文本分类模型得到的视频文件的字幕文本分类结果向量为：

Κ = (ν_1?ν₂,...ν_κ). 其中， ^表示字幕文本分类结果向量， 0<^V'<1, i=1,2,〜n, ^V '为字幕文本输入字幕文本分类模型后得到的字幕文本分类结果向量在维度 i的得分值。

音频文本分类模型得到的视频文件的音频文本分类结果向量为：

W - (w， v₂ .. v) 其中， ^表示音频文本分类结果向量， 0<^W'<1, i=1,2,〜n, ^W '为音频文本输入音频文本分类模型后得到的音频文本结果向量在维度 i的得分值。

服务器对视频文件的图形特征数据分类结果向量、字幕文本分类结果向量以及音频文本分类结果向量进行加权融合可以采用以下公式：

Ά = α·ϋ + β·ν + γ·Ψ. 该公式表示特征融合结果向量为：视频文件的图像特征数据结果向量、字幕文本结果向量和音频文本结果向量三者加权之和。其中， ^表示特征融合结果向量， a , β , ^分别为图像特征数据结果向量、字幕文本结果向量和音频文本结果向量赋予的权重参数。 "， Ρ , ^的取值计算公式为：

该公式表示向量与单位向量/的夹角余弦值。其中， ^表示向量的各维度得分值之和，

的各维度得分值平方之和的平方才艮。 <^¾'<1, i=1,2,...n。

该公式表示计算向量 ^与单位向量的夹角余弦值。其中，表示

, ^ , - ^V' 表示向量 ^的各维度得分值平方之和的平 ^V'<1, i=1,2,...n₍

该公式表示计算向量^与单位向量的夹角余弦值。其中， ^W表示向量^的各维度得分值之和， ^ 表示向量的各维度得分值平方之和的平方根。 0< <1, i=1,2,...n_t

= (U"..l); 其中包括 _n个 1, 1表示单位向量, 1

cos(t ,/)

a

1

- + ^^ + - cos 该公式表示"取值等于：向量与单位向量的夹角余弦值的倒数除以三

该公式表示取值等于：向量与单位向量的夹角余弦值的倒数除以三

1

该公式表示 ^取值等于：向量^与单位向量的夹角余弦值的倒数除以三个向量 t7 , V , 分别与单位向量的夹角余弦值的倒数之和。

由于目前，客户端播放的视频文件可能在服务器侧存储有对应的多个标签，每个标签用于标注视频文件某一片段或画面的内容，因此，可选的，如果服务器侧具有视频文件对应的多个标签，则服务器可以在得到视频文件特征融合结果向量之后，进一步通过视频文件对应的标签，对特征融合结果向量进行修正。具体如下：特征融合结果向量为： ^{R = r}、， "" ；其中， 0< <1 , i=1 ,2,...n,

^为特征融合结果向量在维度 i的值。

服务器可以预先生成标签的得分向量，具体可以是将多个标签分别与各分类模型的分类维度进行映射 , 然后分别统计每个分类维度对应的标签数量得到一个向量，将该向量归一化作为视频文件对应的标签得分向量。假设标签的得分向量为： S = ^，^，'^) 其中， i=1,2,...n, '为标签的得分向量在维度 i的值。

服务器可以根据视频文件的标签得分向量对视频文件的特征融合结果向量进行修正，可以采用以下公式实现：

Τ = λ·Ά + μ·Ξ 其中， f表示修正后的最终的分类结果向量， A表示视频文件的特征融合结果向量， ^表示标签得分向量， , ^为分别为视频文件的特征融合结果向量、标签得分向量赋予的权重参数。 T表示视频文件的特征融合结果向量和标签的得分向量二者加权之和。

其中，权重参数， ^的取值计算公式为：

该公式表示计算向量 ^与单位向量 /的夹角余弦值。其中?? 表示向量的各维度得分值之和，表示向量 ^的各维度得分值平方之和的平方 < <1, i=1,2,...n。

S与单位向量的夹角余弦值。其中， ^ '表示向量

的各维度得分值平方之和的平方根。 0< <1, i=1,2,...n。

1

, cos(R,l)

Λ= 1 _| 1

cos ( , ) cos( , ) 该公式表示参数取值等于：向量与单位向量的夹角余弦值的倒数除以两个向量 A , s分别与单位向量的夹角余弦值的倒数之和。

1

cos(S, l)

| 1

cos(R, /) cos^, / ) 该公式表示参数取值等于：向量 S与单位向量的夹角余弦值的倒数除以两个向量 , s分别与单位向量的夹角余弦值的倒数之和。

以上仅是本实施例提供的加权融合算法的可行方式，但并不以此作为对本发明的限制，实际上，本发明还可以采用现有的其他加权融合算法确定视频文件或广告文件的特征融合结果向量。

S304b、服务器分别对各广告文件的图形特征数据分类结果向量、字幕文本分类结果向量以及音频文本分类结果向量中的至少一个进行加权融合计算，得到各广告文件的特征融合结果向量。

与 S304a相类似的，服务器也可以对各广告文件的图形特征数据分类结果向量、字幕文本分类结果向量以及音频文本分类结果向量中的至少一个进行加权融合计算，加权融合计算的具体过程可参见 S304a, 在此不再赘述。

需要说明的是， S304b的操作可以在服务器接收到客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个之前进行，也可以在收到图像特征数据、字幕文本和音频文本中的至少一个之后进行。

S305、服务器对各广告文件的特征融合结果向量与视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件。

本实施例提供一种相似度匹配计算的方法，具体如下：

假设任一广告文件的特征融合结果向量为：

— (« ^ JC ,· · ·· ) 其中， 0< ' <1 , i=1 ,2,...n, '为广告文件在维度 i的得分值。

假设视频文件的特征融合结果向量为： Y = (y^ y^-yJ 其中， 0< <1； i=1 ,2,...n; 为视频文件在维度 i的得分值。

该公式表示计算广告文件的特征融合结果向量和视频文件的特征融合结果向量的夹角正弦值。其中，表示两向量对应维度值分别相乘之和，」i^x' 表示向量 X的各维度得分值的平方之和的平方根, ^ίΐ^表示向量的各维度得分值的平方之和的平方根， 0< , <1 , i=1 ,2,...n , ,为广告文件在维度 i的得分值， 0< <1； i=1 ,2,...n; 为视频文件在维度 i的得分值。似度值最大的一个或几个广告确定为匹配的广告。

以上仅是本实施例提供的相似度匹配算法的可行方式，但并不以此作为对本发明的限制，实际上，本发明还可以采用现有的其他相似度匹配算法确定与视频文件相匹配的广告文件。

S306、服务器将匹配的广告文件发送给客户端。

服务器确定与视频文件相匹配的广告文件后，可以将匹配的广告文件或广告文件的链接发给客户端，以供客户端播放。

本实施例提供的视频广告的播放方法，可以应用在个人计算机、手机等终端的客户端，例如：视频播放器中插播广告，尤其适合在视频播放点击暂停时，选择与当前播放视频内容最相近匹配的广告进行播放。

以下再以一个具体的例子对本发明提供的视频广告的播放方法进行说明。假设客户端需要在播放某视频文件点击暂停按钮时插播广告。如图 4所示，该方法具体包括：

S401、客户端获得当前播放视频文件的视频画面、视频字幕和音频内容。客户端可以利用视频播放软件直接获取当然播放视频的画面截图，作为当前播放视频文件的视频画面。

客户端可以将视频片段切割成帧，然后针对视频图像进行处理，判断视频图像中是否包含有文字信息，以及文字信息在视频图像中的位置，并将文字区域切割出来形成文字区域。最后将提取出来的文字区域进行灰度化和二值化，得到白底黑字或黑底白字的字幕文字图片。

客户端还可以通过视频播放器直接获得当前播放视频文件的音频内容，还可以选择视频中截取的起始时间和结束时间之间的音频内容，选择需要的音频部分。

5402、客户端根据当前播放的视频文件的视频画面、视频字幕和音频内容，分析获取视频文件的图像特征数据，视频字幕的字幕文本和音频内容的音频文本。

客户端获取视频文件图像特征数据，视频字幕的字幕文本和音频内容的音频文本的过程可参见图 1所示实施例的对应描述，在此不再赘述。

5403、客户端将视频文件的图像特征数据、字幕文本和音频文本发送给服务器。

S404、服务器根据视频文件的图像特征数据、字幕文本和音频文本，得到视频文件的特征融合结果向量。

S405、服务器将待投放的各个广告文件的特征融合结果向量与视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件。

服务器在确定匹配的广告文件之前，需要建立图像特征数据分类模型、字幕文本分类模型和音频文本分类模型 ,其建模的具体过程可参见图 3所示的实施例。本实施例中，服务器为各分类模型设置的分类维度为 5维，例如可以是：汽车、 IT、房产、美食、娱乐。

假设视频文件的图像特征数据输入图像特征数据分类模型得到的视频文件的图像特征数据分类结果向量为：

U =(0.10,0.10,0.05,0.05,0.70);

视频文件的字幕文本输入字幕文本分类模型得到的视频文件的字幕文本分类结果向量为：

^=(0.05,0.05,0.10,0,0.80);

视频文件的音频文本输入音频文本分类模型得到的视频文件的音频文本分类结果向量为： =(0.07,0.08,0.10,0,0.75); 则视频文件的特征融合结果向量 R，其计算过程可参见图 3所示实施例，其中： cos(U ) = 厂 ) = 1.60

V5 - V0.515 其中， I = (1,1"..1)中包括₅个₁

1

cos

a = (i7,/)

1 1 1

cos (ϋ,ϊ) cos(F,/) cos(W,I)

0.625

0.625 + 0.552 + 0.585 = 0.355

1

cos(K,/)

β 1 1 1 0.552

+ +

cos(t7,/) cos(K,/) cos( ,/) " 0.625 + 0.552 + 0.585 = 0.313

1

cos(f ,7)

1 1 1 0.585

cos(t/,7) cos( ,7) cos(^,7) ~ 0.625 + 0.552 + 0.585 = 0.332 α · ϋ =(0.0355,0.0355,0.0178,0.0178,0.2485)

· :(0.0156,0.0156,0.0313,0,0.2505)

Ά = - ϋ + β - Ϋ + γ - =(0.0743,0.0777,0.0823, 0.0178,0.7480)

需要说明的是，如果服务器侧不具有该视频文件的标签，则可以直接将上述过程得到的视频文件的特征融合结果向量 ^与各广告文件的特征融合结果向量进行相似度匹配计算（本实施例中省略了各广告文件的特征融合结果向量的计算过程），相似度最大的一个或多个广告，即为与视频文件最为匹配的目标广告文件。

如果服务器侧存储该视频文件的标签，则可以将这些标签映射到各分类模型的分类维度上，统计映射到各分类维度的标签数量，得到标签得分向量 s , 再采用标签得分向量 s对视频文件的特征融合结果向量进行修正，得到最终的视频文件的特征融合结果向量。再将 Γ与各广告文件的特征融合结果向量进行相似度匹配计算，确定与视频文件相匹配的广告文件。

S406、服务器将匹配的广告文件发送给客户端。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体（ Read-Only Memory, ROM )或随机存储记忆体（ Random Access Memory, RAM )等。

图 5为本发明提供的服务器一个实施例的结构示意图，如图 5所示，该服务器包括：接收器 11、处理器 12和发送器 13; 其中：

接收器 11 , 用于接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个，视频文件的图像特征数据、字幕文本和音频文本由客户端分别根据当前播放的视频文件的视频画面、视频字幕和音频内容分析获取；

处理器 12, 用于根据视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到视频文件的特征融合结果向量；将待投放的各个广告文件的特征融合结果向量与视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件；

发送器 13, 用于将匹配的广告文件发送给客户端。

图 6为本发明提供的服务器又一个实施例的结构示意图，如图 6所示，该服务器包括：接收器 11、处理器 12、发送器 13和存储器 14;

本实施例中，处理器 12可以具体用于：将视频文件的图像特征数据输入预设的图像特征数据分类模型进行分类，得到视频文件的图形特征数据分类结果向量；和 /或，将视频文件的字幕文本输入预设的字幕文本分类模型进行分类，得到视频文件的字幕文本分类结果向量；和 /或，将视频文件的音频文本输入预设的音频文本分类模型进行分类，得到视频文件的音频文本分类结果向量，图像特征数据分类模型、字幕文本分类模型和音频文本分类模型具有相同的分类维度；对视频文件的图形特征数据分类结果向量、字幕文本分类结果向量和音频文本分类结果向量中的至少一个进行加权融合计算，得到视频文件的特征融合结果向量。进一步的，处理器 12还可以用于：对收集的训练视频画面进行图像特征提取，得到训练视频画面的图像特征数据；对训练视频画面进行文本标注 , 得到训练视频画面的标注数据；对训练视频画面的图像特征数据和标注数据进行支持向量机 SVM训练 , 得到图像特征数据分类模型；

类似的，处理器 12还可以用于：对收集的训练视频进行字幕提取，得到训练视频的字幕文本；对训练视频进行文本标注，得到训练视频的标注数据；对训练视频的字幕文本和标注数据进行 SVM训练，得到字幕文本分类模型；同样，处理器 12还可以用于：对收集的训练音频进行音频提取，得到训练音频的音频文本；对训练音频进行文本标注，得到训练音频的标注数据；对训练音频的视频文本和标注数据进行 SVM训练，得到音频文本分类模型。

作为一种可行的实施方式，处理器 12还可以具体用于：根据^ ⁼ " ^ ⁺ ^ ' ^ + 进行加权融合计算，其中，表示特征融合结果向量， /为单位向量，表示图形特征数据分类结果向量，表示字幕文本分类结果向量， ^表示音频文本分类结果向量， CC , β , 分别为图像特征数据结果向量、字幕文本结果向量和音频文本结果向量赋予的权重参

数， ,

1 1 _| 1 _| 1

cos 0,1) cos(V, I) cos V )

进一步的，处理器 12还可以用于：根据待投放的各广告文件的视频画面和 /或视频字幕和 /或音频内容，分别获取各广告文件的图像特征数据、字幕文本和音频文本中的至少一个；将各广告文件的图像特征数据输入图像特征数据分类模型进行分类，得到各广告文件的图像特征数据分类结果向量；和 /或，将各广告文件的字幕文本输入字幕文本分类模型进行分类，得到各广告文件的字幕文本分类结果向量；和 /或，将各广告文件的音频文本输入音频文本分类模型进行分类，得到各广告文件的音频文本分类结果向量，广告文件的图像特征数据分类结果向量、广告文件的字幕文本分类结果向量和广告文件的音频文本分类结果向量具有相同的分类维度；分别对各广告文件的图形特征数据分类结果向量、字幕文本分类结果向量和音频文本分类结果向量中的至少一个进行加权融合计算，得到各广告文件的特征融合结果向量。

存储器 14可以用于：存储视频文件的多个标签，标签用于标注视频文件的片段或画面内容；

相应的，处理器 12还可以用于：将多个标签分别与分类维度进行映射，分别统计每个分类维度对应的标签数量 ,得到视频文件对应的标签得分向量；采用视频文件的标签得分向量，对视频文件的特征融合结果向量进行修正。

本发明实施例提供的服务器，与本发明提供的视频播放方法相对应，为功能设备，其执行视频播放方法的具体过程可参见方法

本发明实施例提供的服务器，客户端根据当前播放的视频画面分析获取图像特征数据、字幕文本和音频文本的至少一个发送给服务器，服务器根据客户端提供的这些特征数据得到视频文件的特征融合结果向量，并与待投放的各个广告文件的特征融合结果向量进行相似度匹配计算确定相匹配的广告文件，再将匹配的广告发送给客户端播放，从而使客户端播放的广告更适合客户端当前正在播放的场景。

图 7为本发明提供的客户端一个实施例的结构示意图，如图 7所示，该客户端包括：处理器 21、发送器 22和播放器 23;

处理器 21 , 用于根据当前播放的视频文件的视频画面和 /或视频字幕和 / 或音频内容，分析获取视频画面的图像特征数据，视频字幕的字幕文本和音频内容的音频文本中的至少一个；

发送器 22, 用于将视频文件的图像特征数据、字幕文本和音频文本中的至少一个发送给服务器，以使服务器根据视频文件的图像特征数据、字幕文本和音频文本中的至少一个确定匹配的广告文件；

播放器 23, 用于播放服务器发送的匹配的广告文件。

本发明实施例提供的客户端，与本发明提供的视频播放方法相对应，为实现视频播放方法的功能设备，其执行视频播放方法的具体过程可参见方法实施例，不再赘述。

本发明实施例提供的客户端，根据当前播放的视频画面分析获取图像特征数据、字幕文本和音频文本的至少一个发送给服务器，服务器根据客户端提供的这些特征数据得到视频文件的特征融合结果向量，并与待投放的各个广告文件的特征融合结果向量进行相似度匹配计算确定相匹配的广告文件，再将匹配的广告发送给客户端播放，从而使客户端播放的广告更适合客户端当前正在播放的场景。

图 8为本发明提供的视频广告播放系统一个实施例的结构示意图，如图 8所示，该系统包括：客户端 1和服务器 2; 其中：

客户端 1 用于：根据当前播放的视频文件的视频画面和 /或视频字幕和 / 或音频内容，分析获取视频画面的图像特征数据，视频字幕的字幕文本和音频内容的音频文本中的至少一个；将视频文件的图像特征数据、字幕文本和音频文本中的至少一个发送给服务器 2 , 以使服务器 2根据视频文件的图像特征数据、字幕文本和音频文本中的至少一个确定匹配的广告文件；播放服务器 2发送的匹配的广告文件；

服务器 2用于：接收客户端 1发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个，视频文件的图像特征数据、字幕文本和音频文本由客户端分别根据当前播放的视频文件的视频画面、视频字幕和音频内容分析获取；根据视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到视频文件的特征融合结果向量；将待投放的各个广告文件的特征融合结果向量与视频文件的特征融合结果向量进行相似度匹配计算，将相似度最大的一个或多个广告文件确定为匹配的广告文件；将匹配的广告文件发送给客户端 1。

本发明实施例提供的视频广告播放系统，与本发明提供的视频播放方法相对应，为实现视频播放方法的系统，其执行视频播放方法的具体过程可参见方法实施例，不再赘述。

本发明实施例提供的视频广告播放系统，根据当前播放的视频画面分析获取图像特征数据、字幕文本和音频文本的至少一个发送给服务器，服务器根据客户端提供的这些特征数据得到视频文件的特征融合结果向量，并与待投放的各个广告文件的特征融合结果向量进行相似度匹配计算确定相匹配的广告文件，再将匹配的广告发送给客户端播放，从而使客户端播放的广告更适合客户端当前正在播放的场景。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求

1、一种视频广告播放方法，其特征在于，包括：

将所述匹配的广告文件发送给所述客户端。

2、根据权利要求 1所述的方法，其特征在于，所述根据所述视频文件的图像特征数据、字幕文本和音频文本中的至少一个，得到所述视频文件的特征融合结果向量，包括：

将所述视频文件的图像特征数据输入预设的图像特征数据分类模型进行分类，得到所述视频文件的图形特征数据分类结果向量；和 /或，将所述视频文件的字幕文本输入预设的字幕文本分类模型进行分类，得到所述视频文件的字幕文本分类结果向量；和 /或，将所述视频文件的音频文本输入预设的音频文本分类模型进行分类，得到所述视频文件的音频文本分类结果向量，所述图像特征数据分类模型、所述字幕文本分类模型和所述音频文本分类模型具有相同的分类维度；

对所述视频文件的图形特征数据分类结果向量、字幕文本分类结果向量和音频文本分类结果向量中的至少一个进行加权融合计算，得到所述视频文件的特征融合结果向量。

3、根据权利要求 2所述的方法，其特征在于，所述接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个之前，还包括：对收集的训练视频画面进行图像特征提取，得到所述训练视频画面的图像特征数据；

对所述训练视频画面进行文本标注 ,得到所述训练视频画面的标注数据；对所述训练视频画面的图像特征数据和标注数据进行支持向量机 SVM 训练，得到所述图像特征数据分类模型。

4、根据权利要求 2所述的方法，其特征在于，所述接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个之前，还包括：对收集的训练音频进行音频提取，得到所述训练音频的音频文本；对所述训练音频进行文本标注，得到所述训练音频的标注数据；对所述训练音频的视频文本和标注数据进行 SVM训练，得到所述音频文本分类模型。

5、根据权利要求 2所述的方法，其特征在于，所述接收客户端发送的视频文件的图像特征数据、字幕文本和音频文本中的至少一个之前，还包括：对收集的训练视频进行字幕提取，得到所述训练视频的字幕文本；对所述训练视频进行文本标注，得到所述训练视频的标注数据；对所述训练视频的字幕文本和标注数据进行 SVM训练，得到所述字幕文本分类模型。

6、根据权利要求 2-5任一项所述的方法，其特征在于，

根据 = . + . f + 进行所述加权融合计算，其中，表示特征融合结果向量， /为单位向量，表示图形特征数据分类结果向量，表示字幕文本分类结果向量，表示音频文本分类结果向量， a , β , 分别为图像特征数据结果向量、字幕文本结果向量和音频文本结果向量赋予的权重参

1 1

_ cos(t ,/) _β = cos(V,I)

a⁼ 1 1 1 P— _→ , _→ , i—

数， cos(t7,/) ⁺ cos( , /) ⁺ cos(^, /) ， cos(0,I) cos(f,7) cos(W,I) ,

1 1 _| 1 _| 1

cos 0,1) cos( , /) cos(f , /)

7、根据权利要求 1-5任一项所述的方法，其特征在于，所述将待投放的各个广告文件的特征融合结果向量与所述视频文件的特征融合结果向量进行相似度匹配计算之前，还包括：分别获取各广告文件的图像特征数据、字幕文本和音频文本中的至少一个；将各广告文件的图像特征数据输入所述图像特征数据分类模型进行分类，得到各广告文件的图像特征数据分类结果向量；和 /或，将各广告文件的字幕文本输入所述字幕文本分类模型进行分类，得到各广告文件的字幕文本分类结果向量；和 /或，将各广告文件的音频文本输入所述音频文本分类模型进行分类，得到各广告文件的音频文本分类结果向量，所述广告文件的图像特征数据分类结果向量、所述广告文件的字幕文本分类结果向量和所述广告文件的音频文本分类结果向量具有相同的分类维度；

分别对各广告文件的图形特征数据分类结果向量、字幕文本分类结果向量和音频文本分类结果向量中的至少一个进行加权融合计算，得到各广告文件的特征融合结果向量。

8、根据权利要求 2-5任一项所述的方法，其特征在于，若服务器存储有所述视频文件的多个标签，所述标签用于标注所述视频文件的片段或画面内容，则所述得到所述视频文件的特征融合结果向量之后，还包括：

将所述多个标签分别与所述分类维度进行映射，分别统计每个所述分类维度对应的标签数量，得到所述视频文件对应的标签得分向量；

采用所述视频文件的标签得分向量，对所述视频文件的特征融合结果向量进行修正。

9、一种视频广告播放方法，其特征在于，包括：

播放所述服务器发送的匹配的广告文件。

10、一种服务器，其特征在于，包括：

11、根据权利要求 10所述的服务器，其特征在于，所述处理器具体用于：将所述视频文件的图像特征数据输入预设的图像特征数据分类模型进行分类，得到所述视频文件的图形特征数据分类结果向量；和 /或，将所述视频文件的字幕文本输入预设的字幕文本分类模型进行分类，得到所述视频文件的字幕文本分类结果向量；和 /或，将所述视频文件的音频文本输入预设的音频文本分类模型进行分类，得到所述视频文件的音频文本分类结果向量，所述图像特征数据分类模型、所述字幕文本分类模型和所述音频文本分类模型具有相同的分类维度；对所述视频文件的图形特征数据分类结果向量、字幕文本分类结果向量和音频文本分类结果向量中的至少一个进行加权融合计算，得到所述视频文件的特征融合结果向量。

12、根据权利要求 11所述的服务器，其特征在于，所述处理器还用于：对收集的训练视频画面进行图像特征提取，得到所述训练视频画面的图像特征数据；对所述训练视频画面进行文本标注 , 得到所述训练视频画面的标注数据；对所述训练视频画面的图像特征数据和标注数据进行支持向量机 SVM 训练，得到所述图像特征数据分类模型；

所述处理器还用于：对收集的训练视频进行字幕提取，得到所述训练视频的字幕文本；对所述训练视频进行文本标注，得到所述训练视频的标注数据；对所述训练视频的字幕文本和标注数据进行 SVM训练，得到所述字幕文本分类模型；

所述处理器还用于：对收集的训练音频进行音频提取，得到所述训练音频的音频文本；对所述训练音频进行文本标注，得到所述训练音频的标注数据；对所述训练音频的视频文本和标注数据进行 SVM训练，得到所述音频文本分类模型。

13、根据权利要求 11或 12所述的服务器，其特征在于，所述处理器具体用于：根据^ = α · ϋ + β· Ϋ + γ · ^进行所述加权融合计算，其中，表示特征融合结果向量，为单位向量，表示图形特征数据分类结果向量， ^表示字幕文本分类结果向量， ^表示音频文本分类结果向量， a , β , 分别为图像特征数据结果向量、字幕文本结果向量和音频 1

_R _ cos(f,7) _{y =} cos(W,I)

μ = ~ ϊ ϊ Ϊ ~ ^_ 1 , 1 , 1

cos(t/,/) cos( ,/) cos(^,7) , cos(t7, 7) cos(F, 7) cos(f , )。

14、根据权利要求 10-12任一项所述的服务器，其特征在于，所述处理器还用于：根据所述待投放的各广告文件的视频画面和 /或视频字幕和 /或音频内容，分别获取各广告文件的图像特征数据、字幕文本和音频文本中的至少一个；将各广告文件的图像特征数据输入所述图像特征数据分类模型进行分类，得到各广告文件的图像特征数据分类结果向量；和 /或，将各广告文件的字幕文本输入所述字幕文本分类模型进行分类，得到各广告文件的字幕文本分类结果向量；和 /或，将各广告文件的音频文本输入所述音频文本分类模型进行分类，得到各广告文件的音频文本分类结果向量，所述广告文件的图像特征数据分类结果向量、所述广告文件的字幕文本分类结果向量和所述广告文件的音频文本分类结果向量具有相同的分类维度；分别对各广告文件的图形特征数据分类结果向量、字幕文本分类结果向量和音频文本分类结果向量中的至少一个进行加权融合计算，得到各广告文件的特征融合结果向量。

15、根据权利要求 10-12任一项所述的服务器，其特征在于，还包括：存储器，用于存储所述视频文件的多个标签，所述标签用于标注所述视频文件的片段或画面内容；

所述处理器还用于：将所述多个标签分别与所述分类维度进行映射，分别统计每个所述分类维度对应的标签数量，得到所述视频文件对应的标签得分向量；采用所述视频文件的标签得分向量，对所述视频文件的特征融合结果向量进行修正。

16、一种客户端，其特征在于，包括：

播放器，用于播放所述服务器发送的匹配的广告文件。

17、一种视频广告播放系统，其特征在于，包括如权利要求 10-15任一项所述的服务器和如权利要求 16所述的客户端。