WO2013097101A1

WO2013097101A1 - 分析视频文件的方法和装置

Info

Publication number: WO2013097101A1
Application number: PCT/CN2011/084783
Authority: WO
Inventors: 杨杰
Original assignee: 华为技术有限公司
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2013-07-04
Also published as: CN103299319A

Abstract

本发明公开了一种分析视频文件的方法和装置。该方法包括：获取视频文件的音频数据和视频数据；根据该音频数据，确定该视频文件的至少一个静音点；根据该视频数据获取该视频文件的判断片段，该判断片段包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段；根据该判断片段，在该至少一个静音点中确定该视频文件的事件分割点。本发明实施例的分析视频文件的方法和装置，通过获取视频文件的至少一个静音点和判断片段，并根据该判断片段在该至少一个静音点中确定该视频文件的事件分割点，能够准确地确定事件分割点，从而能够准确地对视频文件进行事件分割，并由此能够提高视频编目的效率和准确性。

Description

分析视频文件的方法和装置技术领域

本发明涉及信息技术领域，尤其涉及信息技术领域中分析视频文件的方法和装置。背景技术

随着网络技术和信息技术的快速发展，大量的信息和资讯涌入我们的视线。图像、音频、视频等采用多媒体数据的表达方式，使得新闻的点击率得到了大幅的提高。多媒体数据正逐渐取代文字，成为新闻的主要载体。面对海量的新闻视频，人们感到了 "信息过载" 的压力。于是，人们开始关注如何从海量的视频数据中找到自己感兴趣的信息。这种需求促使了信息检索、个性化推荐以及数据挖掘等技术的发展。

电视新闻节目是新闻视频的主要来源之一。新闻视频的分析和应用越来越引起业内的关注。目前新闻视频分析的主要内容包括：新闻拆条、新闻搜索、新闻推荐、潜在热点事件发现、新闻事件跟踪和舆情监控。在新闻视频分析的第一步即新闻拆条中，生成的新闻视频的语义信息可以作为拆条得到的新闻事件的元数据，以便于后续的新闻搜索、新闻事件跟踪等过程的分析与应用。

新闻拆条针对的新闻视频集中了多个类型的新闻事件的视频，比如新闻联播和各地区的电视新闻节目。这种不同类型、不同事件组合在一起的新闻方式不适合信息的快速检索。因此，将新闻视频按不同事件划分成多个新闻视频片段的需求变得非常迫切。将新闻视频按不同事件进行划分俗称为 "新闻拆条" 或 "碎片化"，即利用新闻视频的音频和视频特征，将新闻视频按不同事件进行分割。目前常用的音频和视频特征包括主持人镜头片段（也称为 "口播帧"）、字幕片段、镜头切换片段和静音片段。

目前，通过主持人镜头检测、字幕检测、静音检测和镜头切换检测等方法能够得到大量的分割时间点，但这些分割时间点与新闻事件分割点不是一对一的关系，更具体地说，这些分割时间点相对于新闻事件分割点来说是一种 "过分割"，即新闻事件分割点集是前述分割时间点的一个子集。

通常而言，主持人在播报新闻时，在叙述两个新闻事件时停顿的时间相比讲述同一个新闻事件中间停顿的时间略长。由此，业内通常检测新闻视频的静音片段，将静音片段的中间点作为静音点，并由此将该静音点确定为新闻事件分割点。但由于该方法中的静音点和事件分割点并没有必然联系，因此该方法不能准确地获取事件分割点。发明内容

本发明实施例提供了一种分析视频文件的方法和装置，能够准确地确定事件分割点。

一方面，本发明实施例提供了一种分析视频文件的方法，该方法包括：获取视频文件的音频数据和视频数据；根据该音频数据，确定该视频文件的至少一个静音点；根据该视频数据获取该视频文件的判断片段，该判断片段包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段；根据该判断片段，在该至少一个静音点中确定该视频文件的事件分割点。

另一方面，本发明实施例提供了一种分析视频文件的装置，该装置包括：第一获取模块，用于获取视频文件的音频数据和视频数据；第一确定模块，用于根据该第一获取模块获取的该音频数据，确定该视频文件的至少一个静音点；第二获取模块，用于根据该第一获取模块获取的该视频数据，获取该视频文件的判断片段，该判断片段包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段；第二确定模块，用于根据该第二获耳莫块获取的该判断片段，在该第一确定模块确定的该至少一个静音点中，确定该视频文件的事件分割点。

基于上述技术方案，本发明实施例的分析视频文件的方法和装置，通过获取视频文件的至少一个静音点和判断片段，并根据该判断片段在该至少一个静音点中确定该视频文件的事件分割点，能够准确地确定事件分割点，从而能够准确地对视频文件进行事件分割，并由此能够提高视频编目的效率和准确性。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是根据本发明实施例的分析视频文件的方法的示意性流程图。图 2是根据本发明实施例的分析视频文件的方法的另一示意性流程图。图 3是根据本发明实施例的确定静音点的方法的示意性流程图。

图 4是根据本发明实施例的确定静音点的方法的另一示意性流程图。图 5是根据本发明实施例的确定静音点的方法的再一示意性流程图。图 6是根据本发明实施例的分析视频文件的方法的再一示意性流程图。图 7是根据本发明实施例的分析视频文件的装置的示意性框图。

图 8是根据本发明实施例的分析视频文件的装置的另一示意性框图。图 9是根据本发明实施例的第一确定模块的示意性框图。

图 10是根据本发明实施例的第一确定模块的另一示意性框图。

图 11是根据本发明实施例的第五确定单元的示意性框图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。图。如图 1所示，该方法 100包括：

S110, 获取视频文件的音频数据和视频数据；

S120, 根据该音频数据，确定该视频文件的至少一个静音点；

S130, 根据该视频数据获取该视频文件的判断片段，该判断片段包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段； S140, 根据该判断片段，在该至少一个静音点中确定该视频文件的事件分割点。

分析视频文件的装置可以根据视频文件的音频数据和视频数据，获取该视频文件的至少一个静音点以及判断片段，该判断片段可以包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段，由此，该装置可以根据该判断片段，在该至少一个静音点中确定该视频文件的事件分割点。因此，本发明实施例的分析视频文件的方法，通过获取视频文件的至少一个静音点和判断片段，并根据该判断片段在该至少一个静音点中确定该视频文件的事件分割点，能够准确地确定事件分割点，从而能够准确地对视频文件进行事件分割，并由此能够提高视频编目的效率和准确性。

在 S110 中，对于需要分析的视频文件，可以通过对该视频文件进行音视频分离，获取该视频文件的音频数据和视频数据。例如，可以利用视频解码器将视频文件进行音视频分离。

应理解，在本发明实施例中，视频文件可以包括各种类型的视频文件，例如新闻视频、娱乐视频、科教视频等。为了更好地示出本发明，在下文的描述中，将以视频文件包括新闻视频为例进行说明，但本发明实施例并不限于此。

在 S120中，根据该音频数据，可以确定该视频文件包括的至少一个静音点。例如，可以对与主持人镜头片段相应的音频数据进行静音分析，检测其中可能包括事件分割点的静音点；也可以对与非文字片段相应的音频数据进行静音分析，确定其中可能包括事件分割点的静音点。当然，也可以对其它音频数据进行静音分析并确定静音点。

在 S130中，根据该视频数据可以获取该视频文件的判断片段，其中该判断片段可以包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段。应理解，该判断片段也可以包括其它用于确定静音点是否为事件分割点的片段，例如非主持人镜头片段、镜头切换片段等。

在本发明实施例中，可选地，基于人脸识别方法，在该视频数据中获取该视频文件的主持人镜头片段。例如，可以将视频文件涉及到的主持人的人脸信息注册到数据库，并利用人脸识别技术从视频数据中获取主持人镜头片段。应理解，在本发明实施例中，视频数据中包括主持人镜头的片段称为主持人镜头片段，不包括主持人镜头的片段可以称之为非主持人镜头片段或现场镜头片段。

因此，本发明实施例利用主持人人脸识别的方法检测主持人镜头片段，与利用主持人口播帧模板或其他结构性信息提取主持人镜头片段的方法相比，具有更高的普适性和准确率，并且检测率更高。

在本发明实施例中，可以利用文字识别技术将视频数据分为文字片段和非文字片段，其中文字片段可以包括标题片段和字幕片段。例如，可以从视频数据中提取文字信息，并利用文字匹配算法将相同文字内容的片段归纳为文字片段，视频数据中没有文字的片段称为非文字片段。通过对文字片段进行分析，可以确定文字片段包括的标题片段和字幕片段。例如，对文字片段中检测到的文字进行聚类，聚类时主要利用颜色和尺寸这两种低层图像特征将文本聚为两类，根据字体较大的一类为标题，字体较小的一类为说话人的字幕，可以确定标题片段和字幕片段。其中，标题分段可以用来确定事件分割点，而字幕片段可以用于去除过分割中涉及到的静音点。

因此，本发明实施例通过对文字信息进行聚类，将文字信息分为标题和说话人字幕两类，能够排除自动编目系统中因为说话人字幕造成的事件被过分的情况，从而能够提高对视频文件进行事件分割的准确性，并能够提高视频编目的效率和准确性。

在 S140中，可以综合考虑该判断片段包括的视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段，在该至少一个静音点中确定该视频文件的事件分割点。

在本发明实施例中，分析视频文件的装置还可以根据预定规则，确定视频文件的事件分割点，由此确定事件的开始和结束点。例如，该预定规则为： ( 1 ) 根据主持人镜头片段确定的静音点为前一个事件的结束点和下一个事件的开始点；（2 )主持人镜头片段随后的标题片段与该主持人镜头片段属于同一个事件；（3 )标题片段两侧的静音点与该标题片段属于同一个事件； ( 4 )主持人镜头片段中没有静音点的，该主持人镜头片段为一个故事的开始点，该主持人镜头片段的前一帧为上一个故事的结束点。

应理解，分析视频文件的装置也可以综合考虑该判断片段包括的视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段，在该至少一个静音点中排除不可能为事件分割点的静音点。

例如，分析视频文件的装置可以根据判断片段包括的标题片段，将标题片段中的所有分割点排除在事件分割点之外；例如，也可以将主持人镜头片段与随后的现场镜头片段中间的静音点排除在事件分割点之外；例如，也可以将标题内容相似的相邻标题片段之间的静音点排除在事件分割点之外，将与镜头没有发生切换的静音片段包括的静音点排除在事件分割点之外等。

应理解，本发明实施例仅以上述预定规则和例子为例进行说明，但本发明实施例并不限于此，分析视频文件的装置还可以基于其他因素，确定视频文件的事件分割点。

因此，本发明实施例的分析视频文件的方法，通过获取视频文件的至少一个静音点和判断片段，并根据该判断片段在该至少一个静音点中确定该视频文件的事件分割点，能够准确地确定事件分割点，从而能够准确地对视频文件进行事件分割，并由此能够提高视频编目的效率和准确性。

在本发明实施例中，可选地，如图 2所示，分析视频文件的该方法 100 还包括：

S150, 根据该事件分割点，确定该视频文件包括的事件片段；

S160, 根据该视频文件获取与该事件片段相应的事件信息，该事件信息包括主持人信息、被访问人信息、标题信息和字幕信息中的至少一种；

S 170 , 将该事件信息确定为该事件片段的元数据。

在 S150中，可以将事件分割点包括的起始分割点和结束分割点之间的视频文件确定为事件片段。

在 S160中，通过人脸识别技术检测主持人镜头片段，可以获取与该事件片段相应的主持人人脸信息，该主持人信息例如包括主持人姓名、主持人人脸信息等。类似地，通过人脸识别技术分析非主持人镜头片段或现场镜头片段，可以获取被采访人的人脸信息或特征。另外，通过文字识别技术可以从视频数据中提取文字信息，并且通过对文字信息进行进一步的分析，可以获取标题信息和字幕信息。

在 S170中，可以将与事件片段相应的主持人信息、被访问人信息、标题信息和字幕信息中的至少一种，确定为该事件片段的元数据。

另一方面，本发明实施例的分析视频文件的方法，通过将主持人信息、被访问人信息、标题信息、字幕信息等语义信息作为事件片段的元数据，便于随后进行的视频检索、推荐以及故事跟踪等应用，能够避免利用音视频低层语义信息，不能为后续视频分析提供充足的元数据的问题。

在本发明实施例中，可以对与主持人镜头片段相应的音频数据进行静音分析，检测其中可能包括事件分割点的静音点；也可以对与非文字片段相应的音频数据进行静音分析，确定其中可能包括事件分割点的静音点。下面将结合图 3至图 5 , 分别对上述两种情况进行描述。

图 3 示出了根据本发明实施例的确定静音点的方法 200 的示意性流程图。如图 3所示，该方法 200包括：

S210, 根据该音频数据，获取与该视频数据包括的非文字片段相应的非文字片段音频数据；

S220, 在该非文字片段音频数据中确定第一静音片段；

S230, 在与该第一静音片段相应的视频数据中，确定镜头切换点； S240, 将该镜头切换点确定为该第一静音片段的静音点。

通过对非文字片段对应的音频数据进行静音片段检测，以及对静音片段对应的视频数据进行镜头切换检测，可以将静音片段中出现的镜头切换点确定为静音点。考虑到事件播放时，相邻事件之间会有一段静音，因此，此处得到的静音点包括事件分割点。

具体而言，在本发明实施例中，静音检测处理的对象是非文字片段对应的音频数据，并且本发明实施例将静音检测和视频的镜头分割相结合。当检测到静音时，启动相应片段视频数据的镜头切换检测，当连续静音帧的长度超过事先设定的最小静音长度时，检测到的镜头分割点为静音点。否则忽略该静音片段。

因此，本发明实施例将静音检测和镜头分割结合使用，不仅能够提供准确的事件分割点，而且还能够减少对非静音片段进行镜头分割检测的计算量。

图 4示出了根据本发明实施例的确定静音点的另一方法 300的示意性流程图。如图 4所示，该方法 300包括：

S310, 根据该音频数据，获取与该主持人镜头片段相应的主持人镜头片段音频数据；

S320 , 在该主持人镜头片段音频数据中确定第二静音片段；

S330, 在该第二静音片段中确定第三静音片段，该第三静音片段包括的静音片段的长度、比该第二静音片段中除该第三静音片段之外的静音片段的长度长；

S340, 将该第三静音片段中各静音片段的中点确定为该静音点。

可选地，如图 5 所示，在该第二静音片段中确定第三静音片段的方法 330, 包括：

5331 , 确定该第二静音片段包括的所有静音片段的长度的平均值；

5332,将该第二静音片段中长度大于或等于该平均值的静音片段确定为该第三静音片段。

应理解，本发明实施例也可以采用其它方法或基于其它准则，确定第三静音片段，例如，将第二静音片段中长度最长的前 30%的静音片段确定为第三静音片段。

例如，在主持人镜头片段包含多个事件的情况下，主持人通常先简短总结上一个事件，随后开始下一个事件。本发明实施例通过对与主持人镜头片段对应的音频片段进行静音片段检测，并将片段长度超过阈值的确定为静音片段，以及记录各静音片段的长度，将片段长度远远大于均值的静音片段的中点确定为静音点，能够极大的减少人工劳动量，提高视频拆条的自动化程度，并避免主持人镜头片段中包含多个故事时出现的错分情况。

下面将结合图 6, 以新闻视频为例，对根据本发明实施例的分析视频文件的方法 400进行详细描述。

如图 6所示，该方法 400包括：

S410, 对新闻视频进行音视频分离，获得音频数据和视频数据； S420, 将视频数据分为主持人镜头片段和现场镜头片段，然后从现场镜头片段中利用人脸识别技术提取出事件中涉及到的其他人物，并且还可以将检测到的被采访人的人脸信息和人脸特征写入数据库；

S430, 利用文字识别技术从视频数据中提取文字信息，利用文字匹配算法将相同文字内容的片段归纳为文字片段，没有文字的片段为非文字片段。并且通过对文字片段检测到的文字进行聚类，聚类时主要利用颜色和尺寸这两种低层图像特征将文本聚为两类，字体较大的一类为标题，较小的一类为说话人的字幕，从而确定标题片段和字幕片段，其中每一类计算字体颜色的高斯模型，相同出处的新闻视频计算一次模型即可；

S440, 对与非文字片段对应的音频数据进行静音片段检测，对静音片段对应的视频数据进行镜头切换检测，静音片段中出现的镜头切换点为静音点；

S450, 对与主持人镜头片段对应的音频数据进行静音片段检测，对静音片段的长度进行聚类分析，确定长度较长的静音片段，并将该静音片段的中点作为静音点；

S460, 将静音点作为新闻事件分割点的父集，综合考虑静音点附近的主持人镜头片段、标题片段、字幕片段等，得出新闻事件分割点；

S470, 将检测得到的主持人信息、被采访人信息、文字信息等内容作为该新闻事件的语义信息，并可以作为元数据存储在数据库中。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上文中结合图 1至图 6, 详细描述了根据本发明实施例的分析视频文件的方法，下面将结合图 7至图 11 ,描述根据本发明实施例的分析视频文件的装置。

图 7示出了根据本发明实施例的分析视频文件的装置 500 的示意性框图。如图 7所示，该装置 500包括：

第一获取模块 510, 用于获取视频文件的音频数据和视频数据；第一确定模块 520, 用于根据该第一获取模块 510获取的该音频数据，确定该视频文件的至少一个静音点；

第二获取模块 530, 用于根据该第一获取模块 510获取的该视频数据，获取该视频文件的判断片段，该判断片段包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段；

第二确定模块 540, 用于根据该第二获取模块 530获取的该判断片段，在该第一确定模块 520确定的该至少一个静音点中，确定该视频文件的事件分割点。

因此，本发明实施例的分析视频文件的装置，通过获取视频文件的至少一个静音点和判断片段，并根据该判断片段在该至少一个静音点中确定该视频文件的事件分割点，能够准确地确定事件分割点，从而能够准确地对视频文件进行事件分割，并由此能够提高视频编目的效率和准确性。

在本发明实施例中，可选地，如图 8所示，该装置 500还包括：第三确定模块 550,用于根据该第二确定模块 540确定的该事件分割点，确定该视频文件包括的事件片段；

第三获取模块 560, 用于根据该视频文件获取与该事件片段相应的事件信息，该事件信息包括主持人信息、被访问人信息、标题信息和字幕信息中的至少一种；

第四确定模块 570, 用于将该第三获取模块 560获取的该事件信息，确定为该第三确定模块 550确定的该事件片段的元数据。

可选地，如图 9所示，该第一确定模块 520包括：

第一获取单元 521 , 用于根据该第一获取模块 510获取的该音频数据，获取与该视频数据包括的非文字片段相应的非文字片段音频数据；

第一确定单元 522, 用于在该第一获取单元 521获取的该非文字片段音频数据中，确定第一静音片段；

第二确定单元 523 , 用于在与该第一确定单元 522确定的该第一静音片段相应的视频数据中，确定镜头切换点；

第三确定单元 524, 用于将该第二确定单元 523确定的该镜头切换点，确定为该第一静音片段的静音点。

可选地，如图 10所示，该第一确定模块 520包括：

第二获取单元 525 , 用于根据该音频数据，获取与该主持人镜头片段相应的主持人镜头片段音频数据；

第四确定单元 526, 用于在该第二获取单元 525获取的该主持人镜头片段音频数据中确定第二静音片段；

第五确定单元 527 , 用于在该第四确定单元 526确定的该第二静音片段中，确定第三静音片段，该第三静音片段包括的静音片段的长度、比该第二静音片段中除该第三静音片段之外的静音片段的长度长；

第六确定单元 528, 用于将该第五确定单元 527确定的该第三静音片段中各静音片段的中点确定为该静音点。

可选地，如图 11所示，该第五确定单元 527包括：第一确定子单元 5271 ,用于确定该第二静音片段包括的所有静音片段的长度的平均值；

第二确定子单元 5272,用于将该第二静音片段中长度大于或等于该平均值的静音片段确定为该第三静音片段。

在本发明实施例中，可选地，该第二获取模块 530还用于：基于人脸识别方法，在该视频数据中获取该视频文件的主持人镜头片段。

应理解，根据本发明实施例的分析视频文件的装置 500可对应于本发明实施例中的分析视频文件的装置，并且装置 500中的各个模块的上述和其它操作和 /或功能分别为了实现图 1至图 6中的各个方法 100至 400的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ROM, Read-Only Memory )、随机存取存储器 ( RAM, Random Access Memory )、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

权利要求

1、一种分析视频文件的方法，其特征在于，包括：

获取视频文件的音频数据和视频数据；

根据所述音频数据，确定所述视频文件的至少一个静音点；

根据所述视频数据获取所述视频文件的判断片段，所述判断片段包括所述视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段；根据所述判断片段，在所述至少一个静音点中确定所述视频文件的事件分割点。

2、根据权利要求 1所述的方法，其特征在于，所述方法还包括：根据所述事件分割点，确定所述视频文件包括的事件片段；

根据所述视频文件获取与所述事件片段相应的事件信息，所述事件信息包括主持人信息、被访问人信息、标题信息和字幕信息中的至少一种；将所述事件信息确定为所述事件片段的元数据。

3、根据权利要求 1或 2所述的方法，其特征在于，所述确定所述视频文件的至少一个静音点，包括：

根据所述音频数据，获取与所述视频数据包括的非文字片段相应的非文字片段音频数据；

在所述非文字片段音频数据中确定第一静音片段；

在与所述第一静音片段相应的视频数据中，确定镜头切换点；将所述镜头切换点确定为所述第一静音片段的静音点。

4、根据权利要求 1至 3中任一项所述的方法，其特征在于，所述确定所述视频文件的至少一个静音点，包括：

根据所述音频数据，获取与所述主持人镜头片段相应的主持人镜头片段音频数据；

在所述主持人镜头片段音频数据中确定第二静音片段；

在所述第二静音片段中确定第三静音片段，所述第三静音片段包括的静音片段的长度、比所述第二静音片段中除所述第三静音片段之外的静音片段的长度长；

将所述第三静音片段中各静音片段的中点确定为所述静音点。

5、根据权利要求 4所述的方法，其特征在于，所述在所述第二静音片段中确定第三静音片段，包括：确定所述第二静音片段包括的所有静音片段的长度的平均值；将所述第二静音片段中长度大于或等于所述平均值的静音片段确定为所述第三静音片段。

6、根据权利要求 1至 5中任一项所述的方法，其特征在于，所述根据所述视频数据获取所述视频文件的判断片段，包括：

基于人脸识别方法，在所述视频数据中获取所述视频文件的主持人镜头片段。

7、一种分析视频文件的装置，其特征在于，包括：

第一获取模块，用于获取视频文件的音频数据和视频数据；

第一确定模块，用于根据所述第一获取模块获取的所述音频数据，确定所述视频文件的至少一个静音点；

第二获取模块，用于根据所述第一获取模块获取的所述视频数据，获取所述视频文件的判断片段，所述判断片段包括所述视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段；

第二确定模块，用于根据所述第二获取模块获取的所述判断片段，在所述第一确定模块确定的所述至少一个静音点中，确定所述视频文件的事件分割点。

8、根据权利要求 7所述的装置，其特征在于，所述装置还包括：第三确定模块，用于根据所述第二确定模块确定的所述事件分割点，确定所述视频文件包括的事件片段；

第三获取模块，用于根据所述视频文件获取与所述事件片段相应的事件信息，所述事件信息包括主持人信息、被访问人信息、标题信息和字幕信息中的至少一种；

第四确定模块，用于将所述第三获取模块获取的所述事件信息，确定为所述第三确定模块确定的所述事件片段的元数据。

9、根据权利要求 7或 8所述的装置，其特征在于，所述第一确定模块包括：

第一获取单元，用于根据所述第一获取模块获取的所述音频数据，获取与所述视频数据包括的非文字片段相应的非文字片段音频数据；

第一确定单元，用于在所述第一获取单元获取的所述非文字片段音频数据中，确定第一静音片段；第二确定单元，用于在与所述第一确定单元确定的所述第一静音片段相应的视频数据中，确定镜头切换点；

第三确定单元，用于将所述第二确定单元确定的所述镜头切换点，确定为所述第一静音片段的静音点。

10、根据权利要求 7至 9中任一项所述的装置，其特征在于，所述第一确定模块包括：

第二获取单元，用于根据所述音频数据，获取与所述主持人镜头片段相应的主持人镜头片段音频数据；

第四确定单元，用于在所述第二获取单元获取的所述主持人镜头片段音频数据中确定第二静音片段；

第五确定单元，用于在所述第四确定单元确定的所述第二静音片段中，确定第三静音片段，所述第三静音片段包括的静音片段的长度、比所述第二静音片段中除所述第三静音片段之外的静音片段的长度长；

第六确定单元，用于将所述第五确定单元确定的所述第三静音片段中各静音片段的中点确定为所述静音点。

11、根据权利要求 10所述的装置，其特征在于，所述第五确定单元包括：

第一确定子单元，用于确定所述第二静音片段包括的所有静音片段的长度的平均值；

第二确定子单元，用于将所述第二静音片段中长度大于或等于所述平均值的静音片段确定为所述第三静音片段。

12、根据权利要求 7至 11 中任一项所述的装置，其特征在于，所述第二获取模块还用于：基于人脸识别方法，在所述视频数据中获取所述视频文件的主持人镜头片段。