WO2017114211A1

WO2017114211A1 - 用于对视频场景切换进行检测的方法和装置

Info

Publication number: WO2017114211A1
Application number: PCT/CN2016/110717
Authority: WO
Inventors: 谢雨来; 张杨
Original assignee: 株式会社日立制作所; 谢雨来; 张杨
Priority date: 2015-12-30
Filing date: 2016-12-19
Publication date: 2017-07-06
Also published as: CN106937114A; CN106937114B

Abstract

提出了一种用于对视频场景切换进行检测的方法，包括：提取步骤，从包括多个视频场景的视频片段的视频内容中提取各个视频帧；以及检测步骤，将规定间隔的两个视频帧确定为检测帧，利用两个检测帧之间的特征点匹配率来检测处于视频场景的切换位置的切换帧。

Description

用于对视频场景切换进行检测的方法和装置

技术领域

本发明涉及一种用于对视频场景切换进行检测的方法和装置，能够利用帧间特征点的匹配关系对视频场景的切换帧进行检测，并根据检测结果来获取各视频场景的索引帧，并能够利用对视频场景的变化程度的分析来同时执行粗检测和细检测，从而在场景渐变切换和突变切换的情形均实现切换帧的有效检测。

背景技术

在媒体行业，每天都有海量的视频资料数据产生并需要对其进行存储。如何有效地对这些视频资料数据进行存储和管理是一个亟待解决的技术问题。

在对视频资料数据进行存储和管理的过程中，根据视频场景的不同，能够对视频内容进行分割的视频场景分割技术，正越来越受到媒体行业的重视。该视频场景分割技术能够有效提高视频存储、管理和查找的效率，并正在得到更广泛的应用。

所谓视频场景通常是指一次镜头连续拍摄所获取的视频内容，其具有连贯性。因此，往往可以用视频场景中的一帧的视频内容来作为整个视频场景的代表。作为该视频场景的代表的帧通常被成为索引帧。所谓视频场景切换是指视频内容从一个视频场景切换到另一个视频场景的过程。在视频场景切换的过程中通常会出现视频内容的不连贯，因此，有时会出现对视频内容的不同视频场景进行分割的需求。所谓对视频场景进行分割是指根据视频场景的切换位置，将视频内容根据视频场景的不同而分割成多个单一视频场景的视频片段。

对视频场景进行分割的意义在于：对单一视频场景的视频片段的管理比对整体的视频的管理更具有效率。例如，可以将同类型场景的视频片段进行集中管理，因此，当需要使用某一类型的视频片段时，可以直接在该类型的视频场景库中进行，而避免在内容更多更复杂的整体视频库中查找。

此外，单一视频场景的视频片段往往可以用其中某一帧的内容来代表。通常，将该帧称为索引帧(或者代表帧)。然后，采用利用索引帧来进行索引的方式可以有效地管理视频场景的视频片段，并快速地检索到所需的视频场景。例如，在一个有10000帧、100个场景的整体视频内容中，利用视频场景分割技术可以获取100个单一视频场景的视频片段，每个视频片段选取一个帧作为索引帧，总共可以获取100个索引帧，那么，在一次视频场景的查找中，只需要检索这100个索引帧，而不是整体的10000帧，极大地提高了效率。

对视频场景进行分割的关键点在于找到视频场景的切换位置(例如，切换帧)。视频场景的切换通常分为两类：突变切换和渐变切换。突变切换是指视频场景的切换位置在于相邻的两帧之间；而渐变切换是指视频场景的切换在大于两帧的帧间逐渐进行的切换。

目前，已有一些技术能够对视频场景进行分割。申请号为CN201110405542的专利申请提出了一种基于聚类的场景检测方法。另一申请号为CN201410831291的专利申请提出了一种基于彩色信息的基于区域分割的场景检测方法。此外，美国专利No：US8913872提出了一种基于区域分割和灰度均值的场景检测方法。

但是，这些技术偏重于利用视频内容的诸如彩色信息等整体信息，因此对于视频场景的渐变切换的检测存在困难，而且对于视频场景未切换，但局部变化较大的视频场景会出现误检测的情形。

发明内容

为了克服现有技术的上述缺陷提出了本发明。因此，本发明的目的之一是提出一种用于对视频场景切换进行检测的方法和装置，能够利用帧间特征点的匹配关系对视频场景的切换帧进行检测，并能够利用对视频场景的变化程度的分析来同时执行粗检测和细检测，从而在场景渐变切换和突变切换的情形均实现切换帧的有效检测。

为了实现上述目的，根据本发明，提出了一种用于对视频场景切换进行检测的方法，包括：提取步骤，从包括多个视频场景的视频片段的视频内容中提取各个视频帧；以及检测步骤，将规定间隔的两个视频帧确定为检测帧，利用两个检测帧之间的特征点匹配率来检测处于视频场景的切换位置的切换帧。

优选地，所述检测步骤包括：执行将相邻的两个视频帧作为检测帧的细检测；以及执行规定间隔的并非相邻的两个视频帧作为检测帧的粗检测。

优选地，所述检测步骤还包括：将通过细检测所检测到的切换帧和通过粗检测所检测到的切换帧合在一起作为最终的切换帧。

优选地，所述粗检测中所采用的规定间隔是根据视频内容的相邻帧之间的变化程度的统计值来确定的。

优选地，所谓特征点匹配率由两个检测帧之间的匹配的特征点占第二个检测帧中特征点总数的比例来表示。

优选地，将特征点匹配率为零处的第二检测帧确定为所述切换帧。

优选地，本发明的方法还包括：针对各视频场景，确定作为该视频场景的视频片段的代表的索引帧。

另外，根据本发明，还提出了一种用于对视频场景切换进行检测的装置，包括：提取单元，从包括多个视频场景的视频片段的视频内容中提取各个视频帧；以及检测单元，将规定间隔的两个视频帧确定为检测帧，利用两个检测帧之间的特征点匹配率来检测处于视频场景的切换位置的切换帧。

由此可见，本发明能够自动对视频场景切换进行检测，通过利用对视频场景的变化程度的分析和帧间特征点的匹配关系，能够对渐变切换和突变切换进行有效的检测。

附图说明

通过参考以下组合附图对所采用的优选实施方式的详细描述，本发明的上述目的、优点和特征将变得更显而易见，其中：

图1是用于说明将视频内容分割为单一视频场景的视频片段，并利用索引帧进行存储和管理的视频检索系统的示意图。

图2是示出了具有不同的视频场景的一段视频内容的示意图。

图3是示出了根据本发明的对视频场景切换进行检测的方法的一个应用场景的示意图。

图4是示出了根据本发明的获取各视频场景的索引帧的示意图。

图5是示出了根据本发明的对视频场景切换进行检测的方法中所利用的两帧之间的特征点匹配关系的示意图。

图6是示出了突变切换和渐变切换这两类视频场景的切换的示意图。

图7是示出了根据本发明的对视频场景切换进行检测的方法中所利用的细检测和粗检测的示意图。

图8示出了将细检测检测到的视频场景切换位置与粗检测检测到的视频场景切换位置合在一起作为最终得到的检测结果的示意图。

图9是示出了根据本发明的用于对视频场景切换进行检测的方法的流程图。

图10是示出了根据本发明的用于对视频场景切换进行检测的方法的两个不同应用场景的示意图。

具体实施方式

下面将参考附图描述本发明的优选实施例。在附图中，相同的元件将由相同的参考符号或数字表示。此外，在本发明的下列描述中，将省略对已知功能和配置的具体描述，以避免使本发明的主题不清楚。

图1的左侧表示各个不同的视频内容。各个视频内容的每一个包括多个单一视频场景的视频片段。每一个单一视频场景的视频片段可以由作为该视频场景的代表的帧即索引帧来表示，如图1的中部所示。关于为每一个视频场景确定索引帧的具体方法，存在许多的已知方法，例如可以选用一个视频场景的中间帧，或者首尾帧中的一帧作为索引帧，在此不再具体描述。在视频检索系统中，为了对视频资料数据进行存储和管理，将代表各视频场景的索引帧存储在一个数据库中，如图1的右侧所示。这样，对视频场景进行检索则可以利用该数据库来进行。

图2是示出了具有不同的视频场景的一段视频内容的示意图。

如图2所示，通常，视频内容由多个单一视频场景的视频片段构成。如前面已经描述过的，所谓视频场景通常是指一次镜头连续拍摄所获取的视频内容，其具有连贯性。由于对单一视频场景的视频片段的管理比对整体的视频的管理更具有效率，所以需要将视频内容分割为多个单一视频场景的视频片段。利用以下所描述的本发明的对视频场景切换进行检测的方法，能够有效地对这些视频场景进行分割，进而确定各视频场景的索引帧。

图3是示出了根据本发明的对视频场景切换进行检测的方法的应用场景的示意图。

如图3所示，利用根据本发明的对视频场景切换进行检测的方法，能够将一个视频内容分割为多个单一视频场景的视频片段。对于每个视频场景，可以利用已有的方法来确定其索引帧。然后，将该视频内容的各索引帧存储在数据库中。这样，对诸如视频场景的检索可以通过在数据库中对所存储的索引帧进行检索来实现。

为了提取各视频场景的索引帧，需要首先确定各视频场景的切换位置。在本发明中，可以利用对视频场景切换进行检测的方法，先确定构成该视频内容的各视频场景的切换帧，即，各视频场景之间发生切换的位置处的帧。然后，在相邻的两个切换帧之间，即，针对每个视频场景，通过已知的方法来获取索引帧。在图4所示的示例中，共示出了7个不同的场景。对于每一个视频场景，获得了相应的索引帧作为该视频场景的代表，例如，图4所示的索引帧1～7。

如背景部分所描述过的，在对视频场景切换进行检测的现有技术中，利用视频内容的诸如彩色信息等整体信息来检测视频场景的切换位置，因此对于视频场景的渐变切换的检测存在困难，甚至会出现误检测的情形。

在本发明的对视频场景切换进行检测的方法中，利用两检测帧之间的特征点匹配来对视频场景的切换位置进行检测。检测帧是指一段视频中用来进行检测的帧，一般为相邻两帧或相邻一定间隔的两帧。特征点是通过一些已有的特征点提取算法在检测帧中获取的各帧的图像中所包括的不同对象(物体)上的特征点，所谓特征点是指在图像上利用一些算法提取的具有一定特征的像素点，例如在图像中边缘处的角点、交叉点，或在像素点一定领域内具有某种统计特征的像素点。特征点具有一个表征该特征性质的多维的特征向量。特征点提取算法包括诸如SIFT或SURF算法。关于各帧图像的特征点的提取已经是公知的技术，因此在此不再具体描述。

在本发明的对视频场景切换进行检测的方法中，利用了两个检测帧之间的特征点的匹配关系。所谓特征点匹配是指：计算两个特征点的特征向量之间的欧式距离与某个阈值的大小关系，如果小于该阈值则两特征点匹配，反之则不匹配。在本发明中，在对视频场景切换位置进行检测时，利用两个检测帧上提取的特征点进行特征点是否匹配的运算，从而确定两个检测帧之间特征点的匹配率。在特征点匹配率为零处的第二检测帧确定为切换帧，即视频场景的切换位置。

所谓突变切换是指视频场景的切换位置在于相邻的两帧之间的切换，视频场景的切换较为急剧。在图6的上部所示的示例中，视频场景的切换在两帧之间迅速发生。而渐变切换是指视频场景的切换在大于两帧的帧间逐渐进行的切换，视频场景的切换为渐进式的。在图6下部所示的示例中，视频场景的切换在5帧之间渐进发生。由于现有技术的对视频场景切换的检测是在两个紧挨的相邻检测帧之间执行的(参见如下所述的细检测)，因此通过现有技术的检测方式无法对渐变切换的切换位置进行检测。这是在图6下部所示的渐变切换的示例中，任意两个相邻检测帧之间均存在类似的图像内容部分。因此，为了对渐变切换的切换位置进行检测，需要对两个检测帧之间的间隔进行调整。例如，在图6下部所示的渐变切换的示例中，可以将两个检测帧之间的间隔调整为5个帧，即，执行如下所述的粗检测。显然，通过调整为每5个帧检测一次，由于第1个帧和第5个帧之间没有类似的图像内容部分(特征对象或特征点)，因此能够通过检测来将渐变切换分割为两个场景。

如在图6的说明中所提到过的，细检测的检测帧为紧挨着的相邻两帧。而粗检测的检测帧为有一定间隔的两帧。细检测和粗检测的判定均通过两个检测帧之间的特征点匹配率来判定。例如，所谓特征点匹配率可以由两个检测帧之间的匹配的特征点占第二个检测帧中特征点总数的比例来表示。如果特征点匹配率为0，那么一个视频场景变换被检测。此时，将该第二个检测帧确定为切换帧。

作为粗检测的检测帧的间隔，可以通过以下的公式来计算：

interval＝αN (4)

interval是粗检测的检测间隔；

Δh是相邻两帧的灰度直方图的差值；

N是表征一段视频中灰度直方图平均变化程度的参数；

T是一段视频的总帧数；

α是表征N与interval关系的参数；

i是灰度直方图的尺度(从0-255)；

Δ_i是指两个相邻帧的灰度直方图值为i^th的像素数的差值。

例如，一段视频具有N＝32，通过(1)，可以确定

因此粗检测间隔为interval＝0.25*32＝8。

通过上述公式(1)、(2)、(3)和(4)，能够根据视频内容的相邻帧之间的变化程度的统计值来确定粗检测的间隔。

由于渐变切换无法通过细检测得出而仅能粗检测来得到，因此，根据本发明的对视频场景切换进行检测的方法，需要将细检测检测到的视频场景切换位置与粗检测检测到的视频场景切换位置合在一起作为最终得到的检测结果。如图8所示，将细检测检测到的视频场景的切换帧与粗检测检测到的视频场景的切换帧合在一起作为最终得到的切换帧。由此，可以得到用于分割各个视频场景的切换帧。

在步骤901，从输入的视频图像中提取各个帧。在步骤903，利用相邻帧之间的变化程度来确定粗检测的间隔。然后，在步骤905，根据所确定的粗检测间隔，进行粗检测，计算两个检测帧之间的特征点匹配率。同时，在步骤911，在相邻的两个检测帧之间进行细检测，计算相邻的两个检测帧之间的特征点匹配率。在步骤907，判断粗检测的特征点匹配率和细检测的特征点匹配率是否为零。如果判断为零(步骤907的“Y”)，则进入步骤913。在步骤913，将特征点匹配率为零处的检测帧确定为切换帧，并记录该切换帧的ID。如果判断为不为零(步骤907的“N”)，则进入步骤909。在步骤909，判断是否当前帧为最后一帧。如果为最后一帧(步骤909的“Y”)，则结束该检测过程。如果不为最后一帧，则进入步骤905和911，继续对切换帧进行确定。

如例子1所示，在视频压缩应用中，首先，将视频分割为多个单一视频场景的视频片段，然后，对每个视频片段根据长度提取出关键帧(即索引帧)。但是，每个场景至少有一个关键帧，这样可以避免简单根据时间间隔来提取关键帧并压缩而错失掉某些场景。

如例子2所示，在视频检索应用中，首先，将视频分割为单一视频场景的视频片段。针对每个视频片段，提取一个索引帧。然后，可以用这个索引帧来代表该视频片段。这样，就可以通过该索引帧快速找到这一视频片段，不用去遍历视频的所有帧。

以上列举了若干具体实施例来详细阐明本发明，这些个例仅用于说明本发明的原理及其实施方法，而非对本发明的限制，在不脱离本发明的精神和范围的情况下，本领域的技术人员还可以做出各种变形和改进。因此，本发明不应由上述实施例来限定，而应由所附权利要求及其等价物来限定。

Claims

一种用于对视频场景切换进行检测的方法，包括：

提取步骤，从包括多个视频场景的视频片段的视频内容中提取各个视频帧；以及

检测步骤，将规定间隔的两个视频帧确定为检测帧，利用两个检测帧之间的特征点匹配率来检测处于视频场景的切换位置的切换帧。
根据权利要求1所述的方法，其特征在于，

所述检测步骤包括：执行将相邻的两个视频帧作为检测帧的细检测；以及执行规定间隔的并非相邻的两个视频帧作为检测帧的粗检测。
根据权利要求1所述的方法，其特征在于，

所述检测步骤还包括：

将通过细检测所检测到的切换帧和通过粗检测所检测到的切换帧合在一起作为最终的切换帧。
根据权利要求1所述的方法，其特征在于，

所述粗检测中所采用的规定间隔是根据视频内容的相邻帧之间的变化程度的统计值来确定的。
根据权利要求1所述的方法，其特征在于，

所谓特征点匹配率由两个检测帧之间的匹配的特征点占第二个检测帧中特征点总数的比例来表示。
根据权利要求1所述的方法，其特征在于，

将特征点匹配率为零处的第二检测帧确定为所述切换帧。
根据权利要求1所述的方法，其特征在于还包括：

针对各视频场景，确定作为该视频场景的视频片段的代表的索引帧。
一种用于对视频场景切换进行检测的装置，包括：

提取单元，从包括多个视频场景的视频片段的视频内容中提取各个视频帧；以及

检测单元，将规定间隔的两个视频帧确定为检测帧，利用两个检测帧之间的特征点匹配率来检测处于视频场景的切换位置的切换帧。