WO2019128724A1

WO2019128724A1 - 数据处理方法及装置

Info

Publication number: WO2019128724A1
Application number: PCT/CN2018/120770
Authority: WO
Inventors: 徐维昌; 田智平; 徐倩
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-12-26
Filing date: 2018-12-13
Publication date: 2019-07-04
Also published as: EP3745727A4; EP3745727A1; CN108153882A

Abstract

一种数据处理方法及装置；该数据处理方法包括：根据目标视频的音频特征，利用特征数据库确定目标视频是否包括重复视频（S101）；若确定目标视频包括重复视频，则对重复视频进行过滤（S102）。

Description

数据处理方法及装置

本申请要求在2017年12月26日提交中国专利局、申请号为201711435400.5的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及但不限于数据处理技术领域，例如涉及一种数据处理方法及装置。

背景技术

目前机顶盒的录制功能已经逐渐成为机顶盒的一个常见功能，机顶盒录制的视频以及交互式网络电视(Internet Protocol Television，IPTV)回看节目中录制的视频，都是直接把直播的内容完整录制下来，比如电视剧的片头、片尾、正片中间的广告视频均会被录制下来；用户点播录制节目时，需要把片头或广告看完才能继续看正片。另外，用户在智能OTT(Over The Top)机顶盒、手机、以及平板电脑等智能终端设备上点播互联网上的视频时，如果用户不想看片头或广告，只能手动快进跳过片头或广告，不仅操作繁琐，而且快进还容易跳的不准确，导致快进快退来回操作。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种数据处理方法及装置，能够识别重复视频，从而提高用户体验。

本申请实施例提供一种数据处理方法，包括：根据目标视频的音频特征，利用特征数据库确定所述目标视频是否包括重复视频；其中，所述特征数据库是通过学习至少一个视频的音频特征得到的；若确定所述目标视频包括重复视频，则对所述重复视频进行过滤。

本申请实施例提供一种数据处理装置，包括：识别模块、特征数据库以及处理模块；

所述识别模块，配置为根据目标视频的音频特征，利用所述特征数据库确定所述目标视频是否包括重复视频；其中，所述特征数据库是通过学习至少一个视频的音频特征得到的；

所述处理模块，配置为在所述识别模块确定所述目标视频包括重复视频后，对所述重复视频进行过滤。

本申请实施例提供一种数据处理装置，包括：存储器和处理器，所述存储器设置为存储数据处理程序，所述数据处理程序被所述处理器执行时实现上述提供的数据处理方法。

此外，本申请实施例提供一种计算机可读介质，存储有数据处理程序，所述数据处理程序被处理器执行时实现上述提供的数据处理方法。

附图概述

图1为本申请实施例提供的数据处理方法的流程图；

图2为本申请实施例提供的数据处理装置的示意图；

图3为本申请实施例一的流程图；

图4为本申请实施例一的重复视频的检测和识别过程的流程图；

图5为本申请实施例一的特征数据库的老化处理流程图；

图6为本申请实施例二的流程图；

图7为本申请实施例三的流程图；

图8为本申请实施例四的流程图；

图9为本申请实施例二至四的播放装置的结构示意图；

图10为本申请实施例五的流程图；

图11为本申请实施例五的录制装置的结构示意图；

图12为本申请实施例提供的数据处理装置的示意图。

具体实施方式

以下结合附图对本申请实施例进行详细说明，应当理解，以下所说明的实施例仅用于说明和解释本申请，并不用于限定本申请。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请实施例提供的数据处理方法的流程图。如图1所示，本实施例提供的数据处理方法，包括：步骤S101和步骤S102。

在步骤S101中，根据目标视频的音频特征，利用特征数据库确定目标视频是否包括重复视频。

其中，特征数据库是通过学习至少一个视频的音频特征形成的。

在步骤S102中，若确定目标视频包括重复视频，则对重复视频进行过滤。

本实施例提供的数据处理方法可以适用于终端，比如，机顶盒、智能手机、以及平板电脑等智能终端设备。然而，本申请对此并不限定。在其他实现方式中，本实施例提供的数据处理方法还可以适用于服务端计算设备，比如服务器。

在示例性实施方式中，本实施例的数据处理方法还可以包括：通过以下方式学习至少一个视频的音频特征得到特征数据库：若特征数据库中不存在视频记录，则在特征数据库新增任一视频对应的视频记录；若特征数据库中存在视频记录，则根据该视频的音频特征与特征数据库中的视频记录的音频特征的匹配结果，更新特征数据库。

其中，上述视频可以包括以下至少一项：正在播放的视频、待录制的视频、以及待播放的视频。然而，本申请对此并不限定。示例性地，特征数据库可以在视频播放过程中创建并持续更新，或者，可以在视频录制过程中创建并持续更新，或者，可以根据待播放的多个视频的音频特征进行创建，并在视频播放过程中持续更新。然而，本申请对此并不限定。

本实施例中，针对任一视频，可以提取该视频的音频特征以及视频属性信息(比如，时长信息和文件名等)。初始的特征数据库可以为空，通过学习一个或多个视频的音频特征后，特征数据库内会保存一个或多个视频记录，每个视频记录保存的信息可以包括：出现次数、是否为重复视频、音频特征、以及时长信息。在一个视频记录的出现次数为1时，该视频记录保存的信息还可以包括以下至少之一：视频的文件名、路径、统一资源定位符(Uniform Resource Locator，URL)、视频的总时长、以及已播放时长。

在示例性实施方式中，若特征数据库中存在视频记录，则根据视频的音频特征与特征数据库中的视频记录的音频特征的匹配结果，更新特征数据库，可以包括：若特征数据库中存在与该视频的音频特征匹配的视频记录，则更新特征数据库中匹配到的该视频记录保存的信息；若特征数据库中不存在与该视频的音频特征匹配的视频记录，则在特征数据库中新增该视频对应的视频记录。

在示例性实施方式中，若特征数据库中存在与该视频的音频特征匹配的视频记录，则更新特征数据库中匹配到的该视频记录保存的信息，可以包括：当该视频的音频特征与特征数据库内的一个视频记录的音频特征的连续匹配时长大于或等于时长阈值，则保留该视频记录中该连续匹配时长对应的音频特征；将特征数据库中存在的该视频记录的出现次数加1，并在该视频记录的出现次数加1后大于或等于次数阈值，则将该视频记录标记为重复视频。

例如，一个视频记录的出现次数大于或等于2次时，可以将该视频记录标记为重复视频。然而，本申请对此并不限定。

在本实施例中，目标视频可以包括以下至少之一：正在播放的视频、待录制的视频、以及待播放的视频。重复视频可以为广告视频与电视剧的片头视频等。然而，本申请对此并不限定。

在一实施例中，终端可以在播放视频的同时，利用特征数据库进行重复视频的识别，并更新特征数据库；或者，终端可以对本地存储的多个视频进行学习，并更新特征数据库，在播放本地存储的视频时直接利用更新后的特征数据库进行重复视频的识别；或者，服务器可以在录制视频时，进行重复视频的识别和学习，并基于学习更新后的特征数据库进行视频录制，以跳过重复视频。然而，本申请对此并不限定。

在示例性实施方式中，在步骤S101之前，本实施例的数据处理方法还可以包括：提取目标视频的音频特征；步骤S101可以包括：将目标视频的音频特征与特征数据库中的视频记录的音频特征进行匹配；根据目标视频的音频特征与特征数据库中的视频记录的音频特征的匹配结果，识别目标视频是否包括重复视频。

在一实施例中，根据目标视频的音频特征与特征数据库中的视频记录的音频特征的匹配结果，识别目标视频是否包括重复视频，可以包括：若目标视频的音频特征与特征数据库中的一个视频记录的音频特征匹配，且该视频记录已标记为重复视频，则确定目标视频包括重复视频；或者，若目标视频的音频特征与特征数据库中的一个视频记录的音频特征匹配，且该视频记录的出现次数加1后大于或等于次数阈值，则确定目标视频包括重复视频。

其中，目标视频的音频特征与特征数据库中的一个视频记录的音频特征匹配可以包括：目标视频的音频特征与视频记录的音频特征的连续匹配时长大于或等于时长阈值。比如，当一个目标视频的音频特征与视频记录的音频特征的连续匹配时长大于5秒，则认为两者匹配。然而，本申请对此并不限定。

在一实施例中，音频特征可以包括以下至少一项：音频幅值波形、音频频谱、以及语音识别生成的文字信息；将目标视频的音频特征与特征数据库中的视频记录的音频特征进行匹配，可以包括以下之一：当目标视频的音频特征包括语音识别生成的文字信息，则将目标视频的文字信息划分为句子，以句子为单位与特征数据库中的视频记录的语音识别生成的文字信息进行匹配；当目标视频的音频特征包括以下至少之一：音频幅值波形与音频频谱，则将特征数据库中的视频记录分成无声区间和有声区间，以有声区间为单位对目标视频与特征数据库中的视频记录进行匹配。

如此，可以避免必须逐个从采样点开始进行匹配，不仅可以保证匹配的准确度，而且减少了计算复杂度。

在示例性实施方式中，步骤S102可以包括：若目标视频为正在播放的视频，则根据特征数据库中重复视频的时长，跳过重复视频继续播放目标视频；若目标视频为待录制的视频，则根据特征数据库中重复视频的时长，跳过重复视频。

在一实施例中，终端可以在播放视频的同时，利用特征数据库识别正在播放的视频是否包括重复视频，在识别出包括重复视频时，跳过重复视频继续进行视频播放，在识别出不包括重复视频时，按顺序播放视频。或者，终端可以在录制视频时，利用特征数据库识别待录制的视频是否包括重复视频，在识别出包括重复视频时，跳过重复视频进行视频录制，在识别出不包括重复视频时，按顺序进行视频录制。

在示例性实施方式中，本实施例的数据处理方法还可以包括：在特征数据库中存在与目标视频的音频特征匹配的视频记录，则更新特征数据库中匹配到的视频记录保存的信息；在特征数据库中不存在与目标视频的音频特征匹配的视频记录，则在特征数据库新增该目标视频对应的视频记录。

在一实施例中，在特征数据库中存在与目标视频的音频特征匹配的视频记录，则更新特征数据库中匹配到的该视频记录保存的信息，可以包括：当目标视频的音频特征与特征数据库内的一个视频记录的音频特征的连续匹配时长大于或等于时长阈值时，则保留该视频记录中该连续匹配时长对应的音频特征；将特征数据库中存在的该视频记录的出现次数加1，若该视频记录的出现次数加1后大于或等于次数阈值，则将该视频记录标记为重复视频。

其中，在对目标视频的重复视频的识别过程中，可以进行特征数据库的更新过程，从而实现对特征数据库的不断优化。

本实施例中，利用自我学习得到的特征数据库识别重复视频，可以大大地提高用户体验。而且，特征数据库的创建和更新无需用户操作，还能够方便地适用于识别不同场景或类型的视频中的重复视频。

在示例性实施方式中，本实施例的数据处理方法还可以包括：当检测到特征数据库内的视频记录的总条数大于或等于第一老化阈值，或者，特征数据库内的视频记录的总占用空间大小大于或等于第二老化阈值，则删除满足设定条件的视频记录。

如此，通过引入老化机制，可以定期对特征数据库内的视频记录进行老化，从而避免特征数据库无限地增大。

其中，设定条件可以包括以下至少之一：视频记录的出现次数小于或等于第一阈值，视频记录的最近出现时刻与当前时刻之间的时长大于或等于第二阈值。然而，本申请对此并不限定。

在本申请实施例中，根据目标视频的音频特征，利用特征数据库识别目标视频是否包括重复视频；其中，特征数据库是通过学习一个或多个视频的音频特征得到的；若识别出目标视频包括重复视频，则对重复视频进行过滤。如此，利用学习音频特征得到的特征数据库识别重复视频，从而提高用户体验。比如，在播放视频的过程中可以利用特征数据库自动检测和跳过重复视频，从而提升观看视频的用户体验；或者，在录制视频的过程中可以利用特征数据库自动检测和识别重复视频，从而跳过重复视频进行录制，以方便后续的视频观看。而且，特征数据库是通过自我学习得到的，特征数据库的创建和更新无需用户操作，能够方便地适用于识别不同场景或类型的视频中的重复视频。

图2为本申请实施例提供的数据处理装置的示意图。如图2所示，本实施例提供的数据处理装置，包括：识别模块201、处理模块202以及特征数据库203。

识别模块201，配置为根据目标视频的音频特征，利用特征数据库203确定目标视频是否包括重复视频；其中，特征数据库203是通过学习至少一个视频的音频特征得到的。

处理模块202，配置为在识别模块201确定目标视频包括重复视频，则对重复视频进行过滤。

在一实施例中，本实施例的数据处理装置还可以包括：音频特征提取模块200，配置为提取目标视频的音频特征。

识别模块201，可以配置为通过以下方式根据目标视频的音频特征，利用特征数据库203识别目标视频是否包括重复视频：将目标视频的音频特征与特征数据库203中的视频记录的音频特征进行匹配；根据目标视频的音频特征与特征数据库203中的视频记录的匹配结果，识别目标视频是否包括重复视频。

关于本实施例的数据处理装置的相关说明可以参照上述方法实施例及下述示例的说明，故于此不再赘述。

下面通过多个实施例对本申请的方案进行说明。

实施例一

本实施例说明在终端播放视频的过程中自动检测和跳过重复视频。本实施例中，目标视频为当前播放的视频。

图3为本实施例的流程图。如图3所示，本实施例包括以下步骤S301至步骤S304。

在步骤S301中，终端对当前播放的视频进行解码，输出视频图像和音频声音。

在步骤S302中，终端对解码的音频声音进行处理分析，提取出音频特征，并利用特征数据库识别出当前播放的视频是否是重复视频。本实施例中，特征数据库是通过终端历史播放视频过程中自动创建并持续更新得到的。若识别出当前播放的视频是重复视频，执行S303，否则，执行S304。

在步骤S303中，在识别出当前播放的视频是重复视频时，终端从特征数据库中读取此段重复视频的信息(比如，时长)，然后直接定位到这段时长之后的时间点进行视频播放，即跳过这段重复视频继续视频播放。

在步骤S304中，在识别出当前播放的视频不是重复视频时，终端继续顺序播放当前视频，并在特征数据库新增当前播放的视频对应的视频记录，其中，保存当前视频的音频特征。

本实施例中，终端用户可以自己设置是否启用上述自动跳过重复视频的功能。比如，在进入终端显示的播放软件的界面时，终端会给出用户提示，提示用户选择是否启用自动跳过重复视频的功能，其中，用户进行选择之后，本次选择的功能可以永久生效，也可以只针对本次使用生效。在一实施例中，终端在执行图3所示的步骤之前，可以先判断是否使能了自动跳过重复视频的功能，如果使能了上述功能，则执行图3所示的步骤，如果没有使能，则进行普通的顺序播放。

图4为本实施例的重复视频的检测和识别过程的流程图。下面通过图4对S302至S304进行详细说明。如图4所示，上述过程可以包括以下步骤S401至步骤414。

在步骤S401中，对当前播放视频中的音频声音进行分析，提取音频特征；其中，音频特征可以包括但不限于以下至少之一：音频幅值波形、音频频谱、音频过零率、以及语音识别生成的文字信息。

本实施例中，特征数据库是在终端播放视频的过程中创建并持续更新的音频特征数据库，其中保存了之前播放过的视频的部分重复时间段的音频特征或者全部时间段的音频特征。其中，特征数据库内的一个视频记录保存的信息可以包括：出现次数、是否为重复视频、音频特征、以及时长信息(比如，视频的总时长、已播放时长等)；如果一个视频记录保存的出现次数为1，则该视频记录保存的信息还可以包括：视频的文件名、文件路径、统一资源定位符(Uniform Resource Locator，URL)。如果一个视频记录保存的出现次数大于1，则其中保存的文件名、文件路径或者URL没有作用。本实施例中，将步骤S401提取的当前播放视频的音频特征与特征数据库中的视频记录的音频特征进行匹配，查找与步骤S401提取的音频特征匹配的视频记录。其中，特征数据库中的视频记录的遍历顺序按照出现次数从高到低的顺序进行，以增大快速命中匹配的几率。

下面对当前播放视频的音频特征与视频记录的音频特征的匹配过程进行说明。

在步骤S402中，判断视频记录的出现次数是否为1，且当前播放视频和特征数据库中的该出现次数为1的视频记录的文件名、文件路径和URL中至少一项是否一致；若视频记录的出现次数为1，且两者的文件名、文件路径和URL中至少一项一致，则执行步骤S403；否则，执行步骤S404。

在步骤S403中，当前播放视频不算作重复视频，停止与特征数据库内视频记录的匹配，顺序播放当前播放视频。

在本实施例中，如果当前播放视频的文件名、文件路径和URL中至少一项和特征数据库中的某个出现次数为1的视频记录相同，说明当前播放视频即为该视频记录对应的视频，因此，当前播放视频不算做重复视频，该视频记录的出现次数不加1。如果该视频记录中的已播放时长小于总时长，则说明上次没有播放完，如果这次的播放时长超过了上次的已播放时长，则可以将超过部分的音频特征保存到该视频记录中，并更新该视频记录的已播放时长。

在步骤S404中，判断当前播放视频的音频特征和一个视频记录的音频特征是否匹配；若两者匹配，则执行步骤S405，否则，执行步骤S406，即选择下一个视频记录进行匹配。

本实施例中，如果音频特征包括语音识别生成的文字信息，可以将文字信息划分为句子，以句子为单位对当前播放视频与视频记录进行匹配。如果音频特征包括以下至少之一：音频幅值波形与音频频谱，可以通过脉冲编码调制(Pulse Code Modulation，PCM)电平值将视频划分为无声区间和有声区间，然后以有声区间为单位进行匹配比对，即，将当前播放视频的有声区间和视频记录的每个有声区间进行比对；因为片头和广告等重复视频和正片之间一般会有一段无声区间，这样以有声区间为单位进行匹配，既可以保证匹配的准确度，也可以避免逐个从每个采样点开始进行匹配，从而大大减小计算复杂度。

本实施例中，在遍历特征数据库内全部的视频记录后，如果特征数据库内没有与当前播放视频的音频特征匹配的视频记录，则可以在特征数据库内新增当前播放视频对应的视频记录，其中，该视频记录保存的信息可以包括：出现次数(可以记为1)、当前播放视频的音频特征、以及时长信息，还可以记录当前播放视频的文件名、文件路径或者URL。

在步骤S405中，如果当前播放视频的音频特征和某一视频记录的音频特征匹配，且匹配点不是该视频记录的起始点，则将匹配点之前的音频特征从该视频记录删除，只保留匹配部分的音频特征，然后继续匹配后面的音频特征；其中，匹配点之前的音频特征可以永久删除掉，或者，也可以重新保存成一个新的视频记录，以备后续提取其中可能的重复视频。

在步骤S407中，判断当前播放视频的音频特征和该视频记录的音频特征的连续匹配时长是否超过时长阈值；若是，则执行步骤S409，否则，执行步骤S408，即继续播放当前视频，不跳过任何视频，并且在继续播放的过程中重复利用特征数据库进行重复视频的识别处理。

在步骤S409中，在连续匹配时长超过时长阈值(比如5秒)时，则查看与之匹配的特征数据库中的视频记录是否标记为重复视频；如果是，则执行步骤S410，表示当前播放视频为重复视频，可以根据该重复视频的时长，跳过该重复视频，然后继续往下播放，并且在继续播放的过程中重复利用特征数据库进行重复视频的识别处理；如果该视频记录没有被标记为重复视频，则执行步骤 S411，即继续匹配后面的音频特征，直到特征数据库中该视频记录的结束。

在步骤S412中，判断当前播放视频的音频特征是否一直匹配到该视频记录的结束；若一直匹配到结束，则执行步骤S413，否则，执行步骤S414。

在步骤S413中，如果一直匹配到该视频记录的结束，则说明当前播放视频在这段时长和该视频记录完全匹配，则该视频记录的出现次数可以加1，如果加1之后的出现次数超过次数阈值(比如，2次)，则可以标记匹配的该视频记录为重复视频。

在步骤S414中，如果匹配不到该视频记录的结束，则更新该视频记录的信息，从该视频记录中删除匹配结束点后面的不匹配的音频特征，同时将出现次数加1，如果加1之后的出现次数超过次数阈值，则可以标记匹配的该视频记录为重复视频。其中，匹配结束点后面的音频特征可以重新保存成一个新的视频记录，以备后续提取其中可能的重复视频。

本实施例中，如果识别出当前播放视频是重复视频，则从特征数据库读取该重复视频的时长，直接跳到这段时长之后的时间点继续播放，在后续的播放中继续进行上述重复视频的识别过程，如果又识别到重复视频，则继续跳过重复视频进行播放。

本实施例中，为了避免特征数据库无限地增大，占用过多的存储空间以及增加遍历匹配的时间，引入老化机制，定期对特征数据库中存在时间过长、出现次数过少的视频记录进行老化。

图5为本申请实施例的特征数据库的老化处理流程图。其中，特征数据库的老化处理流程可以通过单独创建的线程周期性执行，或者，在接收到触发指令时执行。然而，本申请对此并不限定。

如图5所示，特征数据库的老化处理流程包括以下步骤S501至步骤S505。

在步骤S501中，获取特征数据库的视频记录的总条数。

在步骤S502中，判断特征数据库的视频记录的总条数是否超过第一老化阈值；若超过，则执行步骤S503，否则，返回步骤S501。

在步骤S503中，遍历特征数据库中的每一条视频记录。

在步骤S504中，判断该视频记录是否满足设定条件；比如，设定条件可以包括：视频记录的出现次数小于第一阈值，且该视频记录的最近出现时刻与当前时刻之间的时长大于第二阈值；若当前判断的视频记录满足设定条件，则执行步骤S505，即删除该视频记录；否则，返回步骤S503，遍历下一条视频记录。其中，第一阈值和第二阈值可以预设确定。

本实施例中，如果特征数据库中的视频记录的出现次数过少，并且最近出现时刻距离当前时刻已经超过一定时长，可以认为该视频记录很可能不会是重复视频，可以将之删除，以减小特征数据库的容量。

需要说明的是，在老化处理过程中，在步骤S501中，也可以获取特征数据库的视频记录的总占用空间大小，在步骤S502中，通过判断总占用空间大小是否大于或等于第二老化阈值来确定是否进行老化处理。然而，本申请对此并不限定。其中，第一老化阈值和第二老化阈值可以根据特征数据库的总存储量进行预设。

本实施例中，特征数据库的创建和更新过程可以参照图4所示，即在视频播放过程中进行特征数据库的创建和更新。然而，本申请对此并不限定。在其他实现方式中，终端可以根据本地存储的多个视频的音频特征先进行特征数据库的创建和更新，然后，利用更新好的特征数据库直接进行视频播放，或者，在利用本地存储的多个视频进行特征数据库的创建和更新过程中，可以在每个视频中通过标识标记出重复视频，然后在播放这些视频时直接根据标识跳过重复视频。

实施例二

本实施例说明通过语音识别自动检测和跳过广告。在用户平时观看的电影、电视剧等视频资源中经常会插入一些广告，用户往往想跳过这些广告，直接观看后面的正片。本实施例提供一种自动检测和跳过广告的播放装置。如图9所示，本实施例的播放装置可以包括：数据读取模块901(相当于上述的处理模块)、音视频解码模块902、音频特征提取模块903、特征数据库905以及特征匹配模块904(相当于上述的识别模块)。其中，本实施例的播放装置可以为智能手机、平板电脑等智能终端设备，或者，智能终端设备上设置的各种播放器或软件。然而，本申请对此并不限定。

图6为本实施例的流程示意图。如图6所示，本实施例包括以下步骤S601至步骤S606。

在步骤S601中，播放装置播放本地录制的视频或网络视频点播(Video on Demand，vod)的视频，数据读取模块从本地存储设备或网络获取要播放的视频码流。

在步骤S602中，播放装置的音视频解码模块对获取的视频码流进行解码，输出视频图像和音频声音。

在步骤S603中，音频特征提取模块对播放视频中的音频声音进行分析，通过语音识别将语音识别成文字，将文字划分成语句，将这些语句作为待匹配的音频特征；特征匹配模块通过特征数据库识别当前播放视频是否为重复视频，本示例中，重复视频指广告视频。

其中，特征匹配模块将步骤S603识别出的语句一一和特征数据库中的视频记录的语句特征进行匹配，以一个完整句子为单位进行比对，特征数据库中视频记录的遍历顺序为出现次数从高到低的顺序。

在步骤S604中，如果特征数据库中有匹配的视频记录，并且该视频记录被记录为重复视频(本示例中即为广告视频)，则特征匹配模块从特征数据库中读取此段重复视频的信息，如时长，并反馈给播放装置的数据读取模块。

在步骤S606中，数据读取模块直接定位到这段时长之后的时间点继续播放，即跳过这段广告视频，定位到该广告视频的结束时间点继续播放。

在步骤S605中，如果特征数据库中没有匹配的视频记录，则数据读取模块继续顺序播放视频，并保存语句特征信息到特征数据库，对特征数据库进行更新。

需要说明的是，关于特征数据库的创建和更新过程可以参照图4所示，故于此不再赘述。

实施例三

本实施例说明通过音频幅值波形自动检测和跳过广告。本实施例与实施例二不同的是：在本实施例中，利用视频节目的音频幅值波形作为音频特征进行匹配。

本实施例提供一种自动检测和跳过广告的播放装置。如图9所示，本实施例的播放装置可以包括：数据读取模块901(相当于上述的处理模块)、音视频解码模块902、音频特征提取模块903、特征数据库905以及特征匹配模块904(相当于上述的识别模块)。

图7是本实施例的流程示意图。如图7所示，本实施例包括以下步骤S701至步骤S706。

在步骤S701中，播放装置播放本地录制的视频或网络点播vod的视频，数据读取模块从本地存储设备或网络获取要播放的视频码流。

在步骤S702中，播放装置的音视频解码模块对获取的视频码流进行解码，输出视频图像和音频声音。

在步骤S703中，音频特征提取模块对播放视频中的音频声音进行分析，每隔一定时间采样该时刻的音频幅值，多个时刻的音频幅值描绘出音频幅值波形；特征匹配模块通过特征数据库识别当前播放视频是否为重复视频，本示例中，重复视频指广告视频。

其中，特征匹配模块将步骤S703提取出的音频幅值波形一一和特征数据库中的视频记录的音频幅值波形进行匹配。因为片头和广告等重复视频和正片之间一般都会有一段无声区间，可以通过脉冲编码调制(Pulse Code Modulation，PCM)电平值将视频文件划分为无声区间和有声区间，无声区间和有声区间是间隔排列的，以有声区间为单位进行匹配比对，从有声区间的起始点开始比对，在特征数据库的某个视频记录中有和当前播放视频中一致的重复视频的情况下，可以保证能找到这个重复视频的起始点，不会因为比对时间点错位导致匹配不上，找不到这个重复视频。另外，也避免了必须逐个从每个采样点开始进行匹配，既可以保证匹配的准确度，也大大减小了计算复杂度。

在步骤S704中，如果特征数据库有匹配的视频记录，并且该视频记录被记录为重复视频(本示例中即为广告视频)，则特征匹配模块从特征数据库中读取此段重复视频的信息，如时长，并反馈给播放装置的数据读取模块。

在步骤S706中，数据读取模块直接定位到这段时长之后的时间点播放，即跳过这段广告视频，定位到该广告视频的结束时间点继续播放。

在步骤S705中，如果特征数据库中没有匹配的视频记录，则数据读取模块继续顺序播放视频，并保存音频特征信息到特征数据库，对特征数据库进行更新。

实施例四

本实施例说明通过音频幅值波形自动检测和跳过电视剧片头。用户有时候有煲剧的习惯，从网上下载一整部电视剧在本地观看，或者在机顶盒的电视剧模块点播观看。有的电视剧每集前面都有较长的片头，用户每次都要观看重复的片头的话是很乏味的事情，不想看还需要手动操作遥控器快进跳过去，导致用户体验不佳。

本实施例提供一种自动检测和跳过电视剧片头的播放装置。如图9所示，本实施例的播放装置可以包括：数据读取模块901(相当于上述的处理模块)、音视频解码模块902、音频特征提取模块903、特征数据库905以及特征匹配模块904(相当于上述的识别模块)。

图8为本实施例的流程示意图。如图8所示，本实施例包括以下步骤S801至步骤S805。

在步骤S801中，播放装置播放本地录制的或网络点播vod的电视剧视频，数据读取模块从本地存储设备或网络获取要播放的视频码流。

在步骤S802中，播放装置的音视频解码模块对获取的视频码流进行解码，输出视频图像和音频声音。

在步骤S803中，音频特征提取模块对解码的音频声音进行处理分析，描绘出音频幅值波形，通过前N集(其中，N可以为大于或等于2的整数)的视频播放，识别出片头部分的音频幅值波形，在特征数据库中创建重复视频的视频记录，本示例中，重复视频指电视剧的片头视频。其中，关于音频特征的匹配方式可以参照实施例三的描述，关于特征数据库的创建和更新过程可以参照图4所示，故于此不再赘述。

在步骤S804中，在后续播放的剧集中，音频特征提取模块提取出前面片头部分的音频幅值波形，特征匹配模块将前面片头部分的音频幅值波形和特征数据库中的视频记录的音频幅值波形进行匹配，识别出当前播放剧集中的片头视频。其中，关于音频特征的匹配方式可以参照实施例三的描述，故于此不再赘述。

在步骤S805中，数据读取模块定位到特征数据库中记录的片头结束的时间点继续播放。如此，用户在煲剧时，无需观看重复的片头视频，提高了用户体验。

实施例五

本实施例说明在终端录制视频的过程中自动检测和跳过重复视频。用户经常用机顶盒将想后续观看的节目录制到本地存储设备中，留作以后观看。本实施例提供一种自动检测和跳过重复视频的录制装置。如图11所示，本实施例提供的录制装置可以包括：数据读取模块1101、音视频解码模块1102、音频特征提取模块1103、特征数据库1105、特征匹配模块1104(相当于上述的识别模块)、录制缓存1106以及录制模块1107(相当于上述的处理模块)。其中，本实施例的录制装置可以为机顶盒、智能手机、以及平板电脑等智能终端设备。然而，本申请对此并不限定。

图10是本实施例的流程图。如图10所示，本实施例包括以下步骤S1001至步骤S1007。

在步骤S1001中，录制装置先把要录制的码流保存到内存的录制缓存区域中。

在步骤S1002中，音视频解码模块在录制的同时对码流进行解码。

在步骤S1003中，音频特征提取模块对解码的音频进行处理分析，提取音频特征。

在步骤S1004中，特征匹配模块利用特征数据库识别出当前录制的视频是否是重复视频；其中，特征数据库是通过历史播放的视频自动创建的音频特征数据库。关于音频特征的匹配方式、特征数据库的创建和更新方式可以参照上述实施例的说明，故于此不再赘述。

在步骤S1005中，如果识别出当前录制内容是重复视频，则录制模块不将录制缓存中的这部分内容保存到存储设备中。

在步骤S1007中，跳过这部分内容继续后面的录制内容的匹配，如果录制内容的音频特征和特征数据库中的重复视频的音频特征一致，录制模块继续不保存录制缓存中的这部分内容到存储设备中，直到遇到特征数据库中不匹配的内容才继续录制，即保存到存储设备中。

在步骤S1006中，如果识别出当前录制内容不是重复视频，则录制模块继续顺序录制视频，即继续将录制缓存中的内容保存到存储设备中。

如此，用户可以跳过重复视频，不把重复视频录制下来，方便后续的观看。

图12为本实施例提供的数据处理装置的示意图。如图12所示，本实施例提供的数据处理装置1200，比如，终端或服务器，包括：存储器1201和处理器1202，存储器1201设置为存储数据处理程序，该数据处理程序被处理器1202执行时实现上述的数据处理方法的步骤。

其中，处理器1202可以包括但不限于微处理器(Microcontroller Unit，MCU)或可编程逻辑器件(Field Programmable Gate Array，FPGA)等的处理装置。存储器1201可设置为存储应用软件的软件程序以及模块，如本实施例中的数据处理方法对应的程序指令或模块，处理器1202通过运行存储在存储器1201内的软件程序以及模块，从而执行各种功能应用以及数据处理，比如实现本实施例提供的数据处理方法。存储器1201可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些示例中，存储器1201可包括相对于处理器1202远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

此外，本申请实施例还提供一种计算机存储介质，存储有数据处理程序，该数据处理程序被处理器执行时实现上述的数据处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块或单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块或单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他存储器技术、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Versatile Disc，DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

一种数据处理方法，包括：

根据目标视频的音频特征，利用特征数据库确定所述目标视频是否包括重复视频；其中，所述特征数据库是通过学习至少一个视频的音频特征得到的；

响应于确定所述目标视频包括重复视频，对所述重复视频进行过滤。
根据权利要求1所述的方法，还包括：提取所述目标视频的音频特征；

所述根据目标视频的音频特征，利用特征数据库确定所述目标视频是否包括重复视频，包括：

将所述目标视频的音频特征与所述特征数据库中的视频记录的音频特征进行匹配；

根据所述目标视频的音频特征与所述特征数据库中的视频记录的音频特征的匹配结果，确定所述目标视频是否包括重复视频。
根据权利要求2所述的方法，其中，所述根据所述目标视频的音频特征与所述特征数据库中的视频记录的音频特征的匹配结果，确定所述目标视频是否包括重复视频，包括：

基于确定所述目标视频的音频特征与所述特征数据库中的一个视频记录的音频特征匹配，且所述一个视频记录已标记为重复视频，确定所述目标视频包括重复视频；或者，

基于确定所述目标视频的音频特征与所述特征数据库中的一个视频记录的音频特征匹配，且所述一个视频记录的出现次数加1后大于或等于次数阈值，确定所述目标视频包括重复视频。
根据权利要求2所述的方法，其中，所述音频特征包括以下至少一项：音频幅值波形、音频频谱、以及语音识别生成的文字信息；

所述将所述目标视频的音频特征与所述特征数据库中的视频记录的音频特征进行匹配，包括以下之一：

基于确定所述目标视频的音频特征包括语音识别生成的文字信息，将所述目标视频的文字信息划分为句子，以句子为单位与所述特征数据库中的视频记录的语音识别生成的文字信息进行匹配；

基于确定所述目标视频的音频特征包括音频幅值波形和音频频谱中的至少之一，将所述特征数据库中的视频记录分成无声区间和有声区间，以有声区间为单位对所述目标视频与所述特征数据库中的视频记录进行匹配。
根据权利要求2所述的方法，还包括：

基于确定所述特征数据库中存在与所述目标视频的音频特征匹配的视频记录，更新所述特征数据库中与所述目标视频的音频特征匹配的视频记录保存的信息；

基于确定所述特征数据库中不存在与所述目标视频的音频特征匹配的视频记录，在所述特征数据库中新增所述目标视频对应的视频记录。
根据权利要求5所述的方法，其中，所述基于确定所述特征数据库中存在与所述目标视频的音频特征匹配的视频记录，更新所述特征数据库中与所述目标视频的音频特征匹配的视频记录保存的信息，包括：

基于确定所述目标视频的音频特征与所述特征数据库内的一个视频记录的音频特征的连续匹配时长大于或等于时长阈值，保留所述一个视频记录中所述连续匹配时长对应的音频特征；

基于确定所述目标视频的音频特征与所述特征数据库内的一个视频记录的音频特征的连续匹配时长大于或等于时长阈值，将所述特征数据库中存在的所述一个视频记录的出现次数加1，基于确定所述视频记录的出现次数加1后大于或等于次数阈值，则将所述视频记录标记为重复视频。
根据权利要求1所述的方法，其中，所述响应于确定所述目标视频包括重复视频，则对所述重复视频进行过滤，包括：

基于确定所述目标视频为正在播放的视频，根据所述特征数据库中所述重复视频的时长，跳过所述重复视频继续播放所述目标视频；

基于确定若所述目标视频为待录制的视频，根据所述特征数据库中所述重复视频的时长，跳过所述重复视频。
根据权利要求1所述的方法，还包括：

基于检测到所述特征数据库内的视频记录的总条数大于或等于第一老化阈值，或者，所述特征数据库内的视频记录的总占用空间大小大于或等于第二老化阈值，删除满足设定条件的视频记录。
根据权利要求8所述的方法，其中，所述设定条件包括以下至少之一：所述视频记录的出现次数小于或等于第一阈值，视频记录的最近出现时刻与当前时刻之间的时长大于或等于第二阈值。
根据权利要求1所述的方法，还包括：通过以下方式学习至少一个视频的音频特征得到所述特征数据库：

基于确定所述特征数据库中不存在视频记录，在所述特征数据库新增任一视频对应的视频记录；

基于确定所述特征数据库中存在视频记录，根据所述至少一个视频的音频特征与所述特征数据库中的视频记录的音频特征的匹配结果，更新所述特征数据库。
根据权利要求10所述的方法，其中，所述特征数据库中的任一视频记录保存的信息包括：出现次数、是否为重复视频、音频特征、以及时长信息；在所述出现次数为1时，所述视频记录保存的信息还包括以下至少之一：视频的文件名、路径、以及统一资源定位符。
一种数据处理装置，包括：

识别模块、特征数据库以及处理模块；

所述识别模块，配置为根据目标视频的音频特征，利用所述特征数据库确定所述目标视频是否包括重复视频；其中，所述特征数据库是通过学习至少一个视频的音频特征得到的；

所述处理模块，配置为在所述识别模块确定所述目标视频包括重复视频时，对所述重复视频进行过滤。
根据权利要求12所述的装置，还包括：

音频特征提取模块，配置为提取所述目标视频的音频特征；

所述识别模块，配置为通过以下方式根据目标视频的音频特征，利用特征数据库确定所述目标视频是否包括重复视频：

将所述目标视频的音频特征与所述特征数据库中的视频记录的音频特征进行匹配；

根据所述目标视频的音频特征与所述特征数据库中的视频记录的匹配结果，确定所述目标视频是否包括重复视频。
一种数据处理装置，包括：存储器和处理器，所述存储器设置为存储数据处理程序，所述数据处理程序被所述处理器执行时实现如权利要求1至11中任一项所述的数据处理方法。
一种计算机可读介质，存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1至11中任一项所述的数据处理方法。