WO2019101099A1

WO2019101099A1 - 视频节目识别方法、设备、终端、系统和存储介质

Info

Publication number: WO2019101099A1
Application number: PCT/CN2018/116686
Authority: WO
Inventors: 郭恺懿
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-11-22
Filing date: 2018-11-21
Publication date: 2019-05-31
Also published as: CN108322770B; CN108322770A

Abstract

本申请公开了一种视频节目识别方法、设备、终端、系统和存储介质，其中，该方法由服务器执行，包括：从终端接收视频节目中的音频信息，所述音频信息包括声音信息；识别所述声音信息对应的目标人物信息；从视频数据库中查找与所述目标人物信息关联的视频节目；所述视频数据库存储有人物信息以及与人物信息关联的视频节目；及，在所述目标人物信息关联的视频节目中查找包含所述目标语音内容信息的目标视频节目；所述目标语音内容信息包括与所述音频信息的语音内容信息匹配的信息。

Description

视频节目识别方法、设备、终端、系统和存储介质

本申请要求于2017年11月22日提交中国专利局、申请号为201711180259.9、申请名称为“视频节目识别方法、相关装置、设备和系统”的中国专利申请的优先权。

技术领域

本申请涉及计算机领域，尤其涉及视频节目识别方法、设备、终端、系统和存储介质。

发明背景

随着电子科技技术以及互联网技术的发展，电子终端(特别是智能移动终端)的功能越来越强大，只要用户按照自身的需求在电子终端上安装各种应用程序安装包，便可以通过各种应用程序来完成各种事务。

例如，当用户一开始观看视频节目时不知道该视频节目的信息，包括节目名称、演员信息等等，那么通过电子终端可以快速了解该视频节目的信息。用户只需打开某个具有识别视频节目功能的应用程序，即可通过该应用程序获取到该视频节目的信息。

发明内容

本申请实施例所要解决的技术问题在于，提供一种视频节目识别方法、设备、终端、系统和存储介质，解决现有技术无法支持识别非直播类的视频节目的技术问题。

为了解决上述技术问题，本申请实施例一方面公开了一种视频节目识别方法，由服务器执行，包括：

从终端接收视频节目中的音频信息，所述音频信息包括声音信息；

识别所述声音信息对应的目标人物信息；

从视频数据库中查找与所述目标人物信息关联的视频节目；所述视频数据库存储有人物信息以及与人物信息关联的视频节目；及，

在所述目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目；所述目标语音内容信息包括与所述音频信息的语音内容信息匹配的信息。

本申请实施例另一方面公开了一种视频节目识别方法，由终端执行，包括：

接收输入的视频节目识别指令；

根据所述视频节目识别指令采集视频节目中的音频信息，所述音频信息包括语音信息；

将所述音频信息发送给服务器；以使所述服务器根据上述方法查找到目标视频节目；

从所述服务器接收并显示所述目标视频节目的信息。

本申请实施例另一方面公开了一种视频节目识别设备，包括处理器、输入设备、输出设备、存储器和通信设备，所述处理器、输入设备、输出设备、存储器和通信设备相互连接，其中，所述存储器用于存储应用程序代码，所述通信设备用于与外部设备进行信息交互；所述处理器被配置用于调用所述程序代码，执行如上述方法。

本申请实施例另一方面公开了一种终端，包括处理器、输入设备、输出设备、存储器和通信设备，所述处理器、输入设备、输出设备、存储器和通信设备相互连接，其中，所述存储器用于存储应用程序代码，所述通信设备用于与外部设备进行信息交互；所述处理器被配置用于调用所述程序代码，执行如上述方法。

本申请实施例另一方面公开了一种视频节目识别系统，包括终端和服务器；其中，所述终端包括如上述终端，所述服务器包括如上述视频节目识别设备。

本申请实施例另一方面公开了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述方法。

附图简要说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频节目识别方法的系统构架示意图；

图2a是本申请实施例提供一种视频节目识别方法的示意流程图；

图2b是本申请另一实施例提供的一种视频节目识别方法的示意流程图；

图3是本申请实施例提供的视频节目识别指令的输入示意图；

图4是本申请实施例提供的声学特征提取的原理示意图；

图5是本申请实施例提供的建立视频数据库的流程示意图；

图6是本申请实施例提供的声纹特征模型的建立的原理示意图；

图7是本申请实施例提供的视频节目识别装置的结构示意图；

图8是本申请提供的另一实施例的视频节目识别装置的结构示意图；

图9是本申请实施例提供的服务器的结构示意图；

图10是本申请实施例提供的终端的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

具体实现中，本申请实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

现有技术中，具有识别视频节目功能的应用程序一般只支持识别电视直播中的视频节目，因为在识别电视直播中的视频节目时，可以将视频节目的音频搜索或识别范围缩小到当前时间段的有限的直播音频信息中，从而实现快速识别视频节目。但非直播类(例如点播)的视频节目与固定时段播出的直播节目不同，无法通过引入时间信息作为搜索条件，若针对所有视频节目进行识别，搜索或识别的视频节目量巨大，导致识别的效率很低，因此当前具有识别视频节目功能的应用程序不支持识别非直播类的视频节目。

如何提高视频节目的识别效率，满足用户既识别直播类又识别非直播类的视频节目的需求，是当前人们关注的技术问题。

为了更好的理解本申请实施例提供的一种视频节目识别方法、视频节目识别装置，下面先对本申请实施例适用的视频节目识别方法的系统构架进行描述。参阅图1，图1是本申请实施例提供的视频节目识别方法的系统构架示意图，即本申请实施例提供的视频节目识别系统的结构示意图。如图1所示，系统构架可以包括一个或多个服务器、网络1～K以及与每个网络相连的多个终端(或设备)11～1n…K1～Kn，其中：

服务器可以包括但不限于后台服务器、组件服务器、视频节目识别系统服务器等，服务器可以通过互联网与多个终端进行通信。服务器为终端提供视频节目识别服务，为视频节目识别系统的运行提供支持。终端(或设备)可以安装并运行有相关的客户端(Client)(例如包括视频节目识别客户端等)。客户端(Client)是指与服务器相对应，为客户提供本地服务的程序。这里，该本地服务可包括但不限于：搜索或识别视频节目，获取视频节目的咨询信息等等。

具体的，客户端可包括：本地运行的应用程序、运行于网络浏览器上的功能(又称为Web App)等。对于客户端，服务器上需要运行有相应的服务器端程序来提供相应的社交服务，如视频数据库服务，数据计算、决策执行等等。

本申请实施例中用户可以通过终端中安装的视频节目识别客户端将采集的视频节目中的音频信息发送给服务器进行视频节目识别，服务器向终端返回识别出的视频节目的信息。

本申请实施例中的终端可以包括但不限于任何一种基于智能操作系统的手持式电子产品，其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互，诸如智能手机、平板电脑、个人电脑等。其中，智能操作系统包括但不限于任何通过向终端提供各种移动应用来丰富设备功能的操作系统，诸如安卓(Android ^TM)、iOS ^TM、Windows Phone ^TM等。

需要说明的是，本申请提供的视频节目识别方法的系统构架不限于图1所示。

基于图1所示的视频节目识别方法的系统构架，参见图2a，是本申请实施例提供一种视频节目识别方法的示意流程图。如图2a所示，该方法由服务器执行，包括如下步骤：

步骤S101，从终端接收视频节目中的音频信息，音频信息包括声音信息。

步骤S102，识别声音信息对应的目标人物信息。

步骤S103，从视频数据库中查找与目标人物信息关联的视频节目，视频数据库存储有人物信息以及与人物信息关联的视频节目。

步骤S104，在目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目；目标语音内容信息包括与音频信息的语音内容信息匹配的信息。

参见图2b，是本申请另一实施例提供的一种视频节目识别方法的示意流程图，涉及终端和服务器之间的交互，可以包括以下步骤：

步骤S200：接收输入的视频节目识别指令；

具体地，当用户想要对正在播放的视频节目进行识别的时候，可以通过启动终端中安装的用于视频节目识别的客户端，来进行识别。那么在启动了该视频节目识别的客户端后，如图3示出的本申请实施例提供的视频节目识别指令的输入示意图，用户可以通过客户端中“摇电视”的功能，摇动终端来输入视频节目识别指令，此时，终端即接收到该输入的视频节目识别指令。

可理解的是，图3只是本申请实施例的其中一种实施方式，本申请不限定输入视频节目识别指令的方式，还可以通过点击虚拟按钮，或按动物理按键，或输入语音指令等其他方式来输入视频节目识别指令。

本申请实施例中该正在播放的视频节目可以是终端以外的电子设备正在播放的视频节目，例如电视、平板电脑等等，也可以是终端自身正在播放的视频节目。本申请实施例中的视频节目包括直播类的视频节目和非直播类的视频节目。

步骤S202：根据该视频节目识别指令采集视频节目中的音频信息；

具体地，终端的用于视频节目识别的客户端接收到该视频节目识别指令后，即可以采集正在播放的视频节目中的音频信息。本申请实施例中的音频信息包括声音信息，即为存在人物说话的声音信息。本申请实施例中的音频信息可以为预设时长的一段音频信息，例如5-10秒的一段音频信息。

步骤S204：将该音频信息发送给服务器；

具体地，终端的用于视频节目识别的客户端通过网络将该音频信息发送给服务器，该服务器即为视频节目识别设备。

步骤S206：接收视频节目中的音频信息；

具体地，服务器通过网络接收到终端发送的该视频节目中的音频信息。

步骤S208：识别该声音信息对应的目标人物信息；

具体地，服务器中的视频数据库可以存储有至少两个声纹特征模型，每个声纹特征模型对应一个人物信息；服务器可以通过计算该声音信息的声纹特征；然后根据该视频数据库存储的声纹特征模型识别与该声纹特征匹配的目标声纹特征模型；其中，匹配的该目标声纹特征模型对应的人物信息为该目标人物信息。

在本申请的其中一个实施例中，在计算出至少两个声纹特征的情况下，该根据该视频数据库存储的声纹特征模型识别与该声纹特征匹配的目标声纹特征模型可以包括：将在声音信息的时长中占比最大的声纹特征确定为第一声纹特征；根据该视频数据库存储的声纹特征模型识别出与第一声纹特征匹配的声纹特征模型作为目标声纹特征模型。可见，该第一声纹特征为在该声音信息的时长中占比最大的声纹特征。

或者，针对每个声纹特征，根据该视频数据库存储的声纹特征模型分别识别与该声纹特征匹配的声纹特征模型；将匹配度最高的声纹特征模型确定为目标声纹特征模型。

具体地，若用户通过终端采集的5-10秒的一段音频信息中，存在两个或两个以上的人物对话时，那么服务器即计算出至少两个声纹特征。以存在两个人物对话为例，本申请实施例，服务器可以先判断在该段音频信息哪个人物说话的时长占比最大，从而找到占比最大的一个声纹特征，那么根据该视频数据库存储的声纹特征模型识别与该占比最大的声纹特征匹配的目标声纹特征模型即可。或者服务器可以两个声纹特征都进行匹配，然后查看哪个匹配度更高，从而找到匹配度最高的一个声纹特征模型，将该匹配度最高的一个声纹特征模型作为目标声纹特征模型。从而可以进一步提高识别视频节目的准确率。

可理解的是，若在该声音信息的时长中占比最大的声纹特征有两个或两个以上，那么可以随机选取其中一个来进行匹配。或者若匹配度最高的声纹特征模型有两个或两个以上，那么可以随机选取其中一个作为目标声纹特征模型。

步骤S210：从视频数据库中查找与该目标人物信息关联的视频节目；

具体地，该视频数据库存储有人物信息以及与人物信息关联的视频节目。与人物信息关联的视频节目，也就是说，该人物参与该视频节目的演出或表演，例如演员a关联视频节目a，那么表明演员a出演了该视频节目a。服务器可以先从视频数据库中存储的多个人物信息中找到该目标人物信息，然后查找该目标人物信息关联的视频节目。

步骤S212：在该目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目；

具体地，本申请实施例中的该目标语音内容信息包括与该音频信息的语音内容信息匹配的信息。本申请实施例中的语音内容信息可以包括语音内容的声学特征；该视频数据库中存储有视频节目对应的语音内容的声学特征；那么在确定该目标语音内容信息时，服务器可以将从该音频信息中提取出的语音内容的声学特征与该目标人物信息关联的视频节目对应的语音内容的声学特征进行匹配；将目标人物信息关联的视频节目中匹配成功的声学特征确定为目标语音内容的声学特征；将目标语音内容的声学特征对应的视频节目确定为目标视频节目。那么，该目标人物信息关联的视频节目中匹配成功的声学特征为目标语音内容的声学特征；该目标语音内容的声学特征对应的视频节目为目标视频节目。

需要说明的是，本申请实施例中的语音内容即为人物说话的内容，例如视频节目是电视剧或电影，该语音内容即为演员的对白信息。本申请实施例在步骤S206之后，即服务器接收到视频节目的音频信息之后，还包括从该音频信息中提取语音内容的声学特征的步骤，该步骤可以在步骤S206至步骤S212之间来执行，也可以在步骤S212中来执行。

本申请的其中一个实施例方式中，从音频信息中提取语音内容的声学特征的提取方式可以如图4所示，通过时间窗将平稳的音频信号401划分成多个帧402，其中，相邻两个时间窗起始位置的时间间隔称之为“帧移”，如403所示，每一个时间窗所确定的单位称之为“帧”，其时间长度称之为帧长。对划分的每个帧进行时频分析，提取出每帧的声学特征404。

音频信息(可以看作语音信号)可以认为是一种短时平稳信号和长时非平稳信号，在短时间内，可以认为音频信息还是可以当成平稳信号来处理，这个短时一般范围在10到30毫秒之间。语音内容信息的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的，而在长时间来看则是有明显变化的。在数字信号处理时，对平稳信号进行时频分析，从而提取特征。因此，在对音频信息进行特征提取的时候，可以设置一个20ms左右的时间窗，即“帧移”403，在这个时间窗内可以认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动，每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征，从而就得到了音频信息的语音内容信息，即语音内容的声学特征序列。这个过程，我们称之为声学特征提取。这个特征能够表征出在这个时间窗内的语音信号相关信息。通过上述技术手段即可以实现将一段语音转化得到一个以帧为单位的特征序列。提取出的声学特征可以由梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、感知线性预测系数(Perceptual Linear Prediction，PLP)来表征。

步骤S214：将该目标视频节目的信息发送给终端。

具体地，该目标视频节目的信息可以包括该目标视频节目的名称信息，该目标视频节目的完成的时间信息等。服务器还可以获取该目标视频节目的咨询信息；然后将该目标视频节目的咨询信息发送给终端。该咨询信息包括以下至少一项：简介信息、人物列表信息、花絮信息、评论信息、集数信息、完整视频节目链接信息、与该目标视频节目相匹配的视频节目信息等等。

其中，简介信息可以为该目标视频节目的概要或摘要的介绍信息；人物列表信息可以为参与该目标视频节目的演员或表演者的信息；花絮信息可以为拍摄该目标视频节目是的周边花絮信息；评论信息可以为观看过该目标视频节目的用户进行评论信息；集数信息可以为当前播放的目标视频节目处于第几集，以及总共有多少集的信息；完整视频节目链接信息可以为链接到查看该目标视频节目的所有集数的信息；与该目标视频节目相匹配的视频节目信息可以为与该目标视频节目的节目类型类似的视频节目，或具有相同的1个或多个人物参演的其它视频节目的信息。

步骤S216：接收并显示服务器发送的该目标视频节目的信息。

具体地，终端接收到服务器(即视频节目识别设备)发送的该目标视频节目的信息后，向用户提示或直接显示该目标视频节目的信息。

实施本申请实施例，通过接收视频节目中的音频信息后，先识别该声音信息对应的目标人物信息；然后从视频数据库中查找与该目标人物信息关联的视频节目；该视频数据库存储有人物信息以及与人物信息关联的视频节目；然后只在该目标人物信息关联的视频节目中查找，以查找出包含目标语音内容信息的目标视频节目，从而提高了视频节目的识别效率，解决了现有技术中由于视频节目太多，若针对所有视频节目进行识别，识别的效率很低的问题，本申请实施例比起在整个视频库中与海量视频的每一段音频都进行匹配识别，大大减少了搜索识别范围，提高了搜索识别的速度，满足了用户既识别直播类又识别非直播类的视频节目的需求。

进一步地，如图5示出的本申请实施例提供的建立视频数据库的流程示意图，本申请实施例中在步骤S206之前，服务器还可以包括：

步骤S500：采集多个视频节目的音频信息；

具体地，服务器将预先采集足够多的视频节目的音频信息，该采集的视频节目的音频信息将作为建立视频数据库的重要数据。

步骤S502：分析该多个视频节目的音频信息，获得每个视频节目关联的人物信息，以及每个视频节目的语音内容信息，语音内容信息包括语音内容的声学特征；

具体地，服务器可以预先将采集的所有视频节目通过人工标注的方式，标注出视频节目里面所有语音内容的片段所对应的人物信息(即人物身份信息)，然后通过从每一段对语音内容提取基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等特征参数，提取的特征参数即为语音内容的声学特征。

步骤S504：建立声学特征列表，将该声学特征列表存储在视频数据库中。

具体地，该声学特征列表包括每个人物信息各自关联的视频节目，以及该人物信息在每个视频节目中对应的语音内容的声学特征。也就是说，可以先整理每个视频节目关联的人物信息，然后整理以基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等特征参数组成语音内容的声学特征列表，最后将这些信息整理成以人物信息为键，对应到该人物信息关联的所有视频节目列表，再以每一部视频节目为键，对应到该人物信息关联的该视频节目中所有语音内容的声学特征列表的映射表，即，建立了声学特征列表。如下表1所示的声学特征列表：

表1

步骤S506：利用该语音内容的声学特征进行模型训练，建立多个声纹特征模型。

具体地，每个声纹特征模型对应一个人物信息。如图6示出的本申请实施例提供的声纹特征模型的建立的原理示意图，服务器可以将建立的声学特征列表通过采用深度神经网络(Deep Neural Network，DNN)-ivector，即DNN-ivector系统对说话人特征的进行抓取。DNN-ivector系统主要特点就是将之前提取的声学特征通过按照一定的发声单元对齐后投影到一个较低的线性空间中，然后进行说话人信息的挖掘。然后服务器利用这些特征信息进行模型训练，可建立以声纹特征模型为键，人物信息为值的映射表。如表2所示的声纹特征模型：

表2

需要说明的是，本申请实施例中步骤S504和S506的执行顺序可以不做限定，可以先执行步骤S504，后执行步骤S506，或者先执行步骤S506，后执行步骤S504，再或者步骤S504和S506同时执行。

为了便于更好地实施本申请实施例的上述方案，本申请还对应提供了一种视频节目识别装置，下面结合附图来进行详细说明：

如图7示出的本申请实施例提供的视频节目识别装置的结构示意图，视频节目识别装置70可以包括：第一接收单元700、识别单元702、第一查找单元704和第二查找单元706，其中，

第一接收单元700，用于从终端接收视频节目中的音频信息，该音频信息包括声音信息；

识别单元702，用于识别该声音信息对应的目标人物信息；

第一查找单元704，用于从视频数据库中查找与该目标人物信息关联的视频节目；该视频数据库存储有人物信息以及与人物信息关联的视频节目；

第二查找单元706，用于在该目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目；该目标语音内容信息包括与该音频信息的语音内容信息匹配的信息。

在其中的一个实施例中，该视频数据库存储有至少两个声纹特征模型，每个声纹特征模型对应一个人物信息；

识别单元702可以包括：计算单元和第一匹配单元，其中，

计算单元，用于计算该声音信息的声纹特征；

第一匹配单元，用于根据该视频数据库存储的声纹特征模型识别与该声纹特征匹配的目标声纹特征模型；其中，该目标声纹特征模型对应的人物信息为该目标人物信息。

在其中的一个实施例中，在计算出至少两个声纹特征的情况下，该第一匹配单元可以具体用于根据该视频数据库存储的声纹特征模型识别与第一声纹特征匹配的目标声纹特征模型；该第一声纹特征为在该声音信息的时长中占比最大的声纹特征。

在其中的一个实施例中，在计算出至少两个声纹特征的情况下，该第一匹配单元可以具体用于，针对每个声纹特征，根据该视频数据库存储的声纹特征模型识别出与该声纹特征匹配的声纹特征模型；将匹配度最高的声纹特征模型确定为目标声纹特征模型。

在其中的一个实施例中，该语音内容信息包括语音内容的声学特征；该视频数据库中存储有视频节目对应的语音内容的声学特征；

第二查找单元706可以具体包括第二匹配单元，用于将从该音频信息中提取出的语音内容的声学特征与该目标人物信息关联的视频节目对应的语音内容的声学特征进行匹配；将该目标人物信息关联的视频节目中匹配成功的声学特征确定为目标语音内容的声学特征；将该目标语音内容的声学特征对应的视频节目确定为目标视频节目。

在其中的一个实施例中，视频节目识别装置70还可以包括：采集单元、分析单元、列表建立单元、模型建立单元、信息获取单元和第一发送单元，其中，

采集单元，用于采集多个视频节目的音频信息；

分析单元，用于分析该多个视频节目的音频信息，获得每个视频节目关联的人物信息，以及每个视频节目的语音内容信息，语音内容信息包括语音内容的声学特征；

列表建立单元，用于建立声学特征列表，将该声学特征列表存储在视频数据库中；该声学特征列表包括每个人物信息各自关联的视频节目，以及该人物信息在每个视频节目中对应的语音内容的声学特征。

模型建立单元，用于利用该语音内容的声学特征进行模型训练，建立多个声纹特征模型；其中，每个声纹特征模型对应一个人物信息。

信息获取单元，用于获取该目标视频节目的咨询信息；

第一发送单元，用于将该咨询信息发送给终端。

该咨询信息包括以下至少一项：

简介信息、人物列表信息、花絮信息、评论信息、集数信息、完整视频节目链接信息、与该目标视频节目相匹配的视频节目信息。

需要说明的是，本申请实施例中的视频节目识别装置70为上述图1至图6实施例中的服务器(即视频节目识别设备)，该视频节目识别装置70中各模块的功能可对应参考上述各方法实施例中图1至图6实施例的具体实现方式，这里不再赘述。

为了便于更好地实施本申请实施例的上述方案，本申请还对应提供了另一种视频节目识别装置，下面结合附图来进行详细说明：

如图8示出的本申请提供的另一实施例的视频节目识别装置的结构示意图，视频节目识别装置80可以包括：第二接收单元800、信息采集单元802、第二发送单元804和接收显示单元806，其中，

第二接收单元800，用于接收输入的视频节目识别指令；

信息采集单元802，用于根据该视频节目识别指令采集视频节目中的音频信息，该音频信息包括声音信息；

第二发送单元804，用于将该音频信息发送给服务器，以使服务器根据音频信息查找到目标视频节目；

接收显示单元806，用于从服务器接收并显示该目标视频节目的信息。

需要说明的是，本申请实施例中的视频节目识别装置80为上述图1至图6实施例中的终端，该视频节目识别装置80中各模块的功能可对应参考上述各方法实施例中图1至图6实施例的具体实现方式，这里不再赘述。

为了便于更好地实施本申请实施例的上述方案，本申请还对应提供了一种服务器，下面结合附图来进行详细说明：

如图9示出的本申请实施例提供的服务器的结构示意图，服务器90可以包括处理器901、输入单元902、输出单元903、存储器904和通信单元905，处理器901、输入单元902、输出单元903、存储器904和通信单元905可以通过总线906相互连接。存储器904可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器，存储器704包括本申请实施例中的flash。存储器904可选的还可以是至少一个位于远离前述处理器901的存储系统。存储器904用于存储应用程序代码，可以包括操作系统、网络通信模块、用户接口模块以及视频节目识别程序，通信单元905用于与外部单元进行信息交互；处理器901被配置用于调用所述程序代码，执行以下步骤：

通过通信单元905从终端接收视频节目中的音频信息，所述音频信息包括声音信息；

识别所述声音信息对应的目标人物信息；

从视频数据库中查找与所述目标人物信息关联的视频节目；所述视频数据库存储有人物信息以及与人物信息关联的视频节目；

具体地，所述视频数据库存储有至少两个声纹特征模型，每个声纹特征模型对应一个人物信息；处理器901识别所述声音信息对应的目标人物信息可以包括：

计算所述声音信息的声纹特征；

根据所述视频数据库存储的声纹特征模型识别与所述声纹特征匹配的目标声纹特征模型；其中，所述目标声纹特征模型对应的人物信息为所述目标人物信息。

具体地，在计算出至少两个声纹特征的情况下，处理器901根据所述视频数据库存储的声纹特征模型识别与所述声纹特征匹配的目标声纹特征模型可以包括：

根据所述视频数据库存储的声纹特征模型识别与第一声纹特征匹配的目标声纹特征模型；所述第一声纹特征为在所述声音信息的时长中占比最大的声纹特征。

针对每个声纹特征，根据所述视频数据库存储的声纹特征模型识别出与该声纹特征匹配的声纹特征模型；

将匹配度最高的声纹特征模型确定为所述目标声纹特征模型。

具体地，所述语音内容信息包括语音内容的声学特征；所述视频数据库中存储有视频节目对应的语音内容的声学特征；

处理器901在所述目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目可以包括：

将从所述音频信息中提取出的语音内容的声学特征与所述目标人物信息关联的视频节目对应的语音内容的声学特征进行匹配；将所述目标人物信息关联的视频节目中匹配成功的声学特征确定为目标语音内容的声学特征；将所述目标语音内容的声学特征对应的视频节目确定为所述目标视频节目。

具体地，处理器901接收视频节目中的音频信息之前，还可以执行：

通过通信单元905采集多个视频节目的音频信息；

分析所述多个视频节目的音频信息，获得每个视频节目关联的人物信息，以及每个视频节目的语音内容信息，所述语音内容信息包括语音内容的声学特征；

建立声学特征列表，将所述声学特征列表存储在所述视频数据库中；所述声学特征列表包括每个人物信息各自关联的视频节目，以及所述人物信息在每个视频节目中对应的语音内容的声学特征。

具体地，处理器901提取出每个视频节目的语音内容的声学特征之后，还可以执行：

利用所述语音内容的声学特征进行模型训练，建立多个声纹特征模型；其中，每个声纹特征模型对应一个人物信息。

具体地，处理器901在所述目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目之后，还可以执行：

通过通信单元905获取所述目标视频节目的咨询信息；

通过通信单元905将所述咨询信息发送给终端。

所述咨询信息包括以下至少一项：

简介信息、人物列表信息、花絮信息、评论信息、集数信息、完整视频节目链接信息、与所述目标视频节目相匹配的视频节目信息。

需要说明的是，本申请实施例中的服务器90为上述图1至图6实施例中的服务器，具体可对应参考上述各方法实施例中图1至图6实施例的具体实现方式，这里不再赘述。

为了便于更好地实施本申请实施例的上述方案，本申请还对应提供了一种终端，下面结合附图来进行详细说明：

如图10示出的本申请实施例提供的终端的结构示意图，终端10可包括：基带芯片100、存储器105(一个或多个计算机可读存储介质)、通信模块106、外围系统107。这些部件可在一个或多个通信总线104上通信。

外围系统107主要用于实现终端10和用户/外部环境之间的交互功能，主要包括终端10的输入输出装置。具体实现中，外围系统107可包括：触摸屏控制器、摄像头控制器、音频控制器以及传感器管理模块。其中，各个控制器可与各自对应的外围设备(如触摸显示屏108、摄像头109、音频电路1010以及传感器1011)耦合。需要说明的，外围系统107还可以包括其他I/O外设。

基带芯片100可集成包括：一个或多个处理器101、时钟模块222以及电源管理模块103。集成于基带芯片100中的时钟模块102主要用于为处理器101产生数据传输和时序控制所需要的时钟。集成于基带芯片100中的电源管理模块103主要用于为处理器101、射频模块106以及外围系统提供稳定的、高精确度的电压。

通信模块106用于接收和发送射频信号，包括用户身份识别卡(Subscriber Identification Module，SIM)卡1061和无线保真(WirelessFidelity，Wi-Fi)1062，主要集成了终端10的接收器和发射器。通信模块106通过射频信号与通信网络和其他通信设备通信。具体实现中，通信模块106可包括但不限于：天线系统、射频(Radio Frequency，RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编译码器(CODEC)芯片、SIM卡和存储介质等。在一些实施例中，可在单独的芯片上实现通信模块106。

存储器105与处理器101耦合，用于存储各种软件程序和/或多组指令。具体实现中，存储器105可包括高速随机存取的存储器，并且也可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储器105可以存储操作系统。存储器105还可以存储网络通信程序，该网络通信程序可用于与一个或多个附加设备，一个或多个终端设备，一个或多个网络设备进行通信。存储器105还可以存储用户接口程序，该用户接口程序可以通过图形化的操作界面将应用程序的内容形象逼真的显示出来，并通过菜单、对话框以及按键等输入控件接收用户对应用程序的控制操作。

存储器105还可以存储一个或多个应用程序。如图10所示，这些应用程序可包括：社交应用程序(例如Facebook ^TM)，视频节目识别应用程序，地图类应用程序(例如谷歌地图)，浏览器(例如Safari ^TM，Google Chrome ^TM)等等。

本申请中，处理器101可用于读取和执行计算机可读指令。具体的，处理器101可用于调用存储于存储器105中的程序，例如本申请提供的视频节目识别应用程序，并执行该程序包含的指令，包括以下步骤：

通过触摸显示屏108接收输入的视频节目识别指令；或通过震动传感器接收输入的视频节目识别指令；

根据所述视频节目识别指令采集视频节目中的音频信息，所述音频信息包括声音信息；

将所述音频信息通过通信模块106发送给视频节目识别设备；以使所述视频节目识别设备根据上述图1至图6各个实施例中的方法识别查找到目标视频节目；

通信模块106接收并通过触摸显示屏108显示所述视频节目识别设备发送的所述目标视频节目的信息。

需要说明的是，本申请实施例中的终端10为上述图1至图6实施例中的终端，具体可对应参考上述各方法实施例中图1至图6实施例的具体实现方式，这里不再赘述。上述终端10的结构仅为本申请实施例提供的一个例子，并且，终端10可具有比示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种视频节目识别方法，其特征在于，由服务器执行，包括：

从终端接收视频节目中的音频信息，所述音频信息包括声音信息；

识别所述声音信息对应的目标人物信息；

从视频数据库中查找与所述目标人物信息关联的视频节目；所述视频数据库存储有人物信息以及与人物信息关联的视频节目；及，

在所述目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目；所述目标语音内容信息包括与所述音频信息的语音内容信息匹配的信息。
如权利要求1所述的方法，其特征在于，所述视频数据库存储有至少两个声纹特征模型，每个声纹特征模型对应一个人物信息；

所述识别所述声音信息对应的目标人物信息包括：

计算所述声音信息的声纹特征；

根据所述视频数据库存储的声纹特征模型识别与所述声纹特征匹配的目标声纹特征模型；其中，所述目标声纹特征模型对应的人物信息为所述目标人物信息。
如权利要求2所述的方法，其特征在于，在计算出至少两个声纹特征的情况下，所述根据所述视频数据库存储的声纹特征模型识别与所述声纹特征匹配的目标声纹特征模型包括：

根据所述视频数据库存储的声纹特征模型识别出与所述第一声纹特征匹配的声纹特征模型作为所述目标声纹特征模型；所述第一声纹特征为在所述声音信息的时长中占比最大的声纹特征。
如权利要求2所述的方法，其特征在于，在计算出至少两个声纹特征的情况下，所述根据所述视频数据库存储的声纹特征模型识别与所述声纹特征匹配的目标声纹特征模型包括：

针对每个声纹特征，根据所述视频数据库存储的声纹特征模型识别出与该声纹特征匹配的声纹特征模型；

将匹配度最高的声纹特征模型确定为所述目标声纹特征模型。
如权利要求1所述的方法，其特征在于，所述语音内容信息包括语音内容的声学特征；所述视频数据库中存储有视频节目对应的语音内容的声学特征；

所述在所述目标人物信息关联的视频节目中查找包含目标语音内容信息的目标视频节目包括：

将从所述音频信息中提取出的语音内容的声学特征与所述目标人物信息关联的视频节目对应的语音内容的声学特征进行匹配；

将所述目标人物信息关联的视频节目中匹配成功的声学特征确定为目标语音内容的声学特征；

将所述目标语音内容的声学特征对应的视频节目确定为所述目标视频节目。
如权利要求1所述的方法，其特征在于，还包括：

采集多个视频节目的音频信息；

分析所述多个视频节目的音频信息，获得每个视频节目关联的人物信息，以及每个视频节目的语音内容信息，所述语音内容信息包括语音内容的声学特征；

建立声学特征列表，将所述声学特征列表存储在所述视频数据库中；所述声学特征列表包括每个人物信息各自关联的视频节目，以及所述人物信息在每个视频节目中对应的语音内容的声学特征。
如权利要求6所述的方法，其特征在于，还包括：

利用所述语音内容的声学特征进行模型训练，建立多个声纹特征模型；其中，每个声纹特征模型对应一个人物信息。
如权利要求1-7任一项所述的方法，其特征在于，还包括：

获取所述目标视频节目的咨询信息，将所述咨询信息发送给所述终端。
如权利要求8所述的方法，其特征在于，所述咨询信息包括以下至少一项：

简介信息、人物列表信息、花絮信息、评论信息、集数信息、完整视频节目链接信息、与所述目标视频节目相匹配的视频节目信息。
一种视频节目识别方法，其特征在于，由终端执行，包括：

接收输入的视频节目识别指令；

根据所述视频节目识别指令采集视频节目中的音频信息；

将所述音频信息发送给服务器，以使所述服务器根据所述如权利要求1-9任一项所述的方法查找到目标视频节目；

从所述服务器接收并显示所述目标视频节目的信息。
一种视频节目识别设备，其特征在于，包括处理器、输入设备、输出设备、存储器和通信设备，所述处理器、输入设备、输出设备、存储器和通信设备相互连接，其中，所述存储器用于存储应用程序代码，所述通信设备用于与外部设备进行信息交互；所述处理器被配置用于调用所述程序代码，执行如权利要求1-9任一项所述的方法。
一种终端，其特征在于，包括处理器、输入设备、输出设备、存储器和通信设备，所述处理器、输入设备、输出设备、存储器和通信设备相互连接，其中，所述存储器用于存储应用程序代码，所述通信设备用于与外部设备进行信息交互；所述处理器被配置用于调用所述程序代码，执行如权利要求10所述的方法。
一种视频节目识别系统，其特征在于，包括终端和服务器；其中，所述终端包括如权利要求12所述的终端，所述服务器包括如权利要求11所述的视频节目识别设备。
一种计算机可读存储介质，其特征在于，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1至10中任一项所述的方法。