WO2013170590A1

WO2013170590A1 - 一种媒体数据处理方法及设备

Info

Publication number: WO2013170590A1
Application number: PCT/CN2012/083874
Authority: WO
Inventors: 宋杨; 郑士胜; 韩庆瑞
Original assignee: 华为技术有限公司
Priority date: 2012-05-16
Filing date: 2012-10-31
Publication date: 2013-11-21
Also published as: CN103428483B; CN103428483A

Abstract

一种监控数据处理方法及设备，发送端接收来自采集端的媒体数据，所述媒体数据包括视频帧；确定所述视频帧的重要性等级；将重要性等级高的视频帧以较高质量的视频参数进行编码，得到第一编码视频帧，将所述第一编码视频帧发送给接收端；将重要性等级低的视频帧以较低质量的视频参数进行编码，得到第二编码视频帧，将所述第二编码视频帧发送给所述接收端。采用本发明，能够提高精度，简化算法。

Description

一种媒体数据处理方法及设备

本申请要求于 2012 年 5 月 16 日提交中国专利局、申请号为 201210150838.X, 发明名称为 "一种媒体数据处理方法及设备" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及监控领域，尤其涉及一种媒体数据处理方法及设备。背景技术

视频监控的基本功能是提供实时视频监视，并对被监视的画面进行录像、传输和存储，以便事后确认。在视频监控系统中，视频采集设备（摄像机、摄像头等）将视频采集下来，通过编码器进行压缩，然后通过传输网络传输到用户端。用户端将压缩视频保存在相应存储设备上（磁盘阵列、光盘等），并且解码后显示在显示设备（监视器、电视墙等）上。

随着技术的进步， 30帧每秒的高清（High Definition, HD )视频已经成为监控的主流趋势。由于高清视频的巨大数据量，对于视频压缩、传输和存储都提出了非常高的要求。

为了保障高清视频的有效传输和保存，进行高质量的压缩是必须的。以每秒 30帧的高清视频 1080HD为例，原始视频帧量高达 710Mbps, 如果不进行压缩，就需要非常大的带宽和存储空间。现在较为常用的是 H.264/AVC视频压缩标准，可以将 1080HD视频压缩到 2~20Mbps (图像质量相关）。当然，对应代价是需要大量的计算资源。但是，由于压缩后的视频流必须通过网络传输到用户端进行保存和观看。即使视频经过压缩，面对 24小时 X 7天的连续传输，也会对网络造成很大压力。特别是对基于移动网络（3G/LTE ) 的视频监控系统，会消耗大量的网络流量（费用）。

由于视频监控系统的规模越来越大（包括数百台摄像机的监控系统已经比较常见），对于监控视频的传输和存储提出了越来越高的要求。大量的监控视频耗费了巨量的网络资源（网络费用 )和存储资源（存储费用 ), 并且消耗了大量的电力，不利于绿色环保。针对这个问题，有人提出了一种动态调整分辨率的方法，来减少网络带宽和存储容量。该方法通过人脸检测算法，首先检测出人脸，然后对人脸周围的图像进行高分辨率编码，对其他图像进行低分辨率编码，从而可以减少网络带宽和存储容量。但是，该方法仍然存在以下缺点：采用帧内识别方式，需要非常准确稳定的人脸识别算法才能够精确识别出人脸在视频帧中的具体位置和大小，这对于现在技术而言仍然是不现实的，而如果人脸的位置没有正确识别出来，真正的人脸所处区域会被当做背景，降低分辨率进行传输，从而严重损坏图像包含的信息，导致无法识别对应人物，这对于监控系统而言，是完全不可以接受的。发明内容

本发明实施例提供了一种媒体数据处理方法及设备，用于解决现有技术存在着的难以精确地对视频帧内重要性等级不同的数据进行相应质量的编码的问题。

为了解决上述技术问题，本发明实施例提供了一种媒体数据处理方法，包括：

接收来自采集端的媒体数据，所述媒体数据包括视频帧；

确定所述视频帧的重要性等级；

将重要性等级高的视频帧以较高质量的视频参数进行编码，得到第一编码视频帧，将所述第一编码视频帧发送给接收端；

将重要性等级低的视频帧以较低质量的视频参数进行编码，得到第二编码视频帧，将所述第二编码视频帧发送给所述接收端。

相应地，本发明实施例还提供了一种媒体数据处理方法，包括：接收来自采集端的媒体数据，所述媒体数据包括视频帧；

根据预设时长内的视频帧确定将要采集的视频帧的重要性等级；将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧，得到第一采集视频帧；以较低质量的视频参数采集重要性等级低的视频帧，得到第二采集视频帧；

对所述第一采集视频帧以及所述第二采集视频帧进行编码，分别得到第一编码视频帧和第二编码视频帧，将所述第一编码视频帧以及所述第二编码视频帧发送给接收端。

相应地，本发明实施例还提供了一种媒体数据处理方法，包括：接收并保存来自发送端的媒体数据，所述媒体数据包括第一编码视频帧和第二编码视频帧，所述第一编码视频帧具有较高质量的视频参数，所述第二编码视频帧具有较低质量的视频参数；

分别对所述第一编码视频帧和所述第二编码视频帧进行解码 ,得到与所述第一编码视频帧对应的第一解码视频帧以及与所述第二编码视频帧对应的第二解码视频帧，将所述第二解码视频帧进行质量增强以匹配所述第一解码视频帧，并根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒体数据的呈现。

相应地，本发明实施例还提供了一种发送端，包括：

媒体数据获取模块，用于接收来自采集端的媒体数据，所述媒体数据包括视频帧；

视频重要性等级确定模块，用于确定所述视频帧的重要性等级；视频编码模块，用于将重要性等级高的视频帧以较高质量的视频参数进行编码，得到第一编码视频帧；将重要性等级低的视频帧以较低质量的视频参数进行编码，得到第二编码视频帧；

视频发送模块，用于将所述第一编码视频帧以及所述第二编码视频帧发送给接收端。

相应地，本发明实施例还提供了一种发送端，包括：

视频重要性等级确定模块，用于根据预设时长内的视频帧确定将要采集的视频帧的重要性等级；

视频采集控制模块，用于将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧，得到第一采集视频帧；以较低质量的视频参数采集重要性等级低的视频帧，得到第二采集视频帧；视频编码模块，用于对通过所述媒体数据获取模块接收的所述第一采集视频帧以及所述第二采集视频帧进行编码，分别得到第一编码视频帧和第二编码视频帧；

相应地，本发明实施例还提供了一种接收端，包括：

媒体数据接收模块，用于接收并保存来自发送端的媒体数据，所述媒体数据包括第一编码视频帧和第二编码视频帧，所述第一编码视频帧具有较高质量的视频参数，所述第二编码视频帧具有较低质量的视频参数；

视频解码模块，用于分别对所述第一编码视频帧和所述第二编码视频帧进行解码，得到与所述第一编码视频帧对应的第一解码视频帧以及与所述第二编码视频帧对应的第二解码视频帧；

视频增强模块，用于将所述第二解码视频帧进行质量增强以匹配所述第一解码视频帧；

视频呈现模块，用于根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒体数据的呈现。

实施本发明实施例，具有如下有益效果：通过对视频帧进行帧间重要性等级划分，然后对重要性等级高的视频帧以较高质量的视频参数进行编码或采集，对重要性等级低的视频帧以较低质量的视频参数进行编码或采集，相比现有技术中对视频帧进行帧内重要性等级划分，能够提高精确度，筒化算法。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图；图；

图 3是本发明提供的发送端执行的音频信号处理方法的流程图；图；

图 5是本发明提供的发送端的第一实施例结构示意图；意图；

图 7是本发明提供的发送端的第二实施例结构示意图；

图 8是本发明提供的发送端的第三实施例结构示意图；

图 9是本发明提供的接收端执行的媒体数据处理方法的第一实施例流程图；

图 10是本发明提供的接收端执行的音频信号处理方法的流程图；图 11是本发明提供的接收端的第一实施例结构示意图；

图 12是本发明提供的接收端的第二实施例结构示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。例流程图，该方法包括：

5100、接收来自采集端的媒体数据，所述媒体数据包括视频帧。

5101、确定所述视频帧的重要性等级。

5102、将重要性等级高的视频帧以较高质量的视频参数进行编码，得到第一编码视频帧，将所述第一编码视频帧发送给接收端；将重要性等级低的视频帧以较低质量的视频参数进行编码，得到第二编码视频帧，将所述第二编码视频帧发送给所述接收端。

本发明实施例提供的媒体数据处理方法，通过对视频帧进行帧间重要性等级划分，然后对重要性等级高的视频帧以较高质量的视频参数进行编码，对重要性等级低的视频帧以较低质量的视频参数进行编码，相比现有技术中对视频帧进行帧内重要性等级划分，能够提高精确度，筒化算法。

具体地，可以预先对视频帧的重要性等级进行划分和定义，例如可以将视频帧的重要性等级划分为高和低两个等级、高中低三个等级或者更多等级。

若监控目的是能够清晰地看到人脸，例如用于银行取款机监控时，可以针对图像是否包含人脸对视频帧进行分级，此时，步骤 S101包括：判断视频帧中是否包含人脸，若判断为是，则确定视频帧的重要性等级高，否则确定视频帧的重要性等级低。

若监控目的是能够看清人物，例如用于小区监控时，可以针对图像是否包含人物对视频帧进行分级，此时，步骤 S101包括：判断视频帧中是否包含人物，若判断为是，则确定视频帧的重要性等级为高，否则确定视频帧的重要性等级低。

若监控目的是记录某个动作发生时的情形，例如用于超市监控时，可以针对图像是否包含预先定义的动作（例如偷窃动作）对视频帧进行分级，此时，步骤 S101包括：判断视频帧中是否包含预先定义的动作，若判断为是，则确定视频帧的重要性等级高，否则确定视频帧的重要性等级低。

若监控目的是记录某个事件发生时的情形，例如用于街道、酒吧等地的监控时，可以针对图像是否包含预先定义的事件（例如打斗事件 )对视频帧进行分级，此时，步骤 S101包括：判断视频帧中是否包含预先定义的事件，若判断为是，则确定视频帧的重要性等级高，否则确定视频帧的重要性等级低。

还可以将视频帧的重要性等级划分为三个或更多等级。例如，若用于交通监控时，由于当有人脸时需要清晰记录人脸图像，而当有车辆时仅仅需要记录车辆的颜色、种类等，可以将重要性等级和对应的质量等级分为高、中、低三个等级，此时步骤 S101包括：判断视频帧中是否包含人脸，若判断视频帧中是否包含人脸的判断结果为是，则确定视频帧的重要性等级高，若判断视频帧中是否包含人脸的判断结果为否，则继续判断视频帧中是否包含车辆，若判断视频帧中是否包含车辆的判断结果为是，则确定媒体数据的重要性等级中，若判断视频帧中是否包含车辆的判断结果为否，则确定媒体数据的重要性等级低。

除了这些算法检测方式以外，还可以借助人工触发方式来确定重要性等级。例如，步骤 S101包括：当接收到高质量触发控制信号时，确定视频帧的重要性等级高，当接收到低质量触发控制信号时，确定视频帧的重要性等级低，所述高质量触发控制信号是与发送端通信相连的检测装置检测到预先定义的高质量触发信号后发送的，所述低质量触发控制信号是所述检测装置检测到预先定义的低质量触发信号后发送的。其中，高质量触发信号和低质量触发信号可以分别是门开关动作触发信号、红外线触发信号等。例如，当用于夜间银行监控时，由于夜间银行的门禁系统仅允许一次进入一人，因此可以在门上安装动作传感器，当门被首次开启时，表示有人进入，传感器接收高质量触发信号，并生成高质量触发控制信号，然后将高质量触发控制信号传送给发送端，以便发送端将视频帧的重要性等级设为高；当门被再次开启时，表示人已出去，传感器接收低质量触发信号，并生成低质量触发控制信号，然后将低质量触发控制信号传送给发送端，以便发送端将视频帧的重要性等级设为低。这种人工触发方式由于不需要检测计算系统，可以降低成本，而且精度更高。

上述针对视频帧的检测算法可以是本领域技术人员熟知的任意合适算法，由于仅需判断是否存在某个事物，而不需对这个事物的精确位置和大小等进行检测，因此本发明可以采用的检测算法较为筒单，易于实现，而且能尽量减少误判断的情况，提高精确度。

具体地，步骤 102 中，视频参数包括帧率和 /或分辨率。当视频帧的帧率和 /或分辨率较高时，视频的质量也越高，但是视频的数据量也越大。对应于预先划分的重要性等级，同样可以对视频参数的质量等级进行划分。例如高重要性等级的视频帧对应于高质量等级的视频参数，如 1920*1080@30fps, 其中 1920*1080表示分辨率， 30fps ( 30帧 /秒）表示帧率；中重要等级的视频帧对应于中质量等级的视频参数，如 1280*720@ 15fps; 低重要性等级的视频帧对应于低质量等级的视频参数，如 720*480@5fps。相对于只采用一种固定的视频参数对视频帧进行编码的方法，这种分级编码方法不仅能够提高重要性较高的视频帧的清晰度，而且能够尽量减小数据量，降低存储容量和网络传输流量。

优选地，通过在步骤 S102中发送第一编码视频帧以及第二编码视频帧给接收端，使得接收端收到第一编码视频帧以及第二编码视频帧后对这些视频帧分别进行解码，得到与第一编码视频帧对应的第一解码视频帧，以及与第二编码视频帧对应的第二解码视频帧；并将第二解码视频帧进行质量增强以匹配第一解码视频帧，并根据第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒体数据的呈现。对具有较低质量的视频参数的视频帧进行质量增强，例如利用超分辨率技术等，可以将低质量的视频帧恢复到与高质量视频帧一致的观看效果，以避免用户在观看时由于视频参数的变化而产生不适。

在图 1所示的实施例中，除了使用常规的采样、压缩等方式对视频帧进行编码以外，还可以采用可扩展视频编码（Scalable Video Coding, 筒称 SVC ) 方法。 SVC 方法将视频帧编码成分层的形式，当带宽不足时只对基本层的码流进行传输和解码，但这时解码的视频质量不高，当带宽慢慢变大时，可以传输和解码增强层的码流来提高视频的解码质量。

请参见图 2, 是本发明提供的利用 SVC方法对视频帧进行编码的流程图，包括：

5200、利用 SVC方法将视频帧编码为分层码流。 SVC技术在时间、空间、质量上对视频帧进行划分，输出多层码流（包括基本层和增强层），其中基本层的码流可以使接收端解码器完全正常的解码出基本视频内容，但^^本层的码流获得的视频图像可能帧率较低、分辨率较低或者质量较低，增强层又可以包括多个增强子层，多传输一个增强子层的码流，接收端获得的视频的质量也就越高。当对视频质量要求不高时，只对基本层的码流进行传输；当对视频质量要求逐渐升高时，可以传输基本层加上增强层的码流来提高视频的解码质量。

5201、选择较多层分层码流作为具有较高质量视频参数的第一编码视频帧，选择较少层分层码流作为具有较低质量视频参数的第二编码视频帧。例如，将所有的分层码流作为具有较高质量视频参数的第一编码视频帧；将部分分层码流（例如基本层的码流）作为具有较低质量视频参数的第二编码视频帧，且将其它的分层码流（例如增强层的码流）丢弃。

除了视频帧以外，媒体数据还可能包含音频信号。可以将视频帧的重要性等级作为与其对应（相同时间戳）的音频信号的重要性等级，并以相应质量的音频参数对音频信号进行编码。或者，可以单独根据音频信号的内容来确定音频信号的重要性等级，然后进行以相应质量的音频参数对音频信号进行编码。

请参见图 3 , 是本发明提供的音频信号处理方法的流程图，该方法可以在步骤 S100之后执行，该方法包括：

5300、确定所述音频信号的重要性等级。具体地，判断音频信号是否包含人声，若判断为是，则确定音频信号的重要性等级高，否则，确定音频信号的重要性等级低。与视频帧类似，还可以将音频信号的重要性划分为三个或更多等级。

5301、将重要性等级高的音频信号以较高质量的音频参数进行编码，得到第一编码音频信号，将所述第一编码音频信号发送给接收端；将重要性等级低的音频信号以较低质量的音频参数进行编码，得到第二编码音频信号，将所述第二编码音频信号发送给接收端。其中，音频参数包括采样率和 /或采样大小，与视频参数类似，采样率和 /或采样大小越高，音频信号的质量也越高，但是数据量也越大。音频参数的质量等级与音频信号的重要性等级也是对应的。

优选地，通过步骤 S301中发送第一编码音频信号以及第二编码音频信号给接收端，使得接收端收到第一编码音频信号以及第二编码音频信号后对这些音频信号分别进行解码，得到与第一编码音频信号对应的第一解码音频信号，以及与第二解码音频信号对应的第二解码音频信号；并将第二解码音频信号进行质量增强以匹配第一解码音频信号，并根据第一解码音频信号以及进行质量增强后的第二解码音频信号进行媒体数据的呈现。对具有较低质量的音频参数的音频信号进行质量增强，可以将低质量的音频信号恢复到与高质量音频信号一致的播放效果，以避免用户在收听时由于音频参数的变化而产生不适。

优选地，步骤 S102和 S301之后，或者在执行 S102和 S301的同时，还包括：将同步信号发送给接收端，使得接收端在呈现媒体数据时根据同步信号将音频信号与视频帧同步。

在图 1-3 所示的实施例中，采集端都是以设定的视频参数采集视频帧和 / 或以设定的音频参数采集音频信号，且在发送端对视频帧和 /或音频信号进行不同质量的编码。在本发明的其它实施例中，还可以在采集端以不同的视频参数采集视频帧和 /或以不同的音频参数采集音频信号，且在发送端其视频参数和 /或音频参数进行压缩编码，该实施例将参考图 4进行举例说明。例流程图，该方法包括：

5400、接收来自采集端的媒体数据，所述媒体数据包括视频帧。

5401、根据预设时长内的视频帧确定将要采集的视频帧的重要性等级。例如，可以根据 0.1s内的视频帧确定将要采集的视频帧的重要性等级。

5402、将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧，得到第一采集视频帧；以较低质量的视频参数采集重要性等级低的视频帧，得到第二采集视频帧。

5403、对所述第一采集视频帧以及所述第二采集视频帧进行编码，分别得到第一编码视频帧和第二编码视频帧，将所述第一编码视频帧以及所述第二编码视频帧发送给接收端。

本发明实施例提供的媒体数据处理方法，通过对视频帧进行帧间重要性等级划分，然后对重要性等级高的视频帧以较高质量的视频参数进行采集，对重要性等级低的视频帧以较低质量的视频参数进行采集，相比现有技术中对视频帧进行帧内重要性等级划分，能够提高精确度，筒化算法。

同样地，当媒体数据包含音频信号时，步骤 S400之后还包括：根据预设时长内的音频信号确定将要采集的音频信号的重要性等级；将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的音频参数采集重要性等级高的音频信号，得到第一采集音频信号；以较低质量的音频参数采集重要性等级低的音频信号，得到第二采集音频信号；对所述第一采集音频信号以及所述第二采集音频信号进行编码，分别得到第一编码音频信号和第二编码音频信号，将所述第一编码音频信号以及所述第二编码音频信号发送给接收端。

在图 4所示的实施例中，在确定视频帧和 /或音频信号的重要性等级发生变化时，该时刻用于确定重要性等级的预设时长内的视频帧和 /或音频信号仍然是沿用原来的视频参数和 /或音频参数进行采集的，因此这段时间内的媒体数据的质量是存在偏差的。但是，由于步骤 S401中采用的检测算法可能很筒单，能够达到较高较快的计算速度，因此质量等级切换过程可能只需延误 1~2 帧的时间，而如此小的数据量对整体媒体数据的质量产生的影响可以忽略不计。

除了在通过确定视频帧和 /或音频信号的重要性等级来控制采集时的视频参数和 /或音频参数、以及在编码时沿用采集时的视频参数和 /或编码参数以外，图 4所示的实施例以及基于该实施例的变形与图 1、 3所示的实施例类似，因此不再赘述。

请参见图 5 , 是本发明提供的发送端 500的结构示意图，包括：

媒体数据获取模块 510, 用于接收来自采集端的媒体数据，所述媒体数据包括视频帧。

视频重要性等级确定模块 520, 用于确定所述视频帧的重要性等级。

视频编码模块 530, 用于将重要性等级高的视频帧以较高质量的视频参数进行编码，得到第一编码视频帧；将重要性等级低的视频帧以较低质量的视频参数进行编码，得到第二编码视频帧。

视频发送模块 540, 用于将所述第一编码视频帧以及所述第二编码视频帧发送给接收端。

本发明实施例提供的发送端，通过对视频帧进行帧间重要性等级划分，然后对重要性等级高的视频帧以较高质量的视频参数进行编码，对重要性等级低的视频帧以较低质量的视频参数进行编码，相比现有技术中对视频帧进行帧内重要性等级划分，能够提高精确度，筒化算法。

若监控目的是能够清晰地看到人脸，例如用于银行取款机监控时，可以针对图像是否包含人脸对视频帧进行分级，此时，视频重要性等级确定模块 520 用于：判断视频帧中是否包含人脸，若判断为是，则确定视频帧的重要性等级高，否则确定视频帧的重要性等级低。

若监控目的是能够看清人物，例如用于小区监控时，可以针对图像是否包含人物对视频帧进行分级，此时，视频重要性等级确定模块 520用于：判断视频帧中是否包含人物，若判断为是，则确定视频帧的重要性等级为高，否则确定视频帧的重要性等级低。若监控目的是记录某个动作发生时的情形，例如用于超市监控时，可以针对图像是否包含预先定义的动作（例如偷窃动作）对视频帧进行分级，此时，视频重要性等级确定模块 520用于：判断视频帧中是否包含预先定义的动作，若判断为是，则确定视频帧的重要性等级高，否则确定视频帧的重要性等级低。

若监控目的是记录某个事件发生时的情形，例如用于街道、酒吧等地的监控时，可以针对图像是否包含预先定义的事件（例如打斗事件 )对视频帧进行分级，此时，视频重要性等级确定模块 520用于：判断视频帧中是否包含预先定义的事件，若判断为是，则确定视频帧的重要性等级高，否则确定视频帧的重要性等级低。

还可以将视频帧的重要性等级划分为三个或更多等级。例如，若用于交通监控时，由于当有人脸时需要清晰记录人脸图像，而当有车辆时仅仅需要记录车辆的颜色、种类等，可以将重要性等级和对应的质量等级分为高、中、低三个等级，此时视频重要性等级确定模块 520用于：判断视频帧中是否包含人脸，若判断视频帧中是否包含人脸的判断结果为是，则确定视频帧的重要性等级高，若判断视频帧中是否包含人脸的判断结果为否，则继续判断视频帧中是否包含车辆，若判断视频帧中是否包含车辆的判断结果为是，则确定媒体数据的重要性等级中，若判断视频帧中是否包含车辆的判断结果为否，则确定媒体数据的重要性等级低。

除了这些算法检测方式以外，还可以借助人工触发方式来确定重要性等级。例如，视频重要性等级确定模块 520用于：当接收到高质量触发控制信号时，确定视频帧的重要性等级高，当接收到低质量触发控制信号时，确定视频帧的重要性等级低，所述高质量触发控制信号是与发送端通信相连的检测装置检测到预先定义的高质量触发信号后发送的，所述低质量触发控制信号是所述检测装置检测到预先定义的低质量触发信号后发送的。其中，高质量触发信号和低质量触发信号可以分别是门开关动作触发信号、红外线触发信号等。例如，当用于夜间银行监控时，由于夜间银行的门禁系统仅允许一次进入一人，因此可以在门上安装动作传感器，当门被首次开启时，表示有人进入，传感器接收高质量触发信号，并生成高质量触发控制信号，然后将高质量触发控制信号传送给发送端，以便发送端将视频帧的重要性等级设为高；当门被再次开启时，表示人已出去，传感器接收低质量触发信号，并生成低质量触发控制信号，然后将低质量触发控制信号传送给发送端，以便发送端将视频帧的重要性等级设为低。这种人工触发方式由于不需要检测计算系统，可以降低成本，而且精度更高。

具体地，视频参数包括帧率和 /或分辨率。当视频帧的帧率和 /或分辨率较高时，视频的质量也越高，但是视频的数据量也越大。对应于预先划分的重要性等级，同样可以对视频参数的质量等级进行划分。例如高重要性等级的视频帧对应于高质量等级的视频参数，如 1920*1080@30fps, 其中 1920*1080表示分辨率， 30fps ( 30帧 /秒）表示帧率；中重要等级的视频帧对应于中质量等级的视频参数，如 1280*720@ 15fps; 低重要性等级的视频帧对应于低质量等级的视频参数，如 720*480@5fps。相对于只采用一种固定的视频参数对视频帧进行编码的方法，这种分级编码方法不仅能够提高重要性较高的视频帧的清晰度，而且能够尽量减小数据量，降低存储容量和网络传输流量。

在图 5所示的实施例中，除了使用常规的采样、压缩等方式对视频帧进行编码以外，视频编码模块 530还可以采用 SVC方法。 SVC方法将视频帧编码成分层的形式，当带宽不足时只对基本层的码流进行传输和解码，但这时解码的视频质量不高，当带宽慢慢变大时，可以传输和解码增强层的码流来提高视频的解码质量。

请参见图 6, 是本发明提供的利用 SVC方法对视频帧进行编码的的视频编码模块 600的结构示意图，包括：

视频分层模块 610, 用于利用 SVC方法将视频帧编码为分层码流。

视频码流选择模块 620, 用于选择较多层分层码流作为具有较高质量视频参数的第一编码视频帧，选择较少层分层码流作为具有较低质量视频参数的第二编码视频帧。

请参见图 7, 是本发明提供的发送端 700的结构示意图，除了媒体数据获取模块 510、视频重要性等级确定模块 520、视频编码模块 530和视频发送模块 540, 发送端 600还包括：

音频重要性等级确定模块 550, 用于确定所述音频信号的重要性等级。具体地，音频重要性等级确定模块 550用于：判断音频信号是否包含人声，若判断为是，则确定音频信号的重要性等级高，否则，确定音频信号的重要性等级低。与视频帧类似，还可以将音频信号的重要性划分为三个或更多等级。

音频编码模块 560, 用于将重要性等级高的音频信号以较高质量的音频参数进行编码，得到第一编码音频信号；将重要性等级低的音频信号以较低质量的音频参数进行编码，得到第二编码音频信号。其中，音频参数包括采样率和 /或采样大小，与视频参数类似，采样率和 /或采样大小越高，音频信号的质量也越高，但是数据量也越大。音频参数的质量等级与音频信号的重要性等级也是对应的。

音频发送模块 570, 用于将所述第一编码音频信号以及所述第二编码音频信号发送给接收端。

优选地，发送端还包括：同步信号发送模块，用于将同步信号发送给接收端，使得接收端在呈现媒体数据时根据同步信号将音频信号与视频帧同步。

在图 5-7 所示的实施例中，采集端都是以设定的视频参数采集视频帧和 / 或以设定的音频参数采集音频信号，且在发送端对视频帧和 /或音频信号进行不同质量的编码。在本发明的其它实施例中，还可以在采集端以不同的视频参数采集视频帧和 /或以不同的音频参数采集音频信号，且在发送端其视频参数和 /或音频参数进行压缩编码，该实施例将参考图 8进行举例说明。

请参见图 8,是本发明提供的发送端 800的结构示意图，发送端 800包括：媒体数据获取模块 810, 用于接收来自采集端的媒体数据，所述媒体数据包括视频帧。

视频重要性等级确定模块 820, 用于根据预设时长内的视频帧确定将要采集的视频帧的重要性等级。例如，可以根据 0.1s 内的视频帧确定将要采集的视频帧的重要性等级。

视频采集控制模块 830, 用于将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧，得到第一采集视频帧；以较低质量的视频参数采集重要性等级低的视频帧，得到第二采集视频帧。

视频编码模块 840, 用于对所述第一采集视频帧以及所述第二采集视频帧进行编码，分别得到第一编码视频帧和第二编码视频帧。

视频发送模块 850, 用于将所述第一编码视频帧以及所述第二编码视频帧发送给接收端。

本发明实施例提供的发送端，通过对视频帧进行帧间重要性等级划分，然后对重要性等级高的视频帧以较高质量的视频参数进行采集，对重要性等级低的视频帧以较低质量的视频参数进行采集，相比现有技术中对视频帧进行帧内重要性等级划分，能够提高精确度，筒化算法。

同样地，当媒体数据包含音频信号时，发送端 800还包括：音频重要性等级确定模块，用于根据预设时长内的音频信号确定将要采集的音频信号的重要性等级；音频采集控制模块，用于将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的音频参数采集重要性等级高的音频信号，得到第一采集音频信号；以较低质量的音频参数采集重要性等级低的音频信号，得到第二采集音频信号；音频编码模块，用于对所述第一采集音频信号以及所述第二采集音频信号进行编码，分别得到第一编码音频信号和第二编码音频信号；音频发送模块，用于将所述第一编码音频信号以及所述第二编码音频信号发送给接收端。

请参见图 9, 是本发明提供的接收端执行的媒体数据处理方法的第一实施例流程图，包括：

5900、接收并保存来自发送端的媒体数据，所述媒体数据包括第一编码视频帧和第二编码视频帧，所述第一编码视频帧具有较高质量的视频参数，所述第二编码视频帧具有较低质量的视频参数。

5901、分别对所述第一编码视频帧和所述第二编码视频帧进行解码，得到与所述第一编码视频帧对应的第一解码视频帧以及与所述第二编码视频帧对应的第二解码视频帧，将所述第二解码视频帧进行质量增强以匹配所述第一解码视频帧，并根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒体数据的呈现。

本发明实施例对具有较低质量的视频参数的视频帧进行质量增强，例如利用超分辨率技术等，可以将低质量的视频帧恢复到与高质量视频帧一致的观看效果，以避免用户在观看时由于视频参数的变化而产生不适。

请参见图 10, 是本发明提供的接收端执行的音频信号处理方法的流程图，该方法可以在步骤 S900之后执行，其中步骤 S900中的媒体数据包含第一编码音频信号和第二编码音频信号，第一编码音频信号具有较高质量的音频参数，第二编码音频信号具有较低质量的音频参数，所述方法包括：

S1000、分别对所述第一编码音频信号和所述第二编码音频信号进行解码，得到与所述第一编码音频信号对应的第一解码音频信号以及与所述第二编码音频信号对应的第二解码音频信号，将所述第二解码音频信号进行质量增强以匹配所述第一解码音频信号，并根据所述第一解码音频信号以及进行质量增强后的第二解码音频信号进行媒体数据的呈现。

本发明实施例对具有较低质量的音频参数的音频信号进行质量增强，可以将低质量的音频信号恢复到与高质量音频信号一致的播放效果，以避免用户在收听时由于音频参数的变化而产生不适。

优选地，本方法还包括：接收来自发送端的同步信号，并在呈现媒体数据时根据所述同步信号将音频信号与视频帧同步。

图 11是本发明提供的接收端 1100的结构示意图，包括：

媒体数据接收模块 mo, 用于接收并保存来自发送端的媒体数据，所述媒体数据包括第一编码视频帧和第二编码视频帧，所述第一编码视频帧具有较高质量的视频参数，所述第二编码视频帧具有较低质量的视频参数。

视频解码模块 1120, 用于分别对所述第一编码视频帧和所述第二编码视频帧进行解码 ,得到与所述第一编码视频帧对应的第一解码视频帧以及与所述第二编码视频帧对应的第二解码视频帧。

视频增强模块 1130, 用于将所述第二解码视频帧进行质量增强以匹配所述第一解码视频帧。

视频呈现模块 1140, 用于根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒体数据的呈现。视频呈现模块 1140可以是各种类型的显示屏。

图 12是本发明提供的接收端 1200的结构示意图，接收端 1200包括媒体数据接收模块 1110、视频解码模块 1120、视频增强模块 1130和视频呈现模块 1140, 其中媒体数据接收模块 1110接收的媒体数据还包括第一编码音频信号和第二编码音频信号，第一编码音频信号具有较高质量的音频参数，第二编码音频信号具有较低质量的音频参数。接收端 1200还包括：

音频解码模块 1150, 用于分别对所述第一编码音频信号和所述第二编码音频信号进行解码，得到与所述第一编码音频信号对应的第一解码音频信号以及与所述第二编码音频信号对应的第二解码音频信号。

音频增强模块 1160, 用于将所述第二解码音频信号进行质量增强以匹配所述第一解码音频信号。

音频呈现模块 1170, 用于根据所述第一解码音频信号以及进行质量增强后的第二解码音频信号进行媒体数据的呈现。音频呈现模块 1170可以是各种类型的扬声器。

优选地，接收端 1200还包括：

同步模块，用于接收来自发送端的同步信号，并在呈现媒体数据时根据所述同步信号将音频信号与视频帧同步。

本发明实施例提供的媒体数据处理方法及设备，可以有效地减少网络流量和存储容量，从而降低传输成本和存储成本。例如在一个具有 100台摄像机的监控系统中，若保持以视频参数为 1920*1080@30fps 来处理视频帧，需要的带宽为 10Mbps, 如果保持 24小时 *7天的监控，每周该监控系统需要传输和存储高达 740GB的视频数据。但是假设这些视频数据中有 30%为重要数据，利用本发明，在没有发现重要内容时（即确定视频帧的重要性等级低时）将视频帧的视频参数降低到 720*480@ 10fps, 此时需要的带宽仅为 0.5Mbps, 每周需要传输和存储的视频数据只有 250GB, 也就是说，减少了约 2/3的数据量。另外，本发明不仅可以有效减少媒体数据的传输代价和存储代价，还可以降低对应的电量消耗，实现绿色环保监控。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行（如通过 CPU执行）时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、硬盘、内存、闪存（flash )等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

权利要求

1、一种媒体数据处理方法，其特征在于，包括：

接收来自采集端的媒体数据，所述媒体数据包括视频帧；

确定所述视频帧的重要性等级；

2、如权利要求 1所述的方法，其特征在于，所述将重要性等级高的视频帧以较高质量的视频参数进行编码，包括：

利用可扩展视频编码方法将所述视频帧编码为分层码流；

选择较多层分层码流作为具有较高质量视频参数的第一编码视频帧；所述将重要性等级低的视频帧以较低质量的编码参数进行编码，包括：利用可扩展视频编码方法将所述视频帧编码为分层码流；

选择较少层分层码流作为具有较低质量视频参数的第二编码视频帧。

3、如权利要求 1或 2所述的方法，其特征在于，所述方法还包括：通过发送所述第一编码视频帧以及所述第二编码视频帧给所述接收端，使得所述接收端收到所述第一编码视频帧以及所述第二编码视频帧后对这些视频帧分别进行解码，得到与所述第一编码视频帧对应的第一解码视频帧，以及与所述第二编码视频帧对应的第二解码视频帧；并将所述第二解码视频帧进行质量增强以匹配所述第一解码视频帧，并根据所述第一解码视频帧以及进行质量增强后的第二解码视频帧进行媒体数据的呈现。

4、如权利要求 1-3 中任一项所述的方法，其特征在于，所述视频参数包括帧率和 /或分辨率。

5、如权利要求 1-4中任一项所述的方法，其特征在于，所述确定所述视频帧的重要性等级，包括：

判断所述视频帧中是否包含人脸，若判断为是，则确定所述视频帧的重要性等级高，否则确定所述视频帧的重要性等级低；和 /或

判断所述视频帧中是否包含人物，若判断为是，则确定所述视频帧的重要性等级高，否则确定所述视频帧的重要性等级低；和 /或

判断所述视频帧中是否包含预先定义的动作，若判断为是，则确定所述视频帧的重要性等级高，否则确定所述视频帧的重要性等级低；和 /或

判断所述视频帧中是否包含预先定义的事件，若判断为是，则确定所述视频帧的重要性等级高，否则确定所述视频帧的重要性等级低。

6、如权利要求 1-4中任一项所述的方法，其特征在于，所述确定所述视频帧的重要性等级，包括：

当接收到高质量触发控制信号时，确定所述视频帧的重要性等级高，当接收到低质量触发控制信号时，确定视频帧的重要性等级低，所述高质量触发控制信号是与发送端通信相连的检测装置检测到预先定义的高质量触发信号后发送的，所述低质量触发控制信号是所述检测装置检测到预先定义的低质量触发信号后发送的。

7、如权利要求 1-4中任一项所述的方法，其特征在于，所述确定所述视频帧的重要性等级，包括：

判断所述视频帧中是否包含人脸，若所述判断所述视频帧中是否包含人脸的判断结果为是，则确定所述视频帧的重要性等级高；若所述判断所述视频帧中是否包含人脸的判断结果为否，则继续判断所述视频帧中是否包含车辆，若

所述视频帧的重要性等级低。

8、如权利要求 1所述的方法，其特征在于，所述媒体数据还包括音频信号，所述方法还包括：确定所述音频信号的重要性等级；

将重要性等级高的音频信号以较高质量的音频参数进行编码，得到第一编码音频信号，将所述第一编码音频信号发送给接收端；

将重要性等级低的音频信号以较低质量的音频参数进行编码，得到第二编码音频信号，将所述第二编码音频信号发送给接收端。

9、如权利要求 8所述的方法，其特征在于，所述方法还包括：

通过发送所述第一编码音频信号以及所述第二编码音频信号给所述接收端，使得所述接收端收到所述第一编码音频信号以及所述第二编码音频信号后对这些音频信号分别进行解码，得到与所述第一编码音频信号对应的第一解码音频信号，以及与所述第二解码音频信号对应的第二解码音频信号；并将所述第二解码音频信号进行质量增强以匹配所述第一解码音频信号，并根据所述第一解码音频信号以及进行质量增强后的第二解码音频信号进行媒体数据的呈现。

10、如权利要求 8或 9所述的方法，其特征在于，所述方法还包括：将同步信号发送给接收端，使得所述接收端在呈现媒体数据时根据所述同步信号将音频信号与视频帧同步。

11、如权利要求 8-10 中任一项所述的方法，其特征在于，所述音频参数包括采样率和 /或采样大小。

12、如权利要求 8-11 中任一项所述的方法，其特征在于，所述确定所述音频信号的重要性等级，包括：

判断所述音频信号中是否包含人声，若判断为是，则确定所述音频信号的重要性等级高，否则确定所述音频信号的重要性等级低。

13、一种媒体数据处理方法，其特征在于，包括：

接收来自采集端的媒体数据，所述媒体数据包括视频帧；根据预设时长内的视频帧确定将要采集的视频帧的重要性等级；将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧，得到第一采集视频帧；以较低质量的视频参数采集重要性等级低的视频帧，得到第二采集视频帧；

14、如权利要求 13所述的方法，其特征在于，所述媒体数据还包括音频信号，所述方法还包括：

根据预设时长内的音频信号确定将要采集的音频信号的重要性等级；将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的音频参数采集重要性等级高的音频信号，得到第一采集音频信号；以较低质量的音频参数采集重要性等级低的音频信号，得到第二采集音频信对所述第一采集音频信号以及所述第二采集音频信号进行编码，分别得到第一编码音频信号和第二编码音频信号，将所述第一编码音频信号以及所述第二编码音频信号发送给接收端。

15、一种媒体数据处理方法，其特征在于，包括：

接收并保存来自发送端的媒体数据，所述媒体数据包括第一编码视频帧和第二编码视频帧，所述第一编码视频帧具有较高质量的视频参数，所述第二编码视频帧具有较低质量的视频参数；

16、如权利要求 15所述的方法，其特征在于，所述媒体数据还包括第一编码音频信号和第二编码音频信号，所述第一编码音频信号具有较高质量的音频参数，所述第二编码音频信号具有较低质量的音频参数；所述方法还包括：分别对所述第一编码音频信号和所述第二编码音频信号进行解码，得到与所述第一编码音频信号对应的第一解码音频信号以及与所述第二编码音频信号对应的第二解码音频信号，将所述第二解码音频信号进行质量增强以匹配所述第一解码音频信号，并根据所述第一解码音频信号以及进行质量增强后的第二解码音频信号进行媒体数据的呈现。

17、如权利要求 15或 16所述的方法，其特征在于，所述方法还包括：接收来自发送端的同步信号，并在呈现媒体数据时根据所述同步信号将音频信号与视频帧同步。

18、一种发送端，其特征在于，包括：

19、如权利要求 18所述的发送端，其特征在于，所述视频编码模块包括：视频分层模块，用于利用可扩展视频编码方法将所述视频帧编码为分层码流;

视频码流选择模块，用于选择较多层分层码流作为具有较高质量视频参数的第一编码视频帧，选择较少层分层码流作为具有较低质量视频参数的第二编码视频帧。

20、如权利要求 18所述的发送端，其特征在于，所述媒体数据还包括音频信号，所述发送端还包括：

音频重要性等级确定模块，用于确定所述音频信号的重要性等级；音频编码模块，用于将重要性等级高的音频信号以较高质量的音频参数进行编码，得到第一编码音频信号；将重要性等级低的音频信号以较低质量的音频参数进行编码，得到第二编码音频信号；

音频发送模块，用于将所述第一编码音频信号以及所述第二编码音频信号发送给接收端。

21、一种发送端，其特征在于，包括：

视频采集控制模块，用于将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的视频参数采集重要性等级高的视频帧，得到第一采集视频帧；以较低质量的视频参数采集重要性等级低的视频帧，得到第二采集视频帧；

视频编码模块，用于对通过所述媒体数据获取模块接收的所述第一采集视频帧以及所述第二采集视频帧进行编码，分别得到第一编码视频帧和第二编码视频帧；

22、如权利要求 21所述的发送端，其特征在于，所述媒体数据还包括音频信号，所述发送端还包括：

音频重要性等级确定模块，用于根据预设时长内的音频信号确定将要采集的音频信号的重要性等级；音频采集控制模块，用于将指示所述重要性等级的采集控制信息发送给采集端，使得所述采集端以较高质量的音频参数采集重要性等级高的音频信号，得到第一采集音频信号；以较低质量的音频参数采集重要性等级低的音频信号，得到第二采集音频信号；

音频编码模块，用于对通过所述媒体数据获取模块接收的所述第一采集音频信号以及所述第二采集音频信号进行编码，分别得到第一编码音频信号和第二编码音频信号；

23、一种接收端，其特征在于，包括：

24、如权利要求 23所述的接收端，其特征在于，所述媒体数据还包括第一编码音频信号和第二编码音频信号，所述第一编码音频信号具有较高质量的音频参数，所述第二编码音频信号具有较低质量的音频参数；所述接收端还包括：

音频解码模块，用于分别对所述第一编码音频信号和所述第二编码音频信号进行解码，得到与所述第一编码音频信号对应的第一解码音频信号以及与所述第二编码音频信号对应的第二解码音频信号；音频增强模块，用于将所述第二解码音频信号进行质量增强以匹配所述第一解码音频信号；

音频呈现模块，用于根据所述第一解码音频信号以及进行质量增强后的第二解码音频信号进行媒体数据的呈现。

25. 如权利要求 23或 24所述的接收端，其特征在于，所述接收端还包括：同步模块，用于接收来自发送端的同步信号，并在呈现媒体数据时根据所述同步信号将音频信号与视频帧同步。