WO2009010002A1

WO2009010002A1 - Procédé et dispositif pour tester la cohérence de contenus numériques

Info

Publication number: WO2009010002A1
Application number: PCT/CN2008/071627
Authority: WO
Inventors: Qingliang Li
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2007-07-17
Filing date: 2008-07-11
Publication date: 2009-01-22
Also published as: EP2109248A4; EP2109248A1; US20090316894A1; EP2109248B1; CN101350043B; CN101350043A

Description

数字内容的一致性检测方法及装置技术领域

本发明涉及数字版权管理技术领域，尤其涉及数字内容的一致性检测方法及装置。背景技术

数字版权管理（Digital Rights说 Management , DRM) 主要通过权利限制和内容保护方案控制数字内容的使用，保护内容所有者的合法权益。

目前，现有的数字版权管理提供了一种加密 /授权技术：在服务器侧，由数字内容的发行者（Content Issuer, CI ) 将数字内容加密、打包，书并下发加密的数字内容数据包；由许可服务器（Rights Issuer, RI ) 负责下发与数字内容相对应的许可证，其中包括内容加密密钥及对应的权限。在客户端侧，设备只有同时拥有内容数据包和许可证，才能正常使用所购买的数字内容。用户将加密的数字内容数据包及对应的许可证下载到 DRM终端（DRM Agent )后，终端设备利用设备的私钥解密得到许可加密密钥，进而得到许可证中的内容加密密钥以解密数字内容，并根据许可证中的权限信息控制用户对数字内容的具体使用。发明内容

为了确定待检测数字内容是否为非法数字内容，有效地控制数字内容的传播，本发明实施例提供一种数字内容的一致性检测方法及装置，其中，

本发明实施例提供一种数字内容的一致性检测方法，该方法包括步骤：

从原始数字内容中提取特征值；

从待检测数字内容中提取特征值；

将原始数字内容的特征值与待检测数字内容的特征值进行比较；

根据比较结果确定待检测数字内容与原始数字内容是否一致。

本发明实施例提供一种数字内容的一致性检测装置，包括：

第一提取模块（70)，用于从原始数字内容中提取特征值；

第二提取模块（71 )，用于从待检测数字内容中提取特征值；

比较模块（72)，用于将所述第一提取模块（70)提取的原始数字内容的特征值与所述第二提取模块（71 ) 提取的待检测数字内容的特征值进行比较；第一确定模块（73)，用于根据所述比较模块（72 ) 的比较结果确定待检测数字内容与原始数字内容是否一致。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序可使得处理器执行如下歩骤：

从原始数字内容中提取特征值；

从待检测数字内容中提取特征值；

本发明实施例中，在检测数字内容是否为非法内容时，从原始数字内容中提取特征值，从待检测数字内容中提取特征值，将原始数字内容的特征值与待检测数字内容的特征值进行比较，根据比较结果确定待检测数字内容与原始数字内容是否一致，进而可以根据用户策略确定待检测数字内容是否为非法内容。附图说明

图 1为本发明实施例中数字内容的一致性检测流程图；

图 2为本发明实施例中提取数字内容的摘要特征值的示意图；

图 3为本发明实施例中通过比较摘要特征值确定数字内容一致性的处理流程图；图 4为本发明实施例中通过比较摘要特征值和内容特征值确定数字内容一致性的处理流程图；

图 5为本发明实施例中限制和过滤非法数字内容分发的示意图；

图 6为本发明实施例中对数字内容的访问进行控制的处理流程图；

图 7A、图 7B、图 7C、图 7D、图 7E、图 7F为本发明实施例中数字内容的一致性检测装置的结构示意图。具体实施方式

发明人经过分析，发现该现有技术存在如下不足之处：

一、该技术在实施时需要终端支持，因此只能在某些能够支持该技术的特定终端上使用，无法保证在所有的终端上均可使用，从而限制了用户的范围，另外，用户如果有几种不同的终端，而其中某个终端不支持该技术，将导致用户需要的数字内容无法在不同的终端间共享，进而影响用户体验。

二、该技术在实施时与已有系统的耦合度较大，需要对已有系统进行较大改造，成本较高。

三、安全性相对较低，一旦加密的内容数据包被攻击者所破解，攻击者就可以传播原始的数字内容，并且其传播不受任何控制。

目前的数字水印技术：根据数字内容的特定信息或特征值形成数字水印，并将数字水印嵌入数字内容中，当数字内容通过运营商的网络传播时，可以通过检测数字水印来判断数字内容是否合法，以此控制数字内容的传播。

发明人经过分析，发现通过该技术无需终端进行特殊改造，即可保证在所有的终端上均可使用，并且可在不同终端间共享数字内容，但是，仍然存在如下不足之处：

一、由于数字水印技术对数字内容的传播过程进行控制，即控制数字内容是否能够通过运营商的网络进行传播，因此检测过程必须依赖于特定的运营商网络，才能够对数字内容的传播起到控制作用。

二、为了控制数字内容的传播，对所有的数字内容都必须进行实时检测，否则无法判断数字内容中是否包含有数字水印，并且，由于检测在内容转发过程中进行，因此对检测时延要求严格，对系统性能要求较高。

三、数字内容嵌入数字水印后，会引起数字内容失真、数字内容的大小将会变大，从而影响用户体验。

本发明实施例中，在检测数字内容是否为非法内容时，从原始数字内容中提取特征值，从待检测数字内容中提取特征值，将原始数字内容的特征值与待检测数字内容的特征值进行比较，根据比较结果确定待检测数字内容与原始数字内容是否一致，进而可以根据用户策略确定待检测数字内容是否为非法内容。

本发明实施例中，一种数字内容的一致性检测流程如图 1所示，包括：

步骤 10、从原始数字内容中提取特征值。

步骤 11、从待检测数字内容中提取特征值。

步骤 12、将原始数字内容的特征值与待检测数字内容的特征值进行比较。

步骤 13、根据比较结果确定待检测数字内容与原始数字内容是否一致。

原始数字内容的获取可以采用多种方式，例如，用户可以通过一管理台提交原始数字内容，该管理台可以以网站、 GUI (Graphical User Interface, 图形用户界面）客户端、命令行等方式运行，当然，该管理台可以为用户提供数字内容的版权管理界面；又如，用户可以设置一数据库，用于存储原始数字内容，当需要对原始数字内容进行提取操作时，从该数据库中获取原始数字内容。

而待检测数字内容的获取也可以采用多种方式，用户可以根据与原始数字内容相关的信息进行检索，从网络或其它存储转发设备获取待检测数字内容。实施时可以利用现有的搜索引擎进行检索，也可以利用已有技术自行开发数字内容的采集引擎进行检索。由于是根据与原始数字内容相关的信息进行检索，获取待检测数字内容的操作本身即是对待检测数字内容与原始数字内容是否具有一致性的初步筛选。

与原始数字内容相关的信息可以是原始数字内容的标识信息，用户先获取原始数字内容的标识信息，再根据原始数字内容的标识信息获取待检测数字内容。实施时，原始数字内容和待检测数字内容需要使用文字进行描述，因此较适合于文档的检索和获取。原始数字内容的标识信息可以是原始数字内容的作者、演员、导演、媒体类型、媒体大小等信息，也可以是原始数字内容情节的描述信息，具体标识信息可以预先定制为一种或多种，并且可以按照一定的逻辑进行组合。

从网络获取待检测数字内容时，可以根据原始数字内容的标识信息检索出符合条件的页面，从页面中剥离出待检测数字内容的 URI (Universal Resource Identifier, 统一资源标识）地址，先根据 URI地址获取到待检测数字内容，后续再进行提取特征值等操作；对于流媒体类型的数字内容，由于数字内容一般是实时播放的，因此在剥离出待检测数字内容的 URI 地址后，可以先将该 URI地址进行存储，待后续需要从待检测数字内容中提取特征值时，再根据存储的 URI地址实时获取待检测数字内容以进行特征值的提取操作。从存储转发设备获取待检测数字内容的过程与此类似。

上述根据原始数字内容的标识信息获取待处理数字内容时，无需解析原始数字内容，只需使用文字对原始数字内容和待处理数字内容进行描述。但是，对于多媒体类型的数字内容，由于其信息量大、因此往往无法使用标识信息进行精确的描述，检索的准确度较低，检索结果中往往包含大量不相关内容。而如果严格限制标识信息的具体内容，又往往漏检真正所需的待检测数字内容。当前 Internet上的多媒体类型的数字内容每天均以海量生成，如果检索的准确度不高，检索到的不相关数字内容的数量会很大，完全靠人工进一步辨别所需的工作量大、实时性差。因此，本发明实施例中，也可以先从原始数字内容中提取特征值，再根据原始数字内容的特征值获取待检测数字内容，以增强检索的实时性和准确率。

从原始数字内容中提取特征值时，可以先确定原始数字内容的媒体类型，再根据原始数字内容的媒体类型从原始数字内容中提取特征值。从待检测数字内容中提取特征值的方法与从原始数字内容中提取特征值的方法类似，可以先确定待检测数字内容的媒体类型，再根据待检测数字内容的媒体类型从待检测数字内容中提取特征值。

由于数字内容有图像、声音、视频多种媒体类型，每种图像、声音、视频又有多种编码格式和文件格式，因此目前没有一种统一的特征值抽取方法，能够适用于所有数字内容的特征值抽取。本发明实施例中，针对各种格式，在充分考虑实施时系统性能的基础上，提供如下特征值抽取方法：

一、提取摘要特征值

实施时可以提取完整数字内容或者部分数字内容的摘要特征值，后续可以通过比较原始数字内容和待检测数字内容的摘要特征值，确定待检测数字内容与原始数字内容是否一致。

数字内容一般为媒体文件，可以分为文件头和文件体两部分，文件头主要包含文本描述信息，且容易被修改，修改后一般不影响文件的使用，因此，本发明实施例中，考虑对部分或全部文件体进行摘要特征值的提取，其中，摘要算法可以选择 MD5、 SHA-1等公开的摘要算法。对于不同的数字内容，由于其摘要特征值相同的概率较低，因此一旦摘要特征值相同，即可认为是待检测数字内容与原始数字内容一致。

如图 2所示，在提取数字内容的摘要特征值的示意图中，提取时可以对数字内容体进行分片，分成 N片，然后顺序抽取 M片（步长 =N/M)，对 M片中的每片进行摘要特征值的提取，提取后，可以将摘要特征值进行存储，如存储至一特征值库，参见表 1，提供了一种特征值存储示意表。

表 1

如表 1所示，该存储方式下， CID代表了数字内容的编号， 1…… M分别代表了对顺序抽取的 M个数字内容分片进行提取摘要特征值后得到的对应的特征值。

二、提取内容特征值

对于数字内容，根据媒体类型的不同，所采用的内容检索方法不完全相同。下面分别提供不同类型的数字内容的内容特征值提取方法。

1、图像内容特征值提取

图像本身拥有多方面的视觉特征，除了颜色、形状特征外，还包含纹理和子对象空间位置关系等。利用这些视觉特征，常用的图像内容特征值提取方法有：

颜色特征值提取：颜色往往和图像中的物体和场景有着紧密联系。颜色特征对图像本身的尺寸、方向、视角的依赖性较小，从而具有较高的鲁棒性。

纹理特征值提取：纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征，它包含了图像表面的结构安排及周围环境的关系，习惯上把局部不规则而整体有规律的特性称之为纹理。可以通过提交包含有某种纹理的图像来查找含有相似纹理的其他图像，从而匹配出可疑数字内容。

形状特征值提取：形状特征是识别物体的主要信息，形状不随位移、旋转、剪切的变化而变化，是用于图像特性提取的重要手段。

图像的空间关系特征值提取：颜色、纹理和形状反映的是图像的整体特征，无法体现图像中包含的对象和物体。事实上，图像中对象所在的位置和对象之间的空间关系同样是图像检索中非常重要的特征。

上述图像内容特征值提取技术均为成熟的技术，本发明实施例中不再赘述。在实际使用中，可以使用一种或多种图像内容特征值提取方法，降低漏检率、提高匹配的准确性。

2、音频内容特征值提取

音频检索是以波形声音为对象的检索，这里的音频可以是汽车发动机声、雨声、鸟叫声等自然界声音，也可以是语音和音乐等，这些音频都统一用声学特征来检索。音频内容特征值提取可以提取整个音频的内容特征值，也可以提取背景音、语音等部分音频的内容特征值。

在音频内容特征值提取前首先对音频进行分割，通过信号的声学分析并查找声音的转变点就可以实现音频的分割。对分割出的片段，可以由人工抽取出高潮部分作为音频内容特征值，也可以根据配置的策略由计算机自动抽取部分作为音频内容特征值。

信号的声学分析和转变点的查找为成熟技术，本发明实施例中不再赘述。

3、视频内容特征值提取

完整的视频由视频轨和音轨、字幕组成，视频内容特征值的提取可以转换为音频、图像、文字内容特征值的提取。音轨是独立的音频，提取方法同音频内容特征值的提取。

视频信号为连续流媒体信号，是由连续的帧组成的，对于视频可以提取视频关键帧（I 帧），以帧为单位提取视频内容特征值。当然，由于视频信号信息量、数据量大，可以从部分关键帧中抽取内容特征值，而无需抽取所有关键帧的内容特征值。

对于流媒体类型的数字内容，其信息量大，完全获取到本地再进行特征值的提取需要海量存储空间，代价较大。本发明实施例中，考虑到流媒体类型的数字内容在时间上是连续的，因此在进行特征值的提取时可以采用基于时间的快速算法，如，可以按照时间段进行特征值提取。假设一段视频流为 I P V I P P V I……，从连续的视频流中取时长 T，在时间段 Τ内包含 Ν个帧（包括 I帧、 Ρ帧、 V帧等），则可以对该时间段 Τ内的帧进行特征值的提取。又如，可以按照时间间隔进行特征值提取。

一个实施例中，当确定原始数字内容的媒体类型为流媒体类型时，在第一时长范围内从原始数字内容中提取特征值，当确定待检测数字内容的媒体类型为流媒体类型时，每隔第二时长从待检测数字内容中提取特征值；后续将待检测数字内容每隔第二时长提取的特征值与原始数字内容在第一时长范围内提取的所有特征值进行比较，根据比较结果确定待检测数字内容与原始数字内容是否一致。其中，第一时长大于第二时长，若待检测数字内容与原始数字内容确实存在相同的特征值，则在进行比较时，每隔第二时长从待检测数字内容中提取的特征值中至少有一个与在第一时长范围内从原始数字内容中提取的特征值相同。

对流媒体类型的数字内容提取的特征值可以是摘要特征值，也可以是内容特征值。在确定原始数字内容和待检测数字内容均为流媒体数字内容后，可以先抽取原始数字内容的某些帧，如视频关键帧，对每帧进行特征值的提取并顺序存储。进行特征值的比较时，顺序截取检索到的待检测数字内容对应的数据流中的帧，对截取到的帧进行特征值的提取，与存储的原始数字内容的特征值顺序进行比较。实施中，可以先在第一时长范围内从原始数字内容中提取视频关键帧，并进一步提取原始数字内容视频关键帧的特征值；每隔第二时长从待检测数字内容中提取视频关键帧，并进一步提取待检测数字内容视频关键帧的特征值。当然，也可以使用 Ρ帧、 V帧进行内容特征值的提取，但由于 I帧中包含的信息较多，因此建议使用 I 帧。

例如，从原始数字内容中提取一个或多个连续的 T1时长内的所有 I帧的特征值（可以包括摘要特征值和内容特征值）。在对待检测数字内容进行特征值的提取时，每隔时长 Τ2从待检测数字内容对应的数据流中抽取一帧或几帧，提取特征值。其中 Τ2〈Τ1，如果待检测的数字内容中存在与原始数字内容在 T1时间段中相同的片段，那么从 Τ2提取的帧中至少有 1帧落在 T1内。可以每隔时长 Τ2提取首个 I帧，计算 I帧的特征值，与 T1中的所有 I帧的特征值相比较，如果相同的 I帧特征值的个数超过阈值，则可以认为待检测数字内容与原始数字内容一致。

当然，为了提升检测率和考虑到系统间的误差，可以根据系统实际性能情况定义 Tl、 Τ2 的大小，也可以动态调整 Τ2的大小，保持系统处理的性能和检测率的平衡。

特别的，对于点播音 /视频流媒体，可以采用定时播放 /快进 /快退等手段，每次跳到 Τ2 时间提取和检测首帧数的特征值（Τ2〈Τ1 )，既保证了检测的效率和性能，又无需等待，提升了检测的速度、减少了时延。从原始数字内容中提取出摘要特征值后，可以将提取出的原始数字内容的摘要特征值进行存储，如存储至一特征值库，在从待检测数字内容中提取出摘要特征值后，将待检测数字内容的摘要特征值与存储的原始数字内容的摘要特征值进行比较。特别的，如图 3所示，一个实施例中，通过比较原始数字内容和待检测数字内容的摘要特征值，确定待检测数字内容是否与原始数字内容一致的处理流程如下：

步骤 30、获取原始数字内容，将原始数字内容体分片，分成 N片，然后顺序抽取 M片（步长=^¾0，对 M片中的每片进行摘要特征值的提取。

步骤 31、顺序存储提取出的原始数字内容的摘要特征值。

步骤 32、根据原始数字内容的标识信息或特征值获取待处理数字内容，将待处理数字内容体分片，分成 N片，然后顺序抽取 M片（步长 =N/M)，对 M片中的每片进行摘要特征值的提取。

步骤 33、将存储的原始数字内容的摘要特征值逐个与待检测数字内容的摘要特征值进行比较。例如：对于 CID1 , 抽取的待检测内容的 M片摘要特征值分别为 A [广 M]，第一提取模块事先抽取的原始内容的 M片摘要特征值分别为 Β [ ΓΜ]，逐个比较：采用如下的方式：对于集合 Α中的每一个元素 a和对于集合 Β中的每一个元素 b，采用逐个比较的方式，如果出现 a=b 的情况，则设置的计数器进行累加动作。

步骤 34、根据比较结果，确定与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数。

步骤 35、在与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

当然，若提取出的原始数字内容和待检测数字内容的特征值均为一个，则在比较结果为原始数字内容的特征值与待检测数字内容的特征值相等时，可以确定待检测数字内容与原始数字内容一致。若提取出的原始数字内容和待检测数字内容的特征值均为多个时，可以先将原始数字内容的特征值逐个与待检测数字内容的特征值进行比较，再根据比较结果，确定与原始数字内容的特征值相同的待检测数字内容的特征值的个数，在该个数超过阈值时，确定待检测数字内容与原始数字内容一致。

提取的特征值可以是摘要特征值，也可以是内容特征值。图 3所示流程中，使用摘要特征值进行比较是一种精确比较，而数字内容在传播过程中，容易被进行文件格式转换、剪切、编辑，因此，单纯使用摘要特征值进行比较时，漏检率较大。此时需要增加其他检测手段，增强检测的强度。本发明实施例中，在根据摘要特征值进行比较失败时，采用内容特征值进行进一步比较。先将原始数字内容的摘要特征值逐个与待检测数字内容的摘要特征值进行比较，根据比较结果，确定与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数，在与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致；在与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数未超过阈值时，进一步将原始数字内容的内容特征值逐个与待检测数字内容的内容特征值进行比较，根据比较结果，确定与原始数字内容的内容特征值相同的待检测数字内容的内容特征值的个数，在与原始数字内容的内容特征值相同的待检测数字内容的内容特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

一个实施例中，在确定待检测数字内容与原始数字内容一致后，可以根据用户策略确定待检测数字内容是否为非法数字内容。例如，用户可以事先通过用于数字内容的版权管理的一管理台提交合法的业务提供商的 URI地址。后续获取到待检测数字内容后，提取待检测数字内容的 URI地址，与用户提交的合法 URI地址相比较，若相同，则可以认为待检测数字内容合法，不必再进行后续特征值的提取和比较操作，若不同，继续进行特征值的提取和比较操作，进一步在确定待检测数字内容与原始数字内容一致时，确定待检测数字内容为非法内容。当然，对于 URI地址的比较也可以在特征值的比较之后进行。

如图 4所示，一个实施例中，通过比较原始数字内容和待检测数字内容的摘要特征值和内容特征值，确定待检测数字内容是否与原始数字内容一致的处理流程如下：

步骤 40、获取原始数字内容，从原始数字内容中提取特征值并存储，其中，包括提取摘要特征值和内容特征值。

步骤 41、根据原始数字内容的标识信息或特征值获取待检测数字内容的 URI地址。步骤 42、将待检测数字内容的 URI地址与用户预先提交的合法 URI地址进行比较，若相同，则执行步骤 410，结束整个流程，若不同，则执行步骤 43。

步骤 43、根据待检测数字内容的 URI地址获取数字内容的属性和数字内容，根据属性判断待检测数字内容的媒体类型（图像、音频、视频、游戏、文档或其他）。根据待检测数字内容的媒体类型，进行摘要特征值的提取。

步骤 44、将提取的摘要特征值与事先存储的原始数字内容的摘要特征值进行比较，确定摘要特征值相同的个数。

步骤 45、判断摘要特征值相同的个数是否超过一定的阈值，若摘要特征值相同的个数超过一定的阈值，执行步骤 46，否则执行步骤 47。

步骤 46、确定待检测数字内容与原始数字内容一致，进而可以认为待检测数字内容是非法数字内容。可以将待检测数字内容及对应的 URI地址、获取待检测数字内容时所用的原始数字内容的标识信息或特征值进行存储，例如归档至可疑数字内容库。归档时可以根据与原始数字内容的特征值相同的待检测数字内容的特征值的个数，确定待检测数字内容与原始数字内容的一致性级别。例如，根据摘要特征值相同的比例大小进行一致性分级，比例越大，级别越高，说明待检测数字内容越接近于原始数字内容，也即待检测数字内容越可疑。

步骤 47、摘要特征值相同的个数未超过比例时，提取待检测数字内容的内容特征值。步骤 48、将待检测数字内容的内容特征值与存储的原始数字内容的内容特征值进行比较，确定内容特征值相同的个数。

步骤 49、判断内容特征值相同的个数是否超过一定的阈值，若内容特征值相同的个数超过一定的阈值，则执行步骤 46，认为待检测数字内容为非法数字疑内容，将待检测数字内容及对应的 URI地址、获取待检测数字内容时所用的原始数字内容的标识信息或特征值进行存储，并且可以根据摘要特征值相同的个数确定待检测数字内容与原始数字内容的一致性级别。若内容特征值相同的个数未超过阈值，则执行步骤 410，结束整个流程，认为待检测数字内容与原始数字内容不一致，待检测数字内容为合法数字内容。

当然，在确定待检测数字内容与原始数字内容的一致性级别后，可以对可疑数字内容库中存储的数字内容进行人工识别，人工识别时可以根据一致性级别大小优先识别可疑度大的数字内容。当然，将待检测数字内容存储入可疑数字内容库时，可以录播数字内容的部分片段，不必存储全部数字内容。

在确定待检测数字内容与原始数字内容一致后，可以根据待检测数字内容的地址，确定源自该地址的数字内容与原始数字内容一致；另外，也可以根据待检测数字内容的地址，拒绝对该地址的访问。一个实施例中，如图 5所示，对于确认为非法的数字内容，可以通过管理台与内容分发系统的接口，将非法数字内容所在的 URI地址传递给内容分发系统，由内容分发系统限制和过滤非法数字内容的分发。

在移动系统中，可以将非法 URI地址传递给 WAP GW (Wireless Application Protocol , 无线应用协议； GateWay, 网关）或其他 WAP控制设备，由 WAP GW对非法 URI进行过滤，限制用户对非法 URI的访问，从而保护合法内容所有者的利益。

一个实施例中，对数字内容的访问进行控制的处理流程如图 6所示，包括：

步骤 60、识别出非法数字内容的 URI链接，其具体识别过程见上述实施例方法。

步骤 61、将非法数字内容的 URI链接同步到内容分发系统的非法数字内容的 URI地址库。步骤 62、当终端访问 URI链接时，对 URI链接进行检查，以确认该 URI链接是否在非法数字内容的 URI地址库中。例如，在移动 WAP中，通过 WAP GW访问 URI链接时，由 WAP GW 对 URI链接进行检查。步骤 63、在检查到该 URI链接在非法数字内容的 URI地址库中时，拒绝访问该 URI链接，以限制非法数字内容的传播。

一个实施例中，从原始数字内容中提取特征值后，可以进一步存储原始数字内容的特征值；在确定待检测数字内容与原始数字内容一致后，进一步将存储的原始数字内容的特征值替换为待检测数字内容的特征值，以进行后续数字内容的一致性检测。例如，在对数字内容进行识别后，如果发现该数字内容是非法 /盗版内容，且经过一定的编辑 /修改 /剪切 /剪辑等变化，则可以以此"非法 /盗版内容"的特征值替换原始数字内容的特征值，作为后续系统进行比较的特征值，从而可以更快的在特征值提取阶段发现类似的可疑 URI地址，提高检测率。

综上所述，本发明实施例提供的数字内容的一致性检测方法，在检测数字内容是否为非法内容时，从原始数字内容中提取特征值，从待检测数字内容中提取特征值，将原始数字内容的特征值与待检测数字内容的特征值进行比较，根据比较结果确定待检测数字内容与原始数字内容是否一致，进而可以根据用户策略确定待检测数字内容是否为非法内容，由于在检测时直接从原始数字内容和待检测数字内容中提取特征值进行比较，而无需在数字内容中嵌入其它信息，不影响数字内容的大小，不影响用户体验；并且，检测过程与控制数字内容的传播过程相分离，不依赖于特定网络，无需进行实时检测；另外，提取特征值进行比较的检测过程与终端无关，无需对现有终端进行改造，实施时成本较低；由于未采用加密 /授权技术，避免了检测时攻击者破译加密的内容数据包进行非法传播的情况，安全性较高，可以有效地保护数字内容的版权所有者的利益。

基于同一发明构思，本发明实施例还提供一种数字内容的一致性检测装置，如图 7A所示，该装置包括：第一提取模块 70、第二提取模块 71、比较模块 72、第一确定模块 73; 其中，第一提取模块 70，用于从原始数字内容中提取特征值；第二提取模块 71，用于从待检测数字内容中提取特征值；比较模块 72，用于将原始数字内容的特征值与待检测数字内容的特征值进行比较；第一确定模块 73，用于根据比较结果确定待检测数字内容与原始数字内容是否一致。

如图 7B所示，图 7A所示的装置可以进一步包括：第一获取模块 74用于获取原始数字内容的标识信息；第二获取模块 75，用于根据原始数字内容的标识信息获取待检测数字内容。或者，如图 7C所示，图 7A所示的装置可以进一步包括：第三获取模块 76，用于根据原始数字内容的特征值获取待检测数字内容。

图 7A所示的装置中，第一提取模块 70可以包括：第一确定单元 701，用于确定原始数字内容的媒体类型；第一提取单元 702，用于根据原始数字内容的媒体类型从原始数字内容中提取特征值；第二提取模块 71可以包括：第二确定单元 711，用于确定待检测数字内容的媒体类型；第二提取单元 712，用于根据待检测数字内容的媒体类型从待检测数字内容中提取特征值。第一确定单元 701可以进一步用于确定原始数字内容的媒体类型为流媒体类型；第一提取单元 702可以进一步用于在第一时长范围内从原始数字内容中提取特征值；第二确定单元 711可以进一步用于确定待检测数字内容的媒体类型为流媒体类型;第二提取单元 712 可以进一步用于每隔第二时长从待检测数字内容中提取特征值；其中，所述第一时长大于第二时长。

其中，第一提取单元 702可以进一步包括：第一提取子单元 7021，用于在第一时长范围内从原始数字内容中提取视频关键帧；第二提取子单元 7022，用于提取原始数字内容视频关键帧的特征值；第二提取单元 712进一步包括：第三提取子单元 7121，用于每隔第二时长从待检测数字内容中提取视频关键帧；第四提取子单元 7122，用于提取待检测数字内容视频关键帧的特征值。

比较模块 72 可以进一步用于将待检测数字内容每隔第二时长提取的特征值与原始数字内容在第一时长范围内提取的所有特征值进行比较。

在原始数字内容和待检测数字内容的特征值均为多个时，比较模块 72可以进一步用于将原始数字内容的特征值逐个与待检测数字内容的特征值进行比较；此时，第一确定模块 73可以包括：第三确定单元 731，用于根据比较结果，确定与原始数字内容的特征值相同的待检测数字内容的特征值的个数；第四确定单元 732，用于在所述与原始数字内容的特征值相同的待检测数字内容的特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

在特征值包括摘要特征值和内容特征值时，比较模块 72可以包括：第一比较单元 721，用于将原始数字内容的摘要特征值逐个与待检测数字内容的摘要特征值进行比较；此时，第三确定单元 731进一步用于根据比较结果，确定与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数；第四确定单元 732进一歩用于在所述摘要特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致；比较模块 72还可以包括：第二比较单元 722，用于在所述摘要特征值的个数未超过阈值时，进一歩将原始数字内容的内容特征值逐个与待检测数字内容的内容特征值进行比较；此时，第三确定单元 731进一步用于根据比较结果，确定与原始数字内容的内容特征值相同的待检测数字内容的内容特征值的个数；第四确定单元 732进一步用于在所述内容特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

第三确定单元 731还可以进一步用于根据与原始数字内容的特征值相同的待检测数字内容的特征值的个数，确定待检测数字内容与原始数字内容的一致性级别。

如图 7D所示，图 7A所示的装置可以进一步包括：第二确定模块 77，用于根据待检测数字内容的地址，确定源自所述地址的数字内容与原始数字内容一致。

如图 7E所示，图 7A所示的装置可以进一步包括：处理模块 78，用于根据待检测数字内容的地址，拒绝对该地址的访问。

如图 7F所示，图 7A所示的装置可以进一步包括：存储模块 79，用于存储原始数字内容的特征值；比较模块 72进一步用于将待检测数字内容的特征值与存储的原始数字内容的特征值进行比较；替换模块 710，用于在确定待检测数字内容与原始数字内容一致后，将存储的原始数字内容的特征值替换为待检测数字内容的特征值。

本领域普通技术人员可以理解上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括： R0M、 RAM, 磁盘或光盘等。

本发明实施例中，在检测数字内容是否为非法内容时，从原始数字内容中提取特征值，从待检测数字内容中提取特征值，将原始数字内容的特征值与待检测数字内容的特征值进行比较，根据比较结果确定待检测数字内容与原始数字内容是否一致，进而可以根据用户策略确定待检测数字内容是否为非法内容；一方面，本发明实施例与现有的数字水印技术不同，由于在检测时直接从原始数字内容和待检测数字内容中提取特征值进行比较，而无需在数字内容中嵌入其它信息，因此不影响数字内容的大小，不影响用户体验；并且，检测过程与控制数字内容的传播过程相分离，不依赖于特定网络，无需进行实时检测；另一方面，本发明实施例与现有的加密 /授权技术不同，提取特征值进行比较的检测过程与终端无关，无需对现有终端进行改造，实施时成本较低，也避免了检测时攻击者破译加密的内容数据包进行非法传播的情况，安全性较高，可以有效地保护数字内容的版权所有者的利益。

另外，本发明实施例中，可以在检测过程中确定待检测数字内容的可疑程度，可以将摘要特征值的提取和比较，与内容特征值的提取和比较相结合，以确定数字内容的一致性，提升检测的性能和准确性。在对流媒体类型的数字内容进行检测时，采用的快速算法可以进一步提升系统性能。在确定待检测数字内容为非法内容后，进一步的，可以通过管理台与内容分发系统的接口，将非法数字内容所在的 URI地址传递给内容分发系统，由内容分发系统限制和过滤非法数字内容的分发。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求书

1、一种数字内容的一致性检测方法，其特征在于，该方法包括步骤：

从原始数字内容中提取特征值；

从待检测数字内容中提取特征值；

2、如权利要求 1所述的方法，其特征在于，该方法进一步包括：获取原始数字内容的标识信息，根据所述标识信息获取待检测数字内容。

3、如权利要求 1所述的方法，其特征在于，该方法进一步包括：根据原始数字内容的特征值获取待检测数字内容。

4、如权利要求 1所述的方法，其特征在于，所述从原始数字内容中提取特征值的步骤，包括：确定原始数字内容的媒体类型；根据原始数字内容的媒体类型从原始数字内容中提取特征值；

所述从待检测数字内容中提取特征值的步骤，包括：确定待检测数字内容的媒体类型；根据待检测数字内容的媒体类型从待检测数字内容中提取特征值。

5、如权利要求 4所述的方法，其特征在于，所述根据原始数字内容的媒体类型从原始数字内容中提取特征值的步骤，包括：

当确定原始数字内容的媒体类型为流媒体类型时，在第一时长范围内从原始数字内容中提取特征值；

所述根据待检测数字内容的媒体类型从待检测数字内容中提取特征值的步骤，包括：当确定待检测数字内容的媒体类型为流媒体类型时，每隔第二时长从待检测数字内容中提取特征值；所述第一时长大于第二时长。

6、如权利要求 5所述的方法，其特征在于，所述在第一时长范围内从原始数字内容中提取特征值的步骤，包括：在第一时长范围内从原始数字内容中提取视频关键帧，并进一步提取原始数字内容视频关键帧的特征值；

所述每隔第二时长从待检测数字内容中提取特征值的步骤，包括：每隔第二时长从待检测数字内容中提取视频关键帧，并进一步提取待检测数字内容视频关键帧的特征值。

7、如权利要求 5所述的方法，其特征在于，将原始数字内容的特征值与待检测数字内容的特征值进行比较包括：将待检测数字内容每隔第二时长提取的特征值与原始数字内容在第一时长范围内提取的所有特征值进行比较。

8、如权利要求 1所述的方法，其特征在于，原始数字内容和待检测数字内容的特征值均为多个时，将原始数字内容的特征值逐个与待检测数字内容的特征值进行比较；根据比较结果，确定与原始数字内容的特征值相同的待检测数字内容的特征值的个数，在所述与原始数字内容的特征值相同的待检测数字内容的特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

9、如权利要求 1所述的方法，其特征在于，所述特征值包括摘要特征值和 /或内容特征值。

10、如权利要求 9所述的方法，其特征在于，所述特征值包括摘要特征值和内容特征值时，将原始数字内容的摘要特征值逐个与待检测数字内容的摘要特征值进行比较；根据比较结果，确定与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数；在所述摘要特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致；

在所述摘要特征值的个数未超过阈值时，进一步将原始数字内容的内容特征值逐个与待检测数字内容的内容特征值进行比较；根据比较结果，确定与原始数字内容的内容特征值相同的待检测数字内容的内容特征值的个数；在所述内容特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

11、如权利要求 8所述的方法，其特征在于，根据与原始数字内容的特征值相同的待检测数字内容的特征值的个数，确定待检测数字内容与原始数字内容的一致性级别。

12、如权利要求 1所述的方法，其特征在于，该方法进一步包括：根据待检测数字内容的地址，确定源自所述地址的数字内容与原始数字内容一致。

13、如权利要求 1所述的方法，其特征在于，该方法进一步包括：根据待检测数字内容的地址，拒绝对所述地址的访问。

14、如权利要求 1所述的方法，其特征在于，从原始数字内容中提取特征值后，进一步存储原始数字内容的特征值；确定待检测数字内容与原始数字内容一致后，进一步将存储的原始数字内容的特征值替换为待检测数字内容的特征值。

15、一种数字内容的一致性检测装置，其特征在于，包括：

第一提取模块（70)，用于从原始数字内容中提取特征值；

第二提取模块（71 )，用于从待检测数字内容中提取特征值；

比较模块（72)，用于将所述第一提取模块（70)提取的原始数字内容的特征值与所述第二提取模块（71 ) 提取的待检测数字内容的特征值进行比较；

第一确定模块（73)，用于根据所述比较模块（72 ) 的比较结果确定待检测数字内容与原始数字内容是否一致。

16、如权利要求 15所述的装置，其特征在于，所述装置进一步包括：

第一获取模块（74)，用于获取原始数字内容的标识信息；

第二获取模块（75)，用于根据所述第一获取模块（74)获取的标识信息获取待检测数字内容。

17、如权利要求 15所述的装置，其特征在于，所述装置进一步包括：

第三获取模块（76)，用于根据所述第一提取模块（70 )提取的原始数字内容的特征值获取待检测数字内容。

18、如权利要求 15所述的装置，其特征在于，所述第一提取模块（70 ) 包括：第一确定单元（701 )，用于确定原始数字内容的媒体类型；

第一提取单元（702)，用于根据所述第一确定单元（701 )确定的原始数字内容的媒体类型从原始数字内容中提取特征值；

所述第二提取模块（71 ) 包括：

第二确定单元（711 )，用于确定待检测数字内容的媒体类型；

第二提取单元（712)，用于根据所述第二确定单元（711 )确定的待检测数字内容的媒体类型从待检测数字内容中提取特征值。

19、如权利要求 18所述的装置，其特征在于，所述第一确定单元（701 ) 进一步用于确定原始数字内容的媒体类型为流媒体类型；所述第一提取单元（702 )进一步用于在第一时长范围内从原始数字内容中提取特征值；

所述第二确定单元（711 )进一步用于确定待检测数字内容的媒体类型为流媒体类型；所述第二提取单元（712 )进一步用于每隔第二时长从待检测数字内容中提取特征值；其中，所述第一时长大于第二时长。

20、如权利要求 19所述的装置，其特征在于，所述第一提取单元（702 ) 进一步包括：第一提取子单元（7021 )，用于在第一时长范围内从原始数字内容中提取视频关键帧；第二提取子单元（7022)，用于提取所述第一提取子单元（7021 )获取的原始数字内容视频关键帧的特征值；

所述第二提取单元（712 ) 进一步包括：

第三提取子单元（7121 )，用于每隔第二时长从待检测数字内容中提取视频关键帧；第四提取子单元（7122)，用于提取所述第三提取子单元（7121 )获取的待检测数字内容视频关键帧的特征值。

21、如权利要求 19所述的装置，其特征在于，所述比较模块（72 )进一步用于将待检测数字内容每隔第二时长提取的特征值与原始数字内容在第一时长范围内提取的所有特征值进行比较。

22、如权利要求 15所述的装置，其特征在于，原始数字内容和待检测数字内容的特征值均为多个时，所述比较模块（72 ) 进一步用于将原始数字内容的特征值逐个与待检测数字内容的特征值进行比较；

所述第一确定模块（73 ) 包括：

第三确定单元（731 )，用于根据所述比较模块（72 ) 的比较结果，确定与原始数字内容的特征值相同的待检测数字内容的特征值的个数；

第四确定单元（732)，用于在所述与原始数字内容的特征值相同的待检测数字内容的特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

23、如权利要求 22所述的装置，其特征在于，所述特征值包括摘要特征值和内容特征值时，所述比较模块（72 ) 包括：

第一比较单元（721 )，用于将原始数字内容的摘要特征值逐个与待检测数字内容的摘要特征值进行比较；

所述第三确定单元（731 ) 进一步用于根据所述第一比较单元（721 ) 的比较结果，确定与原始数字内容的摘要特征值相同的待检测数字内容的摘要特征值的个数；

所述第四确定单元（732 )进一步用于在所述摘要特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致；

所述比较模块（72 ) 还包括：

第二比较单元（722)，用于在所述摘要特征值的个数未超过阈值时，进一步将原始数字内容的内容特征值逐个与待检测数字内容的内容特征值进行比较；

所述第三确定单元（731 ) 进一步用于根据所述第二比较单元（722 ) 的比较结果，确定与原始数字内容的内容特征值相同的待检测数字内容的内容特征值的个数；

所述第四确定单元（732 )进一步用于在所述内容特征值的个数超过阈值时，确定待检测数字内容与原始数字内容一致。

24、如权利要求 22所述的装置，其特征在于，所述第三确定单元（731 ) 进一步用于根据与原始数字内容的特征值相同的待检测数字内容的特征值的个数，确定待检测数字内容与原始数字内容的一致性级别。

25、如权利要求 15所述的装置，其特征在于，所述装置还包括：

第二确定模块（77)，用于根据待检测数字内容的地址，确定源自所述地址的数字内容与原始数字内容一致。

26、如权利要求 15所述的装置，其特征在于，所述装置还包括：处理模块（78)，用于根据待检测数字内容的地址，拒绝对所述地址的访问。

27、如权利要求 15所述的装置，其特征在于，所述装置还包括：

存储模块（79)，用于存储原始数字内容的特征值；

所述比较模块（72 ) 进一歩用于将待检测数字内容的特征值与所述存储模块（79 ) 存储的原始数字内容的特征值进行比较；

替换模块（710)，用于在确定待检测数字内容与原始数字内容一致后，将存储的原始数字内容的特征值替换为待检测数字内容的特征值。

28、一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，该程序可使得处理器执行如下歩骤：

从原始数字内容中提取特征值；

从待检测数字内容中提取特征值；