WO2020000486A1

WO2020000486A1 - 数据处理方法及装置

Info

Publication number: WO2020000486A1
Application number: PCT/CN2018/093922
Authority: WO
Inventors: 石岭
Original assignee: 华为技术有限公司
Priority date: 2018-06-30
Filing date: 2018-06-30
Publication date: 2020-01-02
Also published as: CN110770725A; CN110770725B

Abstract

本发明实施例提供了一种数据处理方法及装置，该方法包括：接收数据提供方发送的M个待处理数据，将M个待处理数据转换为M个二进制数据，产生二进制水印，确定二进制水印的嵌入位，嵌入位为P位中的第L位，1≤T≤P，将M个二进制数据分成N组，二进制水印的第1至N位分别嵌入到第1至N组中的每个二进制数据的第L位，筛除第X组二进制数据中的部分二进制数据，将未被筛除的二进制数据对应的待处理数据发送至客户端。通过以上方式，无需改变部分待处理数据的数值来实现水印嵌入，适用于数据准确性要求较高的场合。

Description

数据处理方法及装置

技术领域

本发明涉及信息技术领域，特别涉及一种在待处理数据中嵌入二进制水印并从待处理数据中获取二进制水印的数据处理方法及装置。

背景技术

当前大数据、人工智能等热门领域均对数据共享存在迫切的需求，但是，在数据共享过程中数据泄露事件层出不穷，数据库水印技术作为一种重要的版权保护方式，通过在数据库的待处理数据中嵌入不易察觉且难以去除的标记,在不破坏数据库内容和可用性的前提下,达到保护数据库安全的目的。

现有技术通过修改待处理数据的最低位来嵌入二进制水印。现有技术中，需要将待处理数据最低位的信息修改为与相应的水印信息一致。

当数据泄露后，根据待处理数据的最低位即可获得对应的二进制水印，从而实现二进制水印的提取。

现有技术对待处理数据中的最低位的进行修改，会改变待处理数据的数值，对于数据准确性要求比较高的场合不适用。

发明内容

本发明实施例提供了一种数据处理方法及装置，无需改变待处理数据的数值，适用于数据准确性要求较高的场合。

第一方面，本申请提供一种数据处理方法，该方法用于将二进制水印嵌入到待处理数据中，该方法通过以下步骤实现，接收数据提供方发送的M个待处理数据，将M个待处理数据转换为M个二进制数据，其中每个二进制数据的位数均为P位，产生二进制水印，其中二进制水印的位数为N位，确定二进制水印的嵌入位，嵌入位为P位中的第L位，1≤T≤P，将M个二进制数据分成N组，二进制水印的第1至N位分别嵌入到第1至N组中的每个二进制数据的第L位，相同分组的二进制数据的第L位对应二进制水印的相同位，筛除第X组二进制数据中的部分二进制数据，其中，筛除的二进制数据的第T位上的数值与二进制水印的第X位上的数值不一致，X为变量，1≤X≤N，将未被筛除的二进制数据对应的待处理数据发送至客户端。

将二进制水印每一位映射到待处理数据的一个分组的嵌入位中，且在每个分组的多个二进制数据中，通过删除部分二进制数据，强制设置嵌入位是二进制水印的一个二进制位上的二进制值的数量大于嵌入位不是二进制水印的一个二进制位上的二进制值的数量，从而通过这个特征在后续的水印提取步骤中提取出二进制水印，无需对待处理数据的数值进行修改。

在第一方面的第一种可能的实现方式中，接收数据提供方发送的M个待处理数据的步骤具体实现为，接收数据提供方发送的客户端的识别码和M个待处理数据，对应的，该方法还包括：针对客户端的识别码分配密钥数据，记录客户端的识别码与密钥数据的对应关系。

其中，密钥数据与客户端的识别码一一对应，在后续的数据处理中，通过密钥数据的介入可使得数据安全性得到进一步加强，第三方在没有获取密钥数据的情况下无法获取嵌入的二进制水印。

根据第一方面的第一种可能的实现方式，在第二种可能的实现方式中，上述的确定二进制水印在单个二进制数据上的嵌入位的步骤，具体通过以下方式来实现：据密钥数据进行哈希运算，获取第一哈希码，将第一哈希码与二进制数据的位数P进行求余运算，将运算结果作为嵌入位。

在本实现方式中，通过求余运算来在二进制数据选择嵌入位，且求余运算涉及的第一哈希码是通过对密钥数据进行哈希运算而获得，因此，根据密钥数据来在二进制数据中选择嵌入位，即便待处理数据泄露出去，获得泄露的待处理数据的第三方在不能获知密钥数据的前提下，是不能获知二进制水印在待处理数据的嵌入位的，因此可加大第三方破解嵌入位的难度，从而保证数据安全。

根据第一方面的第一或第二种可能的实现方式，在第三种可能的实现方式中，二进制水印记录有客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息。

水印服务器在获得二进制水印之后，可在二进制水印中获得以上三种属性信息，从而对泄露的待处理数据进行定位，得知其数据提供方、数据接收方(即客户端)以及产生时间，从而为数据泄密提供证据。

根据第一方面的第一至第三种可能的实现方式中的任一者，在第四种可能的实现方式中，将M个二进制数据分成N组，具体实现为，将密钥数据分别与每个二进制数据进行哈希运算，获取M个第二哈希码，将二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。

分组数量由二进制水印的位数决定，且每个分组对应至二进制水印的一个二进制位，可将二进制水印的二进制位上的数值分别映射到每个分组中。

根据第一方面、第一方面的第一至第四种可能的实现方式中的任一者，在第五种可能的实现方式中，筛除第X组二进制数据中的部分二进制数据具体实现为：比较第X组中每个二进制数据中第L位的数值与二进制水印的第X位的数值，获得数值一致的数量A和数值不一致的数量U，筛除第X组中E个二进制数据，其中，E满足以下公式：A>U-E。

根据第一方面的第五种可能的实现方式，在第六种可能的实现方式中，E取满足公式A>U-E的最小值，或者，E进一步满足以下公式：A/(U-E)≥T，其中，T为大于1的预设的阈值。

通过以上方式，可强制使得每个分组中，在嵌入位的二进制值与所在分组编号对应的二进制水印的二进制位上的二进制值一致的数量大于不一致的数量，从而实现将二进制水印的一个二进制值映射至该分组。

根据第一方面的一种可能的实现方式，待处理数据可为数据库元组、文本文件或图片文件。

其中，文本文件和图片文件均可以二进制格式实现，而数据库元组可转换为二进制格式，因此本申请适用于文本文件、图片文件和数据库元组，其中，数据库元组可为关系表中的一个数据库元组中的一个元素，该元素对应于一个属性。

第二方面，本申请提供一种数据处理方法，该方法用于从待处理数据中获取二进制水印，该方法通过以下方式实现，接收Z个待处理数据，将Z个待处理数据转换为Z个二进制数据，其中每个二进制数据的位数均为P位，确定二进制水印的嵌入位，其中嵌入位为P位中的第L位，1≤T≤P，将Z个二进制数据分成N组，N为二进制水印的位数，统计第X组中的二进制数据在嵌入位的数值是第一数值的数量Q，以及是第二数值的数量W，在Q>W时，确定嵌入到第X组的二进制水印的第X位的数值是第一数值，在Q＜W时，确定嵌入到第X组的二进制水印的第X位的数值是第二数值，X为变量，1≤X≤N。

若在嵌入二进制水印的过程中，若强制设置了嵌入位是二进制水印的一个二进制位上的二进制值的数量大于嵌入位不是二进制水印的一个二进制位上的二进制值的数量(如第一方面)，可通过这个特征在后续的水印提取步骤中提取出二进制水印，无需对待处理数据的数值进行修改。

根据第二方面的第一种可能的实现方式，接收Z个待处理数据的步骤通过以下方式实现，接收客户端的识别码和Z个待处理数据，对应的，该方法还包括从记录的客户端的识别码与密钥数据的对应关系中查找客户端的识别码对应的密钥数据的步骤。

根据第二方面的第一种可能的实现方式，在第二种可能的实现方式中，确定二进制水印的嵌入位通过以下方式实现，根据密钥数据进行哈希运算，获取第一哈希码，将第一哈希码与二进制数据的位数P进行求余运算，将运算结果作为嵌入位。

在本实现方式中，通过求余运算来在二进制数据选择嵌入位，且求余运算涉及的第二哈希码是通过对密钥数据进行哈希运算而获得，因此，根据密钥数据来在二进制数据中选择嵌入位，即便待处理数据泄露出去，获得泄露的待处理数据的第三方在不能获知密钥数据的前提下，是不能获知二进制水印在待处理数据的嵌入位的，因此可加大第三方破解嵌入位的难度，从而保证数据安全。

根据第二方面的第一或第二种可能的实现方式，在第三种可能的实现方式中，二进制水印记录有客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息，该方法还包括从二进制水印提取客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息的步骤。

根据第二方面的第一或第三种可能的实现方式，在第四种可能的实现方式中，将Z个二进制数据分成N组的步骤通过以下方式实现，将密钥数据分别与每个二进制数据进行哈希运算，获取Z个第二哈希码，将二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。

分组数量由二进制水印的位数决定，且每个分组对应至二进制水印的一个二进制位，可将二进制水印的二进制位上的二进制值分别映射到每个分组中。

根据第二方面、第二方面的第一至第四种可能的实现方式中的任一者，在第五种可能的实现方式中，统计第X组中的二进制数据在嵌入位的数值是第一数值的数量Q，以及是第二数值的数量W，在Q>W时，确定嵌入到第X组的二进制水印的数值是第一数值，在Q＜W时，确定嵌入到第X组的二进制水印的二进制值是第二数值，X为变量，通过以下方式实现，在第X组中：在满足Q/W>(T+V-1)/V时，确定嵌入到第X组的二进制水印的第X位的数值是第一数值，其中，T是阈值，且T是大于1或等于1的正数，V是正整数，在满足W/Q>(T+V-1)/V时，确定嵌入到第X组的二进制水印的第X位的数值是第二数值。

根据第二方面的第五种可能的实现方式，在第六种可能的实现方式中，T>1，V>1。

在T>1，V>1时，(T+V-1)/V比T小，通过将阈值适当设置变小，可在数据被部分泄露，或被部分篡改时，实现容错。

根据第二方面的第五种可能的实现方式，在第六种可能的实现方式中，V＝2。

在第二方面的一种可能的实现方式中，待处理数据为文本文件、图片文件或数据库元组中的一者。

第三方面，本申请提供一种数据处理装置，该装置用于将二进制水印嵌入到待处理数据中，该装置包括：接收模块，用于接收数据提供方发送的M个待处理数据，水印嵌入模块，用于将M个待处理数据转换为M个二进制数据，其中每个二进制数据的位数均为P位，产生二进制水印，其中二进制水印的位数为N位，确定二进制水印的嵌入位，嵌入位为P位中的第L位，1≤T≤P，将M个二进制数据分成N组，二进制水印的第1至N位分别嵌入到第1至N组中的每个二进制数据的第L位，相同分组的二进制数据的第L位对应二进制水印的相同位，筛除第X组二进制数据中的部分二进制数据，其中，筛除的二进制数据的第T位上的数值与二进制水印的第X位上的数值不一致，X为变量，1≤X≤N，发送模块，用于将未被筛除的二进制数据对应的待处理数据发送至客户端。

第三方面或第三方面任意一种实现方式是第一方面或第一方面任意一种实现方式对应的装置实现，第一方面或第一方面任意一种实现方式中的描述适用于第三方面或第三方面任意一种实现方式，在此不再赘述。

第四方面，本申请提供一种数据处理装置，用于在待处理数据中获取二进制水印，包括：接收模块，用于接收Z个待处理数据，水印提取模块，用于：将Z个待处理数据转换为Z个二进制数据，其中每个二进制数据的位数均为P位，确定二进制水印的嵌入位，其中嵌入位为P位中的第L位，1≤T≤P，将Z个二进制数据分成N组，N为二进制水印的位数，统计第X组中的二进制数据在嵌入位的数值是第一数值的数量Q，以及是第二数值的数量W，在Q>W时，确定嵌入到第X组的二进制水印的数值是第一数值，在Q＜W时，确定嵌入到第X组的二进制水印的二进制值是第二数值，X为变量，1≤X≤N。。

第四方面或第四方面任意一种实现方式是第二方面或第二方面任意一种实现方式对应的装置实现，第二方面或第二方面任意一种实现方式中的描述适用于第四方面或第四方面任意一种实现方式，在此不再赘述。

第五方面，本申请提供一种计算机，包括处理器和存储器，存储器存储有程序，处理器运行程序，以执行第一方面或第一方面任意一种实现方式提供的数据处理方法。

第六方面，本申请提供一种计算机，包括处理器和存储器，存储器存储有程序，处理器运行程序，以执行第二方面或第二方面任意一种实现方式提供的数据处理方法。

第七方面，本申请提供了一种存储介质，该存储介质中存储了程序代码，该程序代码被存储控制器运行时，该存储控制器执行前述第一方面或第一方面的任意一种实现方式提供的数据处理方法。该存储介质包括但不限于只读存储器，随机访问存储器，快闪存储器、HDD或SSD。

第八方面，本申请提供了一种存储介质，该存储介质中存储了程序代码，该程序代码被存储控制器运行时，该存储控制器执行前述第二方面或第二方面的任意一种实现方式提供的数据处理方法。该存储介质包括但不限于只读存储器，随机访问存储器，快闪存储器、HDD或SSD。

第九方面，本申请提供了一种计算机程序产品，该计算机程序产品包括程序代码，当该计算机程序产品被存储控制器执行时，该存储控制器执行前述第一方面或第一方面的任意一种实现方式提供的数据处理方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任意一种实现方式提供的图形处理方法的情况下，可以下载该计算机程序产品至存储控制器并在该存储控制器上运行该计算机程序产品。

第十方面，本申请提供了一种计算机程序产品，该计算机程序产品包括程序代码，当该计算机程序产品被存储控制器执行时，该存储控制器执行前述第二方面或第二方面的任意一种实现方式提供的数据处理方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第二方面或第二方面的任意一种实现方式提供的图形处理方法的情况下，可以下载该计算机程序产品至存储控制器并在该存储控制器上运行该计算机程序产品。

附图说明

图1是根据本发明实施例的水印系统的示意图；

图2是根据本发明实施例的水印系统的另一示意图；

图3是根据本发明实施例的数据处理方法的流程图；

图4是根据本发明实施例的数据处理方法的数据转换示意图；

图5是根据本发明实施例的数据处理方法的另一流程图；

图6是根据本发明实施例的数据处理方法的数据转换示意图；

图7是根据本发明实施例的数据处理装置的装置结构示意图；

图8是根据本发明实施例的数据处理装置的装置结构示意图；

图9是根据本发明实施例的计算机的装置结构示意图；

图10是根据本发明实施例的计算机的装置结构示意图。

具体实施方式

本发明实施例提供一种数据处理方法及装置，在待处理数据中嵌入二进制水印，无需对待处理数据进行修改。

为了方便理解本发明的各实施例，下面先对本发明各实施例涉及到的一些技术术语进行介绍，后文的各实施例可以参考下面的技术术语介绍：

二进制水印：由具有预定长度的一组二进制数组成的信息，每个二进制数可嵌入到多个待处理数据中，二进制水印可切分为多个子集，每个子集代表不同的信息。

举例而言，二进制水印可长度为16位的二进制数0101 1000 1101 1111，水印服务器将第1至第8位划分为第一个子集，将第9至第16位划分为第二个子集，其中0101 1000子集表示数据提供方为某公司，1101 1111子集表示二进制水印的产生时间是某年某月某日。

水印服务器可预先记录每个子集代表的属性，例如数据提供方的识别码、二进制水印的产生时间、以及客户端的识别码等。并且，水印服务器可记录每个子集中二进制数与属性之间的对应关系，例如针对第一子集，数据提供方的识别码0000 0000代表公司A，数据提供方的识别码0000 0001代表公司B；针对第二子集，0000 0000代表2018年1月1日，0000 0001代表2018年1月2日。上述对应关系可根据实际需要设置，于此不作赘述。

数据库元组：关系数据库中的基本概念，属于数据库介质数据，数据库介质数据是指以数据库可以读取的格式存储在数据库中的数据。在数据库中，关系代表一张表(如以下的表1)，每列就是一个属性，表中每行就是一个数据库元组。

举例而言，可参见下表：

年龄
1
2
3

表1.1

如表1.1所示，“1”、“2”、“3”分别是一个数据库元组。

进一步，可参见表1.2：

姓名	年龄
小明	1
小花	2
小王	3

表1.2

如表1.2所示，“小明，1”、“小花，2”、“小王，3”分别是一个数据库元组。

在本发明实施例中，待处理数据可以是如表1.1所示的数据库元组，或者是如表1.2所示的一个数据库元组中一个属性对应的元素，例如“1”，即数据库元组“小明，1”中属性年龄对应的元素“1”。

值得注意的是，在本发明实施例中，以属于数据库介质数据的数据库库元组为例对待处理数据进行具体说明，在本发明其他实施例中，待处理数据还可以包括非数据库介质数据，其中，非数据库介质数据例如为文本文件或图片文件，其原因在于，文本文件和图片文件可以二进制数据的形式存在，或者，文本文件和图片文件可以转换为二进制格式。

哈希运算：将任意长度的二进制值映射为固定长度的整数，这个整数称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。

以下对本发明实施例的水印系统进行介绍，请参见图1，图1是根据本发明实施例的水印系统的示意图，如图1所示，水印系统包括数据提供方101、水印服务器102以及客户端103,104,105。

其中，数据提供方101发送待处理数据至水印服务器102，水印服务器102针对不同的客户端在待处理数据中嵌入不同的二进制水印，分别产生待处理数据A，B，C，并分别发送至客户端103,104,105。

值得注意的是，此处所述的待处理数据的数量为复数个，处理数据A，B，C的数量也分别为复数个。

可选地，二进制水印记录有客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息。举例而言，嵌入待处理数据A的二进制水印记录有客户端103的识别码、数据提供方101的识别码以及产生该二进制水印的时间信息，如2018年6月25日。嵌入待处理数据B的二进制水印记录有客户端104的识别码、数据提供方101的识别码以及产生该二进制水印的时间信息如2018年6月1日。

并请参见图2，图2是根据本发明实施例的水印系统的另一示意图。根据图2，假设客户端103泄露了待处理数据A(可泄露待处理数据A的部分或全部)，数据提供方101可将泄漏的待处理数据A发送至水印服务器102，水印服务器102从泄漏的待处理数据A中提取二进制水印，从而可根据该二进制水印获取到客户端103的识别码、数据提供方101的识别码以及产生该二进制水印的时间信息为2018年6月25日，从而获知泄露的待处理数据A的相关信息。

水印服务器102可将客户端103的识别码、数据提供方101的识别码以及产生该二进制水印的时间信息发送至数据提供方101，使得数据提供方101可获知泄漏的待处理数据A是何时从哪个客户端泄漏。

在另一些示例中，泄漏的待处理数据A亦可由客户端103发送至水印服务器102。

值得注意的是，本发明实施例适用于大数据处理，举例而言，待处理数据的数量可以为1000个以上，更有甚者可涉及上万至上亿个待处理数据，但是为了作出清楚说明，下文将以32个待处理数据为例。

以下结合图3对本发明实施例的数据处理方法进行说明，其中图3是根据本发明实施例的数据处理方法的流程图，该数据处理方法用于将二进制水印嵌入到待处理数据中。

值得注意的是，图3所示的数据处理方法应用于水印服务器102，包括以下步骤：

步骤S101：水印服务器102接收数据提供方101发送的客户端103的识别码和M个待处理数据，将M个待处理数据转换为M个二进制数据，针对客户端103的识别码分配密钥数据。

举例而言，为便于说明，假设M＝32，32个待处理数据分别32个十进制的数据库元组：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

为便于说明，以表格示出，具体如表2所示：

1	2	3	4	5	6	7	8
9	10	11	12	13	14	15	16

17	18	19	20	21	22	23	24
25	26	27	28	29	30	31	32

表2

值得注意的是，本发明实施例主要应用于大数据处理，因此在实际应用中M可以为大于1000的正整数。并且，本发明实施例并不关心32个数据库元组的排列顺序，举例而言，在另外一些示例中，32个数据库元组亦可表示为：

32 31 30 1 2 5 3 6 20 21 22 23 27 18 29 19 14 12 17 16 24 25 26 28 7 8 9 4 10 11 13 15

并且，在本实施例中，数据库元组为十进制的数值型数据，而在另外一些示例中，数据库元组可以字符型数据，如以上表1.2所示的“小明”，当数据库元组为字符型数据时，水印服务器101可先将字符型数据转换为数值型数据，如可采用美国信息交换标准代码(American Standard Code for Information Interchange，ASCII)编码，将字符型数据转换为数值型数据。

进一步，水印服务器102将表2所示的32个数据库元组转换为32个二进制数据如下：

00000001	00000010	00000011	00000100	00000101	00000110	00000111	00001000
00001001	00001010	00001011	00001100	00001101	00001110	00001111	00010000
00010001	00010010	00010011	00010100	00010101	00010110	00010111	00011000
00011001	00011010	00011011	00011100	00011101	00011110	00011111	00100000

表3

其中，每个二进制数据的位数均为P位，根据表3，P可例如为8。

并且，针对客户端103的识别码分配密钥数据如下：

8151014275E426C72EE7D44267EF11590DCE0089E19863BA8CC832187B156A72

其中，密钥数据与客户端的识别码具有一一对应关系，不同的客户端对应不同的密钥数据，水印服务器102记录上述密钥数据与客户端103的识别码的对应关系。

值得注意的是，针对文本文件和图片文件，在其本身就是二进制数据格式的情况下，本步骤可以省略，在其本身是其他进制格式的情况下，如十进制格式，需将其转换为二进制格式。

步骤S102：产生二进制水印，确定二进制水印的嵌入位。其中，嵌入位为P位中的第L位。

可选地，在本步骤中，水印服务器102根据接收到的客户端103的识别码、预先记录的数据提供方101的识别码以及当前时间2018年6月25日，产生记录有客户端103的识别码、数据提供方101的识别码以及产生二进制水印的时间信息2018年6月25日的二进制水印。

如上文所述，二进制水印具有预定数据长度，且可切分成多个子集，每个子集表示不同的属性。而在本发明实施例中，二进制水印至少包括客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息标识三个不同属性的三个子集。

值得注意的是，在另外一些示例中，数据提供方的识别码也可以由数据提供方发送至水印服务器。

为了简化说明，在本发明实施例中，假设二进制水印为01，应该理解的是，在实际应用中，二进制水印的长度可为数十至数百位。

进一步，在本步骤中，水印服务器102可通过以下方式确定确定二进制水印在单个二进制数据上的嵌入位：

针对密钥数据进行哈希运算，获取第一哈希码，将第一哈希码与单个二进制数据的位数进行求余运算，将运算结果作为嵌入位。

举例而言，可根据以下等式获取嵌入位：

K＝Sha256(userKey)％dataLen

其中，userKey为密钥数据，dataLen为单个二进制数据的位数，参见表3可知，dataLen＝8，Sha256()是可获取到的哈希值大小为256位数据长度的哈希算法。

％是求余运算符，P是0-7之间的数值，在本步骤中，假设K＝4，则L＝K+1＝5，即，取二进制数据的自左至右第5位作为嵌入位。

值得注意的是，在另外一些示例中，也可以取二进制数据的自右至左第5位作为嵌入位，本发明实施例对此不作限定。

在本发明实施例中，通过密钥数据来决定嵌入位，因此即便待处理数据泄露出去，获得泄露的待处理数据的第三方在不能获知密钥数据的前提下，是不能获知二进制水印在待处理数据的嵌入位的，因此可加大第三方破解嵌入位的难度，从而保证数据安全。

步骤S103：将M个二进制数据分成N组。其中，可将N个分组编号分别对应至二进制水印的N个二进制位，即，将二进制水印的第1至N位分别嵌入到第1至N组中的每个二进制数据的第L位，相同分组的二进制数据的第L位对应二进制水印的相同位。

在本步骤中，水印服务器102可将密钥数据分别与每个二进制数据进行哈希运算，获取M个第二哈希码，并将二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号，根据N个分组编号将M个二进制数据分为N组二进制数据，使得N个分组编号分别对应至二进制水印的N个二进制位。

其中，经过求余运算，分组编号可为0至N-1的正整数。

并且，于此需注意的是，根据哈希算法的均匀特性，在每组二进制数据中，相同位置(包括第T位)的二进制数1和0的比例趋近于1:1，其中，在M越接近无穷大时，每组二进制数据中相同位置的二进制数1和0的比值越接近于1。

举例而言，可将表2所示的32个二进制数据分别与密钥数据8151014275E426C72EE7D44267EF11590DCE0089E19863BA8CC832187B156A72进行哈希运算，获得32个作为整数的第二哈希码如下：

表4

进一步，将表3中的第二哈希码与二进制水印的位数2进行求余运算，可产生2个分组编号，其中，分组编号具体为0和1。

二进制水印的分组编号分布如下：

0	1	1	1	0	1	0	0
0	0	0	1	1	1	0	0
0	0	1	1	0	0	1	0
1	0	1	0	1	1	1	1

表5

其中，表5所示的某行某列的分组编号是由表4中相同行相同列的第二哈希码与二进制水印的位数2进行求余运算来产生的。

在本实施中，水印服务器102将分组编号0对应至二进制水印01的自左至右第一位(0)，将分组编号1对应至二进制水印01的自左至右第二位(1)。

值得注意的是，在另外一些示例中，若二进制水印的位数是3，且二进制水印为010，则分组编号是0、1、2，分组编号0对应至二进制水印010自左至右第一位(0)，分组编号1对应至二进制水印010自左至右第二位(1)，分组编号2对应至二进制水印010自左至右第三位(0)。

并且，其对应方式可以根据实际需要调整，如在另外一些示例中，分组编号0也可对应二进制水印自右至左第一位(0)，分组编号1也可对应二进制水印自右至左第二位(1)，分组编号2也可对应二进制水印自自右至左第三位(0)，其由水印服务器102自身约定即可，本发明实施例对此不作限定。

进一步，根据表5所示的分组编号分布以及分组编号对应的二进制数，可以获取到二进制数据与分组编号的对应关系如下：

表6

根据表6，水印服务器102可根据2个分组编号(0和1)将32个二进制数据分为2组二进制数据：

表7

步骤S104：选择N组二进制数据中的第1组二进制数据，其中第1组二进制数据对应二进制水印第1位。

举例而言，水印服务器102可选择表7中，分组编号0对应的第1组二进制数据：

00000001 00000101 00000111 00001000

00001001 00001010 00001011 00001111

00010000 00010001 00010010 00010101

00010110 00011000 00011010 00011100

步骤S105：统计二进制数据在嵌入位的二进制值与第1组二进制数据对应的二进制水印的数值一致的数量A和不一致的数量U。

水印服务器102根据步骤S102可知嵌入位P＝5，而分组编号0对应于二进制水印01自左至右的第1位(可参见表7)，该二进制位上的二进制值为0，则统计该组二进制数据中每个二进制数据在自左至右第5位的二进制值与0一致的数量A＝8和与0不一致的数量U＝8。

00000001 00000101 00000111 00001000

0000 1001 0000 1010 0000 1011 0000 1111

00010000 00010001 00010010 00010101

00010110 0001 1000 0001 1010 0001 1100

值得注意的是，由于哈希运算的数据均匀特性，随着M的数值越大，A与U的比值无限接近1。

步骤S106：在该组筛除部分二进制数据，,其中，在第X组筛除的二进制数据的第T位上的数值与二进制水印的第X位上的数值不一致。

举例而言，在第1组中需筛除的部分二进制数据的第5位上的数值与二进制水印的第 1位上的数值不一致。

具体地，可以比较第1组中每个二进制数据中第5位的数值与二进制水印的第1位的数值0，获得数值一致的数量A和数值不一致的数量U，筛除第1组中E个二进制数据，其中，E满足以下公式：A>U-E。

可选地，E取满足公式A>U-E的最小值，或者，E进一步满足以下公式：A/(U-E)≥T，其中，T为大于1的预设的阈值。

其中，T预先记录在水印服务器102中，表示水印服务器102可以接受的每组二进制数据中，在嵌入位的二进制值与所在分组编号对应的二进制水印的二进制位上的二进制值一致的数量与不一致的数量的比值，可选地，T＝1.2。

则根据A/(U-E)≥T可知E>＝2。在在第1组二进制数据

00000001 00000101 00000111 00001000

00001001 00001010 00001011 00001111

00010000 00010001 00010010 00010101

00010110 00011000 00011010 00011100

中，可取E的最小值，即E＝2，在该组二进制数据中，可筛除00001000 00001001 00001010 00001011 00001111 00011000 00011010 00011100中任意两个二进制数据，例如为00001010和00011010，从而使得在该组中，二进制数据在嵌入位的二进制值与第1组对应的二进制水印的第1个二进制位上的数值一致的数量8大于不一致的数量6，且二者的比值满足大于或等于T＝1.2。

需要说明的是T的数值由水印服务器102设置，其中T＝1.2表示水印服务器102可以接受的A与U’的比值的最小值，举例而言，水印服务器102设置T＝1.2，说明水印服务器102希望嵌入水印后，每组二进制数据中A与U的比值至少是1.2，假设经筛选后的第1组二进制数据的数量是220，则A＝120，U＝100，其中E＝20，有20个二进制数据在U中筛除。

可选地，在另外一些示例中，在第X组筛除的二进制数据的第T位上的数值与二进制水印的第X位上的数值一致，可以比较第1组中每个二进制数据中第5位的数值与二进制水印的第1位的数值0，获得数值一致的数量A和数值不一致的数量U，筛除第1组中E个二进制数据，其中，E满足以下公式：U>A-E。应理解，在该可选示例中，在后续提取水印的步骤中，嵌入到待处理数据中的二进制水印还需进一步通过取反处理才能获取到正确的二进制水印。

步骤S107：判断N组二进制数据是否遍历完毕，如果是，执行步骤S109，如果否，执行步骤S108。

举例而言，在本步骤中，还有另一组分组编号1对应的第2组二进制数据未处理，因此执行步骤S108。

步骤S108：选择N组二进制数据中的另一组二进制数据，针对该组二进制数据重复执行步骤S105至S107。

举例而言，可选择表7中，分组编号1对应的第2组二进制数据：

00000010 00000011 00000100 00000110

00001100 00001101 00001110 00010011

00010100 00010111 00011001 00011011

00011101 00011110 00011111 00100000

并跳转至步骤S105:

在步骤S105：分组编号1对应于二进制水印自左至右的第二位二进制位，该二进制位上的二进制值为1，则统计该组二进制数据中每个二进制数据在自左至右第5位的二进制值与0一致的数量A＝8与不一致的数量U＝8。

在步骤S106：筛除第2组中的部分二进制数据，在第2组筛除的二进制数据的第5位上的数值与二进制水印的第2位上的数值(1)不一致。

举例而言，类似地，T＝1.2，则根据A/(U-E)≥T可知E>＝2，则E＝2。

因此，可筛除00001000 00001001 00001010 00001011 00001111 00011000 00011010 00011100中至少任意两个二进制数据。如可筛除00000010和00010111，从而使得在该组中，二进制数据在嵌入位的数值与该组对应的二进制水印的数值一致的数量8大于不一致的数量6，且二者的比值大于或等于T＝1.2。

在步骤S107：判断到所有分组编号对应的二进制数据已处理，因此执行步骤S109。

步骤S109：将未被筛除的二进制数据对应的待处理数据发送至客户端。

具体地，可保留J个二进制数据对应的J个待处理数据，并发送H个待处理数据至客户端103。

其中，H＝M-J，J为在N组中筛除的二进制数据的总数量，即J＝∑Ei，其中i为0至N-1的正整数，Ei表示分组编号i对应的一组二进制数据要筛除的二进制数据的数量。

在本实施例中，分组编号0对应的一组二进制数据需筛除2个二进制数据，分组编号1对应的一组二进制数据需筛除2个二进制数据，则J＝2+2＝4，因此H＝M-J＝32-4＝28，故水印服务器102发送28个待处理数据至客户端103。

其中，28个待处理数据如下：

1		3	4	5	6	7	8
9		11	12	13	14	15	16
17	18	19	20	21	22		24
25		27	28	29	30	31	32

表8

即：1 3 4 5 6 7 8 9 11 12 13 14 15 16 17 18 19 20 21 22 24 25 27 28 29 30 31 32。

值得注意的是，步骤S105至S107的迭代次数由二进制水印的位数决定，举例而言，二进制水印01的位数是2，因此上述步骤S105至S107的迭代次数是2，即循环执行2次步骤S105至S107。

在本发明实施例中，在32个待处理数据中，保留4个待处理数据2、10、23及26，不发送该4个待处理数据至客户端，从而使得二进制水印01自左至右第一位0嵌入到28个待处理数据的一个分组的嵌入位中，其中在该分组的多个二进制数据中，嵌入位是0的数量大于嵌入位是1的数量，并使得二进制水印01自左至右第二位1嵌入到28个待处理数据的另一个分组的嵌入位中，其中在该分组的多个二进制数据中，嵌入位是1的数量大于嵌入位是0的数量。

由于本发明实施例主要应用在大数据处理中，因此，在待处理数据的数量为海量的情况下，通过适当保留小数量的待处理数据不发送至客户端来完成二进制水印的嵌入，在对数据完整性要求不高的客户端而言，是完全可以接受的。

因此，本发明实施例通过保留少量的待处理数据(如以上示例的4个)不发送至客户端，无需对32个待处理数据中的任一待处理数据的数值进行修改，可保证数据的准确性。而该少量的4个待处理数据在另外一些示例中也可以另外发给客户端，只需保证在客户端中其与原来的28个待处理数据不在一起即可(如针对数据库元组而言，均设置在以上所述的表1.1)。

进一步，本发明实施例通过设置阈值T来调整需保留的待处理数据的数量，可调节容错率与数据完整度之间的平衡，即容错率越高(对应T越大)，数据完整度越低，容错率越低(对应T越小)，数据完整度越高，容错率与数据完整度呈反比关系，具体原理于下文提取二进制水印的方法将会详细介绍。

为了进一步对图3所示的数据处理方法作出清楚说明，以下请参见图4，图4是根据本发明实施例的数据处理方法的数据转换示意图，参见图4可知，N位二进制水印中的每一位二进制值被映射到二进制数据的N个分组中，每个分组中通过筛除Y个二进制数据，强行使得A>U，并藉此作为后续二进制水印提取的依据。

以下结合图5对本发明实施例的数据处理方法进行进一步说明，其中图5是根据本发明实施例的数据处理方法的另一流程图，值得注意的是图5所示的数据处理方法同样应用于水印服务器102，包括以下步骤：

步骤S110：水印服务器102接收客户端101的识别码和Z个待处理数据。

在一些示例中，通常来说，数据提供方101较为关心数据泄露的情况，在客户端101发生数据泄露时，通知数据提供方101，数据提供方101在获取泄露的Z个待处理数据之后，将客户端101的识别码和泄露的Z个待处理数据发送至水印服务器102。

在另外一些示例中，可由客户端103将客户端101的识别码和泄露的Z个待处理数据发送至水印服务器102。

并且，Z可小于或等于H，即Z个待处理数据可为H个待处理的一个子集，或H个待处理数据是Z个待处理数据的一个子集，或Z个待处理数据就是H个待处理数据。

当Z等于H时，说明客户端101泄露了水印服务器102发送给客户端101所有的待处理数据。当Z小于H时，说明客户端101泄露了水印服务器102发送给客户端101部分的待处理数据。

举例而言，于此假设Z＝H，即泄露的待处理数据的数量Z＝28，且结合上述的步骤107，水印服务器102接收到的待处理数据具体为：

1 3 4 5 6 7 8 9 11 12 13 14 15 16 17 18 19 20 21 22 24 25 27 28 29 30 31 32

步骤S111：将Z个待处理数据转换为Z个二进制数据，每个二进制数据的位数均为P位。

举例而言，水印服务器102将28个待处理数据转换为28个二进制数据如下：

00000001	00000011	00000100	00000101	00000110	00000111	00001000
00001001	00001011	00001100	00001101	00001110	00001111	00010000
00010001	00010010	00010011	00010100	00010101	00010110	00011000
00011001	00011011	00011100	00011101	00011110	00011111	00100000

表9

步骤S112：确定二进制水印的嵌入位。其中，嵌入位为P位中的第L位。

与步骤S102类似，在本步骤中，水印服务器102可通过以下方式确定嵌入位：

水印服务器根据客户端103的识别码查询步骤101中记录的客户端103的识别码与密钥数据之间的对应关系，获取客户端103的识别码对应的密钥数据：

8151014275E426C72EE7D44267EF11590DCE0089E19863BA8CC832187B156A72

并且，水印服务器102确定二进制水印在单个二进制数据上的嵌入位针对密钥数据进行哈希运算，获取第一哈希码，将第一哈希码与单个二进制数据的位数进行求余运算，将运算结果作为嵌入位。

举例而言，可根据以下等式获取嵌入位：

K＝Sha256(userKey)％dataLen

其中，userKey为密钥数据，dataLen为单个二进制数据的位数，且dataLen＝8，Sha256()是可获取到的哈希值大小为256位的哈希算法。

％是求余运算符，K是0-7之间的数值，由于由于密钥数据和单个二进制数据的位数均与步骤S102相同，因此，在本步骤中，L＝K+1＝5即，取二进制数据的自左至右第5位二进制数作为嵌入位。

步骤S113：将Z个二进制数据分成N组，其中，N组中的第X组对应二进制水印的第X位。

在本步骤中，水印服务器102可将密钥数据分别与每个二进制数据进行哈希运算，获取Z个第二哈希码，将二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。

其中，分组编号可为0至N-1的正整数。

举例而言，可将表9所示的28个二进制数据分别与密钥数据8151014275E426C72EE7D44267EF11590DCE0089E19863BA8CC832187B156A72进行整形哈希运算，获得28个第二哈希码如下：

表10

进一步，将表10中的第二哈希码与二进制水印的位数2进行求余运算，可产生2个分组编号，其中，分组编号具体为0和1。

二进制水印的分组编号分布如下：

0	1	1	0	1	0	0
0	0	1	1	1	0	0
0	0	1	1	0	0	0
1	1	0	1	1	1	1

表11

进一步，根据表5所示的分组编号分布以及分组编号对应的二进制数据，可以获取到二进制数据与分组编号的对应关系如下：

表12

根据表12，可利用2个分组编号0和1分别将28个二进制数据分为2组二进制数据：

表13

步骤S114：选择N组二进制数据中的第1组二进制数据。

举例而言，可选择表13中分组编号0对应的第1组二进制数据：

00000001 00000101 00000111 00001000

00001001 00001011 00001111 00010000

00010001 00010010 00010101 00010110

00011000 00011100

步骤S115：统计第1组中的二进制数据在嵌入位(即第L位)的二进制值是第一数值的数量Q，以及是第二数值的数量W。

举例而言，在本实施例中，第一数值为1，第二数值为0。

而在另外一些示例中，第一数值可为0，第二数值可为1。

具体地：在第1组：

00000001 00000101 00000111 00001000

00001001 00001011 00001111 00010000

00010001 00010010 00010101 00010110

00011000 00011100

中，水印服务器102统计到二进制数据在自左至右第5位的二进制值是1的数量Q＝6，二进制数据在自左至右第5位的二进制值是0的数量W＝8。

步骤S116：判断Q与W的大小关系，若Q>W，则执行步骤S117，若Q<W，则执行步骤S118。

举例而言，在本步骤中，Q＝6，W＝8，Q<W，则执行步骤S118。

在一些示例中，若在上述步骤S106所揭示的嵌入二进制水印的过程中，通过A/(U-E)≥T来获得每组需筛除的二进制数据数量E，为取得容错率与数据完整度之间的平衡，对应地，在本步骤中可通过阈值M来判断Q与W之间的大小关系，在一些示例中，阈值M＝(T+1)/2，对应地，在本步骤中，水印服务器102在判断Q与W的关系满足Q/W>(T+1)/2的情况下，执行步骤S117，在判断Q与W的关系满足W/Q>(T+1)/2的情况下，执行步骤S118。

由于T>1，因此T>(T+1)/2>1，通过将阈值T适当设置变小为M，例如从T改为(T+1)/2，可数据被部分泄露，或被部分篡改时，实现容错。具体而言，在泄露了部分数据或者泄露的数据被部分破坏了的情况下，不失一般性，假设在一组二进制数据嵌入二进制水印过程中，在嵌入位上的二进制值与所在的分组编号对应的二进制水印的二进制位上的二进制值一致的数量是120，不一致的数量是100，即A＝120，U＝100。

在一些示例中，假设部分待处理数据泄露，在本步骤中，假设W＝115(5个待处理数据丢失)，Q＝99(1个待处理数据丢失)，而T＝1.2，M＝(T+1)/2＝1.1，此时W/Q＝115/99＝1.16>1.1，水印服务器102依旧执行步骤S118，从而保证可获得正确的二进制水印。

在另一些示例中，假设部分待处理数据被篡改，如有2条数据被篡改，在本步骤中，假设W＝118，Q＝102，即原本属于W的两个待处理数据被篡改为属于Q，此时W/Q＝118/102＝1.15>1.1，水印服务器102依旧执行步骤S118，从而保证可获得正确的二进制水印。

综上，通过将阈值适当设置变小，可实现一定程度的容错功能。

值得注意的是，在本发明实施例中，M也可以取值为M＝(T+V-1)/V，V为正整数，当V越大，M越小，但M始终大于1，因此在T>1，V>1时，可实现容错功能。

在另一些示例中，在不考虑泄露了部分数据或者泄露的数据被部分破坏了的情况下，阈值可设为T，即V＝1，W＝120，Q＝100，W/Q＝120/100＝1.2≥T,水印服务器102依旧执行步骤S118。但是，若发生部分待处理数据泄露，则W/Q＝115/99＝1.16<T，此时阈值T不能保证获得正确的二进制水印。若发生部分待处理数据被篡改，则W/Q＝115/99＝1.15<T，此时阈值T也不能保证获得正确的二进制水印。

因此，针对M＝(T+V-1)/V而言，当V＝1时，不能实现容错功能，当V>1时，可以实现容错功能。

步骤S118：确定第X组对应的二进制水印的第X个数值是第二数值，并执行步骤S119。

举例而言，在本步骤中，在第1组二进制数

00000001 00000101 00000111 00001000

00001001 00001011 00001111 00010000

00010001 00010010 00010101 00010110

00011000 00011100

中，确认该组对应的二进制水印的第1位上的数值是第二数值0。

步骤S119：判断N组二进制数据是否遍历完毕，如果是，执行步骤S121，如果否，执行步骤S120。

举例而言，在本步骤中，还第二组二进制数据未处理，因此执行步骤S120。

步骤S120：选择N组二进制数据中的另一组二进制数据，针对该组二进制数据重复执行步骤S115至S119。

举例而言，可选择表表13中，选择第2组二进制数据：

00000011 00000100 00000110 00001100

00001101 00001110 00010011 00010100

00011001 00011011 00011101 00011110

00011111 00100000

并跳转至步骤S115：

在步骤S115：统计该组中的二进制数据在嵌入位的二进制值是第一数值的数量Q，以及是第二数值的数量W，并跳至步骤S116。

举例而言，第一数值为1，第二数值为0。

具体地：在第2组二进制数据：

00000011 00000100 00000110 00001100

00001101 00001110 00010011 00010100

00011001 00011011 00011101 00011110

00011111 00100000

中，水印服务器102统计到嵌入位为二进制数据在自左至右第5位的二进制值是1的数量Q＝8，二进制数据在嵌入位为自左至右第5位的二进制值是0的数量W＝6。

举例而言，在本步骤中，Q＝8，W＝6，Q>W，则执行步骤S117。

值得注意的是，在一些示例中，也可根据上一步骤S116中所揭示的阈值T或阈值M 对Q与M进行比较，具体方案上文已经揭示，于此不作赘述。

步骤S117：确定第X组对应的二进制水印的第X位上的二进制值是第一数值，并执行步骤S119。

举例而言，在本步骤中，在第2组二进制数分组

00000011 00000100 00000110 00001100

00001101 00001110 00010011 00010100

00011001 00011011 00011101 00011110

00011111 00100000

中，确认该组对应的二进制水印的第2位上的二进制值是第一数值1。

举例而言，在本步骤中，水印服务器102判断到2组二进制数据均处理完毕，跳至步骤S121。

步骤S121：获取二进制水印。

举例而言，由于水印服务器102在第一次迭代过程中，确认二进制水印自左至右第一位上的二进制值是0，在第二次迭代过程中，确认二进制水印自左至右第二位上的二进制位上的二进制值是1，因此确认二进制水印应为01。

具体可参见下表：

表14

因此，本发明实施例可以在不对待处理数据的数值进行修改的情况下，通过保留小部分待处理数据将二进制水印嵌入到待处理数据中，并从泄漏的待处理数据中获取二进制水印。进一步，通过设置阈值M可以实现一定程度的容错。

为了进一步对图5所示的数据处理方法作出清楚说明，以下请参见图6，图6是根据本发明实施例的数据处理方法的数据转换示意图，参见图6可知，N位二进制水印中的每一位二进制值分别从二进制数据的N个分组中根据Q与W的关系获得，因此具有良好的抗攻击能力。

本发明实施通过零水印的方式嵌入水印，无需引入额外特征数据，基于数学统计意义上的奇偶随机分布，原理简单，应用方便，理论上可同时适用于数值型数据及字符型数据等所有数据类型，嵌入提取方法统一，突破传统水印算法的局限性，当泄露数据为原始数据的子集或部分泄露数据被篡改的情况下，水印恢复过程引入了修复机制，得到一系列最可能正确的二进制水印，具有良好的抗攻击性。

以下请参见图7，图7是根据本发明实施例的数据处理装置的装置结构示意图，数据处理装置20设置在水印服务器102中，用于将二进制水印嵌入到待处理数据中，该装置包括：

接收模块201，用于接收数据提供方发送的M个待处理数据；

水印嵌入模块202，用于

将M个待处理数据转换为M个二进制数据，其中每个二进制数据的位数均为P位；

产生二进制水印，其中二进制水印的位数为N位；

确定二进制水印的嵌入位，嵌入位为P位中的第L位，1≤T≤P；

将M个二进制数据分成N组，二进制水印的第1至N位分别嵌入到第1至N组中的每个二进制数据的第L位，相同分组的二进制数据的第L位对应二进制水印的相同位；

筛除第X组二进制数据中的部分二进制数据，其中，筛除的二进制数据的第T位上的数值与二进制水印的第X位上的数值不一致，X为变量，1≤X≤N

发送模块203，用于用于将未被筛除的二进制数据对应的待处理数据发送至客户端。

可选地，接收模块201，用于接收数据提供方发送的客户端的识别码和M个待处理数据；水印嵌入模块202，用于针对客户端的识别码分配密钥数据，记录客户端的识别码与密钥数据的对应关系。

可选地，水印嵌入模块202，用于：

根据密钥数据进行哈希运算，获取第一哈希码；

将第一哈希码与二进制数据的位数P进行求余运算，将运算结果作为嵌入位。

可选地，二进制水印记录有客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息。

可选地，水印嵌入模块202，用于：

将M个二进制数据与密钥数据进行哈希运算，获取M个第二哈希码；

将M个第二哈希码分别与二进制水印的位数N进行求余运算产生N个分组编号，根据N个分组编号将M个二进制数据分为N组二进制数据。

可选地，水印嵌入模块202，用于：

将密钥数据分别与每个二进制数据进行哈希运算，获取M个第二哈希码；

将二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。

可选地，水印嵌入模块202，用于比较第X组中每个二进制数据中第L位的数值与二进制水印的第X位的数值，获得数值一致的数量A和数值不一致的数量U；

并且，水印嵌入模块202，用于筛除第X组中E个二进制数据，其中，E满足以下公式：A>U-E。可选地，E取满足公式A>U-E的最小值；或者，E进一步满足以下公式：A/(U-E)≥T，其中，T为大于1的预设的阈值

以下请参见图8，图8是根据本发明实施例的数据处理装置的装置结构示意图，该数据处理装置设置在水印服务器102，用于在泄露的待处理数据中获取二进制水印，其包括：

接收模块301，用于接收Z个待处理数据；

水印提取模块302，用于：

将Z个待处理数据转换为Z个二进制数据，其中每个二进制数据的位数均为P位；

确定二进制水印的嵌入位，其中嵌入位为P位中的第L位，1≤T≤P；

将Z个二进制数据分成N组，N为二进制水印的位数；

统计第X组中的二进制数据在嵌入位的数值是第一数值的数量Q，以及是第二数值的数量W，在Q>W时，确定嵌入到第X组的二进制水印的数值是第一数值，在Q＜W时，确定嵌入到第X组的二进制水印的二进制值是第二数值，X为变量，1≤X≤N。

可选地，接收模块301，用于接收客户端的识别码和Z个待处理数据；

水印提取模块302，用于从客户端的识别码与密钥数据的对应关系中查找客户端的识别码对应的密钥数据。

可选地，水印提取模块302，用于：根据密钥数据进行哈希运算，获取第一哈希码，并将第一哈希码与二进制数据的位数P进行求余运算，将运算结果作为嵌入位。

可选地，二进制水印记录有客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息，水印提取模块302，用于：从二进制水印提取客户端的识别码、数据提供方的识别码以及产生二进制水印的时间信息。

可选地，水印提取模块302，用于将密钥数据分别与每个二进制数据进行哈希运算，获取Z个第二哈希码；将二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。

可选地，水印提取模块302，用于：

在第X组中：

在满足Q/W>(T+V-1)/V时，确定嵌入到第X组的二进制水印的数值是第一数值，其中，T是阈值，且T是大于1或等于1的正数，V是正整数；

在满足W/Q>(T+V-1)/V时，确定嵌入到第X组的二进制水印的数值是第二数值。

可选地，T＝1，V＝1。

可选地，T>1，V>1。

本发明实施例进一步提供一种计算机，具体请参见图9，图9是根据本发明实施例的计算机设备的装置结构示意图，其中图9的计算机40可为以上揭示的水印服务器102，如图9所示，计算机40包括处理器401和存储器403，处理器401和存储器403分别连接至总线402，存储器403存储有程序，处理器401运行程序，以执行图3及其对应描述所揭示的方法。

本发明实施例进一步提供一种计算机，具体请参见图10，图10是根据本发明实施例的计算机设备的装置结构示意图，其中图10的计算机50可为以上揭示的水印服务器102，如图10所示，计算机设备50包括处理器501和存储器503，处理器501和存储器503分别连接至总线502，存储器503存储有程序，处理器501运行程序，以执行图5及其对应描述所揭示的方法。

需说明的是，以上描述的任意装置实施例都仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置或单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据处理方法，其特征在于，所述方法用于将二进制水印嵌入到待处理数据中，所述方法包括：

接收数据提供方发送的M个待处理数据；

将所述M个待处理数据转换为M个二进制数据，其中每个二进制数据的位数均为P位；

产生所述二进制水印，其中所述二进制水印的位数为N位；

确定所述二进制水印的嵌入位，所述嵌入位为所述P位中的第L位，1≤T≤P；

将所述M个二进制数据分成N组，所述二进制水印的第1至N位分别嵌入到第1至N组中的每个二进制数据的第L位，相同分组的二进制数据的第L位对应所述二进制水印的相同位；

筛除第X组二进制数据中的部分二进制数据，其中，所述筛除的二进制数据的第T位上的数值与所述二进制水印的第X位上的数值不一致，所述X为变量，1≤X≤N；

将未被筛除的二进制数据对应的待处理数据发送至客户端。
根据权利要求1所述的数据处理方法，其特征在于，

所述接收数据提供方发送的M个待处理数据，包括：

接收数据提供方发送的所述客户端的识别码和M个待处理数据；

所述方法还包括：

针对所述客户端的识别码分配密钥数据，记录所述客户端的识别码与所述密钥数据的对应关系。
根据权利要求2所述的数据处理方法，其特征在于，所述确定所述二进制水印的嵌入位，包括：

根据所述密钥数据进行哈希运算，获取第一哈希码；

将所述第一哈希码与所述二进制数据的位数P进行求余运算，将运算结果作为所述嵌入位。
根据权利要求2或3所述的数据处理方法，其特征在于，所述二进制水印记录有所述客户端的识别码、所述数据提供方的识别码以及产生所述二进制水印的时间信息。
根据权利要求2至4任一项所述的数据处理方法，其特征在于，所述将所述M个二进制数据分成N组，包括：

将所述密钥数据分别与每个二进制数据进行哈希运算，获取M个第二哈希码；

将所述二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将所述M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。
根据权利要求2至5任一项所述的数据处理方法，其特征在于，所述筛除第X组二进制数据中的部分二进制数据，包括：

比较所述第X组中每个二进制数据中第L位的数值与所述二进制水印的第X位的数值，获得数值一致的数量A和数值不一致的数量U；

筛除所述第X组中E个二进制数据，其中，所述E满足以下公式：A>U-E。
根据权利要求6所述的数据处理方法，其特征在于，所述E取满足所述公式A>U-E 的最小值；或者，

所述E进一步满足以下公式：A/(U-E)≥T，其中，所述T为大于1的预设的阈值。
一种数据处理方法，其特征在于，所述方法用于从待处理数据中获取二进制水印，所述方法包括：

接收Z个待处理数据；

将所述Z个待处理数据转换为Z个二进制数据，其中每个二进制数据的位数均为P位；

确定所述二进制水印的嵌入位，其中所述嵌入位为所述P位中的第L位，1≤T≤P；

将所述Z个二进制数据分成N组，N为所述二进制水印的位数；

统计第X组中的二进制数据在所述嵌入位的数值是第一数值的数量Q，以及是第二数值的数量W，在Q>W时，确定嵌入到第X组的所述二进制水印的第X位的数值是所述第一数值，在Q＜W时，确定嵌入到第X组的所述二进制水印的第X位的数值是所述第二数值，所述X为变量，1≤X≤N。
根据权利要求8所述的数据处理方法，其特征在于，

所述接收Z个待处理数据，包括：

接收客户端的识别码和Z个待处理数据；

所述方法还包括：

从记录的所述客户端的识别码与密钥数据的对应关系中查找所述客户端的识别码对应的所述密钥数据。
根据权利要求9所述的数据处理方法，其特征在于，所述确定所述二进制水印的嵌入位，包括：

根据所述密钥数据进行哈希运算，获取第一哈希码；

将所述第一哈希码与所述二进制数据的位数P进行求余运算，将运算结果作为所述嵌入位。
根据权利要求9或10所述的数据处理方法，其特征在于，所述二进制水印记录有所述客户端的识别码、所述数据提供方的识别码以及产生所述二进制水印的时间信息，所述方法还包括：

从所述二进制水印提取所述客户端的识别码、所述数据提供方的识别码以及产生所述二进制水印的时间信息。
根据权利要求9至11任一项所述的数据处理方法，其特征在于，所述将所述Z个二进制数据分成N组，包括：

将所述密钥数据分别与每个二进制数据进行哈希运算，获取Z个第二哈希码；

将所述二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将所述M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。
根据权利要求9至12任一项所述的数据处理方法，其特征在于，所述统计第X组中的二进制数据在所述嵌入位的数值是第一数值的数量Q，以及是第二数值的数量W，在Q>W时，确定嵌入到第X组的所述二进制水印的第X位的数值是所述第一数值，在Q＜W时，确定嵌入到第X组的所述二进制水印的第X位的数值是所述第二数值，包括：

在所述第X组中：

在满足Q/W>(T+V-1)/V时，确定嵌入到所述第X组的所述二进制水印的第X位的数值是所述第一数值，其中，T是阈值，且T是大于1或等于1的正数，V是正整数；

在满足W/Q>(T+V-1)/V时，确定嵌入到所述第X组的所述二进制水印的第X位的数值是所述第二数值。
根据权利要求13所述的数据处理方法，其特征在于，T>1，V>1。
根据权利要求14所述的数据处理方法，其特征在于，V＝2。
一种数据处理装置，其特征在于，所述装置用于将二进制水印嵌入到待处理数据中，所述装置包括：

接收模块，用于接收数据提供方发送的M个待处理数据；

水印嵌入模块，用于

将所述M个待处理数据转换为M个二进制数据，其中每个二进制数据的位数均为P位；

产生所述二进制水印，其中所述二进制水印的位数为N位；

确定所述二进制水印的嵌入位，所述嵌入位为所述P位中的第L位，1≤T≤P；

将所述M个二进制数据分成N组，所述二进制水印的第1至N位分别嵌入到第1至N组中的每个二进制数据的第L位，相同分组的二进制数据的第L位对应所述二进制水印的相同位；

筛除第X组二进制数据中的部分二进制数据，其中，所述筛除的二进制数据的第T位上的数值与所述二进制水印的第X位上的数值不一致，所述X为变量，1≤X≤N；

发送模块，用于将未被筛除的二进制数据对应的待处理数据发送至客户端。
根据权利要求16所述的数据处理装置，其特征在于，

所述接收模块，用于接收数据提供方发送的客户端的识别码和M个待处理数据；

所述水印嵌入模块，用于针对所述客户端的识别码分配密钥数据，记录所述客户端的识别码与所述密钥数据的对应关系。
根据权利要求17所述的数据处理装置，其特征在于，所述水印嵌入模块，用于：

根据所述密钥数据进行哈希运算，获取第一哈希码；

将所述第一哈希码与所述二进制数据的位数P进行求余运算，将运算结果作为所述嵌入位。
根据权利要求17或18所述的数据处理装置，其特征在于，所述二进制水印记录有所述客户端的识别码、所述数据提供方的识别码以及产生所述二进制水印的时间信息。
根据权利要求17至19任一项所述的数据处理装置，其特征在于，所述水印嵌入模块，用于：

将所述密钥数据分别与每个二进制数据进行哈希运算，获取M个第二哈希码；

将所述二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将所述M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。
根据权利要求17至20任一项所述的数据处理装置，其特征在于，所述水印嵌入模块，用于：

比较所述第X组中每个二进制数据中第L位的数值与所述二进制水印的第X位的数值，获得数值一致的数量A和数值不一致的数量U；

筛除所述第X组中E个二进制数据，其中，所述E满足以下公式：A>U-E。
根据权利要求17至21任一项所述的数据处理装置，其特征在于，所述E取满足所述公式A>U-E的最小值；或者，

所述E进一步满足以下公式：A/(U-E)≥T，其中，所述T为大于1的预设的阈值。
一种数据处理装置，其特征在于，用于在待处理数据中获取二进制水印，包括：

接收模块，用于接收Z个待处理数据；

水印提取模块，用于：

将所述Z个待处理数据转换为Z个二进制数据，其中每个二进制数据的位数均为P位；

确定所述二进制水印的嵌入位，其中所述嵌入位为所述P位中的第L位，1≤T≤P；

将所述Z个二进制数据分成N组，N为所述二进制水印的位数；

统计第X组中的二进制数据在所述嵌入位的数值是第一数值的数量Q，以及是第二数值的数量W，在Q>W时，确定嵌入到第X组的所述二进制水印的第X位的数值是所述第一数值，在Q＜W时，确定嵌入到第X组的所述二进制水印的第X位的数值是所述第二数值，所述X为变量，1≤X≤N。
根据权利要求23所述的数据处理装置，其特征在于，

所述接收模块，用于：

接收客户端的识别码和Z个待处理数据；

所述水印提取模块，用于：

从所述客户端的识别码与所述密钥数据的对应关系中查找所述客户端的识别码对应的所述密钥数据。
根据权利要求24所述的数据处理装置，其特征在于，所述水印提取模块，用于：

根据所述密钥数据进行哈希运算，获取第一哈希码；

将所述第一哈希码与所述二进制数据的位数P进行求余运算，将运算结果作为所述嵌入位。
根据权利要求24或25所述的数据处理装置，其特征在于，所述二进制水印记录有所述客户端的识别码、所述数据提供方的识别码以及产生所述二进制水印的时间信息，所述水印提取模块，用于：

从所述二进制水印提取所述客户端的识别码、所述数据提供方的识别码以及产生所述二进制水印的时间信息。
根据权利要求24至26任一项所述的数据处理装置，其特征在于，所述水印提取模块，用于：

将所述密钥数据分别与每个二进制数据进行哈希运算，获取Z个第二哈希码；

将所述二进制水印的位数N分别与每个第二哈希码进行求余运算，根据运算结果将所述M个二进制数据分为N组，其中，每个二进制数据对应一个分组编号。
根据权利要求24至27任一项所述的数据处理装置，其特征在于，所述水印提取模块，用于：

在所述第X组中：

在满足Q/W>(T+V-1)/V时，确定嵌入到所述第X组的所述二进制水印的数值是所述第一数值，其中，T是阈值，且T是大于1或等于1的正数，V是正整数；

在满足W/Q>(T+V-1)/V时，确定嵌入到所述第X组的所述二进制水印的的数值是所述第二数值。
根据权利要求28所述的数据处理装置，其特征在于，T>1，V>1。
根据权利要求29任一项所述的数据处理装置，其特征在于，V＝2。
一种计算机，其特征在于，包括处理器和存储器，所述存储器存储有程序，所述处理器运行所述程序，以执行权利要求1至7任一项所述的方法。
一种计算机，其特征在于，包括处理器和存储器，所述存储器存储有程序，所述处理器运行所述程序，以执行权利要求8至15任一项所述的方法。