WO2015184643A1

WO2015184643A1 - 数据整合方法以及装置

Info

Publication number: WO2015184643A1
Application number: PCT/CN2014/079378
Authority: WO
Inventors: 刘诗凯; 冯杰
Original assignee: 华为技术有限公司
Priority date: 2014-06-06
Filing date: 2014-06-06
Publication date: 2015-12-10
Also published as: EP3142019A1; EP3142019A4; US20170083555A1; US10621155B2

Abstract

数据整合方法以及装置，其中，该方法包括：对第一数据源A进行至少两次抽样以得到第一抽样数据源a以及第二抽样数据源a'；分别统计所述第一数据源、第二数据源、第一抽样数据源、第二抽样数据源中每个属性字段的指标；根据所述第一抽样数据源的属性字段X _i的指标与所述第二抽样数据源的每个属性字段X _i的指标的差异度确定所述第一数据源A的属性字段X _i的决策值；将第二数据源B中与所述第一数据源的属性字段X _i的差异度小于所述决策值的属性字段映射到所述第一数据源的属性字段X _i。通过上述方式，能够自动实现相同属性字段之间的映射，提高工作效率。

Description

数据整合方法以及装置

【技术领域】本申请涉及数据处理领域，特别是涉及一种数据整合方法以及装置。【背景技术】生产和生活中经常遇到需要将两个不同的数据源整合的状况，例如，运营商有时候需要将客户关系管理系统中的数据和计费系统中的数据进行整合，但是，由于客户的数量可能数以千万计，客户关系管理系统以及计费系统中需要建立数以千万计的记录，每个记录中还包括年龄、收入等多个属性字段 (大型的系统的属性字段可多达上千)，而且不同系统对相同属性开可能釆用不同的属性名，使得数据整合成为一个非常耗时且效率低的工作。

【发明内容】本申请提供一种数据整合方法以及装置，能够自动实现相同属性字段之间的映射，提高工作效率。

本申请第一方面提供一种数据整合装置，包括抽样模块、统计模块、第一获得模块、确定模块、第二获得模块及映射模块，所述抽样模块用于对第一数据源 ^进行至少两次抽样以得到第一抽样数据源 a以及第二抽样数据源 , 并将所述第一抽样数据源 a以及第二抽样数据源发送给所述统计模块；所述统计模块用于分别统计所述第一数据源 Α的每个属性字段 A， X₂ , .·· , ^的指标、所述第一抽样数据源的每个属性字段 ^ , X₂ , .·· , 指标、所述第二抽样数据源的每个属性字段 , χ₂ , ... , „的指标以及第二数据源的每个属性字段 } , Υ₂ , 1 的指标，并将统计的所述指标发送给所述第一获得模块和第二获得模块，其中， "为所述第一数据源 A、所述第一抽样数据源以及所述第二抽样数据源的属性字段的数量，为所述第二数据源 B的属性字段的数量，所述指标用于表征所述属性字段的数据特征；所述第一获得模块用于获得所述第一抽样数据源 a的属性字段 X_t的指标与所述第二抽样数据源的相同的属性字段 ,.的指标间的差异度，以及所述第一抽样数据源 a的属性字段^的指标分别与所述第二抽样数据源 '的不同的属性字段的指标间的差异度，并将获得的所述差异度发送给所述确定模块，其中，为自由变量，且 = 1,2,3, ..·, η , 所述不同的属性字段为所述第二抽样数据源 _α'的属性字段中除 ,.外的所有属性字段；所述确定模块用于根据所述第一抽样数据源的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值，并将所述第一数据源 Α的属性字段 ,.的决策值发送给所述映射模块，所述决策值为判断是否与所述第一数据源 ^的属性字段 .为相同属性的差异度阔值；所述第二获得模块用于获得所述第一数据源 Α的属性字段 ,.的指标分别与所述第二数据源 Β的每个属性字段 Υ₂ , 1 的指标间的差异度，并将获得的差异度发送给所述映射模块；所述映射模块用于将所述第二数据源中与所述第一数据源 A的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段 ,.。

结合第一方面，本申请第一方面的第一种可能的实施方式为：所述指标包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

结合第一方面或第一种可能的实施方式，本申请第一方面的第二种可能的实施方式为：所述差异度包括：指标间的差值，或指标间的比值，或指标间的误差率。

结合第一方面或第一或第二种可能的实施方式，本申请第一方面的第三种可能的实施方式为：所述确定模块具体用于将所述第一抽样数据源 a的属性字段 ,.和第二抽样数据源中相同属性字段 .的指标间的差异度作为相同属性样本，将第一抽样数据源 a的属性字段 ,.和第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本，釆用决策树算法对所述相同属性样本和所述不同属性样本进行分类建模，得到所述第一数据源 Α的属性字段 ,.的决策值。结合第一方面或第一至第三任一种可能的实施方式，本申请第一方面的第四种可能的实施方式为：还包括输出模块，所述输出模块用于在所述第二数据源 B中与所述第一数据源 ^的属性字段 x_t的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时，输出所述第二数据源中与所述第一数据源 ^的属性字段 .的指标间的差异度小于所述决策值的属性字段以供用户选择。

本申请第二方面提供一种数据整合装置，包括处理器以及输入接口和输出接口，所述输入接口用于将第一数据源 ^和第二数据源 B提供给所述处理器；所述处理器用于：对所述第一数据源 ^进行至少两次抽样以得到第一抽样数据源 a以及第二抽样数据源 '; 分别统计所述第一数据源 Α的每个属性字段， X₂ , .··, ^的指标、所述第一抽样数据源的每个属性字段 ,

X₂ , ^的指标、所述第二抽样数据源的每个属性字段 ^, χ₂ , ..· , „的指标以及第二数据源的每个属性字段 } , Υ₂ , .··, } 的指标，其中， «为所述第一数据源^ 4、所述第一抽样数据源以及所述第二抽样数据源的属性字段的数量，为所述第二数据源 S的属性字段的数量，所述指标用于表征所述属性字段的数据特征；获得所述第一抽样数据源的属性字段 ,. 的指标与所述第二抽样数据源 _Ω '的相同的属性字段 ,.的指标间的差异度，以及所述第一抽样数据源的属性字段 X_t的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度，其中，为自由变量，且 = 1,2,3,···,η , 所述不同的属性字段为所述第二抽样数据源的属性字段中除 ,.外的所有属性字段；根据所述第一抽样数据源的属性字段 .的指标与所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源 _α的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的决策值 , 所述决策值为判断是否与所述第一数据源 ^的属性字段 Xi为相同属性的差异度阔值；获得所述第一数据源 ^的属性字段 .的指标分别与所述第二数据源 S的每个属性字段 } , Y₂ , 1 的指标间的差异度；将所述第二数据源 S中与所述第一数据源 ^的属性字段 X_t的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段 ,.; 所述输出接口用于输出映射后得到的所述第一数据源 A。

结合第二方面，本申请第二方面的第一种可能的实施方式为：所述指标包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

结合第二方面或第一种可能的实施方式，本申请第二方面的第二种可能的实施方式为：所述差异度包括：指标间的差值，或指标间的比值，或指标间的误差率。

结合第二方面或第一或第二种可能的实施方式，本申请第二方面的第三种可能的实施方式为：所述处理器用于根据所述第一抽样数据源 a的属性字段 .的指标与所述第二抽样数据源的相同的属性字段 ,.的指标间的差异度，以及，所述第一抽样数据源的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值具体包括：所述处理器具体用于将所述第一抽样数据源的属性字段 X_t和第二抽样数据源 '中相同属性字段 X_t的指标间的差异度作为相同属性样本，将第一抽样数据源 a的属性字段 ,.和第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本，釆用决策树算法对所述相同属性样本和所述不同属性样本进行分类建模，得到所述第一数据源 ^的属性字段 X_t的决策值。

结合第二方面或第一至第三任一种可能的实施方式，本申请第二方面的第四种可能的实施方式为：所述处理器还用于在所述第二数据源 S中与所述第一数据源 ^的属性字段 .的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时 ,通过所述输出接口输出所述第二数据源 S中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择。

本申请第三方面提供一种数据整合方法，包括：对第一数据源 ^进行至少两次抽样以得到第一抽样数据源 a以及第二抽样数据源 _Ω '；分别统计所述第一数据源 ^的每个属性字段 , X₂ , 的指标、所述第一抽样数据源的每个属性字段 , Χ₂ , ^的指标、所述第二抽样数据源 '的每个属性字段 A , X₂ , …， „的指标以及第二数据源的每个属性字段 } , Y₂ , ... , 1 的指标，其中， "为所述第一数据源 ^、所述第一抽样数据源以及所述第二抽样数据源的属性字段的数量，为所述第二数据源 Β的属性字段的数量，所述指标用于表征所述属性字段的数据特征；获得所述第一抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段^的指标间的差异度，以及所述第一抽样数据源 a的属性字段^的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度，其中，为自由变量，且 = l, 2, 3,〜, n , 所述不同的属性字段为所述第二抽样数据源的属性字段中除 ,.外的所有属性字段；根据所述第一抽样数据源的属性字段 .的指标与所述第二抽样数据源的相同的属性字段 ,.的指标间的差异度，以及，所述第一抽样数据源的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 Xi的决策值 , 所述决策值为判断是否与所述第一数据源 ^的属性字段 Xi为相同属性的差异度阔值；获得所述第一数据源 ^的属性字段 Xi的指标分别与所述第二数据源 S的每个属性字段 } , Y₂ , } 的指标间的差异度；将所述第二数据源 Β中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段

Xi。

结合第三方面，本申请第三方面的第一种可能的实施方式为：所述指标包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

结合第三方面或第一种可能的实施方式，本申请第三方面的第二种可能的实施方式为：所述差异度包括：指标间的差值，或指标间的比值，或指标间的误差率。

结合第三方面或第一或第二种可能的实施方式，本申请第三方面的第三种可能的实施方式为：所述根据所述第一抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,. 的决策值具体包括：将所述第一抽样数据源的属性字段 .和第二抽样数据源 '中相同属性字段 x_t的指标间的差异度作为相同属性样本，将第一抽样数据源 a的属性字段 ,.和第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本，釆用决策树算法对所述相同属性样本和所述不同属性样本进行分类建模，得到所述第一数据源 Α的属性字段 ,.的决策值。

结合第三方面或第一至第三任一种可能的实施方式，本申请第三方面的第四种可能的实施方式为：如果所述第二数据源 S中与所述第一数据源 A 的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2, 则输出所述第二数据源 S中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择。

上述方案在需要将第二数据源的数据映射到第一数据源的时候，从第一数据源中分别进行至少两次抽样以获得第一抽样数据源以及第二抽样数据源，再分别统计两个抽样数据源的每个属性字段的指标，将第一抽样数据源的某个属性字段的指标分别与第二抽样数据源的所有属性字段的指标相减以获得第一数据源的这个属性字段分别与第二数据源的每个属性字段的差异度，再根据第一抽样数据源的这个属性字段的指标与第二抽样数据源的相同的属性字段的指标的差异度，以及，第一抽样数据源的这个属性字段的指标分别与第二抽样数据源的不同的属性字段的指标的差异度确定第一数据源的属性字段的决策值，再将第二数据源中与第一数据源的这个属性字段的差异度小于决策值的属性字段映射到第一数据源的这个属性字段。因为本方案能够实现自动将一个数据源的属性字段映射到另一个数据源的相同属性字段，比人工实现的数据融合方便，而且大大提升了效率。

【附图说明】图 1是本申请数据整合装置一实施方式的结构示意图；

图 2是本申请数据整合装置另一实施方式的结构示意图；

图 3是本申请数据整合装置再一实施方式的结构示意图；

图 4是本申请数据整合方法一实施方式的流程图；

【具体实施方式】以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施方式中也可以实现本申请。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

参阅图 1 , 图 1是本申请数据整合装置一实施方式的流程图。本实施方式中，该数据整合装置包括抽样模块 110、统计模块 120、第一获得模块 130、确定模块 140、第二获得模块 150及映射模块 160。

抽样模块 110 用于对第一数据源 ^进行至少两次抽样以得到第一抽样数据源 a以及第二抽样数据源 ' , 并将所述第一抽样数据源 a以及第二抽样数据源发送给所述统计模块 120。

本申请数据整合装置用于将第一数据源 ^和第二数据源 Β中的相同属性数据进行整合，其中，第一数据源第二数据源 S可以为数据库或文件。本实施方式中，数据整合装置直接对作为文件的数据源进行数据整合，当数据源为数据库时，数据整合装置先将数据库中数据导出为文件再执行数据整合。需要说明的是，本申请中第一数据源第二数据源并不限定为数据库或文件，在其他实施方式中，本申请中的数据源可以为其他类型的数据源如 web数据源，数据整合装置也未必限定为直接对文件数据源进行数据整合，也可直接对数据库数据源进行数据整合，故在此对本申请数据源类型不作具体限定。

本实施方式中，第一数据源^ 4、第二数据源 B分别具有多条记录，每条记录具有多种属性字段，例如，用于记录不同客户信息的第一数据源^ 4、第二数据源 S中均具有电话、年龄等属性字段，在不同客户的信息中，对应记录该客户的电话号码和年龄。在实际应用中如电信运营商的业务系统中，第一数据源以及第二数据源包含的记录可达数十万条，甚者可超过 1 千万条，每条记录所包含的属性字段可超过 1 千种。可以理解的是，数据源中的属性字段互不相同，以区别不同属性。

抽样模块 110对第一数据源 A进行至少两次抽样，本实施方式优选为进行两次随机抽样，第一次抽样得到的数据作为第一抽样数据源^ 第二次抽样得到的数据作为第二抽样数据源 ^。其中，考虑到后续决策的准确度和数据整合装置的运算量，每次的抽样规模一般为数据源记录总条数的

10%-30%, 优选为 20%。例如，第一数据源 ^共有 lOOOw条记录，两次均从第一数据源 A中随机抽取 200W条记录，以分别获得第一抽样数据源 a、第二抽样数据源 '。

统计模块 120 用于分别统计所述第一数据源 ^的每个属性字段 A , x₂, ^的指标、所述第一抽样数据源的每个属性字段 ^, χ₂, ..·, 指标、所述第二抽样数据源的每个属性字段 , χ₂, ..., „的指标以及第二数据源的每个属性字段 } , Υ₂ , 1 的指标，并将统计的所述指标发送给所述第一获得模块 130和第二获得模块 150, 其中， "为所述第一数据源 A、所述第一抽样数据源 a以及所述第二抽样数据源 a'的属性字段的数量，为所述第二数据源 S的属性字段的数量，所述指标用于表征所述属性字段的数据特征，例如包括所述属性字段中的数据的标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

其中，将统计的指标发送给第一获得模块 130和第二获得模块 150具体为：将统计的第一抽样数据源的每个属性字段 A , Χ₂, ..., „的指标和第二抽样数据源 '的每个属性字段 χ₂, ..., „的指标发送到第一获得模块 130, 将统计的第一数据源 ^的每个属性字段 , Χ₂, ..., „的指标和第二数据源 Β的每个属性字段 γ₂, ..., } 的指标发送给第二获得模块 150。

需要说明的是，虽然第一数据源 ^，第一抽样数据源以及第二抽样数据源中包含的属性字段是相同的，但是在统计各属性字段的指标时所针对的数据范围是不同的。其中，统计的第一数据源 ^中的各属性字段的指标是针对第一数据源 Α中包含的数据记录来统计的，统计的第一抽样数据源 a 中的各属性字段的指标是针对第一抽样数据源中包含的数据记录来统计的，统计的第二抽样数据源中的各属性字段的指标是针对第二抽样数据源中包含的数据记录来统计的。

统计模块 120分别对第一数据源 A、第二数据源 B以及对抽样模块 110 从第一数据源 A抽样得到的第一抽样数据源、第二抽样数据源 '中的所有属性字段的指标进行统计。例如，第一数据源 ^包括 lOOOw条记录，第二数据源 B包括 800w条记录，第一抽样数据源、第二抽样数据源 _a '均包括 200w条记录。统计模块 120统计在第一数据源 ^的 lOOOw条记录中属性字段 A的具体数据的特征如标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中的至少一个，作为第一数据源 ^ 的属性字段 ^的指标。并以此类推，统计模块 120 根据第一数据源 ^的 lOOOw记录统计得到第一数据源 ^其余所有属性字段 ₂ , .·· , 的指标。类似地，统计模块 120根据第二数据源 B的 800w条记录统计得到第二数据源 S每个属性字段的指标，根据第一抽样数据源的 200w条记录得到第一抽样数据源每个属性字段的指标，根据第二抽样数据源的 200w条记录得到第二抽样数据源 _Ω '每个属性字段的指标。

可以理解的是，本申请中每个属性字段的指标类型即数据特征类型应选取为相同的。并且，为便于说明，本申请将第一数据源 ^、第一抽样数据源、第二抽样数据源 '的其中一个属性字段用 ,.表示。其中，为自由变量， JU = l, 2, 3,'", n。

第一获得模块 130 用于获得所述第一抽样数据源的属性字段 ,.的指标与所述第二抽样数据源 '的相同的属性字段 X_t的指标间的差异度，以及所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度，并将获得的所述差异度发送给所述确定模块 140, 其中，所述不同的属性字段为所述第二抽样数据源的属性字段中除 ,.外的所有属性字段。

其中，差异度用于表征被比较的指标间的差距大小。在实际应用中，差异度可以釆用被比较的指标间的差值，或者被比较的指标间的比值，或者被比较的指标间的误差率等来表示。

例如，假设统计模块 120统计得到的指标包括标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值共 9个指标，第一抽样数据源^ 第二抽样数据源包括六个属性字段，第一抽样数据源、第二抽样数据源的六个属性字段的指标情况如下表 1、 2, (下表 1为第一抽样数据源的属性字段的指标情况，下表 2为第二抽样数据源的属性字段的 A - ₆的指标情况）：

表 1

表 2

第一获得模块 130将第一抽样数据源的属性字段；^的标准差与第二抽样数据源的属性字段的标准差相减，得到第一抽样数据源 a的属性字段 A的标准差与第二抽样数据源的属性字段的标准差间的差异度，以此类推，将第一抽样数据源的属性字段 ^的方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值等每个指标与第二抽样数据源的属性字段的对应指标相减，得到第一抽样数据源 a的属性字段 ^的 9个指标分别与第二抽样数据源的属性字段的对应指标间的差异度，如依据上表数据，第一抽样数据源的属性字段与第二抽样数据源的属性字段 Α的标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值间的差异度依序为 1.997、 168393、 0.000734、 0、 0.002、 0、 0.06、 0、 0。同理地，第一获得模块 130获得第一抽样数据源的属性字段的指标与第二抽样数据源 '的其他不同的属性字段 X₂ , …， ^的对应指标的差异度。

类同上述方式，第一获得模块 130获得第一抽样数据源《的每个属性字段的指标分别与第二抽样数据源的属性字段 , Χ₂ , ... , „的对应指标间的差异度。

上述实施例中，釆用的是差值来表示差异度，可以理解的是，第一获得模块除了釆用将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源的每个属性字段的指标相减，以得到第一抽样数据源 a的属性字段 X,的指标与第二抽样数据源 '的每个属性字段的指标间的差异度的方式外，还可釆用比值、误差率或者其他数据比较方式来表示差异度。例如，在其他实施方式中，第一获得模块将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源 '的每个属性字段的指标相除，或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源的每个属性字段的指标相减再将得到的差值与第一抽样数据源 a的属性字段 ,.的指标相除以得到误差率，或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源 _α，的每个属性字段的指标和第一抽样数据源 a的属性字段 ,.的指标的和相除等数据比较方式，以得到第一抽样数据源的属性字段 ,.的指标与第二抽样数据源 '的每个属性字段的指标间的差异度，故在此对差异度的获取不作具体限定。

需要说明的是，釆用差值时，通常情况下是以差值的绝对值来表示差异度。

确定模块 140 用于根据所述第一抽样数据源的属性字段的指标与所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的决策值，并将所述第一数据源 A的属性字段 ,.的决策值发送给所述映射模块 160。

例如，确定模块 140将所述第一抽样数据源的属性字段 ,.和第二抽样数据源 '中相同属性字段 ,.的指标间的差异度作为第一数据源 ^的属性字段 ,.的相同属性样本，将第一抽样数据源 a的属性字段 ,.和第二抽样数据源 α'中不同属性字段的指标间的差异度作为第一数据源 Α的属性字段 ,.的不同属性样本。具体地，第一抽样数据源的属性字段与第二抽样数据源的属性字段的指标间的差异度作为第一数据源 A的属性字段 A的相同属性样本，第一抽样数据源 a的属性字段与第二抽样数据源的非 Α的其他属性字段即 ₂ , .··, ^的指标间的差异度作为第一数据源 ^的属性字段 A的不同属性样本。同理，确定模块 140得到第一数据源 ^的其他属性字段 ₂ , .·· , „的相同属性样本和不同属性样本。

确定模块 140 可釆用决策树（英文： Decision Tree ) 算法如 DecisionTree4.5算法，对上述获得的样本进行分类建模，得到第一数据源 ^ 的属性字段 Xi的决策值 , 所述决策值即为判断是否与第一数据源 ^的属性字段 ,.为相同属性的差异度阔值。

优化地，所述决策值作为判断是否为相同属性的标准，为降低后续判断的运算量，所述决策值可为误差率，在此情况下，差异度也釆用误差率来表示。例如，确定模块 140在获得第一抽样数据源的每个属性字段的指标分别与第二抽样数据源的每个属性字段的指标的差值后，将第一抽样数据源的属性字段 X_t的指标与第二抽样数据源 '的每个属性字段 , X₂ , ^的指标的差值，与第一抽样数据源的该属性字段 .的指标间的比值分别作为第一抽样数据源 a的该属性字段 ,.的指标分别与第二抽样数据源的每个属性字段 , Χ₂ , ... , „的指标间的误差率。确定模块 140 将第一、第二抽样数据源中相同属性字段的指标间的误差率作为相同属性样本，将第一、第二抽样数据源中不同属性字段的指标间的误差率作为不同属性样本。具体地，第一抽样数据源的属性字段与第二抽样数据源的属性字段 Α的指标间的误差率作为第一数据源 A的属性字段 A的相同属性样本，如，根据上表计算得到该样本为 "0.1% I 0.2% I 0.04% I 0% I 0.2% | 0% I 0.06% I 0% I 0%"。第一抽样数据源的属性字段 ^与第二抽样数据源非 ^的其他属性字段 ₂ , .·· , ^的指标间的误差率作为第一数据源 ^的属性字段 ^的不同属性样本。同理，确定模块 140计算第一抽样数据源的属性字段 ₂ , .·· , „分别与第二抽样数据源的每个属性字段的指标的误差率，得到第一数据源 ^的其余属性字段 ₂ , .·· , 的相同属性样本和不同属性样本。

确定模块 140在分类建模前，还可根据系统自定义、用户设定或者上述相同属性样本和不同属性样本的误差率情况，将不同误差率划分为几个误差率等级，例如，划分为如下 6个误差率等级：

1 : 误差率小于 1%;

2: 误差率小于 5%;

3: 误差率小于 10%;

4: 误差率小于 20%;

5: 误差率小于 50%;

6: 误差率小于 100%。

确定模块 140根据上述获得的样本的误差率情况，从上述等级临界误差率中确定出最优等级临界误差率，并作为决策值。

具体地，结合上述等级划分，对确定决策值的方式作举例说明。确定模块 140获得第一数据源 ^的属性字段的相同属性样本为 0.1% I 0.2% I 0.04% I 0% I 0.2% I 0% I 0.06% | 0% | 0%"。下面为便于说明，只选取样本中的标准差的误差率进行描述，即第一数据源 A的属性字段的相同属性样本中标准差的误差率为 0.1%。第一数据源 ^的属性字段^的不同属性样本中标准差的误差率包括第一抽样数据源的属性字段与第二抽样数据源的属性字段 ^ , .·· , ^的标准差间的误差率，分别为： 100%、 100%、 85%、 60% .·· 20%, 其中，第一数据源 ^的属性字段 A的不同属性样本中的标准差的误差率的最小值为 20%。确定模块 140确定第一数据源 ^的属性字段 ^的相同属性的标准差误差率为 0.1%, 不相同属性的标准差误差率为大于等于 20%后，从上述 6个等级中选取在 0.1%至 20%之间的等级临界误差率，即 1%、 5%、 10%, 作为可能最优等级临界误差率。确定模块 140随机或者根据接收到的用户指示从上述三个可能最优等级临界误差率中确定最优等级临界误差率，如 5%, 作为第一数据源 ^的属性字段的标准差的决策值。

类似地，确定模块 140根据第一数据源 ^的属性字段 A的相同属性样本和不同属性样本中其他指标的误差率情况，确定从上述等级临界误差率中确定属性字段 A该指标的最优等级临界误差率，作为第一数据源 ^的属性字段 A的该指标的决策值。同样地，确定模块 140根据第一数据源 ^的其他属性字段 ₂, .··, „的相同属性样本和不同属性样本中指标的误差率情况，确定从上述等级临界误差率中确定其他属性字段；^, .··, 的每个指标的最优等级临界误差率，作为第一数据源 ^的其他属性字段 ₂, .··, X_n 的该指标的决策值。

根据上述确定决策值方式，确定模块 140获得第一数据源 A的属性字段 ,.的决策值，如具体为：对应标准差误差率的决策值为 5%、对应方差误差率的决策值为 20%、对应均值标准差的决策值为 5%, 即当第二数据源的属性字段与第一数据源的属性字段 Ί的标准差误差率小于 5%、方差误差率小于 20%且举止标准差小于 5%时，认为第一数据源的属性字段 ,.和第二数据源的属性字段为相同属性，其中，为自由变量，且 · = 1,2,3,···, m。

第二获得模块 150用于获得所述第一数据源 ^的属性字段 .的指标分别与所述第二数据源 B的每个属性字段 Y₂, 1 的指标间的差异度，并将获得的差异度发送给所述映射模块 160。

例如，第二获得模块 150将第一数据源的属性字段 .的指标与第二数据源的每个属性字段 } , γ₂ , } 的指标间的差值、第一数据源的属性字段 .的指标与第二数据源的每个属性字段 } , Υ₂ , ., } 的指标间的比值、或者第一数据源的属性字段 ,.的指标与第二数据源的每个属性字段 1 , Υ₂ , ..., 1 的指标间的误差率，作为所述第一数据源的属性字段 ,.的指标分别与所述第二数据源的每个属性字段 } , Y₂ , 1 的差异度，该具体获得方式类同于第一获得模块 130获得差异度的方式，在此不作赘述。

映射模块 160 用于将所述第二数据源 S中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段 ,.。

在第二获得模块 150获得第一数据源的属性字段 ,.的指标分别与所述第二数据源的每个属性字段 Υ₂ , .·· , 1 的指标的差异度后，映射模块

160分别将上述获得的每个差异度与决策值比较，以得到第二数据源中与所述第一数据源的属性字段 ,.的差异度小于所述决策值的属性字段，并映射到所述第一数据源 Α的属性字段 ,.。

需要说明的是，在本发明实施例中，当第二数据源中没有与第一数据源的属性字段 ,.的差异度小于所述决策值的属性字段时，则表示第二数据源中不存在与第一数据源的属性字段 ^相同的属性字段，在此情况下，则不对该属性字段进行映射。

进一步地，当决策值釆用指标误差率的形式来表示时，第一数据源 ^的属性字段 .的指标分别与所述第二数据源的每个属性字段 } , Υ₂ , . , Y_m 的指标间的差异度也釆用指标的误差率来表示。映射模块 160分别将第二获得模块 150获得的每个指标误差率与确定模块 140得到的决策值比较，以获得所述第二数据源中与所述第一数据源的属性字段 ,.的差异度小于所述决策值的属性字段。例如，第一数据源 ^的属性字段的决策值为：对应标准差误差率的决策值为 5%、对应方差误差率的决策值为 20%、对应均值标准差的决策值为 5%。且第一数据源的属性字段与第二数据源的属性字段的指标误差率依序为： 0.1% I 0.2% I 0.04% I 0% I 0.2% | 0% | 0.06% | 0% I 0% | ,第一数据源的属性字段 A与第二数据源的属性字段 ₂的指标误差率依序为： 100% I 100% I 100% I 0% I 35% | 0% | 100% I 0% I 0% I , 类推得到第一数据源的属性字段与第二数据源的其他剩余属性字段的指标误差率。其中，上述的指标误差率均依序对应为标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值的误差率。

映射模块 160分别判断上述得到的标准差误差率是否小于 5%、方差误差率是否小于 20%, 均值标准差是否小于 5%, 并确定指标误差率满足上述条件的第二数据源的属性字段作为第一数据源的属性字段的相同属性，不满足上述条件的第二数据源的属性字段 ₂作为第一数据源的属性字段的不同属性，依次类推，映射模块 160确定第一数据源的属性字段与第二数据源的其他剩余属性字段间是否为相同属性的属性关系后，将第二数据源中确定为相同属性的属性字段映射到第一数据源的属性字段 , 以实现第一数据源中属性字段 4与第二数据源中属性字段的数据的整合。同理，映射模块 160确定第一数据源的剩余其他属性字段 ₂ , .·· , „与第二数据源的每个属性字段 7₂ , .·· , } 间的属性关系后，将第二数据源中确定为与属性字段 .相同的属性字段映射到第一数据源的属性字段 ,.。

区别于直接比较差值（即以差值来表示差异度），由于差值为绝对数值，第一数据源的属性字段与第二数据源不同属性字段间的指标差异度的差异可能极大，如 0.0001与 10000, 而釆用比较误差率的方式（即以误差率来表示差异度），由于误差率为相对值，第一数据源的属性字段与第二数据源不同属性字段间的指标误差率的差异必然在 0%-100%之间，故与决策值比较时，控制为 1%-100%间的运算，大大降低了运算量。

请参阅图 2 , 图 2是本申请数据整合装置另一实施方式的结构示意图。与上实施方式相比，本实施方式中的数据整合装置还包括输出模块 170, 输出模块 170 用于判断所述第二数据源 B中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量是否大于等于 2,并在所述第二数据源 B中与所述第一数据源 A的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时，输出所述第二数据源 Β 中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择。映射模块 160用于将用户选择的第二数据源的属性字段映射到所述第一数据源的属性字段 ,.。例如，在第一数据源的属性字段 Α的指标与第二数据源的属性字段 ₂的指标的差异度均小于决策值时，输出模块 170则将第二数据源的属性字段 ί、 ₂输出给用户，以由用户最终确定属性字段或作为第一数据源的属性字段 A的相同属性。在用户选择确定第二数据源的属性字段作为第一数据源的属性字段的相同属性时，映射模块 160将第二数据源的属性字段 1映射到第一数据源的属性字段 Α中。

或者，在其他实施方式中，数据整合装置也可不包括输出模块。当所述第二数据源中与所述第一数据源的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2 时，数据整合装置的映射模块自行选取第二数据源中与所述第一数据源的属性字段 ,.间的差异度偏离该决策值的程度最小的属性字段作为属性字段 ,.的相同属性，故本申请对数据整合装置在差异度小于决策值的至少两个第二数据源的属性字段中确定第一数据源的属性字段 ,.的相同属性的方式不作具体限定。

请参阅图 3 , 图 3是本申请数据整合装置再一实施方式的结构示意图。数据整合装置包括处理器 310、存储器 320、输入接口 330、输出接口 340 及总线 350, 其中，处理器 310、存储器 320、输入接口 330、输出接口 340 通过总线 350连接。

存储器 320用于存储处理器 310执行的计算机指令以及处理器 310工作时所需存储的数据。

输入接口 330用于接收第一数据源 ^和第二数据源并发送给处理器

310。

输出接口 340用于将处理器 310的数据和信息输出，如输出处理器 310 将第二数据源 B中与第一数据源 A的属性字段 .相同的属性字段映射到第一数据源 A的属性字段 .后得到的第一数据源 A。

处理器 310执行存储器 320存储的计算机指令，用于：

对所述第一数据源 A进行至少两次抽样以得到第一抽样数据源以及第二抽样数据源

分别统计所述第一数据源 ^的每个属性字段 , X₂ , 的指标、所述第一抽样数据源的每个属性字段 A , X₂ , „的指标、所述第二抽样数据源的每个属性字段 , X₂ , „的指标以及第二数据源 S的每个属性字段 } , 7₂ , .·· , 1 的指标，其中， "为所述第一数据源 ^、所述第一抽样数据源 _a以及所述第二抽样数据源 _α'的属性字段的数量， m为所述第二数据源 B的属性字段的数量，所述指标用于表征所述属性字段的数据特征，如包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个；

获得所述第一抽样数据源的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段 ^的指标间的差异度，以及所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度，其中，为自由变量，且 = l, 2, 3,〜, n , 所述不同的属性字段为所述第二抽样数据源 _Ω '的属性字段中除 ,.外的所有属性字段；

根据所述第一抽样数据源的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值，所述决策值为判断是否与所述第一数据源 ^的属性字段 X_t为相同属性的差异度阔值；获得所述第一数据源 A的属性字段 ,.的指标分别与所述第二数据源 Β 的每个属性字段 Υ₂ , 1 的指标间的差异度；

将所述第二数据源 Β中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段

Xi。

具体地，本实施方式数据整合装置用于将第一数据源 A和第二数据源 B 中的相同属性数据进行整合，其中，第一数据源^ 4、第二数据源 S如上面实施方式所述可以为但不限定为数据库或文件。

本实施方式中，第一数据源^ 4、第二数据源 Β分别具有多条记录，每条记录具有多种属性字段，例如，用于记录不同客户信息的第一数据源^ 4、第二数据源 Β中均具有电话、年龄等属性字段，在不同客户的信息中，对应记录该客户的电话号码和年龄。在实际应用中如电信运营商的业务系统中，第一数据源以及第二数据源包含的记录可达数十万条，甚者可超过 1 千万条，每条记录所包含的属性字段可超过 1 千种。可以理解的是，数据源中的属性字段互不相同，以区别不同属性。

处理器 310对第一数据源 ^进行至少两次抽样，本实施方式优选为进行两次随机抽样，第一次抽样得到的数据作为第一抽样数据源^ 第二次抽样得到的数据作为第二抽样数据源 '。其中，考虑到后续决策的准确度和数据整合装置的运算量，每次的抽样规模一般为数据源记录总条数的

处理器 310分别对第一数据源 ^、第二数据源 Β以及对从第一数据源抽样得到的第一抽样数据源 a、第二抽样数据源中的所有属性字段的指标进行统计。例如，第一数据源 ^包括 lOOOw条记录，第二数据源 B包括 800w 条记录，第一抽样数据源^ 第二抽样数据源均包括 200w条记录。处理器 310分别统计在第一数据源 ^的 lOOOw条记录中每个属性字段的具体数据的特征如标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中的至少一个，作为第一数据源 ^的每个属性字段的指标。类似地，处理器 310根据第二数据源 S的 800w条记录统计得到第二数据源 S每个属性字段的指标，根据第一抽样数据源的 200w条记录得到第一抽样数据源每个属性字段的指标，根据第二抽样数据源的 200w条记录得到第二抽样数据源每个属性字段的指标。

本实施方式， ^^设处理器 310统计得到的指标包括标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值共 9 个指标，第一抽样数据源^ 第二抽样数据源包括六个属性字段，该六个属性字段的指标情况如上表 1、 2。处理器 310将第一抽样数据源的属性字段的上述指标分别与第二抽样数据源的属性字段 , X₂ ,

对应指标相减，得到第一抽样数据源的属性字段的上述指标与第二抽样数据源的属性字段 A , Χ₂ , ... , „的对应指标间的差异度。

类同上述方式，处理器 310获得第一抽样数据源的每个属性字段的指标分别与第二抽样数据源的属性字段 A , X₂ , ■ , „的对应指标间的差异度。

可以理解的是，差异度用于表征被比较的指标间的差距大小。在实际应用中，差异度不限定如上述方式釆用被比较的指标间的差值来表示，还可以釆用被比较的指标间的比值、被比较的指标间的误差率或者其他数据比较方式等来表示，例如，处理器通过将第一抽样数据源的属性字段; ^的指标分别与第二抽样数据源 '的每个属性字段的指标相除，或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源的每个属性字段的指标相减再将得到的差值与第一抽样数据源的属性字段 X_t的指标相除以得到误差率 ,或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源 α的每个属性字段的指标和第一抽样数据源 a的属性字段 ,.的指标的和相除等数据比较方式 ,来得到第一抽样数据源的属性字段 X_t的指标与第二抽样数据源 '的每个属性字段的指标间的差异度，故在此对差异度的获取不作具体限定。

处理器 310将第一、第二抽样数据源中相同属性字段的指标间的差异度作为相同属性样本，将第一、第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本。具体地，第一抽样数据源的属性字段 Α与第二抽样数据源的属性字段 A的指标间的差异度作为第一数据源 A的属性字段的相同属性样本，第一抽样数据源的属性字段与第二抽样数据源的非 A的其他属性字段即 ₂ , .·· , „的指标间的差异度作为第一数据源的属性字段的不同属性样本。同理，处理器 310得到第一数据源的其他属性字段 ₂ , .·· , „的相同属性样本和不同属性样本。

处理器 310可釆用决策树算法如 DecisionTree4.5算法，对上述获得的样本进行分类建模，得到第一数据源 ^的属性字段 ,.的决策值，所述决策值即为判断是否与第一数据源 ^的属性字段 ,.为相同属性的差异度阔值。

优化地，所述决策值作为判断是否为相同属性的标准，为降低后续判断的运算量，所述决策值可为误差率，在此情况下，差异度也釆用误差率来表示。例如，处理器 310将第一抽样数据源的属性字段 ,.的指标与第二抽样数据源的每个属性字段 , X₂ , ^的指标的差值，与第一抽样数据源 a的该属性字段 X_t的指标间的比值分别作为第一抽样数据源的该属性字段 .的指标分别与第二抽样数据源的每个属性字段 , Χ₂ , ... , Χ_η 的指标间的误差率。处理器 310将第一、第二抽样数据源中相同属性字段的指标间的误差率作为相同属性样本，将第一、第二抽样数据源中不同属性字段的指标间的误差率作为不同属性样本。

处理器 310在分类建模前，还可根据系统自定义、用户设定或者上述相同属性样本和不同属性样本的误差率情况，将不同误差率划分为几个误差率等级。处理器 310根据获得的样本的误差率情况，从划分的等级临界误差率中确定出最优等级临界误差率，并作为决策值。其中，处理器 310 根据获得的样本的误差率情况，从划分的等级临界误差率中确定出最优等级临界误差率的具体方式类同于上面实施方式中确定模块的确定方式，在此不作赘述。

处理器 310将第一数据源的属性字段 .的指标与第二数据源的每个属性字段 Y₂ , .··, 1 的指标相减、第一数据源的属性字段 ,.的指标与第二数据源的每个属性字段 7₂ , .··, y_m的指标间的比值、或者第一数据源的属性字段 .的指标与第二数据源的每个属性字段 } , Y₂ , 1 的指标间的误差率，作为所述第一数据源的属性字段 ,.的指标分别与所述第二数据源的每个属性字段 Υ₂, .··, 1 的差异度，该具体获得方式类同于上述获得第一、第二抽样数据源的属性字段间的指标差异度的方式，在此不作赘述。

在获得第一数据源的属性字段的指标分别与所述第二数据源的每个属性字段 Υ₂ , …， 1 的指标间的差异度后，处理器 310分别将上述获得的每个差异度与决策值比较，以得到第二数据源中与所述第一数据源的属性字段 ,.的指标间的差异度小于所述决策值的属性字段，并映射到所述第一数据源 A的属性字段 ,.。

进一步地，当决策值釆用指标误差率的形式来表示时，第一数据源 ^的属性字段 .的指标分别与所述第二数据源 S的每个属性字段 } , Υ₂, Y_m 的指标间的差异度也釆用指标的误差率来表示。处理器 310分别将第一数据源与第二数据源的属性字段间的指标误差率与决策值比较，以获得所述第二数据源中与所述第一数据源的属性字段 ,.的差异度小于所述决策值的属性字段。例如，第一数据源 ^的属性字段 ,.的决策值为：对应标准差误差率的决策值为 5%、对应方差误差率的决策值为 20%、对应均值标准差的决策值为 5%。处理器 310分别判断第一数据源的属性字段 ,.的指标分别与所述第二数据源的每个属性字段 γ₂ , } 的标准差误差率是否小于

5%、方差误差率是否小于 20%, 均值标准差是否小于 5%, 并确定指标误差率满足上述条件的第二数据源的属性字段作为第一数据源的属性字段 ,. 的相同属性，不满足上述条件的第二数据源的属性字段作为第一数据源的属性字段 ,.的不同属性。处理器 310将第二数据源中确定为与属性字段 .相同的属性字段映射到第一数据源的属性字段 ,.。

在另一优化实施方式中，处理器还用于在所述第二数据源 S中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时 ,使所述输出接口 340输出所述第二数据源中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择。或者，在其他优化实施方式中，当所述第二数据源 S中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2 时，处理器也可自行选取第二数据源中与所述第一数据源的属性字段 ,.的指标间的差异度偏离该决策值的程度最小的属性字段作为属性字段 ,.的相同属性，故本申请对处理器在差异度小于决策值的至少两个第二数据源的属性字段中确定第一数据源的属性字段 ,.的相同属性的方式不作具体限定。

参阅图 4, 图 4是本申请数据整合方法一实施方式的流程图。本实施方式中，该数据整合方法包括以下步骤：

401：数据整合装置对第一数据源 A进行至少两次抽样以得到第一抽样数据源以及第二抽样数据源 _Ω '。

本申请数据整合方法用于将第一数据源 ^和第二数据源 Β中的相同属性数据进行整合，其中，第一数据源^ 4、第二数据源 S如上面实施方式所述可以但不限为数据库或文件。

数据整合装置对第一数据源 Α进行至少两次抽样 ,本实施方式优选为进行两次随机抽样，第一次抽样得到的数据作为第一抽样数据源^ 第二次抽样得到的数据作为第二抽样数据源 '。其中，考虑到后续决策的准确度和数据整合装置的运算量，每次的抽样规模一般为数据源记录总条数的

402: 数据整合装置分别统计所述第一数据源 Α的每个属性字段 A , X₂ , ^的指标、所述第一抽样数据源的每个属性字段 ^ , Χ₂ , .·· , 指标、所述第二抽样数据源的每个属性字段 , χ₂ , ... , „的指标以及第二数据源的每个属性字段 } , Υ₂ , .·· , 1 的指标，其中， "为所述第一数据源 A、所述第一抽样数据源 a以及所述第二抽样数据源的属性字段的数量，为所述第二数据源 B的属性字段的数量，所述指标用于表征所述属性字段的数据特征，如包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

数据整合装置分别对第一数据源 A、第二数据源 B以及对从第一数据源 ^抽样得到的第一抽样数据源 a、第二抽样数据源中的所有属性字段的指标进行统计。例如，第一数据源 ^包括 lOOOw条记录，第二数据源 S包括 800w条记录，第一抽样数据源、第二抽样数据源 _a '均包括 200w条记录。数据整合装置分别统计在第一数据源 ^的 lOOOw条记录中每个属性字段的具体数据的特征，例如包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个，作为第一数据源 ^的每个属性字段的指标。类似地，数据整合装置根据第二数据源 B的 800w条记录统计得到第二数据源 S每个属性字段的指标，根据第一抽样数据源的 200w条记录得到第一抽样数据源每个属性字段的指标，根据第二抽样数据源的 200w条记录得到第二抽样数据源每个属性字段的指标。

403: 数据整合装置获得所述第一抽样数据源的属性字段 .的指标与所述第二抽样数据源 _Ω '的相同的属性字段 _Xi的指标间的差异度，以及所述第一抽样数据源 _a的属性字段 ,.的指标分别与所述第二抽样数据源 a'的不同的属性字段的指标间的差异度，其中，所述不同的属性字段为所述第二抽样数据源的属性字段中除 ,.外的所有属性字段。

例如，假设数据整合装置统计得到的指标包括标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值共 9个指标，第一抽样数据源^、第二抽样数据源包括六个属性字段，该六个属性字段的指标情况如上表 1、 2。数据整合装置将第一抽样数据源的属性字段的上述指标分别与第二抽样数据源的属性字段 , X₂ ,

对应指标相减，得到第一抽样数据源的属性字段的上述指标与第二抽样数据源的属性字段 , Χ₂ , ... , „的对应指标间的差异度。

类同上述方式，数据整合装置获得第一抽样数据源的每个属性字段的指标分别与第二抽样数据源的属性字段 A , X₂ , …， ^的对应指标的差异度。

上述实施例中，釆用的是差值来表示差异度，可以理解的是，数据整合装置还可釆用比值、误差率或者其他数据比较方式来表示差异度。例如，在其他实施方式中，数据整合装置将第一抽样数据源的属性字段 ,.的指标分别与第二抽样数据源 '的每个属性字段的指标相除，或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源的每个属性字段的指标相减再将得到的差值与第一抽样数据源 a的属性字段 ,.的指标相除以得到误差率，或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数据源 _α，的每个属性字段的指标和第一抽样数据源 a的属性字段 ,.的指标的和相除等数据比较方式，以得到第一抽样数据源的属性字段 ,.的指标与第二抽样数据源 '的每个属性字段的指标间的差异度，故在此对差异度的获取不作具体限定。

404：数据整合装置根据所述第一抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源 _α的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的决策值。

例如，数据整合装置将第一、第二抽样数据源中相同属性字段的指标间的差异度作为相同属性样本，将第一、第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本。具体地，第一抽样数据源的属性字段 A与第二抽样数据源 '的属性字段的指标间的差异度作为第一数据源

A的属性字段 A的相同属性样本，第一抽样数据源 a的属性字段 A与第二抽样数据源的非的其他属性字段即 ₂ , .·· , „的指标间的差异度作为第一数据源 ^的属性字段的不同属性样本。同理，数据整合装置得到第一数据源 ^的其他属性字段 ₂ , .·· , „的相同属性样本和不同属性样本。

数据整合装置釆用决策树算法如 DecisionTree4.5算法，对上述获得的样本进行分类建模，得到第一数据源 ^的属性字段 ,.的决策值，所述决策值即为判断是否与第一数据源 ^的属性字段 ,.为相同属性的差异度阔值。

优化地，所述决策值作为判断是否为相同属性的标准，为降低后续判断的运算量，所述决策值可为误差率，在此情况下，差异度也釆用误差率来表示。例如，数据整合装置将第一抽样数据源的属性字段 ,.的指标与第二抽样数据源的每个属性字段 , X₂ , 指标的差值，与第一抽样数据源 a的该属性字段 ,.的指标间的比值分别作为第一抽样数据源的该属性字段 ,.的指标与第二抽样数据源的每个属性字段 , x₂ , J ^的指标间的误差率。数据整合装置将第一、第二抽样数据源中相同属性字段的指标间的误差率作为相同属性样本，将第一、第二抽样数据源中不同属性字段的指标间的误差率作为不同属性样本。

数据整合装置在分类建模前，还可根据系统自定义、用户设定或者上述相同属性样本和不同属性样本的误差率情况，将不同误差率划分为几个误差率等级。数据整合装置根据上述获得的样本的误差率情况，从划分的等级临界误差率中确定出最优等级临界误差率，并作为决策值。其中，数据整合装置根据获得的样本的误差率情况，从划分的等级临界误差率中确定出最优等级临界误差率的具体方式类同于上面实施方式中的确定方式，在此不作赘述。

405: 数据整合装置获得所述第一数据源 A的属性字段 ,.的指标分别与所述第二数据源 Β的每个属性字段 γ₂ , } 的指标间的差异度。

数据整合装置将第一数据源的属性字段 ,.的指标与第二数据源的每个属性字段 Υ₂ , ..., 1 的指标间的差值、第一数据源的属性字段 ,.的指标与第二数据源的每个属性字段 γ₂, } 的指标间的比值、或者第一数据源的属性字段 .的指标与第二数据源的每个属性字段 Υ₂ , ..., 1 的指标间的误差率，作为所述第一数据源的属性字段 ,.的指标分别与所述第二数据源的每个属性字段 Υ₂ , 1 的差异度，该具体获得方式类同于上面 403所述，在此不作赘述。

406: 数据整合装置将所述第二数据源 B中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段 ,.。

数据整合装置获得第一数据源的属性字段 ,.的指标分别与所述第二数据源的每个属性字段 γ₂ , } 的指标的差异度后，分别将上述获得的每个差异度与决策值比较，以得到第二数据源中与所述第一数据源的属性字段 ,.的差异度小于所述决策值的属性字段，并映射到所述第一数据源 ^ 的属性字段 ,.。

进一步地，当决策值为指标误差率时，数据整合装置分别将 405 获得的第一数据源 Α的属性字段 .的指标分别与所述第二数据源 B的每个属性字段 Υ₂, . , 1 的指标间的误差率与决策值比较，以获得所述第二数据源中与所述第一数据源的属性字段 ,.的差异度小于所述决策值的属性字段。例如，第一数据源 ^的属性字段 ,.的决策值为：对应标准差误差率的决策值为 5%、对应方差误差率的决策值为 20%、对应均值标准差的决策值为 5%。数据整合装置分别判断第一数据源的属性字段 ,.的指标分别与所述第二数据源的每个属性字段 Y₂ , 1 的标准差误差率是否小于 5%、方差误差率是否小于 20%, 均值标准差是否小于 5%, 并确定指标误差率满足上述条件的第二数据源的属性字段作为第一数据源的属性字段 X_t的相同属性，不满足上述条件的第二数据源的属性字段作为第一数据源的属性字段 X_t的不同属性。数据整理装置将第二数据源中确定为与第一数据源的属性字段 .相同的属性字段映射到第一数据源的属性字段 ,.。

在另一优化实施方式中，数据整合装置在获得所述第二数据源中与所述第一数据源的属性字段 ,.的指标间的差异度小于所述决策值的属性字段之后，还判断所述第二数据源 Β中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量是否大于等于 2,如果所述第二数据源 S中与所述第一数据源 ^的属性字段 X_t的指标间的差异度小于所述决策值的属性字段的数量大于等于 2,则数据整合装置输出所述第二数据源 S中与所述第一数据源 A的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择，并将用户选择的第二数据源的属性字段映射到所述第一数据源的属性字段 ,.。或者，在再一实施方式中，如果所述第二数据源中与所述第一数据源的属性字段 .指标间的差异度小于所述决策值的属性字段的数量大于等于 2,则数据整合装置也可自行选取第二数据源中与所述第一数据源的属性字段 ,.的指标间的差异度偏离该决策值的程度最小的属性字段作为最终属性字段 ,.的相同属性，故本申请对数据整合装置在差异度小于决策值的至少两个第二数据源的属性字段中确定第一数据源的属性字段 ,.的相同属性的方式不作具体限定。

为便于说明，上述实施方式均仅对第一数据源进行两次的抽样，并根据两次抽样数据确定第一数据源的属性字段的决策值。但并不能将本申请限定为只能对第二数据源进行两次抽样，在其他实施方式中，可对第一数据源进行三次以上的抽样，并类同上述获得指标差异度的方式获得其中一次抽样得到的抽样数据源的属性字段的指标和其余每个抽样数据源的属性字段的指标间的差异度，进而获得更准确的第一数据源的属性字段的决策值，由于该具体获取决策值的方式，显然可由本领域技术人员根据上述两次抽样的方式类推得到，故在此不作赘述。

本申请上述实施方式在需要将第二数据源的数据映射到第一数据源的时候，从第一数据源中分别进行至少两次抽样以获得第一抽样数据源以及第二抽样数据源，再分别统计两个抽样数据源的每个属性字段的指标，并获得第一数据源的这个属性字段分别与第二数据源的每个属性字段的差异度，再根据第一抽样数据源的这个属性字段的指标与第二抽样数据源的相同的属性字段的指标的差异度，以及，第一抽样数据源的这个属性字段的指标分别与第二抽样数据源的不同的属性字段的指标的差异度确定第一数据源的属性字段的决策值，再将第二数据源中与第一数据源的这个属性字段的差异度小于决策值的属性字段映射到第一数据源的这个属性字段。因为本申请技术方案能够实现自动将一个数据源的属性字段映射到另一个数据源的相同属性字段，比人工实现的数据融合方便，而且大大提升了效率。

在本申请所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以釆用硬件的形式实现，也可以釆用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor )执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ ROM, Read-Only Memory )、随机存取存储器（ RAM, Random Access Memory )、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

权利要求

1.一种数据整合装置，其特征在于，包括抽样模块、统计模块、第一获得模块、确定模块、第二获得模块及映射模块，

所述抽样模块用于对第一数据源 ^进行至少两次抽样以得到第一抽样数据源 a以及第二抽样数据源 ' , 并将所述第一抽样数据源 a以及第二抽样数据源发送给所述统计模块；

所述统计模块用于分别统计所述第一数据源 Α的每个属性字段， X₂, .··, ^的指标、所述第一抽样数据源的每个属性字段 ^, X₂, .··, 指标、所述第二抽样数据源的每个属性字段 , χ₂, ..., „的指标以及第二数据源的每个属性字段 } , Υ₂ , 1 的指标，并将统计的所述指标发送给所述第一获得模块和第二获得模块，其中， "为所述第一数据源 A、所述第一抽样数据源以及所述第二抽样数据源的属性字段的数量，为所述第二数据源 B的属性字段的数量，所述指标用于表征所述属性字段的数据特征；

所述第一获得模块用于获得所述第一抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源 '的相同的属性字段 X_t的指标间的差异度，以及所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度，并将获得的所述差异度发送给所述确定模块，其中，为自由变量，且 = l,2,3,〜,n, 所述不同的属性字段为所述第二抽样数据源的属性字段中除 ,.外的所有属性字段；

所述确定模块用于根据所述第一抽样数据源的属性字段 .的指标与所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源 _α的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的决策值，并将所述第一数据源 A的属性字段 ,.的决策值发送给所述映射模块，所述决策值为判断是否与所述第一数据源 Α的属性字段 ,.为相同属性的差异度阔值；

所述第二获得模块用于获得所述第一数据源 Α的属性字段 .的指标分别与所述第二数据源 S的每个属性字段 } , Y₂ , 1 的指标间的差异度，并将获得的差异度发送给所述映射模块；

所述映射模块用于将所述第二数据源 S中与所述第一数据源 A的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段 ,.。

2.根据权利要求 1所述的装置，其特征在于，所述指标包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

3.根据权利要求 1-2任一项所述的装置，其特征在于，所述差异度包括：指标间的差值，或指标间的比值，或指标间的误差率。

4.根据权利要求 1-3任一项所述的装置，其特征在于，所述确定模块具体用于将所述第一抽样数据源 a的属性字段 ,.和第二抽样数据源中相同属性字段 ,.的指标间的差异度作为相同属性样本，将第一抽样数据源的属性字段 ,.和第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本，釆用决策树算法对所述相同属性样本和所述不同属性样本进行分类建模，得到所述第一数据源 Α的属性字段 ,.的决策值。

5.根据权利要求 1-4任一项所述的装置，其特征在于，还包括输出模块，所述输出模块用于在所述第二数据源 S中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时，输出所述第二数据源 S中与所述第一数据源 ^的属性字段 X_t的指标间的差异度小于所述决策值的属性字段以供用户选择。

6.—种数据整合装置，其特征在于，包括处理器以及输入接口和输出接口 ,

所述输入接口用于将第一数据源 A和第二数据源 S提供给所述处理器；所述处理器用于：

分别统计所述第一数据源 ^的每个属性字段 , X₂ , 的指标、所述第一抽样数据源的每个属性字段 A , X₂ , „的指标、所述第二抽样数据源的每个属性字段 , x₂, „的指标以及第二数据源 S的每个属性字段 } , 7₂ , .··, 1 的指标，其中，《为所述第一数据源^ 4、所述第一抽样数据源 _a以及所述第二抽样数据源 _α'的属性字段的数量， m为所述第二数据源 B的属性字段的数量，所述指标用于表征所述属性字段的数据特征；

获得所述第一抽样数据源的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段 ^的指标间的差异度，以及所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度，其中，为自由变量，且 = l,2,3,〜,n, 所述不同的属性字段为所述第二抽样数据源 _Ω '的属性字段中除 ,.外的所有属性字段；

将所述第二数据源 Β中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段所述输出接口用于输出映射后得到的所述第一数据源 A。

7.根据权利要求 6所述的装置，其特征在于，所述指标包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

8.根据权利要求 6-7任一项所述的装置，其特征在于，所述差异度包括：指标间的差值，或指标间的比值，或指标间的误差率。

9.根据权利要求 6-8任一项所述的装置，其特征在于，所述处理器用于根据所述第一抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段^的指标间的差异度，以及，所述第一抽样数据源的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值具体包括：

所述处理器具体用于将所述第一抽样数据源 a的属性字段 .和第二抽样数据源中相同属性字段 ,.的指标间的差异度作为相同属性样本，将第一抽样数据源 a的属性字段 ,.和第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本，釆用决策树算法对所述相同属性样本和所述不同属性样本进行分类建模，得到所述第一数据源 Α的属性字段 ,.的决策值。

10.根据权利要求 6-9任一项所述的装置，其特征在于，

所述处理器还用于在所述第二数据源 S中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时，通过所述输出接口输出所述第二数据源 S中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择。

11.一种数据整合方法，其特征在于，包括：

对第一数据源 ^进行至少两次抽样以得到第一抽样数据源 _a以及第二抽样数据源 ';

分别统计所述第一数据源 ^的每个属性字段 , X₂ , 的指标、所述第一抽样数据源的每个属性字段 A, X₂ , „的指标、所述第二抽样数据源的每个属性字段 , X₂ , „的指标以及第二数据源 Β的每个属性字段 } , 7₂ , .·· , 1 的指标，其中，《为所述第一数据源^ 4、所述第一抽样数据源 _α以及所述第二抽样数据源 _α'的属性字段的数量， m为所述第二数据源 B的属性字段的数量，所述指标用于表征所述属性字段的数据特征；

获得所述第一抽样数据源的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段 ^的指标间的差异度，以及所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度，其中，为自由变量，且 = 1,2,3,— , η , 所述不同的属性字段为所述第二抽样数据源 _Ω '的属性字段中除 ,.外的所有属性字段；

将所述第二数据源 S中与所述第一数据源 Α的属性字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段

Xi。

12.根据权利要求 11所述的方法，其特征在于，所述指标包括：标准差、方差、偏度、偏度标准差、峰度、峰度标准差、均值标准误差、离群值以及极值中至少一个。

13.根据权利要求 11-12任一项所述的方法，其特征在于，所述差异度包括：指标间的差值，或指标间的比值，或指标间的误差率。

14.根据权利要求 11-13任一项所述的方法，其特征在于，所述根据所述第一抽样数据源 _a的属性字段 ,.的指标与所述第二抽样数据源的相同的属性字段 ^的指标间的差异度，以及，所述第一抽样数据源的属性字段 X_t的指标分别与所述第二抽样数据源的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值具体包括：

将所述第一抽样数据源 a的属性字段 ,.和第二抽样数据源中相同属性字段 X_t的指标间的差异度作为相同属性样本，将第一抽样数据源的属性字段 ,.和第二抽样数据源中不同属性字段的指标间的差异度作为不同属性样本，釆用决策树算法对所述相同属性样本和所述不同属性样本进行分类建模 , 得到所述第一数据源 ^的属性字段 Xi的决策值。

15.根据权利要求 11-14任一项所述的方法，其特征在于，如果所述第二数据源 S中与所述第一数据源 ^的属性字段 X_t的指标间的差异度小于所述决策值的属性字段的数量大于等于 2, 则输出所述第二数据源 B中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择。