WO2015184643A1 - 数据整合方法以及装置 - Google Patents

数据整合方法以及装置 Download PDF

Info

Publication number
WO2015184643A1
WO2015184643A1 PCT/CN2014/079378 CN2014079378W WO2015184643A1 WO 2015184643 A1 WO2015184643 A1 WO 2015184643A1 CN 2014079378 W CN2014079378 W CN 2014079378W WO 2015184643 A1 WO2015184643 A1 WO 2015184643A1
Authority
WO
WIPO (PCT)
Prior art keywords
data source
attribute
attribute field
difference
field
Prior art date
Application number
PCT/CN2014/079378
Other languages
English (en)
French (fr)
Inventor
刘诗凯
冯杰
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP14893959.8A priority Critical patent/EP3142019A4/en
Priority to PCT/CN2014/079378 priority patent/WO2015184643A1/zh
Publication of WO2015184643A1 publication Critical patent/WO2015184643A1/zh
Priority to US15/370,654 priority patent/US10621155B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Abstract

数据整合方法以及装置,其中,该方法包括:对第一数据源A进行至少两次抽样以得到第一抽样数据源a以及第二抽样数据源a';分别统计所述第一数据源、第二数据源、第一抽样数据源、第二抽样数据源中每个属性字段的指标;根据所述第一抽样数据源的属性字段X i的指标与所述第二抽样数据源的每个属性字段X i的指标的差异度确定所述第一数据源A的属性字段X i的决策值;将第二数据源B中与所述第一数据源的属性字段X i的差异度小于所述决策值的属性字段映射到所述第一数据源的属性字段X i。通过上述方式,能够自动实现相同属性字段之间的映射,提高工作效率。

Description

数据整合方法以及装置
【技术领域】 本申请涉及数据处理领域, 特别是涉及一种数据整合方法以及装置。 【背景技术】 生产和生活中经常遇到需要将两个不同的数据源整合的状况, 例如, 运营商有时候需要将客户关系管理系统中的数据和计费系统中的数据进行 整合, 但是, 由于客户的数量可能数以千万计, 客户关系管理系统以及计 费系统中需要建立数以千万计的记录, 每个记录中还包括年龄、 收入等多 个属性字段 (大型的系统的属性字段可多达上千),而且不同系统对相同属性 开可能釆用不同的属性名, 使得数据整合成为一个非常耗时且效率低的工 作。
【发明内容】 本申请提供一种数据整合方法以及装置, 能够自动实现相同属性字段 之间的映射, 提高工作效率。
本申请第一方面提供一种数据整合装置, 包括抽样模块、 统计模块、 第一获得模块、 确定模块、 第二获得模块及映射模块, 所述抽样模块用于 对第一数据源 ^进行至少两次抽样以得到第一抽样数据源 a以及第二抽样 数据源 , 并将所述第一抽样数据源 a以及第二抽样数据源 发送给所述统 计模块; 所述统计模块用于分别统计所述第一数据源 Α的每个属性字段 A, X2 , .·· , ^的指标、 所述第一抽样数据源 的每个属性字段 ^ , X2 , .·· , 指标、 所述第二抽样数据源 的每个属性字段 , χ2 , ... , „的指标 以及第二数据源 的每个属性字段 } , Υ2 , 1 的指标, 并将统计的所述 指标发送给所述第一获得模块和第二获得模块, 其中, "为所述第一数据源 A、 所述第一抽样数据源 以及所述第二抽样数据源 的属性字段的数量, 为所述第二数据源 B的属性字段的数量,所述指标用于表征所述属性字段 的数据特征;所述第一获得模块用于获得所述第一抽样数据源 a的属性字段 Xt的指标与所述第二抽样数据源 的相同的属性字段 ,.的指标间的差异 度,以及所述第一抽样数据源 a的属性字段^的指标分别与所述第二抽样数 据源 '的不同的属性字段的指标间的差异度, 并将获得的所述差异度发送 给所述确定模块, 其中, 为自由变量, 且 = 1,2,3, ..·, η , 所述不同的属性字 段为所述第二抽样数据源 α'的属性字段中除 ,.外的所有属性字段; 所述确 定模块用于根据所述第一抽样数据源 的属性字段 ,.的指标与所述第二抽 样数据源 的相同的属性字段 ^的指标间的差异度, 以及, 所述第一抽样 数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性 字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值, 并 将所述第一数据源 Α的属性字段 ,.的决策值发送给所述映射模块, 所述决 策值为判断是否与所述第一数据源 ^的属性字段 .为相同属性的差异度阔 值; 所述第二获得模块用于获得所述第一数据源 Α的属性字段 ,.的指标分 别与所述第二数据源 Β的每个属性字段 Υ2 , 1 的指标间的差异度, 并将获得的差异度发送给所述映射模块; 所述映射模块用于将所述第二数 据源 中与所述第一数据源 A的属性字段 ,.的指标间的差异度小于所述决 策值的属性字段映射到所述第一数据源 ^的属性字段 ,.。
结合第一方面, 本申请第一方面的第一种可能的实施方式为: 所述指 标包括: 标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标 准误差、 离群值以及极值中至少一个。
结合第一方面或第一种可能的实施方式, 本申请第一方面的第二种可 能的实施方式为: 所述差异度包括: 指标间的差值, 或指标间的比值, 或 指标间的误差率。
结合第一方面或第一或第二种可能的实施方式, 本申请第一方面的第 三种可能的实施方式为:所述确定模块具体用于将所述第一抽样数据源 a的 属性字段 ,.和第二抽样数据源 中相同属性字段 .的指标间的差异度作为 相同属性样本,将第一抽样数据源 a的属性字段 ,.和第二抽样数据源 中不 同属性字段的指标间的差异度作为不同属性样本, 釆用决策树算法对所述 相同属性样本和所述不同属性样本进行分类建模,得到所述第一数据源 Α的 属性字段 ,.的决策值。 结合第一方面或第一至第三任一种可能的实施方式, 本申请第一方面 的第四种可能的实施方式为: 还包括输出模块, 所述输出模块用于在所述 第二数据源 B中与所述第一数据源 ^的属性字段 xt的指标间的差异度小于 所述决策值的属性字段的数量大于等于 2时,输出所述第二数据源 中与所 述第一数据源 ^的属性字段 .的指标间的差异度小于所述决策值的属性字 段以供用户选择。
本申请第二方面提供一种数据整合装置, 包括处理器以及输入接口和 输出接口,所述输入接口用于将第一数据源 ^和第二数据源 B提供给所述处 理器; 所述处理器用于: 对所述第一数据源 ^进行至少两次抽样以得到第一 抽样数据源 a以及第二抽样数据源 '; 分别统计所述第一数据源 Α的每个属 性字段 , X2 , .··, ^的指标、 所述第一抽样数据源 的每个属性字段 ,
X2 , ^的指标、 所述第二抽样数据源 的每个属性字段 ^, χ2 , ..· , „的指标以及第二数据源 的每个属性字段 } , Υ2 , .··, } 的指标, 其中, «为所述第一数据源^ 4、 所述第一抽样数据源 以及所述第二抽样数据源 的属性字段的数量, 为所述第二数据源 S的属性字段的数量, 所述指标用 于表征所述属性字段的数据特征;获得所述第一抽样数据源 的属性字段 ,. 的指标与所述第二抽样数据源 Ω '的相同的属性字段 ,.的指标间的差异度, 以及所述第一抽样数据源 的属性字段 Xt的指标分别与所述第二抽样数据 源 的不同的属性字段的指标间的差异度, 其中, 为自由变量, 且 = 1,2,3,···,η , 所述不同的属性字段为所述第二抽样数据源 的属性字段中 除 ,.外的所有属性字段;根据所述第一抽样数据源 的属性字段 .的指标与 所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度, 以及, 所 述第一抽样数据源 α的属性字段 ,.的指标分别与所述第二抽样数据源 的 不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的 决策值 , 所述决策值为判断是否与所述第一数据源 ^的属性字段 Xi为相同 属性的差异度阔值; 获得所述第一数据源 ^的属性字段 .的指标分别与所 述第二数据源 S的每个属性字段 } , Y2 , 1 的指标间的差异度; 将所述 第二数据源 S中与所述第一数据源 ^的属性字段 Xt的指标间的差异度小于 所述决策值的属性字段映射到所述第一数据源 ^的属性字段 ,.; 所述输出 接口用于输出映射后得到的所述第一数据源 A。
结合第二方面, 本申请第二方面的第一种可能的实施方式为: 所述指 标包括: 标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标 准误差、 离群值以及极值中至少一个。
结合第二方面或第一种可能的实施方式, 本申请第二方面的第二种可 能的实施方式为: 所述差异度包括: 指标间的差值, 或指标间的比值, 或 指标间的误差率。
结合第二方面或第一或第二种可能的实施方式, 本申请第二方面的第 三种可能的实施方式为:所述处理器用于根据所述第一抽样数据源 a的属性 字段 .的指标与所述第二抽样数据源 的相同的属性字段 ,.的指标间的差 异度, 以及, 所述第一抽样数据源 的属性字段 ,.的指标分别与所述第二抽 样数据源 的不同的属性字段的指标间的差异度确定所述第一数据源 Α的 属性字段 ,.的决策值具体包括: 所述处理器具体用于将所述第一抽样数据 源 的属性字段 Xt和第二抽样数据源 '中相同属性字段 Xt的指标间的差异 度作为相同属性样本,将第一抽样数据源 a的属性字段 ,.和第二抽样数据源 中不同属性字段的指标间的差异度作为不同属性样本, 釆用决策树算法 对所述相同属性样本和所述不同属性样本进行分类建模, 得到所述第一数 据源 ^的属性字段 Xt的决策值。
结合第二方面或第一至第三任一种可能的实施方式, 本申请第二方面 的第四种可能的实施方式为:所述处理器还用于在所述第二数据源 S中与所 述第一数据源 ^的属性字段 .的指标间的差异度小于所述决策值的属性字 段的数量大于等于 2时 ,通过所述输出接口输出所述第二数据源 S中与所述 第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段 以供用户选择。
本申请第三方面提供一种数据整合方法, 包括: 对第一数据源 ^进行至 少两次抽样以得到第一抽样数据源 a以及第二抽样数据源 Ω '; 分别统计所述 第一数据源 ^的每个属性字段 , X2 , 的指标、 所述第一抽样数据 源 的每个属性字段 , Χ2 , ^的指标、 所述第二抽样数据源 '的每 个属性字段 A , X2 , …, „的指标以及第二数据源 的每个属性字段 } , Y2 , ... , 1 的指标, 其中, "为所述第一数据源 ^、 所述第一抽样数据源 以 及所述第二抽样数据源 的属性字段的数量, 为所述第二数据源 Β的属性 字段的数量, 所述指标用于表征所述属性字段的数据特征; 获得所述第一 抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源 的相同的属性 字段^的指标间的差异度,以及所述第一抽样数据源 a的属性字段^的指标 分别与所述第二抽样数据源 的不同的属性字段的指标间的差异度, 其中, 为自由变量, 且 = l, 2, 3,〜, n , 所述不同的属性字段为所述第二抽样数据源 的属性字段中除 ,.外的所有属性字段;根据所述第一抽样数据源 的属性 字段 .的指标与所述第二抽样数据源 的相同的属性字段 ,.的指标间的差 异度, 以及, 所述第一抽样数据源 的属性字段 ,.的指标分别与所述第二抽 样数据源 的不同的属性字段的指标间的差异度确定所述第一数据源 Α的 属性字段 Xi的决策值 , 所述决策值为判断是否与所述第一数据源 ^的属性 字段 Xi为相同属性的差异度阔值; 获得所述第一数据源 ^的属性字段 Xi的 指标分别与所述第二数据源 S的每个属性字段 } , Y2 , } 的指标间的差 异度;将所述第二数据源 Β中与所述第一数据源 ^的属性字段 ,.的指标间的 差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段
Xi。
结合第三方面, 本申请第三方面的第一种可能的实施方式为: 所述指 标包括: 标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标 准误差、 离群值以及极值中至少一个。
结合第三方面或第一种可能的实施方式, 本申请第三方面的第二种可 能的实施方式为: 所述差异度包括: 指标间的差值, 或指标间的比值, 或 指标间的误差率。
结合第三方面或第一或第二种可能的实施方式, 本申请第三方面的第 三种可能的实施方式为:所述根据所述第一抽样数据源 a的属性字段 ,.的指 标与所述第二抽样数据源 的相同的属性字段 ^的指标间的差异度, 以及, 所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 ,. 的决策值具体包括:将所述第一抽样数据源 的属性字段 .和第二抽样数据 源 '中相同属性字段 xt的指标间的差异度作为相同属性样本, 将第一抽样 数据源 a的属性字段 ,.和第二抽样数据源 中不同属性字段的指标间的差 异度作为不同属性样本, 釆用决策树算法对所述相同属性样本和所述不同 属性样本进行分类建模, 得到所述第一数据源 Α的属性字段 ,.的决策值。
结合第三方面或第一至第三任一种可能的实施方式, 本申请第三方面 的第四种可能的实施方式为:如果所述第二数据源 S中与所述第一数据源 A 的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等 于 2, 则输出所述第二数据源 S中与所述第一数据源 Α的属性字段 ,.的指标 间的差异度小于所述决策值的属性字段以供用户选择。
上述方案在需要将第二数据源的数据映射到第一数据源的时候, 从第 一数据源中分别进行至少两次抽样以获得第一抽样数据源以及第二抽样数 据源, 再分别统计两个抽样数据源的每个属性字段的指标, 将第一抽样数 据源的某个属性字段的指标分别与第二抽样数据源的所有属性字段的指标 相减以获得第一数据源的这个属性字段分别与第二数据源的每个属性字段 的差异度, 再根据第一抽样数据源的这个属性字段的指标与第二抽样数据 源的相同的属性字段的指标的差异度, 以及, 第一抽样数据源的这个属性 字段的指标分别与第二抽样数据源的不同的属性字段的指标的差异度确定 第一数据源的属性字段的决策值, 再将第二数据源中与第一数据源的这个 属性字段的差异度小于决策值的属性字段映射到第一数据源的这个属性字 段。 因为本方案能够实现自动将一个数据源的属性字段映射到另一个数据 源的相同属性字段, 比人工实现的数据融合方便, 而且大大提升了效率。
【附图说明】 图 1是本申请数据整合装置一实施方式的结构示意图;
图 2是本申请数据整合装置另一实施方式的结构示意图;
图 3是本申请数据整合装置再一实施方式的结构示意图;
图 4是本申请数据整合方法一实施方式的流程图;
【具体实施方式】 以下描述中, 为了说明而不是为了限定, 提出了诸如特定系统结构、 接口、 技术之类的具体细节, 以便透彻理解本申请。 然而, 本领域的技术 人员应当清楚, 在没有这些具体细节的其它实施方式中也可以实现本申请。 在其它情况中, 省略对众所周知的装置、 电路以及方法的详细说明, 以免 不必要的细节妨碍本申请的描述。
参阅图 1 , 图 1是本申请数据整合装置一实施方式的流程图。 本实施方 式中,该数据整合装置包括抽样模块 110、统计模块 120、第一获得模块 130、 确定模块 140、 第二获得模块 150及映射模块 160。
抽样模块 110 用于对第一数据源 ^进行至少两次抽样以得到第一抽样 数据源 a以及第二抽样数据源 ' , 并将所述第一抽样数据源 a以及第二抽样 数据源 发送给所述统计模块 120。
本申请数据整合装置用于将第一数据源 ^和第二数据源 Β中的相同属 性数据进行整合,其中,第一数据源 第二数据源 S可以为数据库或文件。 本实施方式中, 数据整合装置直接对作为文件的数据源进行数据整合, 当 数据源为数据库时, 数据整合装置先将数据库中数据导出为文件再执行数 据整合。 需要说明的是, 本申请中第一数据源 第二数据源 并不限定为 数据库或文件, 在其他实施方式中, 本申请中的数据源可以为其他类型的 数据源如 web数据源, 数据整合装置也未必限定为直接对文件数据源进行 数据整合, 也可直接对数据库数据源进行数据整合, 故在此对本申请数据 源类型不作具体限定。
本实施方式中, 第一数据源^ 4、 第二数据源 B分别具有多条记录, 每条 记录具有多种属性字段, 例如, 用于记录不同客户信息的第一数据源^ 4、 第 二数据源 S中均具有电话、年龄等属性字段, 在不同客户的信息中, 对应记 录该客户的电话号码和年龄。 在实际应用中如电信运营商的业务系统中, 第一数据源以及第二数据源包含的记录可达数十万条, 甚者可超过 1 千万 条, 每条记录所包含的属性字段可超过 1 千种。 可以理解的是, 数据源中 的属性字段互不相同, 以区别不同属性。
抽样模块 110对第一数据源 A进行至少两次抽样,本实施方式优选为进 行两次随机抽样, 第一次抽样得到的数据作为第一抽样数据源^ 第二次抽 样得到的数据作为第二抽样数据源 ^。 其中, 考虑到后续决策的准确度和 数据整合装置的运算量, 每次的抽样规模一般为数据源记录总条数的
10%-30%, 优选为 20%。 例如, 第一数据源 ^共有 lOOOw条记录, 两次均 从第一数据源 A中随机抽取 200W条记录, 以分别获得第一抽样数据源 a、 第二抽样数据源 '。
统计模块 120 用于分别统计所述第一数据源 ^的每个属性字段 A , x2, ^的指标、 所述第一抽样数据源 的每个属性字段 ^, χ2, ..·, 指标、 所述第二抽样数据源 的每个属性字段 , χ2, ..., „的指标 以及第二数据源 的每个属性字段 } , Υ2 , 1 的指标, 并将统计的所述 指标发送给所述第一获得模块 130和第二获得模块 150, 其中, "为所述第 一数据源 A、 所述第一抽样数据源 a以及所述第二抽样数据源 a'的属性字段 的数量, 为所述第二数据源 S的属性字段的数量, 所述指标用于表征所述 属性字段的数据特征, 例如包括所述属性字段中的数据的标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以及极值 中至少一个。
其中, 将统计的指标发送给第一获得模块 130和第二获得模块 150具 体为: 将统计的第一抽样数据源 的每个属性字段 A , Χ2, ..., „的指标 和第二抽样数据源 '的每个属性字段 χ2, ..., „的指标发送到第一获 得模块 130, 将统计的第一数据源 ^的每个属性字段 , Χ2, ..., „的指 标和第二数据源 Β的每个属性字段 γ2, ..., } 的指标发送给第二获得模 块 150。
需要说明的是, 虽然第一数据源 ^, 第一抽样数据源 以及第二抽样数 据源 中包含的属性字段是相同的, 但是在统计各属性字段的指标时所针 对的数据范围是不同的。其中,统计的第一数据源 ^中的各属性字段的指标 是针对第一数据源 Α中包含的数据记录来统计的, 统计的第一抽样数据源 a 中的各属性字段的指标是针对第一抽样数据源 中包含的数据记录来统计 的, 统计的第二抽样数据源 中的各属性字段的指标是针对第二抽样数据 源 中包含的数据记录来统计的。
统计模块 120分别对第一数据源 A、 第二数据源 B以及对抽样模块 110 从第一数据源 A抽样得到的第一抽样数据源 、 第二抽样数据源 '中的所有 属性字段的指标进行统计。 例如, 第一数据源 ^包括 lOOOw条记录, 第二 数据源 B包括 800w条记录, 第一抽样数据源 、 第二抽样数据源 a '均包括 200w条记录。 统计模块 120统计在第一数据源 ^的 lOOOw条记录中属性字 段 A的具体数据的特征如标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度 标准差、 均值标准误差、 离群值以及极值中的至少一个, 作为第一数据源 ^ 的属性字段 ^的指标。 并以此类推, 统计模块 120 根据第一数据源 ^的 lOOOw记录统计得到第一数据源 ^其余所有属性字段 2 , .·· , 的指标。 类似地, 统计模块 120根据第二数据源 B的 800w条记录统计得到第二数据 源 S每个属性字段的指标, 根据第一抽样数据源 的 200w条记录得到第一 抽样数据源 每个属性字段的指标, 根据第二抽样数据源 的 200w条记录 得到第二抽样数据源 Ω '每个属性字段的指标。
可以理解的是, 本申请中每个属性字段的指标类型即数据特征类型应 选取为相同的。 并且, 为便于说明, 本申请将第一数据源 ^、 第一抽样数据 源 、 第二抽样数据源 '的其中一个属性字段用 ,.表示。 其中, 为自由变 量, JU = l, 2, 3,'", n。
第一获得模块 130 用于获得所述第一抽样数据源 的属性字段 ,.的指 标与所述第二抽样数据源 '的相同的属性字段 Xt的指标间的差异度, 以及 所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指标间的差异度, 并将获得的所述差异度发送给所述 确定模块 140, 其中, 所述不同的属性字段为所述第二抽样数据源 的属性 字段中除 ,.外的所有属性字段。
其中, 差异度用于表征被比较的指标间的差距大小。 在实际应用中, 差异度可以釆用被比较的指标间的差值, 或者被比较的指标间的比值, 或 者被比较的指标间的误差率等来表示。
例如, 假设统计模块 120统计得到的指标包括标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以及极值共 9个 指标, 第一抽样数据源^ 第二抽样数据源 包括六个属性字段, 第一抽样 数据源 、 第二抽样数据源 的六个属性字段的指标情况如下表 1、 2, (下 表 1为第一抽样数据源 的属性字段 的指标情况, 下表 2为第二抽样 数据源 的属性字段的 A - 6的指标情况):
表 1
Figure imgf000012_0001
表 2
Figure imgf000012_0002
第一获得模块 130将第一抽样数据源 的属性字段;^的标准差与第二 抽样数据源 的属性字段 的标准差相减,得到第一抽样数据源 a的属性字 段 A的标准差与第二抽样数据源 的属性字段 的标准差间的差异度, 以 此类推, 将第一抽样数据源 的属性字段 ^的方差、 偏度、 偏度标准差、 峰 度、 峰度标准差、 均值标准误差、 离群值以及极值等每个指标与第二抽样 数据源 的属性字段 的对应指标相减,得到第一抽样数据源 a的属性字段 ^的 9个指标分别与第二抽样数据源 的属性字段 的对应指标间的差异 度,如依据上表数据, 第一抽样数据源 的属性字段 与第二抽样数据源 的属性字段 Α的标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、离群值以及极值间的差异度依序为 1.997、 168393、 0.000734、 0、 0.002、 0、 0.06、 0、 0。 同理地, 第一获得模块 130获得第一抽样数据 源 的属性字段 的指标与第二抽样数据源 '的其他不同的属性字段 X2 , …, ^的对应指标的差异度。
类同上述方式,第一获得模块 130获得第一抽样数据源《的每个属性字 段的指标分别与第二抽样数据源 的属性字段 , Χ2 , ... , „的对应指标 间的差异度。
上述实施例中, 釆用的是差值来表示差异度, 可以理解的是, 第一获 得模块除了釆用将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样 数据源 的每个属性字段的指标相减, 以得到第一抽样数据源 a的属性字段 X,的指标与第二抽样数据源 '的每个属性字段的指标间的差异度的方式 外, 还可釆用比值、 误差率或者其他数据比较方式来表示差异度。 例如, 在其他实施方式中,第一获得模块将第一抽样数据源 a的属性字段 ,.的指标 分别与第二抽样数据源 '的每个属性字段的指标相除, 或者将第一抽样数 据源 a的属性字段 ,.的指标分别与第二抽样数据源 的每个属性字段的指 标相减再将得到的差值与第一抽样数据源 a的属性字段 ,.的指标相除以得 到误差率,或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数 据源 α,的每个属性字段的指标和第一抽样数据源 a的属性字段 ,.的指标的 和相除等数据比较方式,以得到第一抽样数据源 的属性字段 ,.的指标与第 二抽样数据源 '的每个属性字段的指标间的差异度, 故在此对差异度的获 取不作具体限定。
需要说明的是, 釆用差值时, 通常情况下是以差值的绝对值来表示差 异度。
确定模块 140 用于根据所述第一抽样数据源 的属性字段 的指标与 所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度, 以及, 所 述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源 的 不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的 决策值, 并将所述第一数据源 A的属性字段 ,.的决策值发送给所述映射模 块 160。
例如,确定模块 140将所述第一抽样数据源 的属性字段 ,.和第二抽样 数据源 '中相同属性字段 ,.的指标间的差异度作为第一数据源 ^的属性字 段 ,.的相同属性样本,将第一抽样数据源 a的属性字段 ,.和第二抽样数据源 α'中不同属性字段的指标间的差异度作为第一数据源 Α的属性字段 ,.的不 同属性样本。具体地, 第一抽样数据源 的属性字段 与第二抽样数据源 的属性字段 的指标间的差异度作为第一数据源 A的属性字段 A的相同属 性样本, 第一抽样数据源 a的属性字段 与第二抽样数据源 的非 Α的其 他属性字段即 2 , .··, ^的指标间的差异度作为第一数据源 ^的属性字段 A的不同属性样本。 同理, 确定模块 140得到第一数据源 ^的其他属性字 段 2 , .·· , „的相同属性样本和不同属性样本。
确定模块 140 可釆用决策树 (英文: Decision Tree ) 算法如 DecisionTree4.5算法, 对上述获得的样本进行分类建模, 得到第一数据源 ^ 的属性字段 Xi的决策值 , 所述决策值即为判断是否与第一数据源 ^的属性 字段 ,.为相同属性的差异度阔值。
优化地, 所述决策值作为判断是否为相同属性的标准, 为降低后续判 断的运算量, 所述决策值可为误差率, 在此情况下, 差异度也釆用误差率 来表示。 例如, 确定模块 140在获得第一抽样数据源 的每个属性字段的指 标分别与第二抽样数据源 的每个属性字段的指标的差值后, 将第一抽样 数据源 的属性字段 Xt的指标与第二抽样数据源 '的每个属性字段 , X2 , ^的指标的差值, 与第一抽样数据源 的该属性字段 .的指标间 的比值分别作为第一抽样数据源 a的该属性字段 ,.的指标分别与第二抽样 数据源 的每个属性字段 , Χ2 , ... , „的指标间的误差率。确定模块 140 将第一、 第二抽样数据源中相同属性字段的指标间的误差率作为相同属性 样本, 将第一、 第二抽样数据源中不同属性字段的指标间的误差率作为不 同属性样本。具体地, 第一抽样数据源 的属性字段 与第二抽样数据源 的属性字段 Α的指标间的误差率作为第一数据源 A的属性字段 A的相同属 性样本, 如, 根据上表计算得到该样本为 "0.1% I 0.2% I 0.04% I 0% I 0.2% | 0% I 0.06% I 0% I 0%"。 第一抽样数据源 的属性字段 ^与第二抽样数据源 非 ^的其他属性字段 2 , .·· , ^的指标间的误差率作为第一数据源 ^的属 性字段 ^的不同属性样本。 同理,确定模块 140计算第一抽样数据源 的属 性字段 2 , .·· , „分别与第二抽样数据源 的每个属性字段的指标的误差 率, 得到第一数据源 ^的其余属性字段 2 , .·· , 的相同属性样本和不同 属性样本。
确定模块 140在分类建模前, 还可根据系统自定义、 用户设定或者上 述相同属性样本和不同属性样本的误差率情况, 将不同误差率划分为几个 误差率等级, 例如, 划分为如下 6个误差率等级:
1 : 误差率小于 1%;
2: 误差率小于 5%;
3: 误差率小于 10%;
4: 误差率小于 20%;
5: 误差率小于 50%;
6: 误差率小于 100%。
确定模块 140根据上述获得的样本的误差率情况, 从上述等级临界误 差率中确定出最优等级临界误差率, 并作为决策值。
具体地, 结合上述等级划分, 对确定决策值的方式作举例说明。 确定 模块 140获得第一数据源 ^的属性字段 的相同属性样本为 0.1% I 0.2% I 0.04% I 0% I 0.2% I 0% I 0.06% | 0% | 0%"。 下面为便于说明, 只选取样本中 的标准差的误差率进行描述, 即第一数据源 A的属性字段 的相同属性样 本中标准差的误差率为 0.1%。 第一数据源 ^的属性字段^的不同属性样本 中标准差的误差率包括第一抽样数据源的属性字段 与第二抽样数据源的 属性字段 ^ , .·· , ^的标准差间的误差率, 分别为: 100%、 100%、 85%、 60% .·· 20%, 其中, 第一数据源 ^的属性字段 A的不同属性样本中的标准差 的误差率的最小值为 20%。确定模块 140确定第一数据源 ^的属性字段 ^的 相同属性的标准差误差率为 0.1%, 不相同属性的标准差误差率为大于等于 20%后, 从上述 6个等级中选取在 0.1%至 20%之间的等级临界误差率, 即 1%、 5%、 10%, 作为可能最优等级临界误差率。 确定模块 140随机或者根 据接收到的用户指示从上述三个可能最优等级临界误差率中确定最优等级 临界误差率, 如 5%, 作为第一数据源 ^的属性字段 的标准差的决策值。
类似地, 确定模块 140根据第一数据源 ^的属性字段 A的相同属性样 本和不同属性样本中其他指标的误差率情况, 确定从上述等级临界误差率 中确定属性字段 A该指标的最优等级临界误差率, 作为第一数据源 ^的属 性字段 A的该指标的决策值。 同样地, 确定模块 140根据第一数据源 ^的 其他属性字段 2, .··, „的相同属性样本和不同属性样本中指标的误差率 情况, 确定从上述等级临界误差率中确定其他属性字段;^, .··, 的每个 指标的最优等级临界误差率,作为第一数据源 ^的其他属性字段 2, .··, Xn 的该指标的决策值。
根据上述确定决策值方式,确定模块 140获得第一数据源 A的属性字段 ,.的决策值, 如具体为: 对应标准差误差率的决策值为 5%、 对应方差误差 率的决策值为 20%、 对应均值标准差的决策值为 5%, 即当第二数据源的属 性字段 与第一数据源的属性字段 Ί的标准差误差率小于 5%、方差误差 率小于 20%且举止标准差小于 5%时,认为第一数据源的属性字段 ,.和第二 数据源的属性字段 为相同属性, 其中, 为自由变量, 且 · = 1,2,3,···, m。
第二获得模块 150用于获得所述第一数据源 ^的属性字段 .的指标分 别与所述第二数据源 B的每个属性字段 Y2, 1 的指标间的差异度, 并将获得的差异度发送给所述映射模块 160。
例如, 第二获得模块 150将第一数据源的属性字段 .的指标与第二数 据源的每个属性字段 } , γ2 , } 的指标间的差值、 第一数据源的属性字 段 .的指标与第二数据源的每个属性字段 } , Υ2 , ., } 的指标间的比值、 或者第一数据源的属性字段 ,.的指标与第二数据源的每个属性字段 1 , Υ2 , ..., 1 的指标间的误差率, 作为所述第一数据源的属性字段 ,.的指标 分别与所述第二数据源的每个属性字段 } , Y2 , 1 的差异度, 该具体获 得方式类同于第一获得模块 130获得差异度的方式, 在此不作赘述。
映射模块 160 用于将所述第二数据源 S中与所述第一数据源 ^的属性 字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据 源 ^的属性字段 ,.。
在第二获得模块 150获得第一数据源的属性字段 ,.的指标分别与所述 第二数据源的每个属性字段 Υ2 , .·· , 1 的指标的差异度后, 映射模块
160分别将上述获得的每个差异度与决策值比较,以得到第二数据源中与所 述第一数据源的属性字段 ,.的差异度小于所述决策值的属性字段, 并映射 到所述第一数据源 Α的属性字段 ,.。
需要说明的是, 在本发明实施例中, 当第二数据源中没有与第一数据 源的属性字段 ,.的差异度小于所述决策值的属性字段时, 则表示第二数据 源中不存在与第一数据源的属性字段 ^相同的属性字段, 在此情况下, 则 不对该属性字段进行映射。
进一步地, 当决策值釆用指标误差率的形式来表示时,第一数据源 ^的 属性字段 .的指标分别与所述第二数据源 的每个属性字段 } , Υ2 , . , Ym 的指标间的差异度也釆用指标的误差率来表示。 映射模块 160分别将第二 获得模块 150获得的每个指标误差率与确定模块 140得到的决策值比较, 以获得所述第二数据源中与所述第一数据源的属性字段 ,.的差异度小于所 述决策值的属性字段。 例如, 第一数据源 ^的属性字段 的决策值为: 对 应标准差误差率的决策值为 5%、 对应方差误差率的决策值为 20%、 对应均 值标准差的决策值为 5%。且第一数据源的属性字段 与第二数据源的属性 字段 的指标误差率依序为: 0.1% I 0.2% I 0.04% I 0% I 0.2% | 0% | 0.06% | 0% I 0% | ,第一数据源的属性字段 A与第二数据源的属性字段 2的指标误差 率依序为: 100% I 100% I 100% I 0% I 35% | 0% | 100% I 0% I 0% I , 类推得到 第一数据源的属性字段 与第二数据源的其他剩余属性字段的指标误差 率。 其中, 上述的指标误差率均依序对应为标准差、 方差、 偏度、 偏度标 准差、 峰度、 峰度标准差、 均值标准误差、 离群值以及极值的误差率。
映射模块 160分别判断上述得到的标准差误差率是否小于 5%、方差误 差率是否小于 20%, 均值标准差是否小于 5%, 并确定指标误差率满足上述 条件的第二数据源的属性字段 作为第一数据源的属性字段 的相同属 性, 不满足上述条件的第二数据源的属性字段 2作为第一数据源的属性字 段 的不同属性,依次类推,映射模块 160确定第一数据源的属性字段 与 第二数据源的其他剩余属性字段间是否为相同属性的属性关系后, 将第二 数据源中确定为相同属性的属性字段 映射到第一数据源的属性字段 , 以实现第一数据源中属性字段 4与第二数据源中属性字段 的数据的整合。 同理, 映射模块 160确定第一数据源的剩余其他属性字段 2 , .·· , „与第 二数据源的每个属性字段 72 , .·· , } 间的属性关系后, 将第二数据源中 确定为与属性字段 .相同的属性字段 映射到第一数据源的属性字段 ,.。
区别于直接比较差值(即以差值来表示差异度),由于差值为绝对数值, 第一数据源的属性字段与第二数据源不同属性字段间的指标差异度的差异 可能极大, 如 0.0001与 10000, 而釆用比较误差率的方式(即以误差率来 表示差异度), 由于误差率为相对值, 第一数据源的属性字段与第二数据源 不同属性字段间的指标误差率的差异必然在 0%-100%之间, 故与决策值比 较时, 控制为 1%-100%间的运算, 大大降低了运算量。
请参阅图 2 , 图 2是本申请数据整合装置另一实施方式的结构示意图。 与上实施方式相比, 本实施方式中的数据整合装置还包括输出模块 170, 输 出模块 170 用于判断所述第二数据源 B中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的数量是否大于等于 2,并 在所述第二数据源 B中与所述第一数据源 A的属性字段 ,.的指标间的差异 度小于所述决策值的属性字段的数量大于等于 2时,输出所述第二数据源 Β 中与所述第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的 属性字段以供用户选择。 映射模块 160用于将用户选择的第二数据源的属 性字段映射到所述第一数据源的属性字段 ,.。 例如, 在第一数据源的属性 字段 Α的指标与第二数据源的属性字段 2的指标的差异度均小于决策值 时, 输出模块 170则将第二数据源的属性字段 ί、 2输出给用户, 以由用户 最终确定属性字段 或 作为第一数据源的属性字段 A的相同属性。在用户 选择确定第二数据源的属性字段 作为第一数据源的属性字段 的相同属 性时,映射模块 160将第二数据源的属性字段 1映射到第一数据源的属性字 段 Α中。
或者, 在其他实施方式中, 数据整合装置也可不包括输出模块。 当所 述第二数据源中与所述第一数据源的属性字段 ,.的指标间的差异度小于所 述决策值的属性字段的数量大于等于 2 时, 数据整合装置的映射模块自行 选取第二数据源中与所述第一数据源的属性字段 ,.间的差异度偏离该决策 值的程度最小的属性字段作为属性字段 ,.的相同属性, 故本申请对数据整 合装置在差异度小于决策值的至少两个第二数据源的属性字段中确定第一 数据源的属性字段 ,.的相同属性的方式不作具体限定。
请参阅图 3 , 图 3是本申请数据整合装置再一实施方式的结构示意图。 数据整合装置包括处理器 310、 存储器 320、 输入接口 330、 输出接口 340 及总线 350, 其中, 处理器 310、 存储器 320、 输入接口 330、 输出接口 340 通过总线 350连接。
存储器 320用于存储处理器 310执行的计算机指令以及处理器 310工 作时所需存储的数据。
输入接口 330用于接收第一数据源 ^和第二数据源 并发送给处理器
310。
输出接口 340用于将处理器 310的数据和信息输出,如输出处理器 310 将第二数据源 B中与第一数据源 A的属性字段 .相同的属性字段映射到第 一数据源 A的属性字段 .后得到的第一数据源 A。
处理器 310执行存储器 320存储的计算机指令, 用于:
对所述第一数据源 A进行至少两次抽样以得到第一抽样数据源 以及 第二抽样数据源
分别统计所述第一数据源 ^的每个属性字段 , X2 , 的指标、 所述第一抽样数据源 的每个属性字段 A , X2 , „的指标、 所述第二 抽样数据源 的每个属性字段 , X2 , „的指标以及第二数据源 S的 每个属性字段 } , 72 , .·· , 1 的指标, 其中, "为所述第一数据源 ^、 所述 第一抽样数据源 a以及所述第二抽样数据源 α'的属性字段的数量, m为所述 第二数据源 B的属性字段的数量,所述指标用于表征所述属性字段的数据特 征, 如包括: 标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均 值标准误差、 离群值以及极值中至少一个;
获得所述第一抽样数据源 的属性字段 ,.的指标与所述第二抽样数据 源 的相同的属性字段 ^的指标间的差异度,以及所述第一抽样数据源 a的 属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指标 间的差异度, 其中, 为自由变量, 且 = l, 2, 3,〜, n , 所述不同的属性字段为 所述第二抽样数据源 Ω '的属性字段中除 ,.外的所有属性字段;
根据所述第一抽样数据源 的属性字段 ,.的指标与所述第二抽样数据 源 的相同的属性字段 ^的指标间的差异度, 以及, 所述第一抽样数据源 的属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指 标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值, 所述决策值 为判断是否与所述第一数据源 ^的属性字段 Xt为相同属性的差异度阔值; 获得所述第一数据源 A的属性字段 ,.的指标分别与所述第二数据源 Β 的每个属性字段 Υ2 , 1 的指标间的差异度;
将所述第二数据源 Β中与所述第一数据源 Α的属性字段 ,.的指标间的 差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段
Xi。
具体地,本实施方式数据整合装置用于将第一数据源 A和第二数据源 B 中的相同属性数据进行整合, 其中, 第一数据源^ 4、 第二数据源 S如上面实 施方式所述可以为但不限定为数据库或文件。
本实施方式中, 第一数据源^ 4、 第二数据源 Β分别具有多条记录, 每条 记录具有多种属性字段, 例如, 用于记录不同客户信息的第一数据源^ 4、 第 二数据源 Β中均具有电话、年龄等属性字段, 在不同客户的信息中, 对应记 录该客户的电话号码和年龄。 在实际应用中如电信运营商的业务系统中, 第一数据源以及第二数据源包含的记录可达数十万条, 甚者可超过 1 千万 条, 每条记录所包含的属性字段可超过 1 千种。 可以理解的是, 数据源中 的属性字段互不相同, 以区别不同属性。
处理器 310对第一数据源 ^进行至少两次抽样,本实施方式优选为进行 两次随机抽样, 第一次抽样得到的数据作为第一抽样数据源^ 第二次抽样 得到的数据作为第二抽样数据源 '。 其中, 考虑到后续决策的准确度和数 据整合装置的运算量, 每次的抽样规模一般为数据源记录总条数的
10%-30%, 优选为 20%。 例如, 第一数据源 ^共有 lOOOw条记录, 两次均 从第一数据源 A中随机抽取 200W条记录, 以分别获得第一抽样数据源 a、 第二抽样数据源 '。
处理器 310分别对第一数据源 ^、 第二数据源 Β以及对从第一数据源 抽样得到的第一抽样数据源 a、第二抽样数据源 中的所有属性字段的指标 进行统计。例如,第一数据源 ^包括 lOOOw条记录,第二数据源 B包括 800w 条记录, 第一抽样数据源^ 第二抽样数据源 均包括 200w条记录。 处理 器 310分别统计在第一数据源 ^的 lOOOw条记录中每个属性字段的具体数 据的特征如标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值 标准误差、 离群值以及极值中的至少一个,作为第一数据源 ^的每个属性字 段的指标。 类似地, 处理器 310根据第二数据源 S的 800w条记录统计得到 第二数据源 S每个属性字段的指标, 根据第一抽样数据源 的 200w条记录 得到第一抽样数据源 每个属性字段的指标, 根据第二抽样数据源 的 200w条记录得到第二抽样数据源 每个属性字段的指标。
本实施方式, ^^设处理器 310统计得到的指标包括标准差、 方差、 偏 度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以及极值共 9 个指标, 第一抽样数据源^ 第二抽样数据源 包括六个属性字段, 该六个 属性字段的指标情况如上表 1、 2。 处理器 310将第一抽样数据源 的属性 字段 的上述指标分别与第二抽样数据源 的属性字段 , X2 ,
对应指标相减,得到第一抽样数据源 的属性字段 的上述指标与第二抽样 数据源 的属性字段 A , Χ2 , ... , „的对应指标间的差异度。
类同上述方式, 处理器 310获得第一抽样数据源的每个属性字段的指 标分别与第二抽样数据源 的属性字段 A , X2 , ■ , „的对应指标间的差 异度。
可以理解的是, 差异度用于表征被比较的指标间的差距大小。 在实际 应用中, 差异度不限定如上述方式釆用被比较的指标间的差值来表示, 还 可以釆用被比较的指标间的比值、 被比较的指标间的误差率或者其他数据 比较方式等来表示, 例如, 处理器通过将第一抽样数据源 的属性字段; ^的 指标分别与第二抽样数据源 '的每个属性字段的指标相除, 或者将第一抽 样数据源 a的属性字段 ,.的指标分别与第二抽样数据源 的每个属性字段 的指标相减再将得到的差值与第一抽样数据源 的属性字段 Xt的指标相除 以得到误差率 ,或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽 样数据源 α的每个属性字段的指标和第一抽样数据源 a的属性字段 ,.的指 标的和相除等数据比较方式 ,来得到第一抽样数据源 的属性字段 Xt的指标 与第二抽样数据源 '的每个属性字段的指标间的差异度, 故在此对差异度 的获取不作具体限定。
处理器 310将第一、 第二抽样数据源中相同属性字段的指标间的差异 度作为相同属性样本, 将第一、 第二抽样数据源中不同属性字段的指标间 的差异度作为不同属性样本。具体地,第一抽样数据源 的属性字段 Α与第 二抽样数据源 的属性字段 A的指标间的差异度作为第一数据源 A的属性 字段 的相同属性样本, 第一抽样数据源 的属性字段 与第二抽样数据 源 的非 A的其他属性字段即 2 , .·· , „的指标间的差异度作为第一数据 源 的属性字段 的不同属性样本。 同理,处理器 310得到第一数据源 的 其他属性字段 2 , .·· , „的相同属性样本和不同属性样本。
处理器 310可釆用决策树算法如 DecisionTree4.5算法, 对上述获得的 样本进行分类建模, 得到第一数据源 ^的属性字段 ,.的决策值, 所述决策 值即为判断是否与第一数据源 ^的属性字段 ,.为相同属性的差异度阔值。
优化地, 所述决策值作为判断是否为相同属性的标准, 为降低后续判 断的运算量, 所述决策值可为误差率, 在此情况下, 差异度也釆用误差率 来表示。例如,处理器 310将第一抽样数据源 的属性字段 ,.的指标与第二 抽样数据源 的每个属性字段 , X2 , ^的指标的差值, 与第一抽样 数据源 a的该属性字段 Xt的指标间的比值分别作为第一抽样数据源的该属 性字段 .的指标分别与第二抽样数据源 的每个属性字段 , Χ2 , ... , Χη 的指标间的误差率。 处理器 310将第一、 第二抽样数据源中相同属性字段 的指标间的误差率作为相同属性样本, 将第一、 第二抽样数据源中不同属 性字段的指标间的误差率作为不同属性样本。
处理器 310在分类建模前, 还可根据系统自定义、 用户设定或者上述 相同属性样本和不同属性样本的误差率情况, 将不同误差率划分为几个误 差率等级。 处理器 310根据获得的样本的误差率情况, 从划分的等级临界 误差率中确定出最优等级临界误差率, 并作为决策值。 其中, 处理器 310 根据获得的样本的误差率情况, 从划分的等级临界误差率中确定出最优等 级临界误差率的具体方式类同于上面实施方式中确定模块的确定方式, 在 此不作赘述。
处理器 310将第一数据源的属性字段 .的指标与第二数据源的每个属 性字段 Y2 , .··, 1 的指标相减、 第一数据源的属性字段 ,.的指标与第二 数据源的每个属性字段 72 , .··, ym的指标间的比值、 或者第一数据源的 属性字段 .的指标与第二数据源的每个属性字段 } , Y2 , 1 的指标间的 误差率, 作为所述第一数据源的属性字段 ,.的指标分别与所述第二数据源 的每个属性字段 Υ2, .··, 1 的差异度, 该具体获得方式类同于上述获得 第一、 第二抽样数据源的属性字段间的指标差异度的方式, 在此不作赘述。
在获得第一数据源的属性字段 的指标分别与所述第二数据源的每个 属性字段 Υ2 , …, 1 的指标间的差异度后, 处理器 310分别将上述获得 的每个差异度与决策值比较, 以得到第二数据源中与所述第一数据源的属 性字段 ,.的指标间的差异度小于所述决策值的属性字段, 并映射到所述第 一数据源 A的属性字段 ,.。
进一步地, 当决策值釆用指标误差率的形式来表示时,第一数据源 ^的 属性字段 .的指标分别与所述第二数据源 S的每个属性字段 } , Υ2, Ym 的指标间的差异度也釆用指标的误差率来表示。 处理器 310分别将第一数 据源与第二数据源的属性字段间的指标误差率与决策值比较, 以获得所述 第二数据源中与所述第一数据源的属性字段 ,.的差异度小于所述决策值的 属性字段。 例如, 第一数据源 ^的属性字段 ,.的决策值为: 对应标准差误 差率的决策值为 5%、 对应方差误差率的决策值为 20%、 对应均值标准差的 决策值为 5%。处理器 310分别判断第一数据源的属性字段 ,.的指标分别与 所述第二数据源的每个属性字段 γ2 , } 的标准差误差率是否小于
5%、 方差误差率是否小于 20%, 均值标准差是否小于 5%, 并确定指标误 差率满足上述条件的第二数据源的属性字段作为第一数据源的属性字段 ,. 的相同属性, 不满足上述条件的第二数据源的属性字段作为第一数据源的 属性字段 ,.的不同属性。处理器 310将第二数据源中确定为与属性字段 .相 同的属性字段映射到第一数据源的属性字段 ,.。
在另一优化实施方式中,处理器还用于在所述第二数据源 S中与所述第 一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段的 数量大于等于 2时 ,使所述输出接口 340输出所述第二数据源 中与所述第 一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段以 供用户选择。 或者, 在其他优化实施方式中, 当所述第二数据源 S中与所述 第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段 的数量大于等于 2 时, 处理器也可自行选取第二数据源中与所述第一数据 源的属性字段 ,.的指标间的差异度偏离该决策值的程度最小的属性字段作 为属性字段 ,.的相同属性, 故本申请对处理器在差异度小于决策值的至少 两个第二数据源的属性字段中确定第一数据源的属性字段 ,.的相同属性的 方式不作具体限定。
参阅图 4, 图 4是本申请数据整合方法一实施方式的流程图。 本实施方 式中, 该数据整合方法包括以下步骤:
401: 数据整合装置对第一数据源 A进行至少两次抽样以得到第一抽样 数据源 以及第二抽样数据源 Ω '。
本申请数据整合方法用于将第一数据源 ^和第二数据源 Β中的相同属 性数据进行整合, 其中, 第一数据源^ 4、 第二数据源 S如上面实施方式所述 可以但不限为数据库或文件。
本实施方式中, 第一数据源^ 4、 第二数据源 Β分别具有多条记录, 每条 记录具有多种属性字段, 例如, 用于记录不同客户信息的第一数据源^ 4、 第 二数据源 Β中均具有电话、年龄等属性字段, 在不同客户的信息中, 对应记 录该客户的电话号码和年龄。 在实际应用中如电信运营商的业务系统中, 第一数据源以及第二数据源包含的记录可达数十万条, 甚者可超过 1 千万 条, 每条记录所包含的属性字段可超过 1 千种。 可以理解的是, 数据源中 的属性字段互不相同, 以区别不同属性。
数据整合装置对第一数据源 Α进行至少两次抽样 ,本实施方式优选为进 行两次随机抽样, 第一次抽样得到的数据作为第一抽样数据源^ 第二次抽 样得到的数据作为第二抽样数据源 '。 其中, 考虑到后续决策的准确度和 数据整合装置的运算量, 每次的抽样规模一般为数据源记录总条数的
10%-30%, 优选为 20%。 例如, 第一数据源 ^共有 lOOOw条记录, 两次均 从第一数据源 A中随机抽取 200W条记录, 以分别获得第一抽样数据源 a、 第二抽样数据源 '。
402: 数据整合装置分别统计所述第一数据源 Α的每个属性字段 A , X2 , ^的指标、 所述第一抽样数据源 的每个属性字段 ^ , Χ2 , .·· , 指标、 所述第二抽样数据源 的每个属性字段 , χ2 , ... , „的指标 以及第二数据源 的每个属性字段 } , Υ2 , .·· , 1 的指标, 其中, "为所述 第一数据源 A、 所述第一抽样数据源 a以及所述第二抽样数据源 的属性字 段的数量, 为所述第二数据源 B的属性字段的数量, 所述指标用于表征所 述属性字段的数据特征, 如包括: 标准差、 方差、 偏度、 偏度标准差、 峰 度、 峰度标准差、 均值标准误差、 离群值以及极值中至少一个。
数据整合装置分别对第一数据源 A、第二数据源 B以及对从第一数据源 ^抽样得到的第一抽样数据源 a、 第二抽样数据源 中的所有属性字段的指 标进行统计。 例如, 第一数据源 ^包括 lOOOw条记录, 第二数据源 S包括 800w条记录, 第一抽样数据源 、 第二抽样数据源 a '均包括 200w条记录。 数据整合装置分别统计在第一数据源 ^的 lOOOw条记录中每个属性字段的 具体数据的特征, 例如包括: 标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以及极值中至少一个, 作为第一数据 源 ^的每个属性字段的指标。 类似地, 数据整合装置根据第二数据源 B的 800w条记录统计得到第二数据源 S每个属性字段的指标, 根据第一抽样数 据源 的 200w条记录得到第一抽样数据源 每个属性字段的指标, 根据第 二抽样数据源 的 200w条记录得到第二抽样数据源 每个属性字段的指 标。
403: 数据整合装置获得所述第一抽样数据源 的属性字段 .的指标与 所述第二抽样数据源 Ω '的相同的属性字段 Xi的指标间的差异度, 以及所述 第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源 a'的不 同的属性字段的指标间的差异度, 其中, 所述不同的属性字段为所述第二 抽样数据源 的属性字段中除 ,.外的所有属性字段。
例如, 假设数据整合装置统计得到的指标包括标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以及极值共 9个 指标, 第一抽样数据源^、 第二抽样数据源 包括六个属性字段, 该六个属 性字段的指标情况如上表 1、 2。 数据整合装置将第一抽样数据源 的属性 字段 的上述指标分别与第二抽样数据源 的属性字段 , X2 ,
对应指标相减,得到第一抽样数据源 的属性字段 的上述指标与第二抽样 数据源 的属性字段 , Χ2 , ... , „的对应指标间的差异度。
类同上述方式, 数据整合装置获得第一抽样数据源的每个属性字段的 指标分别与第二抽样数据源 的属性字段 A , X2 , …, ^的对应指标的差 异度。
上述实施例中, 釆用的是差值来表示差异度, 可以理解的是, 数据整 合装置还可釆用比值、 误差率或者其他数据比较方式来表示差异度。 例如, 在其他实施方式中,数据整合装置将第一抽样数据源 的属性字段 ,.的指标 分别与第二抽样数据源 '的每个属性字段的指标相除, 或者将第一抽样数 据源 a的属性字段 ,.的指标分别与第二抽样数据源 的每个属性字段的指 标相减再将得到的差值与第一抽样数据源 a的属性字段 ,.的指标相除以得 到误差率,或者将第一抽样数据源 a的属性字段 ,.的指标分别与第二抽样数 据源 α,的每个属性字段的指标和第一抽样数据源 a的属性字段 ,.的指标的 和相除等数据比较方式,以得到第一抽样数据源 的属性字段 ,.的指标与第 二抽样数据源 '的每个属性字段的指标间的差异度, 故在此对差异度的获 取不作具体限定。
404: 数据整合装置根据所述第一抽样数据源 a的属性字段 ,.的指标与 所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度, 以及, 所 述第一抽样数据源 α的属性字段 ,.的指标分别与所述第二抽样数据源 的 不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的 决策值。
例如, 数据整合装置将第一、 第二抽样数据源中相同属性字段的指标 间的差异度作为相同属性样本, 将第一、 第二抽样数据源中不同属性字段 的指标间的差异度作为不同属性样本。 具体地, 第一抽样数据源 的属性字 段 A与第二抽样数据源 '的属性字段 的指标间的差异度作为第一数据源
A的属性字段 A的相同属性样本,第一抽样数据源 a的属性字段 A与第二抽 样数据源 的非 的其他属性字段即 2 , .·· , „的指标间的差异度作为第 一数据源 ^的属性字段 的不同属性样本。 同理, 数据整合装置得到第一 数据源 ^的其他属性字段 2 , .·· , „的相同属性样本和不同属性样本。
数据整合装置釆用决策树算法如 DecisionTree4.5算法, 对上述获得的 样本进行分类建模, 得到第一数据源 ^的属性字段 ,.的决策值, 所述决策 值即为判断是否与第一数据源 ^的属性字段 ,.为相同属性的差异度阔值。
优化地, 所述决策值作为判断是否为相同属性的标准, 为降低后续判 断的运算量, 所述决策值可为误差率, 在此情况下, 差异度也釆用误差率 来表示。例如,数据整合装置将第一抽样数据源 的属性字段 ,.的指标与第 二抽样数据源 的每个属性字段 , X2 , 指标的差值, 与第一抽 样数据源 a的该属性字段 ,.的指标间的比值分别作为第一抽样数据源的该 属性字段 ,.的指标与第二抽样数据源 的每个属性字段 , x2 , J ^的 指标间的误差率。 数据整合装置将第一、 第二抽样数据源中相同属性字段 的指标间的误差率作为相同属性样本, 将第一、 第二抽样数据源中不同属 性字段的指标间的误差率作为不同属性样本。
数据整合装置在分类建模前, 还可根据系统自定义、 用户设定或者上 述相同属性样本和不同属性样本的误差率情况, 将不同误差率划分为几个 误差率等级。 数据整合装置根据上述获得的样本的误差率情况, 从划分的 等级临界误差率中确定出最优等级临界误差率, 并作为决策值。 其中, 数 据整合装置根据获得的样本的误差率情况, 从划分的等级临界误差率中确 定出最优等级临界误差率的具体方式类同于上面实施方式中的确定方式, 在此不作赘述。
405: 数据整合装置获得所述第一数据源 A的属性字段 ,.的指标分别与 所述第二数据源 Β的每个属性字段 γ2 , } 的指标间的差异度。
数据整合装置将第一数据源的属性字段 ,.的指标与第二数据源的每个 属性字段 Υ2 , ..., 1 的指标间的差值、 第一数据源的属性字段 ,.的指标 与第二数据源的每个属性字段 γ2, } 的指标间的比值、 或者第一数 据源的属性字段 .的指标与第二数据源的每个属性字段 Υ2 , ..., 1 的指 标间的误差率, 作为所述第一数据源的属性字段 ,.的指标分别与所述第二 数据源的每个属性字段 Υ2 , 1 的差异度, 该具体获得方式类同于上 面 403所述, 在此不作赘述。
406: 数据整合装置将所述第二数据源 B中与所述第一数据源 Α的属性 字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据 源 ^的属性字段 ,.。
数据整合装置获得第一数据源的属性字段 ,.的指标分别与所述第二数 据源的每个属性字段 γ2 , } 的指标的差异度后, 分别将上述获得的 每个差异度与决策值比较, 以得到第二数据源中与所述第一数据源的属性 字段 ,.的差异度小于所述决策值的属性字段, 并映射到所述第一数据源 ^ 的属性字段 ,.。
进一步地, 当决策值为指标误差率时, 数据整合装置分别将 405 获得 的第一数据源 Α的属性字段 .的指标分别与所述第二数据源 B的每个属性 字段 Υ2, . , 1 的指标间的误差率与决策值比较, 以获得所述第二数据 源中与所述第一数据源的属性字段 ,.的差异度小于所述决策值的属性字 段。 例如, 第一数据源 ^的属性字段 ,.的决策值为: 对应标准差误差率的 决策值为 5%、 对应方差误差率的决策值为 20%、 对应均值标准差的决策值 为 5%。数据整合装置分别判断第一数据源的属性字段 ,.的指标分别与所述 第二数据源的每个属性字段 Y2 , 1 的标准差误差率是否小于 5%、 方差误差率是否小于 20%, 均值标准差是否小于 5%, 并确定指标误差率满 足上述条件的第二数据源的属性字段作为第一数据源的属性字段 Xt的相同 属性, 不满足上述条件的第二数据源的属性字段作为第一数据源的属性字 段 Xt的不同属性。 数据整理装置将第二数据源中确定为与第一数据源的属 性字段 .相同的属性字段映射到第一数据源的属性字段 ,.。
在另一优化实施方式中, 数据整合装置在获得所述第二数据源中与所 述第一数据源的属性字段 ,.的指标间的差异度小于所述决策值的属性字段 之后,还判断所述第二数据源 Β中与所述第一数据源 Α的属性字段 ,.的指标 间的差异度小于所述决策值的属性字段的数量是否大于等于 2,如果所述第 二数据源 S中与所述第一数据源 ^的属性字段 Xt的指标间的差异度小于所 述决策值的属性字段的数量大于等于 2,则数据整合装置输出所述第二数据 源 S中与所述第一数据源 A的属性字段 ,.的指标间的差异度小于所述决策 值的属性字段以供用户选择, 并将用户选择的第二数据源的属性字段映射 到所述第一数据源的属性字段 ,.。 或者, 在再一实施方式中, 如果所述第 二数据源中与所述第一数据源的属性字段 .指标间的差异度小于所述决策 值的属性字段的数量大于等于 2,则数据整合装置也可自行选取第二数据源 中与所述第一数据源的属性字段 ,.的指标间的差异度偏离该决策值的程度 最小的属性字段作为最终属性字段 ,.的相同属性, 故本申请对数据整合装 置在差异度小于决策值的至少两个第二数据源的属性字段中确定第一数据 源的属性字段 ,.的相同属性的方式不作具体限定。
为便于说明, 上述实施方式均仅对第一数据源进行两次的抽样, 并根 据两次抽样数据确定第一数据源的属性字段的决策值。 但并不能将本申请 限定为只能对第二数据源进行两次抽样, 在其他实施方式中, 可对第一数 据源进行三次以上的抽样, 并类同上述获得指标差异度的方式获得其中一 次抽样得到的抽样数据源的属性字段的指标和其余每个抽样数据源的属性 字段的指标间的差异度, 进而获得更准确的第一数据源的属性字段的决策 值, 由于该具体获取决策值的方式, 显然可由本领域技术人员根据上述两 次抽样的方式类推得到, 故在此不作赘述。
本申请上述实施方式在需要将第二数据源的数据映射到第一数据源的 时候, 从第一数据源中分别进行至少两次抽样以获得第一抽样数据源以及 第二抽样数据源, 再分别统计两个抽样数据源的每个属性字段的指标, 并 获得第一数据源的这个属性字段分别与第二数据源的每个属性字段的差异 度, 再根据第一抽样数据源的这个属性字段的指标与第二抽样数据源的相 同的属性字段的指标的差异度, 以及, 第一抽样数据源的这个属性字段的 指标分别与第二抽样数据源的不同的属性字段的指标的差异度确定第一数 据源的属性字段的决策值, 再将第二数据源中与第一数据源的这个属性字 段的差异度小于决策值的属性字段映射到第一数据源的这个属性字段。 因 为本申请技术方案能够实现自动将一个数据源的属性字段映射到另一个数 据源的相同属性字段, 比人工实现的数据融合方便, 而且大大提升了效率。
在本申请所提供的几个实施方式中, 应该理解到, 所揭露的系统, 装 置和方法, 可以通过其它的方式实现。 例如, 以上所描述的装置实施方式 仅仅是示意性的, 例如, 所述模块或单元的划分, 仅仅为一种逻辑功能划 分, 实际实现时可以有另外的划分方式, 例如多个单元或组件可以结合或 者可以集成到另一个系统, 或一些特征可以忽略, 或不执行。 另一点, 所 显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接 口, 装置或单元的间接耦合或通信连接, 可以是电性, 机械或其它的形式。 作为单元显示的部件可以是或者也可以不是物理单元, 即可以位于一个地 方, 或者也可以分布到多个网络单元上。 可以根据实际的需要选择其中的 部分或者全部单元来实现本实施方式方案的目的。
另外, 在本申请各个实施方式中的各功能单元可以集成在一个处理单 元中, 也可以是各个单元单独物理存在, 也可以两个或两个以上单元集成 在一个单元中。 上述集成的单元既可以釆用硬件的形式实现, 也可以釆用 软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销 售或使用时, 可以存储在一个计算机可读取存储介质中。 基于这样的理解, 本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方 案的全部或部分可以以软件产品的形式体现出来, 该计算机软件产品存储 在一个存储介质中, 包括若干指令用以使得一台计算机设备(可以是个人 计算机, 服务器, 或者网络设备等)或处理器(processor )执行本申请各个 实施方式所述方法的全部或部分步骤。 而前述的存储介质包括: U盘、 移 动硬盘、只读存储器( ROM, Read-Only Memory )、随机存取存储器( RAM, Random Access Memory )、 磁碟或者光盘等各种可以存储程序代码的介质。

Claims

权利 要求
1.一种数据整合装置, 其特征在于, 包括抽样模块、 统计模块、 第一获 得模块、 确定模块、 第二获得模块及映射模块,
所述抽样模块用于对第一数据源 ^进行至少两次抽样以得到第一抽样 数据源 a以及第二抽样数据源 ' , 并将所述第一抽样数据源 a以及第二抽样 数据源 发送给所述统计模块;
所述统计模块用于分别统计所述第一数据源 Α的每个属性字段 , X2, .··, ^的指标、 所述第一抽样数据源 的每个属性字段 ^, X2, .··, 指标、 所述第二抽样数据源 的每个属性字段 , χ2, ..., „的指标 以及第二数据源 的每个属性字段 } , Υ2 , 1 的指标, 并将统计的所述 指标发送给所述第一获得模块和第二获得模块, 其中, "为所述第一数据源 A、 所述第一抽样数据源 以及所述第二抽样数据源 的属性字段的数量, 为所述第二数据源 B的属性字段的数量,所述指标用于表征所述属性字段 的数据特征;
所述第一获得模块用于获得所述第一抽样数据源 a的属性字段 ,.的指 标与所述第二抽样数据源 '的相同的属性字段 Xt的指标间的差异度, 以及 所述第一抽样数据源 a的属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指标间的差异度, 并将获得的所述差异度发送给所述 确定模块, 其中, 为自由变量, 且 = l,2,3,〜,n, 所述不同的属性字段为所 述第二抽样数据源 的属性字段中除 ,.外的所有属性字段;
所述确定模块用于根据所述第一抽样数据源 的属性字段 .的指标与 所述第二抽样数据源 '的相同的属性字段 ^的指标间的差异度, 以及, 所 述第一抽样数据源 α的属性字段 ,.的指标分别与所述第二抽样数据源 的 不同的属性字段的指标间的差异度确定所述第一数据源 Α的属性字段 .的 决策值, 并将所述第一数据源 A的属性字段 ,.的决策值发送给所述映射模 块, 所述决策值为判断是否与所述第一数据源 Α的属性字段 ,.为相同属性 的差异度阔值;
所述第二获得模块用于获得所述第一数据源 Α的属性字段 .的指标分 别与所述第二数据源 S的每个属性字段 } , Y2 , 1 的指标间的差异度, 并将获得的差异度发送给所述映射模块;
所述映射模块用于将所述第二数据源 S中与所述第一数据源 A的属性 字段 ,.的指标间的差异度小于所述决策值的属性字段映射到所述第一数据 源 ^的属性字段 ,.。
2.根据权利要求 1所述的装置, 其特征在于, 所述指标包括: 标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以 及极值中至少一个。
3.根据权利要求 1-2任一项所述的装置,其特征在于,所述差异度包括: 指标间的差值, 或指标间的比值, 或指标间的误差率。
4.根据权利要求 1-3任一项所述的装置, 其特征在于, 所述确定模块具 体用于将所述第一抽样数据源 a的属性字段 ,.和第二抽样数据源 中相同 属性字段 ,.的指标间的差异度作为相同属性样本,将第一抽样数据源 的属 性字段 ,.和第二抽样数据源 中不同属性字段的指标间的差异度作为不同 属性样本, 釆用决策树算法对所述相同属性样本和所述不同属性样本进行 分类建模, 得到所述第一数据源 Α的属性字段 ,.的决策值。
5.根据权利要求 1-4任一项所述的装置,其特征在于,还包括输出模块, 所述输出模块用于在所述第二数据源 S中与所述第一数据源 Α的属性 字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时, 输出所述第二数据源 S中与所述第一数据源 ^的属性字段 Xt的指标间的差 异度小于所述决策值的属性字段以供用户选择。
6.—种数据整合装置, 其特征在于, 包括处理器以及输入接口和输出接 口 ,
所述输入接口用于将第一数据源 A和第二数据源 S提供给所述处理器; 所述处理器用于:
对所述第一数据源 A进行至少两次抽样以得到第一抽样数据源 以及 第二抽样数据源
分别统计所述第一数据源 ^的每个属性字段 , X2 , 的指标、 所述第一抽样数据源 的每个属性字段 A , X2 , „的指标、 所述第二 抽样数据源 的每个属性字段 , x2, „的指标以及第二数据源 S的 每个属性字段 } , 72 , .··, 1 的指标, 其中, 《为所述第一数据源^ 4、 所述 第一抽样数据源 a以及所述第二抽样数据源 α'的属性字段的数量, m为所述 第二数据源 B的属性字段的数量,所述指标用于表征所述属性字段的数据特 征;
获得所述第一抽样数据源 的属性字段 ,.的指标与所述第二抽样数据 源 的相同的属性字段 ^的指标间的差异度,以及所述第一抽样数据源 a的 属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指标 间的差异度, 其中, 为自由变量, 且 = l,2,3,〜,n, 所述不同的属性字段为 所述第二抽样数据源 Ω '的属性字段中除 ,.外的所有属性字段;
根据所述第一抽样数据源 的属性字段 ,.的指标与所述第二抽样数据 源 的相同的属性字段 ^的指标间的差异度, 以及, 所述第一抽样数据源 的属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指 标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值, 所述决策值 为判断是否与所述第一数据源 ^的属性字段 Xt为相同属性的差异度阔值; 获得所述第一数据源 A的属性字段 ,.的指标分别与所述第二数据源 Β 的每个属性字段 Υ2 , 1 的指标间的差异度;
将所述第二数据源 Β中与所述第一数据源 Α的属性字段 ,.的指标间的 差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段 所述输出接口用于输出映射后得到的所述第一数据源 A。
7.根据权利要求 6所述的装置, 其特征在于, 所述指标包括: 标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以 及极值中至少一个。
8.根据权利要求 6-7任一项所述的装置,其特征在于,所述差异度包括: 指标间的差值, 或指标间的比值, 或指标间的误差率。
9.根据权利要求 6-8任一项所述的装置, 其特征在于, 所述处理器用于 根据所述第一抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源 的相同的属性字段^的指标间的差异度, 以及, 所述第一抽样数据源 的属 性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指标间 的差异度确定所述第一数据源 Α的属性字段 ,.的决策值具体包括:
所述处理器具体用于将所述第一抽样数据源 a的属性字段 .和第二抽 样数据源 中相同属性字段 ,.的指标间的差异度作为相同属性样本, 将第 一抽样数据源 a的属性字段 ,.和第二抽样数据源 中不同属性字段的指标 间的差异度作为不同属性样本, 釆用决策树算法对所述相同属性样本和所 述不同属性样本进行分类建模, 得到所述第一数据源 Α的属性字段 ,.的决 策值。
10.根据权利要求 6-9任一项所述的装置, 其特征在于,
所述处理器还用于在所述第二数据源 S中与所述第一数据源 Α的属性 字段 ,.的指标间的差异度小于所述决策值的属性字段的数量大于等于 2时, 通过所述输出接口输出所述第二数据源 S中与所述第一数据源 ^的属性字 段 ,.的指标间的差异度小于所述决策值的属性字段以供用户选择。
11.一种数据整合方法, 其特征在于, 包括:
对第一数据源 ^进行至少两次抽样以得到第一抽样数据源 a以及第二 抽样数据源 ';
分别统计所述第一数据源 ^的每个属性字段 , X2 , 的指标、 所述第一抽样数据源 的每个属性字段 A, X2 , „的指标、 所述第二 抽样数据源 的每个属性字段 , X2 , „的指标以及第二数据源 Β的 每个属性字段 } , 72 , .·· , 1 的指标, 其中, 《为所述第一数据源^ 4、 所述 第一抽样数据源 α以及所述第二抽样数据源 α'的属性字段的数量, m为所述 第二数据源 B的属性字段的数量,所述指标用于表征所述属性字段的数据特 征;
获得所述第一抽样数据源 的属性字段 ,.的指标与所述第二抽样数据 源 的相同的属性字段 ^的指标间的差异度,以及所述第一抽样数据源 a的 属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指标 间的差异度, 其中, 为自由变量, 且 = 1,2,3,— , η , 所述不同的属性字段为 所述第二抽样数据源 Ω '的属性字段中除 ,.外的所有属性字段;
根据所述第一抽样数据源 的属性字段 ,.的指标与所述第二抽样数据 源 的相同的属性字段 ^的指标间的差异度, 以及, 所述第一抽样数据源 的属性字段 ,.的指标分别与所述第二抽样数据源 的不同的属性字段的指 标间的差异度确定所述第一数据源 Α的属性字段 ,.的决策值, 所述决策值 为判断是否与所述第一数据源 ^的属性字段 Xt为相同属性的差异度阔值; 获得所述第一数据源 A的属性字段 ,.的指标分别与所述第二数据源 Β 的每个属性字段 Υ2 , 1 的指标间的差异度;
将所述第二数据源 S中与所述第一数据源 Α的属性字段 ,.的指标间的 差异度小于所述决策值的属性字段映射到所述第一数据源 ^的属性字段
Xi。
12.根据权利要求 11所述的方法,其特征在于,所述指标包括:标准差、 方差、 偏度、 偏度标准差、 峰度、 峰度标准差、 均值标准误差、 离群值以 及极值中至少一个。
13.根据权利要求 11-12任一项所述的方法, 其特征在于, 所述差异度 包括: 指标间的差值, 或指标间的比值, 或指标间的误差率。
14.根据权利要求 11-13任一项所述的方法, 其特征在于, 所述根据所 述第一抽样数据源 a的属性字段 ,.的指标与所述第二抽样数据源 的相同 的属性字段 ^的指标间的差异度, 以及, 所述第一抽样数据源 的属性字段 Xt的指标分别与所述第二抽样数据源 的不同的属性字段的指标间的差异 度确定所述第一数据源 Α的属性字段 ,.的决策值具体包括:
将所述第一抽样数据源 a的属性字段 ,.和第二抽样数据源 中相同属 性字段 Xt的指标间的差异度作为相同属性样本,将第一抽样数据源 的属性 字段 ,.和第二抽样数据源 中不同属性字段的指标间的差异度作为不同属 性样本, 釆用决策树算法对所述相同属性样本和所述不同属性样本进行分 类建模 , 得到所述第一数据源 ^的属性字段 Xi的决策值。
15.根据权利要求 11-14任一项所述的方法, 其特征在于, 如果所述第 二数据源 S中与所述第一数据源 ^的属性字段 Xt的指标间的差异度小于所 述决策值的属性字段的数量大于等于 2, 则输出所述第二数据源 B中与所述 第一数据源 ^的属性字段 ,.的指标间的差异度小于所述决策值的属性字段 以供用户选择。
PCT/CN2014/079378 2014-06-06 2014-06-06 数据整合方法以及装置 WO2015184643A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP14893959.8A EP3142019A4 (en) 2014-06-06 2014-06-06 Data integration method and device
PCT/CN2014/079378 WO2015184643A1 (zh) 2014-06-06 2014-06-06 数据整合方法以及装置
US15/370,654 US10621155B2 (en) 2014-06-06 2016-12-06 Method and apparatus for data integration

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/079378 WO2015184643A1 (zh) 2014-06-06 2014-06-06 数据整合方法以及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/370,654 Continuation US10621155B2 (en) 2014-06-06 2016-12-06 Method and apparatus for data integration

Publications (1)

Publication Number Publication Date
WO2015184643A1 true WO2015184643A1 (zh) 2015-12-10

Family

ID=54765977

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/079378 WO2015184643A1 (zh) 2014-06-06 2014-06-06 数据整合方法以及装置

Country Status (3)

Country Link
US (1) US10621155B2 (zh)
EP (1) EP3142019A4 (zh)
WO (1) WO2015184643A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110082116B (zh) * 2019-03-18 2022-04-19 深圳市元征科技股份有限公司 一种车辆四轮定位数据的评价方法、评价装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801197A (zh) * 2005-01-07 2006-07-12 环隆电气股份有限公司 差异数据整合比较方法
US20070244913A1 (en) * 2006-04-13 2007-10-18 Hayhow Reid F System, method and apparatus for generating a formatted data set
CN101908040A (zh) * 2010-07-01 2010-12-08 千乡万才科技(中国)有限公司 一种数据报表系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0770967A3 (en) * 1995-10-26 1998-12-30 Koninklijke Philips Electronics N.V. Decision support system for the management of an agile supply chain
US7299496B2 (en) * 2001-08-14 2007-11-20 Illinois Institute Of Technology Detection of misuse of authorized access in an information retrieval system
US7149657B2 (en) * 2003-06-23 2006-12-12 General Electric Company Method, system and computer product for estimating a remaining equipment life
US7925678B2 (en) * 2007-01-12 2011-04-12 Loglogic, Inc. Customized reporting and mining of event data
KR101027159B1 (ko) * 2008-07-28 2011-04-05 뮤추얼아이피서비스(주) 타겟 영상 검출 장치 및 그 방법
US20160035230A1 (en) * 2009-08-07 2016-02-04 Vital Source Technologies, Inc. Assessing a user's engagement with digital resources
US8463811B2 (en) * 2011-04-11 2013-06-11 International Business Machines Corporation Automated correlation discovery for semi-structured processes
JP6094322B2 (ja) * 2013-03-28 2017-03-15 富士通株式会社 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
JP6191290B2 (ja) * 2013-07-09 2017-09-06 富士通株式会社 ファイル評価プログラム、ファイル特定装置、およびファイル評価方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801197A (zh) * 2005-01-07 2006-07-12 环隆电气股份有限公司 差异数据整合比较方法
US20070244913A1 (en) * 2006-04-13 2007-10-18 Hayhow Reid F System, method and apparatus for generating a formatted data set
CN101908040A (zh) * 2010-07-01 2010-12-08 千乡万才科技(中国)有限公司 一种数据报表系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3142019A4 *

Also Published As

Publication number Publication date
EP3142019A1 (en) 2017-03-15
EP3142019A4 (en) 2017-05-31
US20170083555A1 (en) 2017-03-23
US10621155B2 (en) 2020-04-14

Similar Documents

Publication Publication Date Title
US11727053B2 (en) Entity recognition from an image
WO2017215346A1 (zh) 业务数据分类方法和装置
WO2021179544A1 (zh) 样本分类方法、装置、计算机设备及存储介质
US9720986B2 (en) Method and system for integrating data into a database
US11783243B2 (en) Targeted prioritization within a network based on user-defined factors and success rates
JP6148732B2 (ja) データインデックス化方法及び装置
CN108985954B (zh) 一种建立各标识的关联关系的方法以及相关设备
WO2016155493A1 (zh) 数据处理方法及装置
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN108470195A (zh) 视频身份管理方法及装置
WO2021068798A1 (zh) 基于文本的指标提取方法、装置、计算机设备及存储介质
CN112328688A (zh) 数据存储方法、装置、计算机设备及存储介质
CN107451249B (zh) 事件发展趋势的预测方法及装置
AU2017410367A1 (en) System and method for learning-based group tagging
WO2018033052A1 (zh) 一种评估用户画像数据的方法及系统
CN108171570A (zh) 一种数据筛选方法、装置及终端
Yalavarthi et al. Select your questions wisely: For entity resolution with crowd errors
WO2019234827A1 (ja) 情報処理装置、判定方法、プログラムが格納された非一時的なコンピュータ可読媒体および情報処理システム
WO2015184643A1 (zh) 数据整合方法以及装置
WO2023125674A1 (zh) 一种物联网机卡绑定池管控方法、装置及相关介质
WO2021135863A1 (zh) 一种图像识别方法及装置
CN112035159B (zh) 一种稽核模型的配置方法、装置、设备及存储介质
CN112163127B (zh) 关系图谱构建方法、装置、电子设备及存储介质
CN113656652A (zh) 医保违规行为的检测方法、装置、设备及存储介质
CN110365515B (zh) 基于泛化熵的服务互联网多租户满意度度量方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14893959

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2014893959

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014893959

Country of ref document: EP