WO2021047373A1

WO2021047373A1 - 基于大数据的列数据处理方法、设备及介质

Info

Publication number: WO2021047373A1
Application number: PCT/CN2020/110364
Authority: WO
Inventors: 李光跃
Original assignee: 星环信息科技(上海)股份有限公司
Priority date: 2019-09-11
Filing date: 2020-08-21
Publication date: 2021-03-18
Also published as: CN110569289A; CN110569289B

Abstract

一种基于大数据的列数据处理方法、设备及介质。其中，基于大数据的列数据处理方法包括：获取待处理的列数据集合，并根据列数据集合中列数据的数据属性对列数据进行分类处理，得到至少两个初始列数据集合(110)；对至少两个初始列数据集合中的每一个进行无监督聚类处理，得到至少两个无监督聚类簇，其中，所述至少两个无监督聚类簇与至少两个初始列数据集合一一对应(120)；生成与至少两个无监督聚类簇分别对应的多个列数据对，并确定每个列数据对中的两个列数据间的列名相似度以及列备注相似度(130)；根据列名相似度以及列备注相似度，确定每个列数据对的相似度(140)。

Description

基于大数据的列数据处理方法、设备及介质

本申请要求在2019年09月11日提交中国专利局、申请号为201910860409.3的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本公开涉及数据处理技术，例如涉及一种基于大数据的列数据处理方法、设备及介质。

背景技术

随着大数据时代的来临，企业中往往会涉及到大量的数据，需要工作人员对大量的数据进行维护，并确定每个数据的含义，以及数据之间的关联关系，从而使得数据能够更好地辅助业务分析。

通过计算数据之间的相似性以及相似程度可以很好地帮助工作人员去寻找到与分析的数据相近的主题数据。相关技术中，采用无监督学习的方式对数据进行聚类，并通过数据重叠度，不同值或唯一值重叠度、模式匹配和名称匹配等特征来计算数据之间的相似度。

相关技术中的方法虽然可以计算出数据之间的相似度，但是由于采用了无监督学习的方式对数据进行聚类，导致计算量大且计算得到的相似度结果准确度不高。

发明内容

本公开提供一种基于大数据的列数据处理方法、设备及介质，可以得到准确率较高的列数据对的相似度并且可以减少计算量。

提供了一种基于大数据的列数据处理方法，该方法包括：

获取待处理的列数据集合，并根据所述列数据集合中列数据的数据属性对所述列数据进行分类处理，得到至少两个初始列数据集合；

对所述至少两个初始列数据集合中的每一个进行无监督聚类处理，得到至少两个无监督聚类簇，其中，所述至少两个无监督聚类簇与所述至少两个初始列数据集合一一对应；

根据至少两个无监督聚类簇生成多个列数据对，并确定每个列数据对中的两个列数据间的列名相似度以及列备注相似度；

根据所述列名相似度以及所述列备注相似度，确定每个列数据对的相似度。

还提供了一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，当所述指令执行时使得所述处理器执行以下操作：

还提供了一种计算机可读存储介质，存储介质用于存储指令，指令用于执行：

附图说明

图1是本发明实施例一中的一种基于大数据的列数据处理方法的流程图；

图2是本发明实施例一中的一种应用场景的示意图；

图3是本发明实施例二中的一种列名相似度的计算方法的流程图；

图4是本发明实施例三中的一种列备注相似度的计算方法的流程图；

图5是本发明实施例三中的计算编辑距离的流程图；

图6是本发明实施例三中的计算列相似度的流程图；

图7是本发明实施例四中的一种基于大数据的列数据处理装置的结构示意图；

图8是本发明实施例五中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例进行说明。附图中仅示出了与本发明实施例相关的部分而非全部结构。

一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，多项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本文使用的术语“列数据”是按列存储的方式存储在数据库中的数据，其中，每一列包括的数据量是不固定的。

本文使用的术语“列数据的数据属性”是列数据的元信息，元信息中包括列数据的列类型。

本文使用的术语“初始列数据集合”是指根据列数据集合中列数据的数据属性对列数据进行聚类处理，可以得到数值型初始列数据集合、字符型初始列数据集合以及时间型初始列数据集合。

本文使用的术语“无监督聚类簇”是指根据对初始列数据集合进行无监督聚类处理，而得到的列数据的分类结果。

本文使用的术语“相似度”是指两个列数据之间的相似程度，即两个列数据越类似，其相似度越大；相应的，“列名相似度”是指两个列数据之间列名的相似程度；“列备注相似度”是指两个列数据之间列备注的相似程度，其中，列备注是为了便于了解列数据的属性，人为加上的对列数据的备注，一列数据可能有列备注，也可能没有列备注。

本文使用的术语“列数据对”可以由任意两个列数据组成，本文中的列数据对也可以由任意两个无监督聚类簇组成；相应的，“第一列名”即为第一列数据或者第一无监督聚类簇的名字；“第二列名”即为第二列数据或者第二无监督聚类簇的名字；“第一列备注”即为第一列数据或者第一无监督聚类簇的备注；“第二列备注”即为第二列数据或者第二无监督聚类簇的备注。

为了便于理解，对本发明实施例进行简述。

通常，采用无监督学习的方式对列数据进行聚类，并通过列数据重叠度，不同值或唯一值重叠度、模式匹配、名称匹配等特征来计算列数据之间的相似度。该方法虽然可以计算出列数据之间的相似度，但是由于采用了无监督学习的方式对列数据进行聚类，导致计算量大且计算得到的相似度结果准确度不高。针对采用了无监督学习的方式对列数据进行聚类，导致计算量大且计算得到的相似度结果准确度不高的问题，本发明实施例采用一种方法计算列数据的相似度，能够减少计算量并且能够提高计算列相似度的准确率。

本发明实施例通过获取待处理的列数据集合，根据列数据集合中的列数据属性对获取的列数据集合进行分类处理，得到了至少两个初始列数据集合；对初始列数据集合进行无监督聚类处理，得到至少两个无监督聚类簇；根据至少两个无监督聚类簇生成多个列数据对，并确定多个列数据对中的两个列数据间的列名相似度以及列备注相似度；根据列名相似度以及列备注相似度，确定与多个列数据对匹配的相似度。通过将大量的列数据进行分类处理后再对初始列数据集合进行无监督聚类，并生成列数据对可以大量的减少计算量；同时，通过计算列数据对的列名相似度和列备注相似度来确定列数据的相似度，可以提高计算列数据的相似度的准确性。

实施例一

图1是本发明实施例一中的一种基于大数据的列数据处理方法的流程图，本实施例可适用于对企业中大量的列数据进行处理的情况，该方法可以由基于大数据的列数据处理装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在执行本方法的设备中，在本实施例中执行本方法的设备可以是计算机、平板电脑和/或手机等智能终端。参考图1，该方法包括如下步骤。

步骤110、获取待处理的列数据集合，并根据列数据集合中列数据的数据属性对列数据进行分类处理，得到至少两个初始列数据集合。

在一实施例中，数据库中存储数据时可以对数据进行按行存储也可以进行按列存储。按行存储数据没有索引的查询使用大量输入/输出接口，并且建立索引和物化视图需要花费大量时间和资源，同时，面对查询的需求，数据库必须被大量膨胀才能满足性能需求；按列存储数据由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储数据可以将每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量。

在一实施例中，本发明实施例所涉及到的列数据是以列为单位对数据进行处理，每一个列数据中可以包含一个或多个数据，通过对列数据进行处理能大大减少读取的数据量，也更加方便进行后续的数据处理操作。相应的，本发明实施例中涉及到的列数据处理方法也可以计算行数据的相似度，为了便于对本发明实施例的叙述在本发明实施例中仅以列数据为例进行介绍。

在一实施例中，待处理的列数据存储在列式存储数据库中，存储在列式存储数据库中的所有列数据被称为列数据集合。在一实施例中，可以根据列数据集合中列数据的数据属性对列数据进行分类处理，得到至少两个初始列数据集合。

可选的，根据列数据集合中列数据的数据属性对列数据进行分类处理，包括：获取列数据集合中列数据的元信息，元信息中包括列数据的列类型；根据列数据的列类型，对列数据进行分类处理。其中，列类型可以为字符型、数值型以及时间型中的至少一项。示例性的，列数据的元信息还可以包括列名、列备注或者该列的统计信息。其中，若列数据的列类型为字符型，则该列数据的统计信息可以为列数据的最短长度、最长长度、平均长度和/或频数最大的数据的长度；若列数据的列类型为数值型，则该列数据的统计信息可以为列数据的极大值、极小值和/或平均值。

在一实施例中，根据列数据集合中列数据的数据属性对列数据进行分类处理，可以得到至少两个初始列数据集合。示例性的，根据列数据集合中列数据的数据属性对列数据进行分类处理，可以得到数值型初始列数据集合、字符型初始列数据集合以及时间型初始列数据集合。在一实施例中，若列数据集合中还包括其他类型的列数据，相应的，也可以得到与该列数据类型一致的初始列数据集合。

步骤120、对至少两个初始列数据集合中的每一个进行无监督分类处理，得到至少两个无监督聚类簇，其中，所述至少两个无监督聚类簇与至少两个初始列数据集合一一对应。

在一实施例中，对步骤110中得到的初始列数据集合进行无监督聚类，得到与每个初始列数据集合相对应的至少两个无监督聚类簇。示例性的，若初始列数据集合为数值型初始列数据集合，则通过无监督聚类，可以得到与数值型初始列数据集合对应的至少两个无监督聚类簇。以下将介绍如何对初始列数据集合进行无监督聚类。

其中，若初始列数据集合为数值型初始列数据集合，可计算列数据的统计指标，可以包括极大值a ₁、极小值a ₂和平均值a ₃，则可以把一列数值型数据的列特性表示为[a ₁,a ₂,a ₃]。

假设有n列数值型数据，计算其统计信息，可得到其列特性矩阵：

将N作为聚类(ISODATA)算法的输入，对数值型初始列数据集合进行聚类，从而可以实现对n列数据进行更细致的分类，可以得到至少两个无监督聚类簇。

若初始列数据集合为字符型初始列数据集合，由于字符型数据没有数值型数据直观的统计信息，故将每列字符数据中字符串最短长度b ₁，字符串最长长度b ₂，字符串平均长度b ₃，频数最大的字符串长度b ₄作为统计信息，可以把一列字符型数据的列特性表示为[b ₁,b ₂,b ₃,b ₄]。

假设有m列字符型数据，计算其特性指标，可得到其列特性矩阵：

将M作为ISODATA算法的输入，对字符型初始列数据集合进行聚类，从而对m列数据进行更细致的分类，可以得到至少两个无监督聚类簇。

由于时间型列数据的数据量总体相对较少，不需要进行聚类；而其他类型的数据没有统一的结构，不便于找到其列特性，故本发明实施例中不对其他类型的数据进行聚类。

步骤130、根据至少两个无监督聚类簇生成多个列数据对，并确定每个列数据对中的两个列数据间的列名相似度以及列备注相似度。

在一实施例中，通过对初始列数据集合进行无监督处理后，可以得到至少两个无监督聚类簇，可以通过将至少两个无监督聚类簇中的每一个无监督聚类簇中的列数据进行两两组合，从而得到多个列数据对。在一实施例中，列数据1和列数据2组成的列数据对12与列数据2和列数据1组成的列数据对21为同一个列数据对。生成列数据对后，分别确定每个列数据对的列名相似度和列备注相似度。

在一实施例中，若不进行步骤110和步骤120，直接对获取的列数据集合生成列数据对，若列数据集合中有100000个列数据，则会生成将近50亿个列数据对，也就是说需要对5000000000个列数据对进行列名和列备注的相似度的计算，才能得到全部的相似数据，而假设将上述的10万个列数据，经过步骤110和步骤120的处理后，得到400个无监督聚类簇，假设列数据均匀情况下，每个簇250条列数据，这400个无监督聚类簇可以生成

个列数据对。因此，本发明实施例的方案，可以极大地降低计算量，并且聚类簇中的数据越均匀，降低计算量的效果越明显。

步骤140、根据列名相似度以及列备注相似度，确定每个列数据对的相似度。

在一实施例中，通过步骤130可以得到列数据对的列名相似度和列备注相似度，并将列数据的列名相似度记为s _col，列数据的列备注相似度记为s _com，则列数据对的相似度S，可以通过如下公式计算得到。

本实施例的技术方案，通过获取待处理的列数据集合，根据列数据集合中的列数据属性对获取的列数据集合进行分类处理，得到了至少两个初始列数据集合；对初始列数据集合进行无监督聚类处理，得到至少两个无监督聚类簇；根据至少两个无监督聚类簇生成多个列数据对，并确定每个列数据对中的两个列数据间的列名相似度以及列备注相似度；根据列名相似度以及列备注相似度，确定与每个列数据对匹配的相似度，可以得到准确率较高的列数据对的相似度结果并且可以减少计算量。

应用场景

图2列举了一种可以应用本发明实施例的系统，在一实施例中，数据目录系统发送列数据的元信息到列相似度后端服务，其中，列数据的元信息的任何变化都会引起与变化的列数据相关列的相似度的重新计算。列相似度后端服务接收到数据目录系统发送的列数据的元信息的变化后，列相似度后端服务会将列数据的元信息写入到相似度后端数据库中，即通过相似度后端数据库可以查询列数据的元信息。同时，列相似度后端服务也可以将列数据相似度计算任务发送至任务调度服务，任务调度服务接收到请求后，会通过分布式计算引擎进行列数据的相似度计算；分布式计算引擎对列数据相似度计算任务进行细化；第一任务中的第一阶段对列数据即初始列数据集进行分类处理得到初始列数据集合，然后对初始列数据集合进行无监督聚类处理得到无监督聚类簇，最后根据上一步得到的至少两个无监督聚类簇生成多个列数据对；第一任务中的第二阶段对生成的多个列数据对中的第一列数据对进行列名和列备注的预处理，得到第一列数据对的列名相似度和列备注相似度，并根据第一列数据对的列名相似度和列备注相似度得到第一列数据对的列相似度，最后将第一列数据对的相似度保存至相似度后端数据库中；同时，分布式计算引擎中的第二任务-第n任务可以对生成的第二列数据对-第n列数据对的列相似度进行计算，并保存至相似度后端数据库中。第n任务中的n的数值并不固定，其与生成的列数据对的对数相关，例如，生成的列数据对的对数为100，那么第n任务即为第一百任务。本系统中，列相似度后端服务可以实时的查询相似度后端数据库中的列数据的元信息和列数据的相似度，也可以查询任务调度服务的任务状态。

在本应用场景中，分布式计算引擎通过不同的任务可以同时得到每个列数据对的相似度，并将列数据对的相似度保存在相似度后端数据库中，通过列相似度后端服务可以实时的查询列数据对的相似度，不但可以得到准确率较高的列数据对的相似度结果并且可以减少计算量和计算时间。

实施例二

图3为本发明实施例二涉及到的计算列数据对中的两个列数据间的列名相似度的流程图，本实施例对上述实施例进行说明，确定每个列数据对中的两个列数据间的列名相似度可以包括：获取与列数据对中的两个列数据对应的第一列名以及第二列名；计算第一列名与第二列名间的列名编辑距离；分别获取与第一列名对应的第一列名词向量表，以及与第二列名对应的第二列名词向量表，并计算第一列名词向量表与第二列名词向量表间的列名语义距离；根据列名编辑距离以及列名语义距离，确定列数据对中的两个列数据间的列名相似度。参考图3，该方法包括：

步骤310、获取与列数据对中的两个列数据对应的第一列名以及第二列名。

在一实施例中，每一个列数据对中都包含两个列数据，分别记为第一列数据和第二列数据，相应的，第一列数据的列名被记为第一列名，第二列数据的列名被记为第二列名。本实施例中涉及到的第一列数据、第二列数据、第一列名以及第二列名等词，均是为了便于对本发明实施例的描述而用到的，并不是对本发明实施例的限制。

可选的，列数据的列名的命名方式有两种，一种是驼峰式命名，如myFirstName；另一种是下划线命名，如my_first_name。本实施例中需要对列数据的列名进行标准化操作，即将列名展开成独立的单词，如上述列数据名需要展开为[my,first,name]。由于数字对列名相似度没有影响，当列名中出现数字时，对数字进行忽略处理，即将列数据名中的数字删除。

可选的，将列数据的列名进行标准化操作后，利用词向量模型将列数据名中的英文单词转化为词向量，示例性的，可以通过facebook利用fasttext算法训练公开的英文词向量模型得到列数据名中的英文单词的词向量。假设第一列名和第二列名分别为A和B，预处理之后得到两个列名的单词表分别为A＝[a ₁,a ₂,...,a _n]和B＝[b ₁,b ₂,...,b _m]，其中a ₁,a ₂,...,a _n分别为第一列名A的单词表中的每个单词，b ₁,b ₂,...,b _m分别为第二列名B的单词表中的每个单词，其中，n为第一列名的单词表中包含的单词数量，m为第二列名的单词表中包含的单词数量。由于列名分解后的单词可能存在缩写单词、错拼单词等情况，因此一些单词不一定存在对应的词向量，本实施例中若查询不到一些单词的向量，则忽略该单词。因此，第一列名和第二列名的单词表转化为词向量表A _v＝[V _a1,V _a2,...,V _an′]和B _v＝[V _b1,V _b,...,V _bm′]，其中，n为第一列名的单词表中包含的单词数量，m为第二列名的单词表中包含的单词数量，n′为第一列名词向量表中包含的词向量数量，m′为第二列名词向量表中包含的词向量数量，且n′≤n，m′≤m，V _a1,V _a2,...,V _an′分别为第一列名A词向量表中与单词a ₁,a ₂,...,a _n对应的词向量，V _b1,V _b,...,V _bm′分别为第二列名B词向量表中与单词b ₁,b ₂,...,b _m对应的词向量。

步骤320、计算第一列名与第二列名间的列名编辑距离。

编辑距离是指两个字符之间，由一个字符转换成为另一个字符所需要的最少编辑操作次数，允许的编辑操作包括一个字符替换为另一个字符，插入一个字符，删除一个字符。因此编辑距离的大小并不是在一个范围内，为了将编辑距离标准化在[0,1]范围内，对编辑距离重新定义，公式如下：

h′＝(s(x)((L _max-d)/L _max×6)-0.5)×2

其中，s(x)为sigmoid函数，用于将编辑距离标准化到[0,1]范围内，x为编辑距离；L _max表示两个字符串的最大字符数；d表示两个字符串的原编辑距离，即最少编辑操作次数；h′为自定义编辑距离，即本实施例中涉及到的列名编辑距离，其中，h′越大，表示两个字符串越相似。

由于列数据名的单词大小可能不一致，为了保证列数据对AB与列数据BA的编辑距离一致，故令单词列表较长的列为第一列，第一列名与第二列名间的列名编辑距离的计算公式如下：

f(a _i,B)＝max(g(a _i,b ₁),g(a _i,b ₂),...,g(a _i,b _m))

其中，s ₂表示第一列名与第二列名间的列名编辑距离，f(a _i,B)表示第一列名中第i个单词a _i与第二列名中所有单词的编辑距离的最大值，g(a _i,b _j)表示第一列名中第i个单词与第二列名中第j个单词的编辑距离，L _A为第一列名的长度。

若a _i为单词，且在词向量中出现，考虑到单词存在近义词的情况，利用词向量集得到a _i的近义词，利用近义词优化编辑距离，从而增大编辑距离的可靠性，故g(a _i,b _j)的计算公式定义如下：

g(a _i,b _j)＝max(h′(a _i,b _j),h′(a _i1,b _j),h′(a _i2,b _j),...,h′(a _ik,b _j))

其中a _ik表示第一列名中第i个单词a _i的第k个近义词，h′(a _ik,b _j)表示a _ik和b _j的编辑距离。

若a _i不在词向量中出现(即可能不是单词或拼写错误)，则不考虑近义词情况。

由上可知，在计算a _i和b _j的编辑距离时，需要考虑a _i的近义词。若a _i存在词向量，利用已有词向量集可以得到a _i的空间距离最近的k个单词，即[a _i1,a _i2,...,a _ik]；若a _i不存在词向量，此时a _i无近义词，k＝0，故g(a _i,b _j)＝h′(a _i,b _j)。

步骤330、计算第一列名词向量表与第二列名词向量表间的列名语义距离。

在一实施例中，通过步骤310中得到第一列名与第二列名的词向量表分别为A _v＝[V _a1,V _a2,...,V _an′]和B _v＝[V _b1,V _b,...,V _bm′]，其中n′≤n,m′≤m，V _a1,V _a2,...,V _an′分别为第一列名A词向量表中与单词a ₁,a ₂,...,a _n对应的词向量，V _b1,V _b,...,V _bm′分别为第二列名B词向量表中与单词b ₁,b ₂,...,b _m对应的词向量。则可以根据以下公式计算第一列名词向量表与第二列名词向量表间的列名语义距离。

s ₁＝V _A·V _B/(‖V _A‖×‖V _B‖)

其中，s ₁为第一列名词向量表与第二列名词向量表间的列名语义距离，L _Av和L _Bv分别为第一列名词向量表A和第二列名词向量表B的词向量个数，V _A为第一列名A词向量表的均值，V _B为第一列名B词向量表的均值。

步骤340、根据列名编辑距离以及列名语义距离，确定列数据对中的两个列数据间的列名相似度。

在一实施例中，由步骤320得到第一列名与第二列名间的列名编辑距离s ₂，由步骤330得到第一列名与第二列名间的列名语义距离s ₁，列名编辑距离s ₂和列名语义距离s ₁的范围均为[0,1]。列名相似度计算中，由于列名单词很大可能不存在词向量，故列名相似度中，编辑距离的权重相对较大。而单纯的线性权重关系无法得到一个准确的列名相似度，故本实施例采用分段函数的形式，计算列名相似度，可以根据如下公式计算列名相似度s _col。

本实施例在列名相似度计算过程中，获取与列数据对中的两个列数据对应的第一列名以及第二列名，并对获取的列名进行处理，得到列名词向量，根据列名词向量计算第一列名与第二列名间的列名编辑距离和列名语义距离，并通过分段函数将不同条件下的列名编辑距离和列名语义距离设置不同的权重，得到了准确率更高的列名相似度。

实施例三

图4是本发明实施例三涉及到的计算列数据对中的两个列数据间的列备注相似度的流程图，本实施例对上述任意实施例进行说明，将确定每个列数据对中的两个列数据间的列备注相似度可以包括：获取与列数据对中的两个列数据对应的第一列备注以及第二列备注；计算第一列备注与第二列备注间的列备注编辑距离；对第一列备注以及第二列备注进行分词处理后，得到与第一列备注对应的第一列备注词向量表以及与第二列备注对应的第二列备注词向量表；计算第一列备注词向量表与第二列备注词向量表间的列备注语义距离；根据列备注编辑距离以及列备注语义距离，确定列数据对中的两个列数据间的列备注相似度，参考图4，该方法包括：

步骤410、获取与列数据对中的两个列数据对应的第一列备注以及第二列备注。

在一实施例中，列备注可以反映与列备注对应的列数据的主要内容，需要用户对列备注进行定义，因此，有可能存在一列数据不存在列备注的现象。将列数据对中与第一列数据对应的备注记为第一列备注，与第二列数据对应的列备注记为第二列备注。

可选的，在确定第一列备注或者第二列备注为空时，确定列数据对中的两个列数据间的列备注相似度为0，即若确定第一列数据不包含列备注、第二列数据不包含列备注或者第一列数据和第二列数据都不包含列备注，可以直接确定列数据对中两个列数据间的列备注相似度为0。

可选的，获取到列数据对中的两个列数据对应的第一列备注以及第二列备注后，可以对第一列备注和第二列备注进行分词处理，其中，分词处理是将连续的文本按照一定的规则重新组合成词序列的过程。示例性的，可以将第一列备注和第二列备注经中的停用词、标点符号、英文字母以及数字删除，并通过分词工具对第一列备注和第二列备注进行分词处理，得到第一列备注表C＝[c ₁,c ₂,...,c _n]和第二列备注表D＝[d ₁,d ₂,...,d _m]，其中，n为第一列备注表中包含的单词数量，m为第二列备注表中包含的单词数量。利用词向量模型将英文单词转化为词向量，本实施例中可以通过查询AI Lib利用Directional Skip-Gram(DSG)算法训练公开的词向量数据集而得到列备注中每个单词对应的词向量，当列备注中的单词查询不到词向量时，对其进行忽略处理，得到第一列备注和第二列备注的词向量表分别为C _v＝[V _c1,V _c2,...,V _cn′]和d _v＝[V _d1,V _d2,...,V _dm′]，其中n为第一列备注表中包含的单词数量，m为第二列备注表中包含的单词数量，n′为第一列备注词向量表中包含的词向量数量，m′为第二列备注词向量表中包含的词向量数量，且n′≤n，m′≤m，V _c1,V _c2,...,V _cn′分别为与第一列备注表中的单词c ₁,c ₂,...,c _n对应的词向量，V _d1,V _d2,...,V _dm′分别为与第二列备注表中的单词d ₁,d ₂,...,d _m对应的词向量。

步骤420、计算第一列备注与第二列备注间的列备注编辑距离。

在一实施例中，第一列备注与第二列备注间的列备注编辑距离与第一列名与第二列名间的列名编辑距离的计算方法一致，本实施例中在此不再对其进行阐述，通过步骤320中涉及到的方法，可以得到第一列备注与第二列备注间的列备注编辑距离为s ₄。

步骤430、计算第一列备注词向量表与第二列备注词向量表间的列备注语义距离。

在一实施例中，由步骤410得到第一列备注和第二列备注的词向量表分别为C _v＝[V _c1,V _c2,...,V _cn′]和d _v＝[V _d1,V _d2,...,V _dm′]，其中n为第一列备注表中包含的单词数量，m为第二列备注表中包含的单词数量，n′为第一列备注词向量表中包含的词向量数量，m′为第二列备注词向量表中包含的词向量数量，且n′≤n，m′≤m，V _c1,V _c2,...,V _cn′分别为与第一列备注表中的单词c ₁,c ₂,...,c _n对应的词向量，V _d1,V _d2,...,V _dm′分别为与第二列备注表中的单词d ₁,d ₂,...,d _m对应的词向量。

第一列备注词向量表与第二列备注词向量表间的列备注语义距离可以通过如下公式计算得到。

s ₃＝V _C·V _D/(‖V _C‖×‖V _D‖)

其中，s ₃为列备注的语义距离，L _Cv和L _Dv分别为第一列备注词向量表和第二列备注词向量表的词向量个数，V _C为第一列备注词向量表的均值，V _D为第二列备注词向量表的均值。

步骤440、根据列备注编辑距离以及列备注语义距离，确定列数据对中的两个列数据间的列备注相似度。

在一实施例中，由步骤420得到第一列备注与第二列备注间的列备注编辑距离s ₄，由步骤430得到第一列备注与第二列备注间的列备注语义距离s ₃，列备注编辑距离s ₄和列备注语义距离s ₃的范围均为[0,1]。列备注相似度计算中，由于列备注为文本信息，故列备注的语义距离的重要性大于列备注的编辑距离。而单纯的线性权重关系无法得到一个准确的列备注相似度，故本实施例采用分段函数的形式，计算列备注相似度，可以根据如下公式计算列备注相似度s _com。

本实施例在列备注相似度计算过程中，获取与列数据对中的两个列数据对应的第一列备注以及第二列备注，并对获取的列备注进行处理，得到列备注词向量，根据列备注词向量计算第一列备注与第二列备注间的列备注编辑距离和列备注语义距离，并通过分段函数将不同条件下的列备注编辑距离和列备注语义距离设置不同的权重，得到了准确率更高的列备注相似度。

图5是计算列编辑距离的流程图，其中列编辑距离包括列名编辑距离和列备注编辑距离。对列名和列备注进行处理得到与列名和列备注分别对应的词向量，比较两个列数据表的长度，将较长的列数据表记为A表，较短的列数据表记为B表，其中，A表与第一列数据表对应，B表与第二列数据表对应；判断A表中的第i个单词是否存在词向量，若存在，则寻找k个第i个单词的近义词，即A _i＝[a _i,a ₁,...,a _k]，分别计算A _i中每个单词与B表中每个单词的编辑距离，并选出最大的编辑距离，得到列编辑距离。

在上述例子中，通过确定最大编辑距离而得到列编辑距离，提高了求解编辑距离的准确度。

示例性的，图6是本发明实施例中计算列相似度的流程图，对列数据对中包含的两个列数据的列名进行处理，得到列名词向量，根据列名词向量分别计算列名的语义距离和编辑距离，并计算得到列名相似度；针对列备注相似度的计算，判断列数据对中的两个列数据是否包含列备注，若其中一个列数据不包含列备注，则两个列数据间的列备注相似度为0；若两个列数据都包含列备注，则对列备注进行处理，得到列备注词向量，并根据列备注词向量计算列备注的语义距离和编辑距离，并计算得到列备注相似度；通过列名相似度和列备注相似度确定列相似度。

在上述例子中，通过对列名和列备注进行处理，得到列名和列备注的词向量，并根据列名和列备注的词向量确定了列名和列备注的相似度，最终得到了准确率较高的列相似度。

实施例四

图7是本发明实施例四提供的一种基于大数据的列数据处理装置的结构示意图，该装置可以由软件和/或硬件的方式实现，并且可以执行本公开任意实施例所述的基于大数据的列数据处理方法，参考图7，该装置包括：列数据集合获取模块710、无监督聚类处理模块720、列数据对生成模块730及列数据对相似度确定模块740。

列数据集合获取模块710：设置为获取待处理的列数据集合，并根据列数据集合中列数据的数据属性对列数据进行分类处理，得到至少两个初始列数据集合；

无监督聚类处理模块720：设置为对至少两个初始列数据集合中的每一个进行无监督聚类处理，得到至少两个无监督聚类簇，其中，所述至少两个无监督聚类簇与至少两个初始列数据集合一一对应；

列数据对生成模块730：设置为生成与至少两个无监督聚类簇分别对应的多个列数据对，并确定每个列数据对中的两个列数据间的列名相似度以及列备注相似度；

列数据对相似度确定模块740：设置为根据列名相似度以及列备注相似度，确定每个列数据对的相似度。

本实施例的技术方案，通过列数据集合获取模块得到了至少两个初始列数据集合，并通过无监督聚类模块对初始列数据集合进行无监督聚类处理得到了至少两个无监督聚类簇；通过列数据对生成模块生成列数据对，计算得到每个列数据对的列名相似度和列备注相似度；通过列数据对相似度确定模块得到列数据对的相似度。本实施例可以得到准确率较高的列数据对的相似度结果并且可以减少计算量。

可选的，本实施例在上述方案的基础上，列数据集合获取模块710还可以包括：列数据的元信息获取单元，设置为获取列数据集合中列数据的元信息，元信息中包括列数据的列类型；根据列数据的列类型，对列数据进行分类处理。

可选的，列类型包括下述至少一项：字符型、数值型、时间型。

可选的，列数据对生成模块730还设置为将至少两个无监督聚类簇中的每一个无监督聚类簇中的列数据进行两两组合，得到多个列数据对。

可选的，列数据对生成模块730还包括列名相似度计算单元，其中，列名相似度计算单元是设置为：获取与列数据对中的两个列数据对应的第一列名以及第二列名；计算第一列名与第二列名间的列名编辑距离；计算第一列名词向量表与第二列名词向量表间的列名语义距离；根据列名编辑距离以及列名语义距离，确定列数据对中的两个列数据间的列名相似度。

可选的，列数据对生成模块730还包括列备注相似度计算单元，其中，列备注相似度计算单元是设置为：获取与列数据对中的两个列数据对应的第一列备注以及第二列备注；计算第一列备注与第二列备注间的列备注编辑距离；计算第一列备注词向量表与第二列备注词向量表间的列备注语义距离；根据列备注编辑距离以及列备注语义距离，确定列数据对中的两个列数据间的列备注相似度。

可选的，本实施例所述的基于大数据的列数据处理装置还包括列备注判断模块，设置为在确定第一列备注或者第二列备注为空时，确定列数据对中的两个列数据间的列备注相似度为0。

本发明实施例所提供的基于大数据的列数据处理装置可执行本公开任意实施例所提供的基于大数据的列数据处理方法，具备执行方法相应的功能模块和有益效果。

实施例五

图8为本发明实施例五提供的一种计算机设备的结构示意图，如图8所示，该设备包括处理器80、存储器81、输入装置82和输出装置83；处理器80的数量可以是一个或多个，图8中以一个处理器80为例；处理器80、存储器81、输入装置82和输出装置83可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器81作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于大数据的列数据处理方法对应的程序指令/模块(例如，基于大数据的列数据处理装置中的列数据集合获取模块710、无监督聚类处理模块720、列数据对生成模块730及列数据对相似度确定模块740)。处理器80通过运行存储在存储器81中的软件程序、指令以及模块，从而执行计算机设备的多种功能应用以及数据处理，即实现上述的基于大数据的列数据处理方法。

存储器81可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器81可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器81可包括相对于处理器80远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括互联网、企业内部网、局域网、移动通信网及其组合。

输入装置82可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置83可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种基于大数据的列数据处理方法，该方法包括：获取待处理的列数据集合，并根据列数据集合中列数据的数据属性对列数据进行分类处理，得到至少两个初始列数据集合；

对至少两个初始列数据集合中的每一个进行无监督聚类处理，得到至少两个无监督聚类簇，其中，所述至少两个无监督聚类簇与至少两个初始列数据集合一一对应；

根据列名相似度以及列备注相似度，确定每个列数据对的相似度。

本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的基于大数据的列数据处理方法中的相关操作。

通过以上关于实施方式的描述，本公开可借助软件及必需的通用硬件来实现，也可以通过硬件实现。本公开可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括至少一个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开多个实施例所述的方法。

上述基于大数据的列数据处理装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，多个功能单元的名称也只是为了便于相互区分，并不用于限制本公开的保护范围。

Claims

一种基于大数据的列数据处理方法，包括：

获取待处理的列数据集合，并根据所述列数据集合中列数据的数据属性对所述列数据进行分类处理，得到至少两个初始列数据集合；

对所述至少两个初始列数据集合中的每一个进行无监督聚类处理，得到至少两个无监督聚类簇，其中，所述至少两个无监督聚类簇与所述至少两个初始列数据集合一一对应；

根据所述至少两个无监督聚类簇生成多个列数据对，并确定每个列数据对中的两个列数据间的列名相似度以及列备注相似度；

根据所述列名相似度以及所述列备注相似度，确定每个列数据对的相似度。
根据权利要求1所述的方法，其中，所述根据所述列数据集合中列数据的数据属性对所述列数据进行分类处理，包括：

获取所述列数据集合中所述列数据的元信息，所述元信息中包括所述列数据的列类型；

根据所述列数据的列类型，对所述列数据进行分类处理。
根据权利要求2所述的方法，其中，所述列类型包括下述至少一项：字符型、数值型、时间型。
根据权利要求1所述的方法，其中，生成与所述至少两个无监督聚类簇对应的多个列数据对，包括：

将所述至少两个无监督聚类簇中的每一个无监督聚类簇中的列数据进行两两组合，得到所述多个列数据对。
根据权利要求1所述的方法，其中，所述确定每个列数据对中的两个列数据间的列名相似度，包括：

获取与每个列数据对中的两个列数据对应的第一列名以及第二列名；

计算所述第一列名与所述第二列名间的列名编辑距离；

计算第一列名词向量表与第二列名词向量表间的列名语义距离；

根据所述列名编辑距离以及所述列名语义距离，确定每个列数据对中的两个列数据间的列名相似度。
根据权利要求1所述的方法，其中，所述确定每个列数据对中的两个列数据间的列备注相似度，包括：

获取与每个列数据对中的两个列数据对应的第一列备注以及第二列备注；

计算所述第一列备注与所述第二列备注间的列备注编辑距离；

计算第一列备注词向量表与第二列备注词向量表间的列备注语义距离；

根据所述列备注编辑距离以及所述列备注语义距离，确定每个列数据对中的两个列数据间的列备注相似度。
根据权利要求6所述的方法，其中，在所述获取与每个列数据对中的两个列数据对应的第一列备注以及第二列备注之后，还包括：

在确定所述第一列备注或者所述第二列备注为空的情况下，确定每个列数据对中的两个列数据间的列备注相似度为0。
一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，所述指令执行时使得所述处理器执行以下操作：

获取待处理的列数据集合，并根据所述列数据集合中列数据的数据属性对所述列数据进行分类处理，得到至少两个初始列数据集合；

对所述至少两个初始列数据集合中的每一个进行无监督聚类处理，得到至少两个无监督聚类簇，其中，所述至少两个无监督聚类簇与所述至少两个初始列数据集合一一对应；

根据所述至少两个无监督聚类簇生成多个列数据对，并确定每个列数据对中的两个列数据间的列名相似度以及列备注相似度；

根据所述列名相似度以及所述列备注相似度，确定每个列数据对的相似度。
根据权利要求8所述的计算机设备，其中，所述处理器是设置为通过以下方式对所述列数据进行分类处理：

获取所述列数据集合中所述列数据的元信息，所述元信息中包括所述列数据的列类型；

根据所述列数据的列类型，对所述列数据进行分类处理。
根据权利要求9所述的计算机设备，其中，所述列类型包括下述至少一项：字符型、数值型、时间型。
根据权利要求8所述的计算机设备，其中，所述处理器是设置为通过以下方式生成与所述至少两个无监督聚类簇对应的多个列数据对：

将所述至少两个无监督聚类簇中的每一个无监督聚类簇中的列数据进行两两组合，得到所述多个列数据对。
根据权利要求8所述的计算机设备，其中，所述处理器是设置为通过以下方式确定每个列数据对中的两个列数据间的列名相似度：

获取与每个列数据对中的两个列数据对应的第一列名以及第二列名；

计算所述第一列名与所述第二列名间的列名编辑距离；

计算第一列名词向量表与第二列名词向量表间的列名语义距离；

根据所述列名编辑距离以及所述列名语义距离，确定每个列数据对中的两个列数据间的列名相似度。
根据权利要求8所述的计算机设备，其中，所述处理器是设置为通过以下方式确定每个列数据对中的两个列数据间的列备注相似度：

获取与每个列数据对中的两个列数据对应的第一列备注以及第二列备注；

计算所述第一列备注与所述第二列备注间的列备注编辑距离；

计算第一列备注词向量表与第二列备注词向量表间的列备注语义距离；

根据所述列备注编辑距离以及所述列备注语义距离，确定每个列数据对中的两个列数据间的列备注相似度。
根据权利要求13所述的计算机设备，其中，所述处理器在确定所述第一列备注或者所述第二列备注为空的情况下，确定每个列数据对中的两个列数据间的列备注相似度为0。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于大数据的列数据处理方法。