WO2021072776A1

WO2021072776A1 - 数据合并方法、装置、电子设备及存储介质

Info

Publication number: WO2021072776A1
Application number: PCT/CN2019/112037
Authority: WO
Inventors: 王少丹
Original assignee: 北京欧珀通信有限公司
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2021-04-22
Also published as: CN114258541A

Abstract

本申请公开了一种数据合并方法、装置、电子设备及存储介质，涉及数据处理技术领域。其中，该方法包括：获取配置文件，所述配置文件中包括数据源的存储路径以及数据源的身份标识，其中，需要合并为一个数据文件的数据源配置有相同的身份标识；根据所述配置文件中数据源的存储路径获取各个数据源；将身份标识相同的数据源合并为一个数据文件，提高了数据合并过程的便捷性。

Description

数据合并方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种数据合并方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的不断发展，网络平台中产生的数据不断碎片化、多源化。为了更好的为数据分析、搜索推荐等场景提供数据支撑，需要对网络平台中产生的相关联的数据进行合并。常用的数据合并对数据的处理繁琐，合并难度大。

发明内容

鉴于上述问题，本申请提出了一种数据合并方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种数据合并方法，所述方法包括：获取配置文件，所述配置文件中包括数据源的存储路径以及数据源的身份标识，其中，需要合并为一个数据文件的数据源配置有相同的身份标识；根据所述配置文件中数据源的存储路径获取各个数据源；将身份标识相同的数据源合并为一个数据文件。

第二方面，本申请实施例提供了一种数据合并装置，所述装置包括：文件获取模块，用于获取配置文件，所述配置文件中包括数据源的存储路径以及数据源的身份标识，其中，需要合并为一个数据文件的数据源配置有相同的身份标识；数据源获取模块，用于根据所述配置文件中数据源的存储路径获取各个数据源；合并模块，用于将身份标识相同的数据源合并为一个数据文件。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序。其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述的方法。

本申请实施例提供的数据合并方法、装置、电子设备及存储介质，在配置文件中配置有需要合并的数据源的存储路径以及身份标识。获得配置文件后，可以根据配置文件中的存储路径获取到各个数据源，将身份标识相同的数据源合并为一个数据文件，不需要再从数据源本身提取信息确定合并依据，提高了数据合并过程的便捷性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的数据合并方法的流程图。

图2示出了本申请另一实施例提供的数据合并方法的流程图。

图3示出了本申请实施例提供的配置文件的示意图。

图4示出了本申请实施例提供的数据合并装置的功能模块图。

图5示出了本申请实施例提供的电子设备的结构框图。

图6是本申请实施例的用于保存或者携带实现根据本申请实施例的数据合并方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在网络平台中，存在相互关联的数据文档。相互关联的数据文档可以认为是，彼此之间存在共性、针对同一对象产生的、对该对象进行分析时需要结合分析的数据文档，或者说，相互关联的数据文档就是需要合并为一个文档的数据文档。另外，数据文档可以是互联网中产生的各种形式的数据，如表格、文字文本、文字与图像结合的文本、图像以及代码等等，此处不进行一一赘述。

很多相关关联的数据文档产生于不同的平台，彼此之间相互独立，而要对这些相互关联的数据文档进行全面完整的分析，则需要将这些数据文档合并，提高分析的便捷性。例如，一篇文章的内容由自媒体生产，针对文章的评论由用户生产，针对文章的点击数以及点击用户身份、点赞数以及点赞用户身份等由软件平台记录，这篇文章、这篇文章的评论、点击数、点击用户身份、点赞数以及点赞用户身份分布于不同的平台，相互独立，若需要为数据分析、搜索推荐等场景提供数据支撑，例如分析用户对文章的喜好程度、这篇文章所属类型的文章是否受用户欢迎、受哪些类型的用户欢迎等，则需要将文章、文章的评论、点击数、点击用户身份、点赞数以及点赞用户身份等相互独立的数据文档合成为一个文档。

在一些实施方式中，在对数据文档进行合并时从数据文档本身获取数据，作为合并的依据，操作比较繁琐，且不够准确。例如需要从各个待合并的数据文档中提取字段，将具有相同字段的文档合并；或者计算各个文档之间的相似度，将相似度高于某个值的数据文档合并。

因此，发明人提出了本申请实施例提供的数据合并方法、装置、电子设备及存储介质，通过配置文件确定待合并的数据源的合并依据，相对于从数据源本身获取数据，提高了处理的便捷性，且提高了合并速度。其中，待合并的数据源及前述的数据文档。下面将通过具体实施例对本申请实施例提供的数据合并方法、装置、电子设备及存储介质进行详细说明。

请参阅图1，示出了本申请实施例提供的数据合并方法。具体的，该方法包括：

步骤S110：获取配置文件，所述配置文件中包括数据源的存储路径以及数据源的身份标识，其中，需要合并为一个数据文件的数据源配置有相同的身份标识。

在本申请实施例中，可以根据各个需要进行合并的数据源配置有配置文件，以通过配置文件确定合并策略进行数据源的合并。

其中，各个数据源中，相互关联的数据源合并为一个数据文件。在配置文件中，可以将相互关联的数据源进行标注，从而可以通过配置文件确定哪些数据源需要合并为同一个数据文件。

在本申请实施例中，可以通过身份标识标注相互关联的数据源，即为需要合并为同一个数据文件的数据源配置相同的身份标识，不合并为同一个数据文件的数据源配置不同的身份标识，并且将各个数据源的身份标识存储在配置文件中。例如，需要合并是数据源有a、b、c、d以及e，其中，a、b以及c需要合并为同一个数据文件；d和e需要合并为同一个数据文件，则a、b、c在配置文件中配置相同的身份标识A；d和e在配置文件中配置相同的身份标识B，且身份标识A不同于身份标识B。

另外，各个数据源具有相应的存储位置，配置文件中可以包括各个数据源的存储路径，从而可以根据存储路径查找到各个数据源。例如，需要合并的各个数据源包括文章、文章的评论、文章的点赞，则文章的存储路径可能为自媒体方的服务器，评论的存储路径可能是用户评论对应的服务器，点赞的存储路径可能是该文章刊登的软件平台的服务器。

步骤S120：根据所述配置文件中数据源的存储路径获取各个数据源。

步骤S130：将身份标识相同的数据源合并为一个数据文件。

根据获得的配置文件中各个数据源的存储路径，获取各个数据源，并对各个数据源进行合并。其中，将身份标识相同的数据源合并为同一个数据文件。例如，在前述举例中，数据源a、b以及c的身份标识相同，将a、b、c合并为一个文件，获得合并后的数据文件；d和e的身份标识相同，将d和e进行合并，获得合并后的数据文件。

在本申请实施例中，在配置文件中配置有需要合并的数据源的存储路径以及身份标识。获得配置文件后，可以根据配置文件中的存储路径获取到各个数据源，再根据配置文件中各个数据源的身份标识确定哪些数据源需要合并为一个数据文件。将身份标识相同的数据源合并为一个数据文件，不需要再从数据源本身提取信息确定合并依据，提高了数据合并过程的便捷性以及合并的速度。

本申请实施例还提供一种实施例。在该实施例中，各个数据源先进行结构化处理，根据结构化处理后的数据源设置配置文件。在数据合并过程中，根据数据源的结构化特性灵活选择数据源中用于合并的部分。具体的，请参见图2，该方法包括：

步骤S210：对各个数据源进行结构化处理为包括多个字段，并根据各个数据源设置配置文件。

步骤S220：获取配置文件。

在本申请实施例中，在获取配置文件对数据源进行合并之前，可以先对数据源进行结构化处理，定义各个数据源的数据结构。

其中，对数据源进行结构化处理的方式可以是，将数据源分为多个字段，每个字段为该数据源的一部分。例如，某数据源是一篇文章，该文章所划分的多个字段可以分别是，标题、作者名、摘要以及正文内容；某数据源是文章的评论，所划分的各个字段可能分别是，被评论文章的标题、评论内容、评论者以及评论时间。当然，数据源也可以仅分为一个字段，即整个数据源作为一个字段。

数据源中字段的具体划分方式在本申请实施例中并不限定。在一些实施方式中，数据源的字段的划分可以由用户完成后上传到执行设备。在另一些实施方式中，可以预先设置各种类型数据源的划分规则，根据划分规则进行划分。或者上述两种实施方式相结合，具有划分规则的类型的数据源根据划分规则根据划分规则划分字段，对于每一设置划分规则的类型的数据源，提交给用户进行人工划分，或者提交给用户指定划分规则。

在配置文件中，对数据源的每个字段配置描述信息，作为字段的字段描述信息，例如图3所示，在配置文件中，数据源的名称与该数据源的各个字段描述信息对应。

具体的，设置配置文件时，可以确定每个数据源中的各个字段，并获取各个字段的字段描述信息；在配置文件中配置每个数据源中各个字段的字段描述信息。

其中，每个字段描述信息中包括了相应字段的基本信息，例如图3中数据源2包括了3个字段，分别为字段1、字段2以及字段3。其中，字段1的字段描述信息分别为I11、I12、I13；字段2的字段描述信息分别为I21、I22、I23以及I24；字段3的字段描述信息分别为I31、I32以及I33。字段描述信息具体包括字段的哪些信息在本申请实施例中并不限定，例如可以包括字段名称、字段的数据类型等，如图3中的I11可以代表字段1的字段名称，I12可以表示字段1的数据类型等。字段的字段描述信息可以数据源中提取、可以根据字段划分规则确定、或者由用户确定等，在本申请实施例中并不限定。

另外，在配置文件中，还可以为每一个数据源配置身份标识，并且，将需要合并为一个数据文件的数据源配置为相同的身份标识。从而在获取到配置文件后，可以从配置文件中获取每个数据源的身份标识。

可选的，在本申请实施例中，每个数据源的身份标识可以由用户分配后配置在配置文件中；也可以是根据预设的标识规则为每个数据源分配身份标识，该预设的标识规则可以是，相关联的数据源分配相同的身份标识，不是相关联的数据源分配不同的身份标识。

可选的，在本申请实施例中，相互关联的数据源在生成时，生成有相同的身份标识。对应的，可以从每个数据源中获取数据源的身份标识，用于在配置文件中对相应的数据源进行身份标识的配置。例如，一篇文章在上传到自媒体的服务器时，为该文章生成一个身份标识。当对应该文章产生用户评论时，对应该用户评论生成与该文章身份标识相同的身份标识。从而可以从文章中获取文章的身份标识，在配置文件中对应该文章进行配置；从用户评论中获取用户评论的身份标识，在配置文件中对应该用户评论进行配置。

在一种实施方式中，身份标识可以作为数据源的一个字段配置在配置文件中，或者是将数据源的身份标识配置在数据源的其中一个字段的字段描述信息中。

在该实施方式中，获取数据源的身份标识时，可以从配置有身份标识的字段描述信息中获取。

可选的，在该实施方式中，每个字段的字段描述信息中可以包括身份指示信息，该身份指示信息表示所在字段中是否包括身份标识，并且在身份指示信息指示包括身份标识的字段描述信息中，配置有数据源的身份标识。在从配置文件中获取数据源的身份标识时，对每个数据源，可以根据该数据源的各个字段描述信息的身份指示信息，判断各个字段描述信息是否包括身份标识。当判定有字段描述信息中包括身份标识，从包括身份标识的字段描述信息中获取身份标识。例如，在配置文件中，数据源a包括字段1、字段2以及字段3，在获取数据源a的身份标识时，可以读取数据源a的字段1的字段描述信息中的身份指示信息中指示的为“是”还是“否”，若为“是”，再从该字段1中读取数据源a的身份标识；若为“否”，表示字段1中没有身份标识，再读取字段2的字段描述信息中的身份指示信息。

其中，身份指示信息的表示可以比身份标识简洁，从而可以在根据简洁的身份指示信息判断字段描述信息中是否包括身份标识后，再确定是否读取表示更复杂的身份标识。

另外，可选的，若字段描述信息中不包括身份指示信息，或者身份指示信息为空，可以从默认的字段描述信息中读取身份标识。

在另一种实施方式中，身份标识可以作为一个单独的参数对应数据源的名称进行存储。在获取数据源的身份标识时，从该数据源的名称对应的该参数进行读取。

在配置文件中，对每个数据源还存储有其存储路径，在获取到配置文件后，可以从配置文件中获得各个数据源的存储路径。该存储路径可以作为一个单独的参数对应数据源的名称进行存储，可以存储在其中的某个字段描述信息中。

可选的，在本申请实施例中，步骤S210的执行设备可以不同于步骤S220至步骤S240的执行设备。例如，步骤S220至步骤S240由单一设备执行，则步骤S210的执行设备不同于该单一设备；若步骤S220至步骤S240由一个系统执行，如hadoop集群等集群设备，步骤S210的设备执行与该系统不同。

当然，步骤S210的执行设备与步骤S220至步骤S240的执行设备也可以是同一个执行设备，或者为同一个系统或集群中的设备。

从设置配置文件的执行设备获取配置文件。例如，配置文件由一电子设备设置完成，根据配置文件进行数据合并由hadoop集群完成，可以将该电子设备可以将配置文件从MR任务提交接口提交到hadoop集群运行，从而hadoop集群从设置配置文件的电子设备获取到配置文件。

步骤S230：根据所述配置文件中数据源的存储路径获取各个数据源。

步骤S240：将身份标识相同的数据源合并为一个数据文件，并删除各数据源中不参与合并的字段。

根据配置文件中数据源的存储路径可以获取到各个数据源，并且根据配置文件配置好的数据结构对各个数据源进行分析，以实现相同身份标识的数据源合并到一个数据文件。

在一些实施方式中，为了降低数据合并过程中的处理难度，在获取到数据源后，根据配置文件中各个数据源的身份标识，将数据源按身份标识进行排序，使身份标识相同的数据源在排序后相邻。再将相邻的身份标识相同的数据源合并为一个数据文件。例如，数据源的身份标识为英文字母，则根据身份标识的顺序将数据源进行排序后，身份标识为相同英文字母的数据源应当相邻排列，再将相邻的相同英文字母的数据源合并为一个数据文件。

在该实施方式中，所述将相邻的身份标识相同的数据源合并为一个数据文件时，可以以排序后的第一个数据源作为起始数据源，依次遍历各个数据源。当遍历到身份标识与前一个数据源不同的数据源，将起始数据源到前一个数据源之间的所有数据源合并为一个数据文件。再以当前遍历到的数据源作为新的起始数据源，依次遍历各个数据源，当遍历到身份标识与前一个数据源不同的数据源，将起始数据源到前一个数据源之间的所有数据源合并为一个数据文件，再次以当前遍历到的数据源作为新的起始数据源，如此循环，实现所有相邻的相同身份标识的数据源合并为一个数据文件。可以理解的，当遍历到最后一个数据源，由于不存在下一个数据源，可以将该最后一个数据源与未合并的数据源合并为一个数据文件。

以前述举例为例，有数据源a、b、c、d、e，a、b、c在配置文件中配置有相同的身份标识A；数据源d和e在配置文件中配置相同的身份标识B。在根据身份标识进行排序后，数据源a、b、c相邻排列，数据源d和e相邻，例如排列顺序为a、b、c、d、e。进行遍历时，从数据源a遍历到数据源c时，身份标识都是A，当遍历到d时，身份标识与前一个数据源c的身份标识不同，则将数据源a、b、c合并为一个数据文件。从数据源d遍历到数据源e时，身份标识相同，数据源e是最后一个数据源，则将最后的数据源d和e合并为一个数据文件。

在一些实施方式中，可以对多个数据源进行并行合并。具体的，可以分别选定身份标识不同的数据源。对于每一个选定的数据源，从未选定且为合并的数据源中查找身份标识相同的数据源，将查找到的所有身份标识相同的数据源与该选定的数据源进行合并。在该实施方式中，同时选定的数据源的个数可以根据并行合并时的并行处理通道确定，如具有5个并行处理通道，则可以同时选定5个数据源进行查找与合并。

可选的，在该实施方式中，也可以先按照前述实施方式的排序方式进行排序后，再进行数据源的查找以及合并。

在本申请实施例中，合并后的数据文件通常具有相应的使用场景，例如可以用于数据分析、搜索推荐等各种场景下的数据支持。但是，可能并非数据源中所有内容在相应的使用场景中都有用，因此，可以使合并后的数据文件中不包括不需要的内容，使数据文件更简洁，且占用更小的存储空间。例如，在需要统计用户对文章的态度的使用场景下，文章的评论者、评论时间以及点赞者都对该使用场景无用，可以删除这一部分。

因此，在本申请实施例中，由于数据源被分为各个字段，可以将不需要合并的内容所在的字段设置为不参与合并的字段，删除数据源中不需要的部分可以是，删除各个数据源中不参与合并的字段。

具体的，在配置文件中可以包括对数据源中各个字段是否参与合并的合并指示信息。例如，可选的，可以在每个字段的字段描述信息中包括对该字段是否参与合并的合并指示信息；或者可选的，在配置文件中，可以对应每个数据源专门设置一个参数作为合并指示信息，指示该数据源中哪些字段不参与合并。

在身份标识相同的数据源合并成的一个数据文件中，删除了不参与合并的字段。

在一种实施方式中，将身份标识相同的数据源合并为一个数据文件后，可以根据所述配置文件中的合并指示信息，从合并后的数据文件中删除不参与合并的字段。

在另一种实施方式中，为了降低合并处理数据量，便于删除不参与合并的字段，将身份标识相同的数据源合并为一个数据文件可以是，根据配置文件中的合并指示信息，将各个数据源中不参与合并的字段删除后，将身份标识相同的数据源合并为一个数据文件。

在本申请实施例中，当配置文件中只对一个数据源进行配置，即配置文件中只包括一个数据源的身份标识、存储路径以及各个字段的字段描述信息等配置信息，可以通过合并指示信息实现该数据源的内容筛选，即从该数据源中删除不参与合并的字段后，筛选出关注的内容。

具体的，在本申请实施例中，在对数据源进行合并之前，可以判断数据源的数量是否等于1，具体可以判断配置文件中是否只有一个数据源的配置信息。若数据源的数量等于1，没有其他数据源进行合并，可以根据配置文件中的合并指示信息，从该数据源中删除不参与合并的字段后，将数据源作为合并后的数据文件，实现对数据文件中内容的筛选。若数据源的数量大于1，则需要将身份标识相同的数据源合并为一个数据文件，执行本申请实施例中的合并操作。

另外，在某些数据源中，具有数组类型的字段。具体的，在数组类型的字段中，具有多个针对同一概念彼此并列的内容。在配置文件中，数组类型的字段的字段描述信息中，数据类型可以配置为数组，并且可以指定数组类型中多个并列的内容中，哪些内容参与合并。其中，指定数组类型中哪些内容不参与合并，可以根据数组类型的预设指定规则确定，例如预设指定规则指定数组类型的字段中只有第一个内容参与合并，又如在数组类型的字段中包括指针，预设指定规则中指定指针指向的内容为数组类型中参与合并的内容，又如预设指定规则指定数组类型中的所有内容参与合并等；另外，也可以由用户在字段描述信息中配置数组类型的字段中，哪些内容参与合并。

对于数组类型的字段中不参与合并的类容，不体现在最后合成的数据文件中。具体的，在将数据源进行合并之前，可以将数组类型的字段中不参与合并的内容删除，再将数据源与相同身份标识的数据源合并；或者也可以是，将相同身份标识的数据源合并为同一个数据文件后，将数据文件中数组类型的字段中，不参与合并的内容删除。

例如，在一文章数据源中，包括时事、运动、鞋类三个文章标签。将文章中的标签作为一个字段，则该字段中同时具有针对文章标签这一概念的三个并列的内容时事、运动、鞋类。若运动和鞋类才是该文章真正的标签，则可以在该字段的字段描述信息指定运动和鞋类参与合并，使合并后的数据文件中，不包括时事这一标签。

本申请实施例中，将数据源合并获得数据文件后，可以将数据文件输出。具体的，可以在配置文件中配置有合并后的文件所要输出的位置，定义该位置为指定位置。则在合并后，将数据文件输出到指定位置。当然，该文件所要输出的位置也可以不在配置文件中指定，而是在获取配置文件时同时获取。例如，在配置文件的生成方向配置文件的获取方提交配置文件时，指定输出文件的位置。

在一种实施方式中，可以将合并后的所有数据文件输出到一个指定位置。

可选的，在该实施方式中，各个数据文件可以分别作为独立的文件输出到同一个指定位置。

可选的，在该实施方式中，所有数据文件可以合并为一个文件，输出到指定位置。

在另一种实施方式中，配置文件中可以包括需要输出的文件份数，该文件份数为预设数量份。在将所有数据源合成获得数据文件后，可以将合并后的所有数据文件拆分为预设数量份输出。例如，合并后得到100个数据文件，预设数量份为5份，则可以拆分为每20个数据文件1份，获得5份。当然，每一份数据文件里数据文件的个数并不限制。当然，该需要输出的文件份数也可以不在配置文件中指定，而是在获取配置文件时同时获取。例如，在配置文件的生成方向配置文件的获取方提交配置文件时，指定输出文件份数。

可选的，所有数据文件可以合并为一个文件，再将该一个文件拆分为预设数量份。

可选的，可以各个数据文件可以分别作为独立的文件，将所有的数据文件分成预设数量份。

在该实施方式中，配置文件中可以包括每一份数据文件输出的位置。则在将数据文件输出时，可以将各份数据文件输出到配置文件中指定的位置。

在又一种实施方式中，可以为各个数据文件分别配置指定位置，配置文件中包括每一份数据文件输出的位置。例如，在配置文件中，对应相同身份标识的数据源中的一个数据源配置指定位置，则在将身份标识相同的数据源合并为一个数据文件后，将该数据文件输出到对应其中一个数据源配置的指定位置，从而将各份数据文件输出到配置文件中指定的位置。

在本申请实施例中，可以在hadoop集群通过Map-Reduce计算模型进行数据源的处理以及合并。具体的，可以通过Map-Reduce任务的任务获取接口获取配置文件。通过Map-Reduce任务中的map程序根据所述配置文件中数据源的存储路径获取各个数据源，并且可以通过map程序对数据源进行解析、排序等处理。并且将处理完的数据源发送至linux标准输出数据流。Map-Reduce任务中的reduce程序可以从该数据流读入数据，从而通过reduce程序将身份标识相同的数据源合并为一个数据文件，并输出至配置文件中指定的输出位置。

可选的，在本申请实施例中，配置文件中还可以指定数据异常的重试次数，或者在配置文件的生成方向配置文件的获取方提交配置文件时，指定数据异常的重试次数。则在数据处理过程中，若出现数据异常，hadoop集群可以重试多次，当重试次数达到指定的重试次数时，查找集群中异常的设备，切换另一台设备替换异常的设备进行数据处理。

本申请实施例提供的数据合并方法，在配置文件中，对结构化处理后的数据源的各个字段添加有字段描述信息，从而可以根据字段描述信息确定数据源中不参与合并的字段。在将相同身份标识是数据源合并为的一个数据文件中，可以删除不参与合并的字段，从而使合并处理更简单，合并效率更高，提高合并后的数据文件的针对性。

另外，该数据合并方法可以通过对配置文件的配置，支持用户自定义文档合并方式，并且采用软件的方式实现，可以使用在任何提供Map-Reduce计算能力的Linux环境中。

如图4所示，本申请实施例还提供了一种数据合并装置300。该数据合并装置300包括：文件获取模块310，用于获取配置文件，所述配置文件中包括数据源的存储路径以及数据源的身份标识，其中，需要合并为一个数据文件的数据源配置有相同的身份标识。数据源获取模块320，用于根据所述配置文件中数据源的存储路径获取各个数据源。合并模块330，用于将身份标识相同的数据源合并为一个数据文件。

可选的，合并模块330可以包括排序单元，用于将数据源按身份标识进行排序，使身份标识相同的数据源相邻；合并单元，用于将相邻的身份标识相同的数据源合并为一个数据文件。

可选的，合并单元可以以排序后的第一个数据源作为起始数据源；依次遍历各个数据源；当遍历到身份标识与前一个数据源不同的数据源，将起始数据源到前一个数据源之间的所有数据源合并为一个数据文件；以当前遍历到的数据源作为新的起始数据源，执行所述依次遍历各个数据源；当遍历到身份标识与前一个数据源不同的数据源，将起始数据源到前一个数据源之间的所有数据源合并为一个数据文件，以当前遍历到的数据源作为新的起始数据源。可选的，当遍历到最后一个数据源，将最后一个数据源与未合并的数据源合并为一个数据文件。

可选的，每个数据源分为一个或多个字段，所述配置文件中包括数据源中的各个字段是否参与合并的合并指示信息。合并模块330可以用于根据所述配置文件中的合并指示信息，将各个数据源中不参与合并的字段删除后，将身份标识相同的数据源合并为一个数据文件。

可选的，每个数据源分为一个或多个字段，所述配置文件中包括数据源中的各个字段是否参与合并的合并指示信息。合并模块330可以用于根据所述配置文件中的合并指示信息，从合并后的数据文件中删除不参与合并的字段。

可选的，每个数据源分为一个或多个字段，所述配置文件中包括数据源中的各个字段是否参与合并的合并指示信息。合并模块330可以用于判断数据源的数量是否等于1；若数据源的数量等于1，根据所述配置文件中的合并指示信息，从所述数据源中删除不参与合并的字段后，将所述数据源作为合并后的数据文件；若数据源的数量大于1，所述将身份标识相同的数据源合并为一个数据文件。

可选的，所述配置文件中包括各个数据源中字段的字段描述信息，每个字段的字段描述信息中包括对所述字段是否参与合并的合并指示信息。

可选的，所述装置300还包括配置模块，用于确定每个数据源中的各个字段，并获取各个字段的字段描述信息；在配置文件中配置每个数据源中各个字段的字段描述信息。

可选的，配置模块还可以用于在配置文件中为每一个数据源配置身份标识。

可选的，相互关联的数据源在生成时，生成有相同的身份标识。配置模块还可以用于从每个数据源中获取所述数据源的身份标识，用于在配置文件中对相应的数据源进行身份标识的配置。

可选的，装置300还可以包括信息获取模块，用于从所述配置文件中获取每个数据源的身份标识。

可选的，每个数据源分为一个或多个字段，所述配置文件中包括各个数据源中字段的字段描述信息，每个字段的字段描述信息中包括对所述字段是否包括身份标识的身份指示信息。信息获取模块可以用于对每个数据源，根据各个字段描述信息的身份指示信息，判断各个字段描述信息是否包括身份标识；当判定有字段描述信息中包括身份标识，从包括身份标识的字段描述信息中获取身份标识。

可选的，所述配置文件中包括合并后的文件输出的指定位置。装置300还可以包括输出模块，用于将合并后的数据文件输出到指定位置。

可选的，所述配置文件中包括需要输出的文件份数为预设数量份。输出模块可以用于将合并后的所有数据文件拆分为预设数量份输出。

可选的，所述配置文件中包括每一份数据文件输出的位置。输出模块可以用于将各份数据文件输出到配置文件中指定的位置。

可选的，文件获取模块310可以用于通过Map-Reduce任务的任务获取接口获取配置文件。数据源获取模块320可以用于通过Map-Reduce任务中的map程序根据所述配置文件中数据源的存储路径获取各个数据源。合并模块330可以用于通过Map-Reduce任务中的reduce程序将身份标识相同的数据源合并为一个数据文件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述的各个方法实施例之间可以相互参照；上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。各个模块可以配置在不同的电子设备中，也可以配置在相同的电子设备中，本申请实施例并不限定。

请参考图5，其示出了本申请实施例提供的一种电子设备400的结构框图。该电子设备400可以是智能手机、平板电脑、计算机等智能设备。本申请实施例中的数据合并方法及装置，可以由一电子设备执行；也可以由多个电子设备配合执行，如多个服务器组成的系统集群。

该电子设备可以包括一个或多个处理器410(图中仅示出一个)，存储器420以及一个或多个程序。其中，所述一个或多个程序被存储在所述存储器420中，并被配置为由所述一个或多个处理器410执行。所述一个或多个程序配置用于执行前述实施例所描述的方法。若前述实施例所描述的方法由多个电子设备配合执行，每个电子设备中可以配置所要执行的部分程序。

处理器410可以包括一个或者多个处理核。处理器410利用各种接口和线路连接整个电子设备400内的各个部分，通过运行或执行存储在存储器420内的指令、程序、代码集或指令集，以及调用存储在存储器420内的数据，执行电子设备400的各种功能和处理数据。可选地，处理器410可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器410可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器410中，单独通过一块通信芯片进行实现。

存储器420可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器420可用于存储指令、程序、代码、代码集或指令集。存储器420可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据等。

请参考图6，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质500包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种数据合并方法，其特征在于，所述方法包括：

获取配置文件，所述配置文件中包括数据源的存储路径以及数据源的身份标识，其中，需要合并为一个数据文件的数据源配置有相同的身份标识；

根据所述配置文件中数据源的存储路径获取各个数据源；

将身份标识相同的数据源合并为一个数据文件。
根据权利要求1所述的方法，其特征在于，所述将身份标识相同的数据源合并为一个数据文件，包括：

将数据源按身份标识进行排序，使身份标识相同的数据源相邻；

将相邻的身份标识相同的数据源合并为一个数据文件。
根据权利要求2所述的方法，其特征在于，所述将相邻的身份标识相同的数据源合并为一个数据文件，包括：

以排序后的第一个数据源作为起始数据源；

依次遍历各个数据源；

当遍历到身份标识与前一个数据源不同的数据源，将起始数据源到前一个数据源之间的所有数据源合并为一个数据文件；

以当前遍历到的数据源作为新的起始数据源，

执行所述依次遍历各个数据源；当遍历到身份标识与前一个数据源不同的数据源，将起始数据源到前一个数据源之间的所有数据源合并为一个数据文件，以当前遍历到的数据源作为新的起始数据源。
根据权利要求3所述的方法，其特征在于，当遍历到最后一个数据源，将最后一个数据源与未合并的数据源合并为一个数据文件。
根据权利要求1-4任一项所述的方法，其特征在于，每个数据源分为一个或多个字段，所述配置文件中包括数据源中的各个字段是否参与合并的合并指示信息，所述将身份标识相同的数据源合并为一个数据文件，包括：

根据所述配置文件中的合并指示信息，将各个数据源中不参与合并的字段删除后，将身份标识相同的数据源合并为一个数据文件。
根据权利要求1-4任一项所述的方法，其特征在于，每个数据源分为一个或多个字段，所述配置文件中包括数据源中的各个字段是否参与合并的合并指示信息，所述将身份标识相同的数据源合并为一个数据文件后，还包括：

根据所述配置文件中的合并指示信息，从合并后的数据文件中删除不参与合并的字段。
根据权利要求1-6任一项所述的方法，其特征在于，每个数据源分为一个或多个字段，所述配置文件中包括数据源中的各个字段是否参与合并的合并指示信息，所述将身份标识相同的数据源合并为一个数据文件前，还包括：

判断数据源的数量是否等于1；

若数据源的数量等于1，根据所述配置文件中的合并指示信息，从所述数据源中删除不参与合并的字段后，将所述数据源作为合并后的数据文件；

若数据源的数量大于1，执行所述将身份标识相同的数据源合并为一个数据文件的步骤。
根据权利要求5-7任一项所述的方法，其特征在于，所述配置文件中包括各个数据源中字段的字段描述信息，每个字段的字段描述信息中包括对所述字段是否参与合并的合并指示信息。
根据权利要求8所述的方法，其特征在于，所述获取配置文件之前，还包括：

确定每个数据源中的各个字段，并获取各个字段的字段描述信息；

在配置文件中配置每个数据源中各个字段的字段描述信息。
根据权利要求1-9任一项所述的方法，其特征在于，所述获取配置文件之前，还包括：

在配置文件中为每一个数据源配置身份标识。
根据权利要求10所述的方法，其特征在于，相互关联的数据源在生成时，生成有相同的身份标识，所述在配置文件中为每一个数据源配置身份标识之前，还包括：

从每个数据源中获取所述数据源的身份标识，用于在配置文件中对相应的数据源进行身份标识的配置。
根据权利要求1-11任一项所述的方法，其特征在于，所述将身份标识相同的数据源合并为一个数据文件之前，还包括：从所述配置文件中获取每个数据源的身份标识。
根据权利要求12所述的方法，其特征在于，每个数据源分为一个或多个字段，所述配置文件中包括各个数据源中字段的字段描述信息，每个字段的字段描述信息中包括对所述字段是否包括身份标识的身份指示信息，所述从所述配置文件中获取每个数据源的身份标识包括：

对每个数据源，根据各个字段描述信息的身份指示信息，判断各个字段描述信息是否包括身份标识；

当判定有字段描述信息中包括身份标识，从包括身份标识的字段描述信息中获取身份标识。
根据权利要求1-13任一项所述的方法，其特征在于，所述配置文件中包括合并后的文件输出的指定位置，所述将身份标识相同的数据源合并为一个数据文件之后，还包括：

将合并后的数据文件输出到指定位置。
根据权利要求1-14任一项所述的方法，其特征在于，所述配置文件中包括需要输出的文件份数为预设数量份，所述方法还包括：

将合并后的所有数据文件拆分为预设数量份输出。
根据权利要求15所述的方法，其特征在于，所述配置文件中包括每一份数据文件输出的位置，所述将合并后的所有数据文件拆分为预设数量份输出包括：

将各份数据文件输出到配置文件中指定的位置。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过Map-Reduce任务的任务获取接口获取配置文件；

通过Map-Reduce任务中的map程序根据所述配置文件中数据源的存储路径获取各个数据源；

通过Map-Reduce任务中的reduce程序将身份标识相同的数据源合并为一个数据文件。
一种数据合并装置，其特征在于，所述装置包括：

文件获取模块，用于获取配置文件，所述配置文件中包括数据源的存储路径以及数据源的身份标识，其中，需要合并为一个数据文件的数据源配置有相同的身份标识；

数据源获取模块，用于根据所述配置文件中数据源的存储路径获取各个数据源；

合并模块，用于将身份标识相同的数据源合并为一个数据文件。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-17任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-17任一项所述的方法。