WO2020206952A1

WO2020206952A1 - 一种图数据库的数据导入方法及装置

Info

Publication number: WO2020206952A1
Application number: PCT/CN2019/109096
Authority: WO
Inventors: 王波
Original assignee: 苏宁云计算有限公司; 苏宁易购集团股份有限公司
Priority date: 2019-04-09
Filing date: 2019-09-29
Publication date: 2020-10-15
Also published as: CN110110108A; CA3176758A1; CN110110108B

Abstract

一种图数据库的数据导入方法及装置，该方法包括：向图数据库程序注册自定义的spark udf函数，使得所述图数据库通过所述spark udf函数与spark资源建立连接（S1）；在所述图数据库中创建节点属性索引（S2）；利用所述spark资源查询hive数据库，获取查询到的数据（S3）；将所述查询到的数据重新分区后注册成临时数据表（S4）；通过所述spark udf函数以及所述节点属性索引，将所述临时数据表导入到所述图数据库中（S5）。通过利用spark和图数据库结合，能够实现实时导入数据，且不需要将数据导出成csv格式，通过利用spark技术，可以方便spark性能调优，调节数据导入的速度，通过利用spark的并发特性，能够在加快导入数据的同时，不会出现丢失数据。

Description

一种图数据库的数据导入方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种图数据库的数据导入方法及装置。

背景技术

Spark是集群和基于内存的数据处理技术，它能够通过很多台机器组合在一起处理大量的数据，也能够和图计算框架整合在一起进行数据的计算操作。Spark不仅可以以不同的方式进行整合，而且可以对数据进行预处理(包括聚合、过滤、转换等)，然后将预处理之后的数据导入图数据库。

现有技术中心，将数据导入到图数据库通常有以下几种方式：编写create语句、Load CSV语句、Batch inserter、Batch import、Neo4j-import。这几种方式除了create语句，其共同的特点就是需要先将文件导出成csv格式，而这在真实的生产开发环境中，非常麻烦(例如，由于在生产环境中，数据处于保密状态，将数据从生产环境中导出成csv文件，在很多公司都不太能够实现，而且这种方式也不能做到实时插入)，而且当数据量特别大的时候，实现起来并不现实。而且后三种方式不能实现实时导入，就是说在导入数据的时候必须停止neo4j(图数据库的一种)服务器，所以不能够满足实时导入的需求。

因此，如何将数据快速导入到图数据库中，是构建图谱的前提，也是目前亟需解决的一种问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种图数据库的数据导入方法及装置，以克服现有技术中实时将数据导入图数据库时，需要先将数据导成csv格式以及数据导入的速度不可调等问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

一方面，提供了一种图数据库的数据导入方法，该方法包括如下步骤：

向图数据库程序注册自定义的spark udf函数，使得所述图数据库通过所述spark udf函数与spark资源建立连接；

在所述图数据库中创建节点属性索引；

利用所述spark资源查询hive数据库，获取查询到的数据；

将所述查询到的数据重新分区后注册成临时数据表；

通过所述spark udf函数以及所述节点属性索引，将所述临时数据表导入到所述图数据库中。

进一步的，所述在向图数据库程序注册自定义的spark udf函数前还包括：

设置所述spark udf函数中连接所述图数据库的驱动写在静态方法中。

进一步的，所述向图数据库程序注册自定义的spark udf函数前还包括：

定义所述spark udf函数的输入与输出的参数。

进一步的，所述将所述临时数据表导入到所述图数据库中后还包括：

将所述图数据库的驱动与所述spark资源关闭。

进一步的，所述利用所述spark资源查询hive数据库包括：

使用所述spark资源的reduce算子对所述查询到的数据进行相应计算。

另一方面，提供了一种图数据库的数据导入装置，所述装置包括：

连接模块，用于向图数据库程序注册自定义的spark udf函数，使得所述图数据库通过所述spark udf函数与spark资源建立连接；

创建模块，用于在所述图数据库中创建节点属性索引；

查询模块，用于利用所述spark资源查询hive数据库，获取查询到的数据；

划分模块，用于将所述查询到的数据重新分区后注册成临时数据表；

导入模块，用于通过所述spark udf函数以及所述节点属性索引，将所述临时数据表导入到所述图数据库中。

进一步的，所述装置还包括：

驱动连接模块，用于设置所述spark udf函数中连接所述图数据库的驱动写在静态方法中。

进一步的，所述装置还包括：

配置模块，用于定义所述spark udf函数的输入与输出的参数。

进一步的，所述装置还包括：

关闭模块，用于将所述图数据库的驱动与所述spark资源关闭

进一步的，所述利用所述spark资源查询hive数据库包括：

本发明实施例提供的技术方案带来的有益效果是：

1、本发明实施例提供的图数据库的数据导入方法及装置，利用spark和图数据库结合，能够实现实时导入数据，且不需要将数据导出成csv格式；

2、本发明实施例提供的图数据库的数据导入方法及装置，利用spark技术，可以方便spark性能调优，调节数据导入的速度；

3、本发明实施例提供的图数据库的数据导入方法及装置，利用spark的并发特性，能够在加快导入数据的同时，不会出现丢失数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的图数据库的数据导入方法的流程图；

图2是根据一示例性实施例示出的图数据库的数据导入装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的图数据库的数据导入方法的流程图，参照图1所示，该方法包括如下步骤：

S1：向图数据库程序注册自定义的spark udf函数，使得所述图数据库通过所述spark udf函数与spark资源建立连接。

具体的，在本发明实施例中，通过自定义的spark udf函数，将图数据库与spark资源结合(即使图数据库与spark资源建立连接)，使得数据能够实时导入到图数据库中，且不需要将数据导出成csv格式。在编写自定义的spark udf函数时，可以利用Java语言来做开发，也可以利用其他计算机编程语言来做开发。另外，必须先把编写的自定义的spark udf函数在图数据库程序中注册，因为，在Java类方法中，编写的自定义udf必须先注册后才能使用。这里需要说明的是，本发明实施例中，利用spark udf函数可以便于spark性能调优，比如从hive查询出来的数据重新分多少区，如何设置spark的并行度、如何给spark任务分配多少个计算节点(executor)、每个executor的内存分配多大、每个executor的core个数设置多大、driver内存分配多少等。

这里需要说明的是，Spark udf指的是如果spark自身提供的一些函数无法满足用户使用时，可以通过自定义函数来实现自己的业务逻辑。举个例子：

S2：在所述图数据库中创建节点属性索引。

具体的，在导入大规模数据数据的时候，为了保证节点和关系不重复，同时保证查找的速度，在本发明实施例中，在图数据库中创建节点属性索引，即为图数据库每个节点创建属性索引。如果不建立属性索引，数据插入的速度会明显的变慢。

举例如下：

S3：利用所述spark资源查询hive数据库，获取查询到的数据。

具体的，本发明实施例中，以将hive表数据导入到图数据库中为示例。在将hive表数据导入到图数据库中时，可以先利用spark资源查询hive数据库(具体可以通过编写的spark sql语句将hive数据库中的数据先查询出来)，获取查询到的数据。

S4：将所述查询到的数据重新分区后注册成临时数据表；

具体的，在本发明实施例中，会将利用spark sql查询到的hive数据库中的数据重新分区。spark在进行RDD(弹性分布式数据集)计算的时候，每个分区都会起一个任务(task)，所以RDD的分区数目决定了总的任务(task)的数目，这样就可以配合spark性能调优，即可通过设置RDD的分区数目设置总的任务(task)的数目。设置申请的计算节点(Executor)数目和每个计算节点核数，从而能够在同一时刻可以并行执行这些任务(task)，这样就可以加快数据导入图数据库的速度。这里需要说明的是，RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。而且由于Spark具有并发计算特性，每个task执行一部分数据，不会导致数据丢失。

这里需要说明的是，本发明实施例中，分区的依据在于：如果不采用分区，则查询出来hive表中的partition数目和本身的表partition数目一样，无法提高并行度，也就是无法提高并发执行task的数目。而重新分区之后就可以提高并发执行task的数目，这样就可以加快执行的速度。

S5：通过所述spark udf函数以及所述节点属性索引，将所述临时数据表导入到所述图数据库中。

具体的，使用上述自定义的spark udf函数，并结合在图数据库中创建的节点属性索引，将临时数据表导入到图数据库中。本发明实施例中，由于通过Spark连接hive数据库，可以直接将数据导入到图数据库中，不需要将数据导出成csv文件格式，并且可以做到实时插入。

作为一种较优的实施方式，本发明实施例中，所述在向图数据库程序注册自定义的spark udf函数前还包括：

具体的，在本发明实施例中，自定义spark udf函数中连接图数据库(以neo4j为例)的驱动必须写在静态方法中，这样设置，可以减少spark udf函数与图数据库连接的次数，从而可以减少资源的消耗。

作为一种较优的实施方式，本发明实施例中，所述向图数据库程序注册自定义的spark udf函数前还包括：

定义所述spark udf函数的输入与输出的参数。

具体的，本发明实施例中，需要定义spark udf函数的输入与输出的参数，即必须要定义好输入有几个参数以及参数的类型是什么，输出的参数类型是什么，且需设置主要返回值不能为null。

作为一种较优的实施方式，本发明实施例中，所述将所述临时数据表导入到所述图数据库中后还包括：

将所述图数据库的驱动与所述spark资源关闭。

具体的，将在临时数据表导入到图数据库中后，需要将图数据库的驱动与spark资源关闭，从而节省资源的消耗。

作为一种较优的实施方式，本发明实施例中，所述利用所述spark资源查询hive数据库包括：

具体的，为了触发spark的执行，必须使用spark的action算子，因为只有action算子才能执行计算。而对于算子的选择，本发明实施例中，选择使用action算子中的reduce算子，而不选择使用collect、show等算子。因为collect、show等这些算子都会影响性能，而且像show这样的算子，也没有办法计算所有数据。也就是说，本发明实施例中，采用reduce算子触发spark的执行，能够加快数据导入的速度，而且保证不会丢失数据。

图2是根据一示例性实施例示出的图数据库的数据导入装置的结构示意图，参照图2所示，该装置包括：

创建模块，用于在所述图数据库中创建节点属性索引；

作为一种较优的实施方式，本发明实施例中，所述装置还包括：

配置模块，用于定义所述spark udf函数的输入与输出的参数。

关闭模块，用于将所述图数据库的驱动与所述资源关闭。

综上所述，本发明实施例提供的技术方案带来的有益效果是：

需要说明的是：上述实施例提供的图数据库的数据导入装置在数据导入业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图数据库的数据导入装置与图数据库的数据导入方法实施例属于同一构思，即该装置是基于该图数据库的数据导入方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种图数据库的数据导入方法，其特征在于，所述方法包括如下步骤：

向图数据库程序注册自定义的spark udf函数，使得所述图数据库通过所述spark udf函数与spark资源建立连接；

在所述图数据库中创建节点属性索引；

利用所述spark资源查询hive数据库，获取查询到的数据；

将所述查询到的数据重新分区后注册成临时数据表；

通过所述spark udf函数以及所述节点属性索引，将所述临时数据表导入到所述图数据库中。
根据权利要求1所述的图数据库的数据导入方法，其特征在于，所述在向图数据库程序注册自定义的spark udf函数前还包括：

设置所述spark udf函数中连接所述图数据库的驱动写在静态方法中。
根据权利要求1或2所述的图数据库的数据导入方法，其特征在于，所述向图数据库程序注册自定义的spark udf函数前还包括：

定义所述spark udf函数的输入与输出的参数。
根据权利要求2所述的图数据库的数据导入方法，其特征在于，所述将所述临时数据表导入到所述图数据库中后还包括：

将所述图数据库的驱动与所述spark资源关闭。
根据权利要求1或2所述的图数据库的数据导入方法，其特征在于，所述利用所述spark资源查询hive数据库包括：

使用所述spark资源的reduce算子对所述查询到的数据进行相应计算。
一种图数据库的数据导入装置，其特征在于，所述装置包括：

连接模块，用于向图数据库程序注册自定义的spark udf函数，使得所述图数据库通过所述spark udf函数与spark资源建立连接；

创建模块，用于在所述图数据库中创建节点属性索引；

查询模块，用于利用所述spark资源查询hive数据库，获取查询到的数据；

划分模块，用于将所述查询到的数据重新分区后注册成临时数据表；

导入模块，用于通过所述spark udf函数以及所述节点属性索引，将所述临时数据表导入到所述图数据库中。
根据权利要求6所述的图数据库的数据导入装置，其特征在于，所述装置还包括：

驱动连接模块，用于设置所述spark udf函数中连接所述图数据库的驱动写在静态方法中。
根据权利要求6或7所述的图数据库的数据导入方法，其特征在于，所述装置还包括：

配置模块，用于定义所述spark udf函数的输入与输出的参数。
根据权利要求7所述的图数据库的数据导入方法，其特征在于，所述装置还包括：

关闭模块，用于将所述图数据库的驱动与所述资源关闭。
根据权利要求6或7所述的图数据库的数据导入方法，其特征在于，所述利用所述spark资源查询hive数据库包括：

使用所述spark资源的reduce算子对所述查询到的数据进行相应计算。