WO2017181786A1

WO2017181786A1 - 数据分析处理的方法、装置、计算机设备及存储介质

Info

Publication number: WO2017181786A1
Application number: PCT/CN2017/076293
Authority: WO
Inventors: 朱敏
Original assignee: 平安科技（深圳）有限公司
Priority date: 2016-04-19
Filing date: 2017-03-10
Publication date: 2017-10-26
Also published as: KR20180133375A; US20180150530A1; JP6397587B2; EP3279816A4; AU2017254506A1; AU2017254506B2; SG11201708941TA; EP3279816A1; KR102133906B1; CN105824974B; CN105824974A; JP2018523203A

Abstract

一种数据分析处理的方法，包括：进入预先建立的数据分析处理新工程；在所述数据分析处理新工程中访问功能节点；读取目标文件并导入数据；根据需求信息生成数据计算处理脚本；及在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理。

Description

数据分析处理的方法、装置、计算机设备及存储介质

本申请要求于 2016 年 4 月 19 日提交中国专利局、申请号为 201610243600X 、发明名称为' 数据分析处理的方法和系统 '的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

【技术领域】

本发明涉及数据处理技术领域，特别是涉及一种数据分析处理的方法、装置、计算机设备及存储介质。

【背景技术】

ETL（Extract-Transform-Load），用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程，常见的ETL工具可包括Datastage、kettle、OWB（Oracle Warehouse Builder）等。传统的ETL工具，不具有执行脚本的功能，不能执行现有的数据分析函数和第三方扩展库，无法对复杂的需要科学计算的数据进行分析处理。此外，传统的ETL工具，例如kettle，只能处理流式数据，在数据处理过程中，需要通过一个节点加载数据，然后通过下一个节点对数据进行转换、清洗，到最后流入到结束节点，需要经过一系列的节点，数据处理过程复杂繁琐，处理效率低。

【发明内容】

根据本申请的各种实施例，提供一种数据分析处理的方法、装置、计算机设备及存储介质。

一种数据分析处理的方法，包括：

进入预先建立的数据分析处理新工程；

在所述数据分析处理新工程中访问功能节点；

读取目标文件并导入数据；

根据需求信息生成数据计算处理脚本；及

在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理。

一种数据分析处理的装置，包括：

进入模块，用于进入预先建立的数据分析处理新工程；

访问模块，用于在所述数据分析处理新工程中访问功能节点；

读取模块，用于读取目标文件并导入数据；

生成脚本模块，用于根据需求信息生成数据计算处理脚本；及

调用模块，用于在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可执行指令，所述计算机可执行指令被所述处理器执行时，使得所述处理器执行以下步骤：

进入预先建立的数据分析处理新工程；

在所述数据分析处理新工程中访问功能节点；

读取目标文件并导入数据；

根据需求信息生成数据计算处理脚本；及

一个或多个存储有计算机可执行指令的非易失性可读存储介质，所述计算机可执行指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

进入预先建立的数据分析处理新工程；

在所述数据分析处理新工程中访问功能节点；

读取目标文件并导入数据；

根据需求信息生成数据计算处理脚本；及

本发明的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

【附图说明】

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中计算机设备的框图；

图2为一个实施例中数据分析处理的方法的流程图；

图3为一个实施例中建立数据分析处理新工程的流程图；

图4为一个实施例中生成数据图表的流程图；

图5为一个实施例中数据分析处理的装置的功能模块图；

图6为另一个实施例中数据分析处理的装置的功能模块图；

图7为一个实施例中建立模块的功能模块图；

图8为另一个实施例中数据分析处理的装置的功能模块图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中计算机设备的框图。如图1所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口、显示屏和输入装置。其中，计算机设备的非易失性存储介质存储有操作系统及计算机可执行指令，该计算机可执行指令用于实现本申请实施例中提供的适用于计算机设备的一种数据分析处理的方法。该处理器用于提供计算和控制能力，支撑整个计算机设备的运行。计算机设备中的内存储器为非易失性存储介质中的操作系统及计算机可执行指令的运行提供环境，网络接口用于与其它的计算机设备进行网络通信，如向服务器发送处理后的数据进行存储等。计算机设备可包括用户交互装置，用户交互装置包括输入装置及输出装置，在一个实施例中，输出装置可以是计算机设备的显示屏，用于显示数据信息，其中，显示屏可以是液晶显示屏或者电子墨水显示屏等；输入装置用于数据输入，其中，输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该计算机设备可以是手机、平板电脑、PC（personal computer）等终端，也可以是服务器等。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图2所示，在一个实施例中，提供一种数据分析处理的方法，可适用于如图1所示的计算机设备，该方法包括以下步骤：

步骤S210，进入预先建立的数据分析处理新工程。

在一个实施例中，数据分析处理新工程指的是在ETL（Extract-Transform-Load）工具中融入科学计算功能所建立的新工程。ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。常见的ETL工具可包括Datastage、kettle（水壶）、OWB（Oracle Warehouse Builder）等，其中，Datastage是一种数据集成软件平台，具有满足最苛刻的数据集成需求所需的功能性、灵活性和可伸缩性；kettle是由纯java编写的一款开源的ETL工具，可以在Windows、Linux、Unix上运行，主要用于数据的抽取，具有高效稳定的特点；OWB是 Oracle 的一个综合工具，它提供对 ETL、完全集成的关系和维度建模、数据质量、数据审计，以及数据和元数据的整个生命周期的管理。在本实施例中，可在ETL工具kettle中融入python的科学计算功能，python是一种面向对象、解释型计算机程序设计语言，它具有丰富的扩展库，可以对数据进行科学计算，帮助完成各种高级的数据分析任务。科学计算指的是为解决科学和工程中的数学问题利用计算机进行的数值计算，主要包括建立数学模型、建立求解的计算方法和计算机实现三个阶段，常用的科学计算语言、软件包括FORTRANALGOL、MATLAB等，可以理解地，也可以使用其它具有科学计算功能的语言与ETL工具结合，不限于此。

步骤S220，在数据分析处理新工程中访问功能节点。

在一个实施例中，在kettle中融入python的科学计算功能，并开发生成功能节点，该功能节点可提供多种科学计算功能，例如执行python代码、调用python的科学计算扩展库进行数据分析运算等，python的科学计算扩展库可包括NumPy、ScriPy和matplotlib等，分别提供快速数组处理、数值运算以及绘图功能。在数据分析处理新工程中访问功能节点，可使用功能节点中的多种科学计算功能。

步骤S230，读取目标文件并导入数据。

在一个实施例中，目标文件可存储在本地或是分布式存储系统的服务器集群上。访问功能节点后，可从本地或分布式存储系统的服务器集群中选择所需的目标文件，读取该目标文件并导入需要处理的数据。

步骤S240，根据需求信息生成数据计算处理脚本。

在一个实施例中，需求信息指的是对数据所需作出的分析处理需求，例如需要调用NumPy扩展库中的矢量处理函数对数据中的数组进行处理，或是需要对导入的数据进行批量处理等。可根据不同的需求信息生成对应的python数据计算处理脚本，并存储生成的数据计算处理脚本，使下次进行数据处理时可直接调用该数据计算处理脚本，无需重新生成。

步骤S250，在功能节点中调用数据计算处理脚本，对数据进行分析处理。

在一个实施例中，在功能节点中可直接执行根据需求信息生成的python数据计算处理脚本，并根据python数据计算处理脚本对数据进行分析处理，例如数据抽取、数据清洗、数据转换、数值运算等操作，其中，数据清洗指的是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性，数据转换指的是将数据从一种表示形式变为另一种表现形式的过程。也可通过python数据计算处理脚本调用科学计算扩展库中的函数，对数据进行科学计算。在其它的实施例中，在功能节点中可直接读取具有目标后缀的脚本文件，例如执行后缀为.py的脚本文件。

上述数据分析处理的方法，在数据分析处理新工程中访问功能节点，读取目标文件导入数据后，可调用根据需求信息生成的数据计算处理脚本对数据进行处理，能够执行数据计算处理脚本，对复杂的数据进行分析处理，且所有的数据处理过程均在功能节点中完成，数据不需要在多个节点之间流转，数据处理过程简单，提高了数据处理效率。

在一个实施例中，在步骤S210进入预先建立的数据分析处理新工程之前，还包括：建立数据分析处理新工程。

如图3所示，在一个实施例中，建立数据分析处理新工程的步骤，包括：

步骤S302，获取数据分析源工程代码。

在一个实施例中，数据分析源工程代码指的是ETL工具的工程源码，例如kettle的工程源码等。获取数据分析源工程代码后，可对数据分析源工程代码进行解压，得到对应的工程文件。

步骤S304，创建数据分析处理新工程，并在数据分析处理新工程中导入数据分析源工程代码。

在一个实施例中，可在Eclipse等开发环境中以新工程的形式导入数据分析源工程代码，即在Eclipse等开发环境中创建新工程作为数据分析处理新工程，并将解压得到的ETL工具，例如kettle的工程源码导入数据分析处理新工程。

步骤S306，在数据分析处理新工程中创建功能节点。

在一个实施例中，可在数据分析处理新工程中创建功能节点，并根据kettle工具提供的多个接口开发该功能节点，例如利用TemplateStepDialog对话框类实现功能节点的功能界面等。在数据分析处理新工程中创建功能节点相当于在kettle工具原有的流程处理节点中重新定制的一个流程处理节点，功能节点也可看作kettle工具新开发的一个插件，该重新定制开发的功能节点主要用于处理需要进行科学计算或是复杂分析的数据。

步骤S308，调用数据计算工具数据包，并根据预设的节点开发模板将数据计算工具数据包中的数据融入数据分析处理新工程。

在一个实施例中，数据计算工具数据包可包括python代码及python自带的丰富的扩展库数据包，例如NumPy、ScriPy和matplotlib等科学计算扩展库的数据包。可在kettle工具的源码的插件式节点开发的基础上，根据kettle中原有的节点开发模板将数据计算工作数据包融入到数据分析处理新工程中，利用kettle工具中的四大类实现功能节点编辑、执行、保存python数据计算处理脚本的功能，其中，四大类分别为TemplateStep步骤类、TemplateStepData数据类、TemplateStepMeta元数据类及TemplateStepDialog对话框类。不同的类提供不同的接口，可调用各个接口融入数据计算工具数据包中的数据使功能节点具有编辑、执行、保存python数据计算处理脚本等功能。

步骤S310，获取数据计算工具数据包中的科学计算扩展库。

在一个实施例中，数据计算工具数据包中可包括NumPy、ScriPy和matplotlib等科学计算扩展库的数据，NumPy可用来存储和处理大型矩阵，ScriPy可用于抓取web站点并从页面中提取结构化的数据，matplotlib可用于提供图表生成等。python的科学计算功能相比起其它的科学计算软件或语言来说，具有更加丰富的扩展库，且扩展库均是开源，python可提供各种调用接口用于分析处理数据，语言更为简单易读，容易维护，可轻松完成各种数据处理的高级任务。

步骤S312，在功能节点中建立科学计算扩展库与数据分析处理新工程的关联关系。

在一个实施例中，在功能节点中建立NumPy、ScriPy和matplotlib等科学计算扩展库与数据分析处理新工程的关联关系，在功能节点中通过执行python数据计算处理脚本，调用python提供的对应的接口，即可使用科学计算扩展库中的科学计算功能，分析处理数据。

步骤S314，修改数据分析处理新工程的基础配置，并将功能节点打包。

在一个实施例中，可在plugin.xml等配置文件中修改数据分析处理新工程的基础配置，例如添加功能节点对应的名称及描述等，但不限于此。修改完基础配置后，可将功能节点打包，并存储在kettle的插件文件夹中。

步骤S316，存储数据分析处理新工程。

在一个实施例中，开发完成数据分析处理新工程的功能节点后，可在本地或分布式存储系统的服务器集群中存储数据分析处理新工程。在本地或分布式存储系统的服务器集群中可使用数据分析处理新工程并发处理多项数据，提高数据处理效率。

在本实施例中，通过在数据分析处理新工程中创建并开发功能节点，使功能节点提供编辑、执行、保存数据计算处理脚本等功能，并能在功能节点中调用科学计算扩展库分析处理复杂的数据，在ETL数据分析工具中融入科学计算功能，使ETL数据分析工具可以用更简单的方式，进行更加复杂的数据处理，并提高数据处理效率。

如图4所示，在一个实施例中，在步骤S250在功能节点中调用数据计算处理脚本，对数据进行分析处理之后，还包括：

步骤S402，接收生成数据图表的操作请求。

在一个实施例中，在数据分析处理新工程的功能节点中，可设置有生成数据图表的按钮，当用户点击该按钮，可接收到生成数据图表的操作请求。

步骤S404，根据操作请求调用科学计算扩展库中的图形处理扩展库中的相关函数对处理后的数据进行分析，并生成对应的数据图表文件。

在一个实施例中，可在python数据计算处理脚本中调用相应的接口，使用科学计算扩展库中的matplotlib等图形处理扩展库中的相关函数，对处理后的数据进行分析，并生成对应的图形、表格等，以可视化的形式进行展示，使用户能更直接地观看数据的分析结果。生成的数据图表文件可保存在本地或分布式存储系统的服务器集群中，存储在分布式存储系统的服务器集群中可减轻服务器的压力。

在本实施例中，可调用科学计算扩展库中的图形处理扩展库中的相关函数对处理后的数据进行分析，使处理后的数据以图形、表格等形式展示，更直观地反映数据分析处理结果。

在一个实施例中，上述数据分析处理的方法，还包括：获取距离最近的Hadoop集群，并将处理后的数据存储在所述距离最近的Hadoop集群中。

在一个实施例中，Hadoop（Hadoop Distributed File System，HDFS）是一个分布式文件存储系统，具有高容错性的特点，提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。可获取距离当前分析处理数据的计算机设备最近的Hadoop集群服务器，并将处理后的数据及生成的图表文件等存储在距离最近的Hadoop集群服务器中，可减少网络传输消耗，节约网络资源。

在本实施例中，可将数据存储在距离最近的Hadoop集群中，减少了网络传输消耗，节约网络资源。

如图5所示，在一个实施例中，提供一种数据分析处理的装置，包括进入模块510、访问模块520、读取模块530、生成脚本模块540及调用模块550。

进入模块510，用于进入预先建立的数据分析处理新工程。

在一个实施例中，数据分析处理新工程指的是在ETL工具中融入科学计算功能所建立的新工程。ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。常见的ETL工具可包括Datastage、kettle、OWB等，其中，Datastage是一种数据集成软件平台，具有满足最苛刻的数据集成需求所需的功能性、灵活性和可伸缩性；kettle是由纯java编写的一款开源的ETL工具，可以在Windows、Linux、Unix上运行，主要用于数据的抽取，具有高效稳定的特点；OWB是 Oracle 的一个综合工具，它提供对 ETL、完全集成的关系和维度建模、数据质量、数据审计，以及数据和元数据的整个生命周期的管理。在本实施例中，可在ETL工具kettle中融入python的科学计算功能，python是一种面向对象、解释型计算机程序设计语言，它具有丰富的扩展库，可以对数据进行科学计算，帮助完成各种高级的数据分析任务。科学计算指的是为解决科学和工程中的数学问题利用计算机进行的数值计算，主要包括建立数学模型、建立求解的计算方法和计算机实现三个阶段，常用的科学计算语言、软件包括FORTRANALGOL、MATLAB等，可以理解地，也可以使用其它具有科学计算功能的语言与ETL工具结合，不限于此。

访问模块520，用于在数据分析处理新工程中访问功能节点。

读取模块530，用于读取目标文件并导入数据。

生成脚本模块540，用于根据需求信息生成数据计算处理脚本。

调用模块550，用于在功能节点中调用所述数据计算处理脚本，对数据进行分析处理。

上述数据分析处理的装置，在数据分析处理新工程中访问功能节点，读取目标文件导入数据后，可调用根据需求信息生成的数据计算处理脚本对数据进行处理，能够执行数据计算处理脚本，对复杂的数据进行分析处理，且所有的数据处理过程均在功能节点中完成，数据不需要在多个节点之间流转，数据处理过程简单，提高了数据处理效率。

如图6所示，在另一个实施例中，上述数据分析处理的装置，除了包括进入模块510、访问模块520、读取模块530、生成脚本模块540及调用模块550，还包括建立模块560。

建立模块560，用于建立数据分析处理新工程。

如图7所示，在一个实施例中，建立模块560包括获取单元702、导入单元704、创建单元706、调用单元708、关联单元710、修改单元712及存储单元714。

获取单元702，用于获取数据分析源工程代码。

导入单元704，用于创建数据分析处理新工程，并在数据分析处理新工程中导入数据分析源工程代码。

创建单元706，用于在数据分析处理新工程中创建功能节点。

调用单元708，用于调用数据计算工具数据包，并根据预设的节点开发模板将数据计算工具数据包中的数据融入数据分析处理新工程。

获取单元702还用于获取数据计算工具数据包中的科学计算扩展库。

关联单元710，用于在功能节点中建立科学计算扩展库与数据分析处理新工程的关联关系。

修改单元712，用于修改数据分析处理新工程的基础配置，并将功能节点打包。

存储单元714，用于存储数据分析处理新工程。

如图8所示，在一个实施例中，上述数据分析处理的装置，除了包括进入模块510、访问模块520、读取模块530、生成脚本模块540、调用模块550及建立模块560，还包括接收模块570及生成图表模块580。

接收模块570，用于接收生成数据图表的操作请求。

生成图表模块580，用于根据操作请求调用科学计算扩展库中的图形处理扩展库的相关函数对处理后的数据进行分析，并生成对应的数据图表文件。

在一个实施例中，上述数据分析处理的装置，还包括存储模块。

存储模块，用于获取距离最近的Hadoop集群，并将处理后的数据存储在距离最近的Hadoop集群中。

在一个实施例中，Hadoop是一个分布式文件存储系统，具有高容错性的特点，提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。可获取距离当前分析处理数据的计算机设备最近的Hadoop集群服务器，并将处理后的数据及生成的图表文件等存储在距离最近的Hadoop集群服务器中，可减少网络传输消耗，节约网络资源。

上述数据分析处理的装置中的各个模块可全部或部分通过软件、硬件或其组合来实现。例如，在硬件实现上，上述调用模块550可通过计算机设备的处理器利用功能节点调用数据计算处理脚本，对数据进行分析处理，其中，该处理器可以为中央处理单元（CPU）、微处理器等；存储模块可通过计算机设备的网络接口向距离最近的Hadoop集群服务器发送处理后的数据及生成的图表文件等，将处理后的数据及生成的图表文件等存储在该距离最近的Hadoop集群服务器中，其中，网络接口可以是以太网卡、无线网卡等。上述各模块可以硬件形式内嵌于或独立于计算机设备的处理器中，也可以以软件形式存储于计算机设备的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种数据分析处理的方法，包括：

进入预先建立的数据分析处理新工程；

在所述数据分析处理新工程中访问功能节点；

读取目标文件并导入数据；

根据需求信息生成数据计算处理脚本；及

在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理。
根据权利要求1所述的方法，其特征在于，在所述进入预先建立的数据分析处理新工程之前，所述方法还包括：

建立数据分析处理新工程；

所述建立数据分析处理新工程，包括：

获取数据分析源工程代码；

创建数据分析处理新工程，并在所述数据分析处理新工程中导入所述数据分析源工程代码；

在所述数据分析处理新工程中创建功能节点；

调用数据计算工具数据包，并根据预设的节点开发模板将所述数据计算工具数据包中的数据融入所述数据分析处理新工程；及

存储所述数据分析处理新工程。
根据权利要求2所述的方法，其特征在于，在所述存储所述数据分析处理新工程之前，所述方法还包括：

获取所述数据计算工具数据包中的科学计算扩展库；

在所述功能节点中建立所述科学计算扩展库与所述数据分析处理新工程的关联关系；及

修改所述数据分析处理新工程的基础配置，并将所述功能节点打包。
根据权利要求3所述的方法，其特征在于，在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理之后，所述方法还包括：

接收生成数据图表的操作请求；及

根据所述操作请求调用所述科学计算扩展库中的图形处理扩展库的相关函数对处理后的数据进行分析，并生成对应的数据图表文件。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取距离最近的Hadoop集群，并将处理后的数据存储在所述距离最近的Hadoop集群中。
一种数据分析处理的装置，包括：

进入模块，用于进入预先建立的数据分析处理新工程；

访问模块，用于在所述数据分析处理新工程中访问功能节点；

读取模块，用于读取目标文件并导入数据；

生成脚本模块，用于根据需求信息生成数据计算处理脚本；及

调用模块，用于在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

建立模块，用于建立数据分析处理新工程；

所述建立模块包括：

获取单元，用于获取数据分析源工程代码；

导入单元，用于创建数据分析处理新工程，并在所述数据分析处理新工程中导入所述数据分析源工程代码；

创建单元，用于在所述数据分析处理新工程中创建功能节点；

调用单元，用于调用数据计算工具数据包，并根据预设的节点开发模板将所述数据计算工具数据包中的数据融入所述数据分析处理新工程；及

存储单元，用于存储所述数据分析处理新工程。
根据权利要求7所述的装置，其特征在于，所述获取单元还用于获取所述数据计算工具数据包中的科学计算扩展库；

所述建立模块还包括：

关联单元，用于在所述功能节点中建立所述科学计算扩展库与所述数据分析处理新工程的关联关系；及

修改单元，用于修改所述数据分析处理新工程的基础配置，并将所述功能节点打包。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收生成数据图表的操作请求；及

生成图表模块，用于根据所述操作请求调用所述科学计算扩展库中的图形处理扩展库的相关函数对处理后的数据进行分析，并生成对应的数据图表文件。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

存储模块，用于获取距离最近的Hadoop集群，并将处理后的数据存储在所述距离最近的Hadoop集群中。
一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可执行指令，所述计算机可执行指令被所述处理器执行时，使得所述处理器执行以下步骤：

进入预先建立的数据分析处理新工程；

在所述数据分析处理新工程中访问功能节点；

读取目标文件并导入数据；

根据需求信息生成数据计算处理脚本；及

在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理。
根据权利要求11所述的计算机设备，其特征在于，所述计算机可执行指令被所述处理器执行时，还使得所述处理器在执行所述进入预先建立的数据分析处理新工程的步骤之前，还执行：

建立数据分析处理新工程的步骤；

所述建立数据分析处理新工程，包括：

获取数据分析源工程代码；

创建数据分析处理新工程，并在所述数据分析处理新工程中导入所述数据分析源工程代码；

在所述数据分析处理新工程中创建功能节点；

调用数据计算工具数据包，并根据预设的节点开发模板将所述数据计算工具数据包中的数据融入所述数据分析处理新工程；及

存储所述数据分析处理新工程。
根据权利要求12所述的计算机设备，其特征在于，所述计算机可执行指令被所述处理器执行时，还使得所述处理器在执行所述存储所述数据分析处理新工程的步骤之前，还执行：

获取所述数据计算工具数据包中的科学计算扩展库；

在所述功能节点中建立所述科学计算扩展库与所述数据分析处理新工程的关联关系；及

修改所述数据分析处理新工程的基础配置，并将所述功能节点打包的步骤。
根据权利要求13所述的计算机设备，其特征在于，所述计算机可执行指令被所述处理器执行时，还使得所述处理器在执行所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理的步骤之后，还执行：

接收生成数据图表的操作请求；及

根据所述操作请求调用所述科学计算扩展库中的图形处理扩展库的相关函数对处理后的数据进行分析，并生成对应的数据图表文件的步骤。
根据权利要求11所述的计算机设备，其特征在于，所述计算机可执行指令被所述处理器执行时，还使得所述处理器执行：

获取距离最近的Hadoop集群，并将处理后的数据存储在所述距离最近的Hadoop集群中的步骤。
一个或多个存储有计算机可执行指令的非易失性可读存储介质，所述计算机可执行指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

进入预先建立的数据分析处理新工程；

在所述数据分析处理新工程中访问功能节点；

读取目标文件并导入数据；

根据需求信息生成数据计算处理脚本；及

在所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理。
根据权利要求16所述的非易失性可读存储介质，其特征在于，所述计算机可执行指令被一个或多个处理器执行时，还使得所述一个或多个处理器在执行所述进入预先建立的数据分析处理新工程的步骤之前，还执行：

建立数据分析处理新工程的步骤；

所述建立数据分析处理新工程，包括：

获取数据分析源工程代码；

创建数据分析处理新工程，并在所述数据分析处理新工程中导入所述数据分析源工程代码；

在所述数据分析处理新工程中创建功能节点；

调用数据计算工具数据包，并根据预设的节点开发模板将所述数据计算工具数据包中的数据融入所述数据分析处理新工程；及

存储所述数据分析处理新工程。
根据权利要求17所述的非易失性可读存储介质，其特征在于，所述计算机可执行指令被一个或多个处理器执行时，还使得所述一个或多个处理器在执行所述存储所述数据分析处理新工程的步骤之前，还执行：

获取所述数据计算工具数据包中的科学计算扩展库；

在所述功能节点中建立所述科学计算扩展库与所述数据分析处理新工程的关联关系；及

修改所述数据分析处理新工程的基础配置，并将所述功能节点打包的步骤。
根据权利要求18所述的非易失性可读存储介质，其特征在于，所述计算机可执行指令被一个或多个处理器执行时，还使得所述一个或多个处理器在执行所述功能节点中调用所述数据计算处理脚本，对所述数据进行分析处理的步骤之后，还执行：

接收生成数据图表的操作请求；及

根据所述操作请求调用所述科学计算扩展库中的图形处理扩展库的相关函数对处理后的数据进行分析，并生成对应的数据图表文件的步骤。
根据权利要求16所述的非易失性可读存储介质，其特征在于，所述计算机可执行指令被一个或多个处理器执行时，还使得所述一个或多个处理器执行：

获取距离最近的Hadoop集群，并将处理后的数据存储在所述距离最近的Hadoop集群中的步骤。