WO2018209694A1

WO2018209694A1 - 一种分布式计算系统及其数据处理方法

Info

Publication number: WO2018209694A1
Application number: PCT/CN2017/085109
Authority: WO
Inventors: 陆克中; 毛一帆; 毛睿; 廖好; 朱金彬; 隋秀峰
Original assignee: 深圳大学
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2018-11-22

Abstract

本发明提供一种分布式计算系统，包括Spark平台模块和混合存储模块，所述混合存储模块包括SSD单元和HDD单元，所述Spark平台模块分别与所述SSD单元和HDD单元连接；所述Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据送至所述SSD单元或者所述HDD单元进行存储，所述Spark平台模块还用于接收查询指令，并从所述SSD单元或者所述HDD单元获取与查询指令对应的数据后输出。

Description

一种分布式计算系统及其数据处理方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种分布式计算系统及其数据处理方法。

背景技术

在现有的大数据时代，面对海量数据，如何在有效的时间内管理、分析并提取有价值的信息，成为人们亟需解决的问题。然而，无论是规模、种类还是结构，大数据对人们驾驭数据的能力提出了巨大挑战。

Spark是目前高效且在产业界被广泛使用的大数据计算框架，是通用、快速的大规模数据处理引擎。首先，Spark提供了统一的解决方案，可以用于交互式查询、实时流处理、机器学习等复杂任务；其次，Spark通过弹性分布式数据集（Resilient Distributed Dataset，简称RDD）划分阶段和任务，通过高效的有向无环图（Directed Acyclic Graph, 简称DAG）执行引擎优化子任务执行顺序，并通过基于内存的计算大幅提升数据处理效率；第三，Spark数据管理依赖于HDFS、Hive等多种数据源，并且集群模式下的Spark实现了横向扩展，支持大规模数据的处理。RDD是Spark区别于其他大数据计算框架最重要的概念，它是一种具有高度容错机制的、只读的分布式数据集。Spark应用程序中，每一个RDD会被分成多个分区，且Spark以分区为单位对RDD进行各种操作。持久化（Persist）RDD分区数据到内存或硬盘实现了对计算任务中间结果的缓存，以供后续迭代任务直接读取中间结果，避免了重复计算，大幅提升了数据处理效率。另外，持久化数据到硬盘，打破了内存容量不足对数据集规模的限制，使得Spark处理大数据游刃有余。

但是目前的Spark所提供的持久化语义灵活性较差，无法根据Spark应用数据的特征将处理得到的数据可识别地在不同的存储单元中进行存储。

技术问题

本发明旨在解决现有技术中无法根据Spark应用数据的特征将处理得到的数据可识别地在不同的存储单元中进行存储的技术问题，提供一种分布式计算系统及其数据处理方法。

技术解决方案

本发明的实施例提供一种分布式计算系统，包括Spark平台模块和混合存储模块，所述混合存储模块包括SSD单元和HDD单元，所述Spark平台模块分别与所述SSD单元和HDD单元连接；

所述Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据送至所述SSD单元或者所述HDD单元进行存储，所述Spark平台模块还用于接收查询指令，并从所述SSD单元或者所述HDD单元获取与查询指令对应的数据后输出。

本发明还提供一种实施例的分布式计算系统的数据处理方法，包括以下步骤：

所述Spark平台模块通过大数据处理框架Spark作为计算引擎，将处理得到的数据送至所述SSD单元或者所述HDD单元进行存储；

所述Spark平台模块接收查询指令，并从所述SSD单元或者所述HDD单元获取与查询指令对应的数据后输出。

有益效果

本发明的技术方案与现有技术相比，有益效果在于：通过所述Spark平台模块分别与所述SSD单元和HDD单元连接，以使处理得到的数据送至所述SSD单元或者所述HDD单元进行存储，可以实现数据的精确映射和保存。

附图说明

图1是本发明分布式计算系统一种实施例的结构示意图。

图2是本发明分布式计算系统的数据处理方法一种实施例的流程图。

本发明的实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

具体的，固态硬盘（Solid-State Drive，简称SSD）的出现为提升存储系统性能带来了新的机遇，SSD具有低功耗、低延迟、体积小等优点。与传统企业级硬盘（Hard Disk Drive，简称HDD）通过移动机械臂来寻址方式不同，SSD完全构建于半导体芯片上，因此具有随机访问性能。然而，由于SSD容量成本过高、寿命有限等不足，完全使用SSD替换HDD会大幅提升产业成本。为了合理利用SSD的高性能和HDD的低廉价格等优势，基于SSD和HDD混合存储的异构数据中心得到人们普遍研究和应用。

本发明一个实施例的分布式计算系统，如图1所示，包括Spark平台模块1和混合存储模块2，所述混合存储模块2包括SSD单元21和与HDD单元22，所述Spark平台模块1分别与所述SSD单元21和HDD单元22连接；

所述Spark平台模块1利用大数据处理框架Spark作为计算引擎，将处理得到的数据送至所述SSD单元21或者所述HDD单元22进行存储，所述Spark平台模块1还用于接收查询指令，并从所述SSD单元21或者所述HDD单元22取与查询指令对应的数据后输出。

通过所述Spark平台模块分别与所述SSD单元和HDD单元连接，以使处理得到的数据送至所述SSD单元或者所述HDD单元进行存储，可以实现数据的精确映射和保存。

在具体实施中，所述Spark平台模块1包括与所述SSD单元21对应的第一API(ApplicationProgrammingInterface，应用程序编程接口)和与所述HDD单元对应的第二API，所述Spark平台模块1通过第一API与所述SSD单元21连接，所述Spark平台模块1通过第二API与所述HDD单元22连接，以进行数据传输。所述Spark平台模块1通过第一API和第二API，可以将混合存储系统的结构特征展示给用户。而存储介质的选择是通过调用第一API或第二API接口来实现，即选择在所述SSD单元21或是所述HDD单元22中进行存储通过调用第一API或第二API接口来实现。

在具体实施中，所述SSD单元21作和所述HDD单元22为同层持久化存储单元。所述处理得到的数据具体包括RDD分区数据。所述Spark平台模块还用于根据预设的分区比例值将RDD分区数据持久化到所述SSD单元或所述HDD单元中。

在具体实施中，所述Spark平台模块1还用于根据RDD分区数据的热度将RDD分区数据持久化到所述SSD单元或所述HDD单元中。由于SSD的I/O带宽和降低访问延迟可以被有效地提升。而HDD仍然能为那些对存储性能要求较低的数据提供大量的存储效率。另外大量的数据被数据中心收集并捕获后，并不经常被访问，称之为冷数据，约占全球数据的90%。而剩余的10%的数据被收集并捕获后，会经常性的被访问，称之为热数据。显然，将全部的数据都存储在高性能、低延迟的存储设备是不合理的，成本是极为昂贵的。因此，根据RDD分区数据的热度，实现对SSD单元21和HDD单元22以合理的方式进行组合，通过构建混合存储系统可以带来性能的大幅提升，同时保障成本可控。

在具体实施中，所述分布式计算系统还包括连接所述混合存储模块的容量监控模块，所述容量监控模块用于对所述混合存储模块的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信号。也就是说，分布式计算系统还可包括连接混合存储模块2的容量监控模块，容量监控模块用于对混合存储模块2的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信息。预设阈值的具体取值可根据混合存储模块2的容量大小决定，输出报警信息可以是控制扬声器发声或控制报警灯闪烁等。在混合存储模块2的剩余容量过低时进行报警，提醒工作人员及时对存储数据进行转移或更换存储硬盘等，以提高数据存储可靠性。

本发明还提供一种实施例的分布式计算系统的数据处理方法，如图2所示，所述数据处理方法包括以下步骤：

步骤S21，所述Spark平台模块通过大数据处理框架Spark作为计算引擎，将处理得到的数据送至所述SSD单元或者所述HDD单元进行存储；

步骤S22，所述Spark平台模块接收查询指令，并从所述SSD单元或者所述HDD单元获取与查询指令对应的数据后输出。

在具体实施中，所述数据处理方法还包括以下步骤通过容量监控模块对所述混合存储模块的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信息。预设阈值的具体取值可根据混合存储模块2的容量大小决定，输出报警信息可以是控制扬声器发声或控制报警灯闪烁等。在混合存储模块2的剩余容量过低时进行报警，提醒工作人员及时对存储数据进行转移或更换存储硬盘等，以提高数据存储可靠性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种分布式计算系统，其特征在于：包括Spark平台模块和混合存储模块，所述混合存储模块包括SSD单元和HDD单元，所述Spark平台模块分别与所述SSD单元和HDD单元连接；

所述Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据送至所述SSD单元或者所述HDD单元进行存储，所述Spark平台模块还用于接收查询指令，并从所述SSD单元或者所述HDD单元获取与查询指令对应的数据后输出。
如权利要求1所述的分布式计算系统，其特征在于：所述Spark平台模块包括与所述SSD单元对应的第一API和与所述HDD单元对应的第二API，所述Spark平台模块通过第一API与所述SSD单元连接，所述Spark平台模块通过第二API与所述HDD单元连接。
如权利要求1所述的分布式计算系统，其特征在于：所述SSD单元作和所述HDD单元为同层持久化存储单元。
如权利要求1所述的分布式计算系统，其特征在于：所述处理得到的数据具体包括RDD分区数据。
如权利要求1所述的分布式计算系统，其特征在于：所述Spark平台模块还用于根据RDD分区数据的热度将RDD分区数据持久化到所述SSD单元或所述HDD单元中。
如权利要求1所述的分布式计算系统，其特征在于：所述Spark平台模块还用于根据预设的分区比例值将RDD分区数据持久化到所述SSD单元或所述HDD单元中。
如权利要求1所述的分布式计算系统，其特征在于：所述分布式计算系统还包括连接所述混合存储模块的容量监控模块，所述容量监控模块用于对所述混合存储模块的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信号。
一种分布式计算系统的数据处理方法，其特征在于：包括以下步骤：

所述Spark平台模块通过大数据处理框架Spark作为计算引擎，将处理得到的数据送至所述SSD单元或者所述HDD单元进行存储；

所述Spark平台模块接收查询指令，并从所述SSD单元或者所述HDD单元获取与查询指令对应的数据后输出。
如权利要求8所述的数据处理方法，其特征在于：所述处理得到的数据具体包括RDD分区数据。
如权利要求8或9所述的数据处理方法，其特征在于：还包括以下步骤：

通过容量监控模块对所述混合存储模块的剩余容量进行监控，并在剩余容量小于预设阈值时输出报警信息。