WO2016184192A1

WO2016184192A1 - 数据处理方法及装置

Info

Publication number: WO2016184192A1
Application number: PCT/CN2016/073956
Authority: WO
Inventors: 程希
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-05-21
Filing date: 2016-02-17
Publication date: 2016-11-24
Also published as: CN106296498A

Abstract

本发明提供了一种数据处理方法及装置，其中，该方法包括：采集来自数据源的原始数据；转换原始数据为符合目标数据模型的第一数据，其中，第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；存储第一数据。通过本发明，解决了大数据存储类型不统一导致的数据处理效率低的问题，提高了处理效率。

Description

数据处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法及装置。

背景技术

目前，全国各地都在推进教育信息化工作。建立教育的信息化服务公共平台，开展数字化校园的实验工作，设立各种“数字化学习”试点学校，开发“微课程”，开展“翻转课堂”教学研究，一对一的“E课堂”教学实践，要真正提升教育水品，最重要的是顶层设计和理念超前。

大数据，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理，并整理成为帮助企业经营决策为目的资讯。大数据与传统的数据相比，有数据量大(Volume)、数据的来源和格式多样(Variety)、数据增长快速(Velocity)、价值密度低(Value)、复杂度大(Complexity)等特点。

在教育领域，如何引入大数据技术，利用人(学生、家长、教师)、学校、教育局、以及其他与教育相关事物的数据，实现教育环境的设计、教育实验场景的布置，教育时空的变化、学习场景的变革、教育管理数据的采集和决策等目前亟待研究。怎样利用先进信息技术、大数据的数据支撑，改变过去靠拍脑袋或者理念灵感加经验的决策方式，是目前研究的热点问题。

发明人在研究过程中发现，随着数据规模的日益巨大，数据类型和格式的日趋复杂，无法高效的对大量的数据进行应用已经成为大数据时代面临的新问题。

针对相关技术中大数据存储类型不统一导致的数据处理效率低的问题，目前尚未提出有效的解决方案。

发明内容

为了解决上述技术问题，本发明提供了一种数据处理方法及装置。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：采集来自数据源的原始数据；转换所述原始数据为符合目标数据模型的第一数据，其中，所述第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；存储所述第一数据。

优选地，采集来自所述数据源的所述原始数据包括：周期采集来自所述数据源的所述原始数据；或者根据设定的采集条件即时采集来自所述数据源的所述原始数据。

优选地，在转换所述原始数据为所述第一数据之前，所述方法还包括：根据预设策略，剔除所述原始数据中的不规则数据和/或不符合事实数据。

优选地，在转换所述原始数据为所述第一数据之后，所述方法还包括：对所述第一数据进行数据汇总，其中，所述数据汇总包括以下至少之一：汇总时间粒度、汇总网元粒度、汇总空间粒度、汇总业务粒度。

优选地，存储所述第一数据包括：采用冗余存储的方式存储所述第一数据。

优选地，在存储所述第一数据之后，所述方法还包括：获取用户建立的数据模型；在所述第一数据中提取所述数据模型所需的数据；输出所述数据模型的计算结果。

根据本发明实施例的另一个方面，还提供了一种数据处理装置，包括：采集模块，设置为采集来自数据源的原始数据；转换模块，设置为转换所述原始数据为符合目标数据模型的第一数据，其中，所述第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；存储模块，设置为存储所述第一数据。

优选地，所述采集模块设置为：周期采集来自所述数据源的所述原始数据；或者根据设定的采集条件即时采集来自所述数据源的所述原始数据。

优选地，所述装置还包括：剔除模块，设置为根据预设策略，剔除所述原始数据中的不规则数据和/或不符合事实数据。

优选地，所述装置还包括：汇总模块，设置为对所述第一数据进行数据汇总，其中，所述数据汇总包括以下至少之一：汇总时间粒度、汇总网元粒度、汇总空间粒度、汇总业务粒度。

优选地，所述存储模块，设置为采用冗余存储的方式存储所述第一数据。

优选地，所述装置还包括：获取模块，设置为获取用户建立的数据模型；提取模块，设置为在所述第一数据中提取所述数据模型所需的数据；输出模块，设置为输出所述数据模型的计算结果。

通过本发明实施例，采用采集来自数据源的原始数据；转换原始数据为符合目标数据模型的第一数据，其中，第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；存储第一数据的方式，解决了大数据存储类型不统一导致的数据处理效率低的问题，提高了处理效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据处理方法的流程图；

图2是根据本发明实施例的数据处理装置的结构示意图；

图3是根据本发明实施例的数据处理装置的优选结构示意图一；

图4是根据本发明实施例的数据处理装置的优选结构示意图二；

图5是根据本发明实施例的数据处理装置的优选结构示意图三；

图6是根据本发明优选实施例的教育大数据应用系统的结构示意图；

图7是根据本发明优选实施例的教育大数据应用方法的流程示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例提供了一种数据处理方法，图1是根据本发明实施例的数据处理方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，采集来自数据源的原始数据；

步骤S104，转换原始数据为符合目标数据模型的第一数据，其中，第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；

步骤S106，存储第一数据。

通过上述步骤，在数据处理过程中将数据统一处理成符合目标数据模型的数据进行存储，使数据得到了统一存储。可见，采用上述步骤，可以使庞大复杂的数据得到统一的处理，解决了大数据存储类型不统一导致的数据处理效率低的问题，提高了数据处理效率。

优选地，上述的数据源包括以下至少之一：信息化教室系统、考试系统、学校后勤管理系统。

优选地，在上述步骤S102中，采集原始数据的方式可以采取周期采集的方式，也可以采取即时采集的方式。优选地，周期采集的周期可以根据用户的需求进行设定。

优选地，大数据由于数据非常巨大且庞杂，其中混杂有各类有效或者无效的数据；为了节约存储空间，避免不必要的资源消耗，并实现高效的数据转换，在采集数据之后，还可以根据预设策略，剔除掉原始数据中的不规则数据和/或不符合事实数据。然后再对剔除过不规则数据和/或不符合事实数据的原始数据进行存储。

优选地，在上述步骤S104之后，该方法还包括：对第一数据进行数据汇总，其中，数据汇总包括以下至少之一：汇总时间粒度、汇总网元粒度、汇总空间粒度、汇总业务粒度。汇总后的数据有利于提升访问效率。

由于采集到的第一数据的数据量可能非常巨大，为了提升访问性能，优选地，在步骤S106中存储第一数据时可以采用冗余存储的方式存储第一数据，例如，将第一数据进行分块复制成多份后，存储在分布式的存储网络中。

优选地，在将第一数据进行存储之后，为了实现对数据的应用，用户可以根据需求，建立相应的数据模型。在这种情况下，本实施例在上述步骤S106之后，还可以获取用户建立的数据模型；在第一数据中提取数据模型所需的数据；输出数据模型的计算结果。优选地，还可以根据计算结果和预设策略，输出决策结果。

在本实施例中还提供了一种数据处理装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述，下面对该装置中涉及到的模块进行说明。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的数据处理装置的结构示意图，如图2所示，该装置包括：采集模块22、转换模块24、存储模块26，其中，采集模块22，设置为采集来自数据源的原始数据；转换模块24，耦合至采集模块22，设置为转换原始数据为符合目标数据模型的第一数据，其中，第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；存储模块26，耦合至转换模块24，设置为存储第一数据。

优选地，上述采集模块22设置为周期采集来自数据源的原始数据；或者根据设定的采集条件即时采集来自数据源的原始数据。

图3是根据本发明实施例的数据处理装置的优选结构示意图一，如图3所示，优选地，上述装置还包括：剔除模块32，耦合至采集模块22和转换模块24之间，设置为根据预设策略，剔除原始数据中的不规则数据和/或不符合事实数据。

图4是根据本发明实施例的数据处理装置的优选结构示意图二，如图4所示，优选地，上述装置还包括：汇总模块42，耦合至转换模块24和存储模块26之间，设置为对第一数据进行数据汇总，其中，数据汇总包括以下至少之一：汇总时间粒度、汇总网元粒度、汇总空间粒度、汇总业务粒度。

优选地，上述存储模块26设置为采用冗余存储的方式存储第一数据。

图5是根据本发明实施例的数据处理装置的优选结构示意图三，如图5所示，优选地，上述装置还包括：获取模块52，设置为获取用户建立的数据模型；提取模块54，耦合至存储模块26和获取模块52，设置为在第一数据中提取数据模型所需的数据；输出模块56，耦合至提取模块54，设置为输出数据模型的计算结果。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

为了使本发明实施例的描述更加清楚，下面结合优选实施例进行描述和说明。

本发明优选实施例提供了一种教育大数据应用方法，以实现海量教育相关数据的采集、存储、管理、分析、查询、展现等，目的在于最终帮助学生制定学习计划，提升成绩；帮助老师精确掌握学生情况，因材施教；帮助学校领导完善管理，智能决策；帮助教育相关产业即时响应市场变化，精准营销。

为实现上述目的，本发明优选实施例提供了一种教育大数据应用系统，包括：

1数据采集模块：此模块的功能可以按照指定的接口类型和特性要求，从不同的数据源处获取原始数据。其中，可以通过文件接口、数据库接口、消息接口等方式进行采集。数据采集通常支持两种方式：周期采集和即时采集。周期采集是指根据不同的数据内容，按照数据抽取周期，在指定的时间内对数据进行抽取的方式。即时采集是系统根据设定的采集条件立刻进行一次性操作，操作完成后不再重复此动作。优选地，即时采集应用在历史数据和重新采集的数据。

2数据处理模块：此模块主要负责数据的清洗、转换、装载、规则管理和传输等功能。数据清洗可以完成对“脏数据”的剔除，消除数据的不一致。“脏数据”包括不规则数据、不符合事实数据。数据转换主要包括转换成统一格式编码、统一的数据类型、统一的数据格式。例外，数据转换还支持最常用的数据汇总，例如：汇总时间粒度、汇总网元粒度、汇总空间粒度、汇总业务粒度等；加载经过清洗和转换后的符合目标数据模型的数据，或无需另外处理的“干净”数据。

3数据存储模块：此模块作为数据的载体，提供稳定高效的海量数据存储以及供上层访问的数据接口。数据包括实时数据和非实时数据；包括结构化数据和非结构化数据。采用冗余存储的方式可以保证存储数据的可靠性，即为同一份数据存储多个副本，所有的海量数据采用分布式存储的方式存储在不同的节点，同时采用冗余存储的方式还可以提供高吞吐率和高传输率的高并发访问服务。

4数据应用模块：设置为完成数据分析挖掘，生成最终结果数据。例如，根据具体的业务需求，对数据进行分析和处理，包括数据建模以及对外提供服务能力。数据应用模块提供可视化建模工具和应用开发工具，支持各类组件封装并集成进开发工具中，对上层应用提供统一的应用程序接口(Application Programming Interface，简称为API)，供应用调用，对应用屏蔽底层复杂的实现细节，提升应用开发效率。

为实现上述目的，本发明优选实施例还提供了一种教育大数据应用方法，包括如下步骤：

步骤1:数据采集模块按照事先与各教育相关的应用系统协商好的规则，从各数据源获取数据。包括但不限于从学生考试系统中获取学生的成绩、错题分析、考试时间分布信息等；获取学生在信息化教室中的举手、答题、和老师的互动等数据；获取学生的出勤率；获取学生的各种生活和消费数据，包括图书馆、食堂、电子化教室、超市等。

步骤2：数据处理模块按照定义好的规则，对数据进行清洗和转换等处理，使数据成为符合目标数据模型的数据。

步骤3：经过处理后的数据存储在数据存储模块中。

步骤4：在数据应用模块中进行建模，利用各种数据进行综合计算，智能化分析得到各种结果数据和决策。得到的数据供具体教育应用使用，最终达到促进教育提升的目的，实现智慧教育。包括但不限于预测学生的考试成绩；预测升学率；给出学生如何改进学习的建议；给出教师如何提高教学水平的建议；给出学校如何提高管理和服务水品的建议等。

图6是根据本发明优选实施例的教育大数据应用系统的结构示意图，图6是图5的一种变形形式。如图6所示，该系统包括：数据采集模块、数据处理模块、数据存储模块、数据应用模块，其中：

1)数据采集模块：设置为按照指定的接口类型和特性要求，从不同的数据源处获取原始数据。

2)数据处理模块：负责数据的清洗、转换、装载、规则管理和传输等功能。将采集到的源数据转变为符合目标数据模型的数据。

3)数据存储模块：设置为实现海量数据存储。

4)数据应用模块：设置为数据挖掘分析，并为最终用户提供智能决策。

图7是根据本发明优选实施例的教育大数据应用方法的流程示意图，如图7所示，该流程包括如下步骤：

步骤S701：数据采集模块从教育相关的应用系统(例如，信息化教室系统、考试系统、后勤系统、教职工绩效管理等)中采集数据。数据采集模块与各教育应用系统间的接口包括但不限于文件传输协议(FTP)、超文本传输协议(HTTP)等。

步骤S702：数据处理模块按照定义好的规则，对数据进行清洗和转换等处理，使数据成为符合目标数据模型的数据，以满足后续存储和应用的要求。

步骤S703：经过处理后的数据存储在数据存储模块中。其中，数据存储模块可以采用云存储技术，包括分布式文件存储、分布式数据库存储等。

步骤S704：应用开发者(即用户)使用数据应用模块提供的建模工具进行建模，建模的过程就是设计计算公式，并指明采用哪些数据代入公式进行计算。应用开发者使用数据应用模块提供的应用开发工具开发具体的教育应用，应用中使用公式计算出的数据，最终得到分析结果。

步骤S705：根据得到的智能分析结果为学生、教师、学校、家长和其他教育相关的用户服务，包括但不限于：预测学生的考试成绩；预测升学率；给出学生如何改进学习的建议；给出教师如何提高教学水平的建议；给出学校如何提高管理和服务水品的建议等。最终达到促进教育提升的目的，实现智慧教育。

综上所述，通过本发明的上述实施例和优选实施例，采用大数据技术，可以实现智慧教育。例如，上述优选实施例提供的教育大数据应用系统和方法，贯穿“教”、“学”、“管”全流程，可以同时满足学校、教师、家长、学生的多方面需求。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

Claims

一种数据处理方法，包括：

采集来自数据源的原始数据；

转换所述原始数据为符合目标数据模型的第一数据，其中，所述第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；

存储所述第一数据。
根据权利要求1所述的方法，其中，采集来自所述数据源的所述原始数据包括：

周期采集来自所述数据源的所述原始数据；或者

根据设定的采集条件即时采集来自所述数据源的所述原始数据。
根据权利要求1所述的方法，其中，在转换所述原始数据为所述第一数据之前，所述方法还包括：

根据预设策略，剔除所述原始数据中的不规则数据和/或不符合事实数据。
根据权利要求1所述的方法，其中，在转换所述原始数据为所述第一数据之后，所述方法还包括：

对所述第一数据进行数据汇总，其中，所述数据汇总包括以下至少之一：汇总时间粒度、汇总网元粒度、汇总空间粒度、汇总业务粒度。
根据权利要求1所述的方法，其中，存储所述第一数据包括：

采用冗余存储的方式存储所述第一数据。
根据权利要求1至5中任一项所述的方法，其中，在存储所述第一数据之后，所述方法还包括：

获取用户建立的数据模型；

在所述第一数据中提取所述数据模型所需的数据；

输出所述数据模型的计算结果。
一种数据处理装置，包括：

采集模块，设置为采集来自数据源的原始数据；

转换模块，设置为转换所述原始数据为符合目标数据模型的第一数据，其中，所述第一数据包括以下至少之一的特征：统一格式编码，统一的数据类型，统一的数据格式；

存储模块，设置为存储所述第一数据。
根据权利要求7所述的装置，其中，所述采集模块设置为：

周期采集来自所述数据源的所述原始数据；或者

根据设定的采集条件即时采集来自所述数据源的所述原始数据。
根据权利要求7所述的装置，其中，所述装置还包括：

剔除模块，设置为根据预设策略，剔除所述原始数据中的不规则数据和/或不符合事实数据。
根据权利要求7所述的装置，其中，所述装置还包括：

汇总模块，设置为对所述第一数据进行数据汇总，其中，所述数据汇总包括以下至少之一：汇总时间粒度、汇总网元粒度、汇总空间粒度、汇总业务粒度。
根据权利要求7所述的装置，其中，

所述存储模块，设置为采用冗余存储的方式存储所述第一数据。
根据权利要求7至11中任一项所述的装置，其中，所述装置还包括：

获取模块，设置为获取用户建立的数据模型；

提取模块，设置为在所述第一数据中提取所述数据模型所需的数据；

输出模块，设置为输出所述数据模型的计算结果。