WO2020211717A1

WO2020211717A1 - 一种数据处理方法、装置及设备

Info

Publication number: WO2020211717A1
Application number: PCT/CN2020/084423
Authority: WO
Inventors: 周祥; 王烨; 李鸣翔
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2019-04-18
Filing date: 2020-04-13
Publication date: 2020-10-22
Also published as: CN111831713A

Abstract

本申请提供一种数据处理方法、装置及设备，该方法包括：获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；获取目标处理单元，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用第一转换信息将第一数据转换为第二输出格式的第二数据；从目标处理单元获取第二数据，并输出第二数据。通过本申请的技术方案，可以节省数据湖分析系统的计算资源，并提高处理性能。

Description

一种数据处理方法、装置及设备

本申请要求2019年04月18日递交的申请号为201910312700.7、发明名称为“一种数据处理方法、装置及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置及设备。

背景技术

数据湖分析(Data Lake Analytics)用于为用户提供无服务器化(Serverless)的查询分析服务，能够对海量的数据进行任意维度的分析和查询，并可以支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。

在数据湖分析系统中，包括存储集群和计算集群，存储集群包括不同类型的数据源，这些数据源采用不同的数据格式。计算集群包括多个计算节点，不同计算节点可以采用不同的数据格式。通常情况下，数据源采用的数据格式与计算节点采用的数据格式不同，因此，就需要对数据格式进行转换。

例如，从数据源读取数据格式A1的数据，将数据格式A1的数据转换为数据格式B1的数据，将数据格式B1的数据输出给计算节点，由计算节点利用数据格式B1的数据进行处理。由于不同类型的数据源采用不同的数据格式，不同计算节点也采用不同的数据格式，因此，数据湖分析系统需要支持各种数据格式的转换，数据湖分析系统需要提供大量计算资源，由这些计算资源实现数据格式的转换，随着用户数量的增加，对计算资源的需求也随之增加。

发明内容

本申请提供一种数据处理方法，所述方法包括：

获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；

获取目标处理单元，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

从所述目标处理单元获取所述第二数据，并输出所述第二数据。

本申请提供一种数据处理方法，应用于数据湖分析系统，所述数据湖分析系统用于为用户提供无服务器化的数据处理服务，所述方法包括：

从所述数据湖分析系统的多个处理单元中获取目标处理单元；其中，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

从所述目标处理单元获取所述第二数据，并输出所述第二数据；

其中，所述数据源包括所述数据湖分析系统提供的云数据库。

本申请提供一种数据处理方法，所述方法包括：

根据所述数据处理请求从数据源获取第一输入格式的第一数据；

将所述第一输入格式的第一数据输出给目标处理单元，以使所述目标处理单元将所述第一数据转换为第二输出格式的第二数据；

本申请提供一种数据处理方法，应用于数据湖分析系统，针对所述数据湖分析系统的多个处理单元中的处理单元，所述处理单元包括多个不同的转换信息，不同的转换信息用于实现不同格式的数据转换，所述方法包括：

所述处理单元获取第一输入格式的第一数据；

若所述处理单元的目标转换信息为第一转换信息，且所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换，则利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

所述处理单元输出所述第二数据。

本申请提供一种数据处理装置，所述装置包括：

获取模块，用于获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；获取目标处理单元，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

处理模块，用于根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

本申请提供一种数据处理设备，包括：

处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

基于上述技术方案，本申请实施例中，通过将目标处理单元的目标转换信息设置为第一转换信息，使得目标处理单元利用第一转换信息将第一输入格式的第一数据转换为第二输出格式的第二数据，即由目标处理单元实现数据格式的转换，而目标处理单元通常由逻辑芯片实现，逻辑芯片具有很高的处理性能，因此，可以节省数据湖分析系统的计算资源(如CPU(Central Processing Unit，中央处理器)资源等)，并提高数据湖分析系统的整体处理性能，提升数据湖分析系统整体的使用效率和体验，可以加速数据处理和计算性能，结合硬件加速技术来处理存储集群的数据对接，并向计算集群提供数据接口。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其它的附图。

图1是本申请一种实施方式中的数据处理方法的流程示意图；

图2是本申请一种实施方式中的数据湖分析系统的结构示意图；

图3A-图3E是本申请一种实施方式中的数据扫描集群的示意图；

图4是本申请一种实施方式中的数据格式转换的示意图；

图5A和图5B是本申请一种实施方式中的数据扫描集群的结构图；

图6是本申请一种实施方式中的数据处理方法的流程示意图；

图7是本申请一种实施方式中的数据处理装置的结构示意图；

图8是本申请一种实施方式中的数据处理设备的结构示意图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中提出一种数据处理方法，可以应用于任意设备，如数据湖分析系统的任意设备，参见图1所示，为该方法的流程图，该方法可以包括：

步骤101，获取数据处理请求，该数据处理请求包括第一输入格式(即数据源中数据的格式)和第二输出格式(即需要输出的数据的格式)。

步骤102，获取目标处理单元，目标处理单元的目标转换信息为第一转换信息，第一转换信息用于实现第一输入格式与第二输出格式的转换，基于第一转换信息，目标处理单元能够将第一输入格式的数据转换为第二输出格式的数据。

可选地，在一个例子中，获取目标处理单元，可以包括但不限于：从数据湖分析系统的多个处理单元中任意选择处理单元，并将选择的处理单元作为目标处理单元。或者，可以获取数据湖分析系统的多个处理单元的目标转换信息，并利用每个处理单元的目标转换信息从所述多个处理单元中选择处理单元，将选择的处理单元作为目标处理单元。

在一个例子中，针对数据湖分析系统的每个处理单元，该处理单元可以为：当前未工作的处理单元(即该处理单元当前没有执行数据的转换操作)，或者，当前已工作的处理单元(即该处理单元当前正在执行数据的转换操作)。

在一个例子中，利用每个处理单元的目标转换信息从所述多个处理单元中选择处理单元，将选择的处理单元作为目标处理单元，可以包括但不限于：若存在目标转换信息为第一转换信息(用于实现第一输入格式与第二输出格式的转换)的处理单元，则将目标转换信息为第一转换信息的处理单元确定为目标处理单元；或者，若不存在目标转换信息为第一转换信息的处理单元，则从多个处理单元中任意选择处理单元，并将选择的处理单元确定为目标处理单元。

可选地，在一个例子中，获取目标处理单元之后，还可以包括但不限于：若目标处理单元的目标转换信息为第一转换信息，则根据第一输入格式和第二输出格式保持目标处理单元的目标转换信息不变；或者，若目标处理单元的目标转换信息为第二转换信息(第二转换信息不用于实现第一输入格式与第二输出格式的转换)，则根据第一输入格式和第二输出格式将目标处理单元的目标转换信息修改为第一转换信息。

可选地，在一个例子中，针对步骤102，还可以判断数据湖分析系统是否支持第一输入格式与第二输出格式的转换。如果是，即数据湖分析系统的处理单元支持第一输入格式与第二输出格式的转换，则从数据湖分析系统的多个处理单元中获取目标处理单元。如果否，即数据湖分析系统的所有处理单元均不支持第一输入格式与第二输出格式的转换，则采用传统流程进行处理。

可选地，在一个例子中，针对步骤102，数据处理请求还可以包括分片数量，根据该分片数量确定目标处理单元的数量，并获取所述数量个目标处理单元。

步骤103，根据该数据处理请求从数据源获取第一输入格式的第一数据，并将该第一数据输出给目标处理单元，以使目标处理单元利用该第一转换信息将该第一数据转换为第二输出格式的第二数据，对此转换过程不再赘述。

步骤104，从目标处理单元获取该第二数据，并输出该第二数据，例如，可以将该第二数据输出给计算节点，以使计算节点利用该第二数据进行处理。

在一个例子中，数据处理请求还可以包括服务模式，若服务模式为流量模式，则可以获取数据总量，并根据该数据总量确定虚拟资源信息(如费用信息)，并输出虚拟资源信息。或者，若服务模式为实例模式，则可以获取目标处理单元数量，并根据目标处理单元数量确定虚拟资源信息，并输出虚拟资源信息。

在上述实施例中，目标处理单元包括多个不同的转换信息，不同的转换信息用于实现不同格式的数据转换；目标处理单元为通过逻辑芯片实现，逻辑芯片可以包括但不限于：FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)、CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)、ASIC(Application Specific Integrated Circuit，专用集成电路)等，对此不做限制。

在一个例子中，上述执行顺序只是为了方便描述给出的一个示例，在实际应用中，还可以改变步骤之间的执行顺序，对此执行顺序不做限制。而且，在其它实施例中，并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其它实施例中可能被分解为多个步骤进行描述；本说明书中所描述的多个步骤，在其它实施例也可能被合并为单个步骤进行描述。

基于上述技术方案，本申请实施例中，由目标处理单元实现数据格式的转换，目标处理单元通常由逻辑芯片实现，具有很高的处理性能，可以节省数据湖分析系统的计算资源(如CPU资源等)，提高数据湖分析系统的整体处理性能，提升数据湖分析系统整体的使用效率和体验，加速数据处理和计算性能，结合硬件加速技术处理存储集群的数据对接，向计算集群提供数据接口。

基于与上述方法同样的申请构思，本申请实施例还提出另一种数据处理方法，可以应用于数据湖分析系统(如数据湖分析系统中的云计算平台)，所述数据湖分析系统用于为用户提供无服务器化的数据处理服务，该方法包括：

获取数据处理请求，该数据处理请求包括第一输入格式和第二输出格式；从数据湖分析系统的多个处理单元中获取目标处理单元，目标处理单元的目标转换信息为第一转换信息，第一转换信息用于实现第一输入格式与第二输出格式的转换。根据数据处理请求从数据源获取第一输入格式的第一数据，并将该第一数据输出给目标处理单元，以使目标处理单元利用该第一转换信息将该第一数据转换为第二输出格式的第二数据；从目标处理单元获取该第二数据，并输出该第二数据；其中，该数据源包括数据湖分析系统提供的云数据库。

其中，上述数据源可以包括数据湖分析系统提供的云数据库，且云数据库可以用于提供无服务器化的查询分析服务。数据湖分析系统可以是以数据存储为主的存储型云平台，或者，以数据处理为主的计算型云平台，或者，计算和数据存储处理兼顾的综合云计算平台，对此数据湖分析系统不做限制。

针对数据湖分析系统提供的云数据库，可以用于为用户提供无服务器化(Serverless) 的查询分析服务，能够对海量的数据进行任意维度的分析和查询，支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。

在一个例子中，数据湖分析系统具体为：存储与计算分离的数据湖分析系统；数据湖分析系统包括存储集群和计算集群，存储集群包括采用不同输入格式的多个数据源，计算集群包括采用不同输出格式的多个计算节点。进一步的，数据湖分析系统还可以包括数据扫描集群，数据扫描集群包括多个处理单元；数据扫描集群作为计算集群的内置模块，与计算集群的计算资源部署在相同节点；或者，数据扫描集群作为计算集群的独立模块，与计算集群的计算资源部署在不同节点；或者，数据扫描集群作为与计算集群不同的独立集群。

基于与上述方法同样的申请构思，本申请实施例中还提出一种数据处理方法，该方法可以包括：获取数据处理请求，该数据处理请求可以包括第一输入格式和第二输出格式；根据该数据处理请求从数据源获取第一输入格式的第一数据，并将第一数据输出给目标处理单元，以使目标处理单元将第一数据转换为第二输出格式的第二数据；从目标处理单元获取第二数据，并输出第二数据。

基于与上述方法同样的申请构思，本申请实施例中还提出一种数据处理方法，应用于数据湖分析系统，该数据湖分析系统包括多个处理单元，针对所述多个处理单元中的每个处理单元，所述处理单元包括多个不同的转换信息，不同的转换信息用于实现不同格式的数据转换，所述方法包括：

所述处理单元获取第一输入格式的第一数据；若所述处理单元的目标转换信息为第一转换信息，且所述第一转换信息用于实现所述第一输入格式与第二输出格式的转换，则所述处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；所述处理单元输出所述第二数据。

在一个例子中，所述处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据之前，若所述处理单元的目标转换信息不为第一转换信息，则所述处理单元将所述处理单元的目标转换信息修改为所一转换信息。

以下结合具体的应用场景，对上述数据处理方法进行进一步的说明。

参见图2所示，为数据湖分析(Data Lake Analytics)系统的结构示意图，数据湖分析系统可以包括客户端、负载均衡设备、前端节点(front node，也可以称为前端服务器)、计算节点(compute node，也可以称为计算服务器)和数据库，当然，数据湖分析系统还可以包括其它服务器，对此不做限制。

在图2中，以3个前端节点为例，在实际应用中，前端节点的数量还可以为其它数量，对此不做限制。在图2中，以4个计算节点为例，在实际应用中，计算节点的数量还可以为其它数量，对此不做限制。由于每个前端节点的处理流程相同，每个计算节点的处理流程相同，因此，为方便描述，后续实施例中，以1个前端节点的处理流程为例，以1个计算节点的处理流程为例。

在图2中，以5个数据库为例，实际应用中，数据库的数量还可以为其它数量，对此不做限制，这些数据库就是数据源。本实施例中，可以是针对异构数据源的场景，也就是说，这些数据库可以是相同类型的数据库，也可以是不同类型的数据库。这些数据库可以是关系型数据库，或是非关系型数据库。

进一步的，对于每个数据库来说，这个数据库的类型还可以包括但不限于：OSS(Object Storage Service，对象存储服务)、TableStore(表格存储)、HBase(Hadoop Database，Hadoop数据库)、HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)、MySQL(即关系型数据库)、RDS(Relational Database Service，关系型数据库服务)、DRDS(Distribute Relational Database Service，分布式关系型数据库服务)、RDBMS(Relational Database Management System，关系数据库管理系统)、SQLServer(即关系型数据库)、PostgreSQL(即对象关系型数据库)，MongoDB(即基于分布式文件存储的数据库)等，当然，上述只是数据库类型的几个示例，对此数据库的类型不做限制。

其中，数据库用于存储各种类型的数据，对此数据类型不做限制，如可以是用户数据、商品数据、地图数据、视频数据、图像数据、音频数据等。

其中，客户端可以是终端设备(如PC(Personal Computer，个人计算机)、笔记本电脑、移动终端等)包括的APP(Application，应用)，也可以是终端设备包括的浏览器，对此不做限制。负载均衡设备用于对客户端的数据请求进行负载均衡，如接收到数据请求后，将数据请求负载均衡到各个前端节点。

在一个例子中，多个前端节点可以用于提供相同的功能，形成前端节点的资源池。针对资源池中的每个前端节点，用于接收客户端发送的数据请求，并对数据请求进行SQL(Structured Query Language，结构化查询语言)解析，根据解析结果生成多个执行计划，并处理这些执行计划。例如，前端节点可以将这些执行计划发送给一个或者多个计算节点，由计算节点处理执行计划。

在一个例子中，多个计算节点用于提供相同的功能，形成计算节点的资源池。针对资源池中的每个计算节点，若该计算节点接收到前端节点发送的执行计划，则该计算节点可以处理该执行计划，并将处理结果返回给前端节点。

综上所述，数据湖分析系统采用存储、计算分离的架构，计算节点从不同的数据源(Data Source)读取数据，这些数据源就是各种类型的数据库。

在一个例子中，数据湖分析系统具体为存储与计算分离的架构，即数据湖分析系统包括存储集群和计算集群，存储集群包括采用不同输入格式的多个数据源(即数据库)，计算集群包括采用不同输出格式的多个计算节点。在此基础上，本申请实施例中，数据湖分析系统还可以包括数据扫描集群，该数据扫描集群可以包括多个处理单元，例如，通过FPGA实现的处理单元等。

参见图3A所示，数据扫描集群可以作为计算集群的独立模块，与计算集群的计算资源(如CPU资源等)部署在不同节点，也就是说，数据扫描集群的处理单元部署在计算集群，但是与计算集群的计算资源(如CPU资源等)部署在不同节点。具体的，在存储、计算分离的数据湖分析系统中，数据扫描集群作为计算集群中的模块，是计算集群中直接面向存储集群的功能模块。

参见图3B所示，数据扫描集群可以作为计算集群的内置模块，与计算集群的计算资源(如CPU资源等)部署在相同节点，也就是说，数据扫描集群的处理单元部署在计算集群，作为计算集群中计算节点的内置模块，与基于CPU的算子位于同一节点，由计算任务调度决定是否启用数据扫描集群进行数据格式转换，如果不启用，则基于计算节点的CPU软件模块实现数据格式转换。

参见图3C所示，数据扫描集群可以作为与计算集群不同的独立集群，在存储、计算分离的数据湖分析系统中，数据扫描集群作为面向计算集群的功能模块，且数据扫描集群作为面向存储集群的功能模块。数据扫描集群是在云上完全独立的集群，能够以服务的形式，并发响应云上不同的多个计算集群的数据扫描请求，数据扫描集群完全独立运行，有自己的集群弹性管理与扩缩容。

为了方便描述，在后续实施例中，以数据扫描集群作为独立集群为例。

在一个例子中，数据湖分析系统可以包括多个计算集群，每个计算集群包括多个计算节点。针对每个计算集群来说，可以是面向SQL(Structured Query Language，结构化查询语言)计算的计算集群，也可以是面向机器学习的计算集群，还可以是面向深度学习(Deep Learning)的计算集群，对此不做限制。

具体的，参见图3D所示，这些计算集群可以包括但不限于：基于Presto的计算集群、基于Spark的计算集群、基于Hadoop的计算集群、基于Flink的计算集群、基于TensorFlow的计算集群、基于PyTorch的计算集群等。

针对基于Presto的计算集群，提供适配Presto的数据访问接口，也就是说，输出给该计算集群的数据，是与Presto数据格式匹配的数据。针对基于Spark的计算集群，提供适配Spark的数据访问接口，也就是说，输出给该计算集群的数据，是与Spark数据格式匹配的数据。针对基于Hadoop的计算集群，提供适配Hadoop的数据访问接口，也就是说，输出给该计算集群的数据，是与Hadoop数据格式匹配的数据。针对基于Flink的计算集群，提供适配Flink的数据访问接口，也就是说，输出给该计算集群的数据，是与Flink数据格式匹配的数据。针对基于TensorFlow的计算集群，提供适配TensorFlow的数据访问接口，也就是说，输出给该计算集群的数据，是与TensorFlow数据格式匹配的数据。针对基于PyTorch的计算集群，提供适配PyTorch的数据访问接口，也就是说，输出给该计算集群的数据，是与PyTorch数据格式匹配的数据，以此类推。

在一个例子中，数据湖分析系统可以包括存储集群，存储集群包括多个数据源，该数据源可以是数据库，如云数据库，云数据库用于为用户提供无服务器化(Serverless)的查询分析服务，能够对海量数据进行任意维度的分析和查询，支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等。

在一个例子中，这些数据源可以包括但不限于：基于OSS的数据源、基于TableStore的数据源、基于HBase的数据源、基于HDFS的数据源、基于MySQL的数据源、基于RDS的数据源、基于DRDS的数据源、基于RDBMS的数据源、基于PostgreSQL的数据源等。当然，上述只是示例，对此不做限制。

参见图3E所示，由于数据源的类型不同，则数据源中数据的数据格式也不相同，例如，数据格式可以包括但不限于：parquet数据格式、orc数据格式、text数据格式、json数据格式、kv数据格式、rcfile数据格式、avro数据格式、arrow数据格式等。当然，上述只是示例，还可以有其它数据格式，对此不做限制。

综上所述，由于数据源的数据格式与计算集群的数据格式并不相同，因此，需要进行数据格式的转换，使得计算集群能够正确的处理数据。例如，若数据源的数据格式为json数据格式，且计算集群为基于Presto的计算集群，则需要将json数据格式的数据，转换为与Presto数据格式匹配的数据。

本申请实施例中，正是通过提供数据扫描集群，实现数据格式的转换，即通过数据扫描集群中的处理单元(如FPGA等)，实现数据格式的转换。

在一个例子中，为了实现数据格式的转换，可以在处理单元(如FPGA等)配置转换信息，处理单元可以利用转换信息实现数据格式的转换，对此转换信息的内容不做限制，只要处理单元能够利用转换信息实现数据格式的转换即可。

例如，预先在处理单元配置转换信息A1，基于转换信息A1，处理单元能够将json数据格式的数据，转换为与Presto数据格式匹配的数据。

在一个例子中，可以在处理单元(如FPGA等)配置多个不同的转换信息，不同的转换信息用于实现不同格式的数据转换。例如，在处理单元配置转换信息A1、转换信息A2、转换信息A3、转换信息A4，以此类推。基于转换信息A1，处理单元能够将json数据格式的数据，转换为与Presto数据格式匹配的数据。基于转换信息A2，处理单元能够将json数据格式的数据，转换为与Spark数据格式匹配的数据。基于转换信息A3，处理单元能够将text数据格式的数据，转换为与Presto数据格式匹配的数据。基于转换信息A4，处理单元能够将text数据格式的数据，转换为与Spark数据格式匹配的数据，以此类推。

当然，上述只是转换信息的示例，在实际应用中，可以在处理单元配置更多的转换信息，以实现各种数据格式的转换，参见图4所示，为数据格式转换的示意图。第一列表示数据源支持的数据格式，第一行表示计算集群支持的数据格式。图4中的“是”表示支持这两种数据格式的转换，图4中的“否”表示不支持这两种数据格式的转换。基于此，可以在处理单元配置多个转换信息，以通过这些转换信息使处理单元支持“是”对应的两种数据格式的转换。

综上所述，由于在处理单元配置多个不同转换信息，不同转换信息用于实现不同格式的数据转换，因此，可以充分利用处理单元的计算能力，提高处理单元的利用率。例如，若处理单元配置转换信息A1，则处理单元用于将json数据格式的数据，转换为与Presto数据格式匹配的数据。当没有“将json数据格式的数据，转换为与Presto数据格式匹配的数据”的任务时，处理单元就处于空闲状态，浪费了处理单元的计算能力。若处理单元配置转换信息A1和转换信息A2，则处理单元用于将json数据格式的数据，转换为与Presto数据格式匹配的数据，将json数据格式的数据，转换为与Spark数据格式匹配的数据。当没有“将json数据格式的数据，转换为与Presto数据格式匹配的数据”的任务时，处理单元还可以将json数据格式的数据，转换为与Spark数据格式匹配的数据，从而避免处理单元处于空闲状态，提高了处理单元的计算能力。

在一个例子中，数据扫描集群中的处理单元的使用相对固定，用于对不同的计算集群的数据扫描任务进行加速。参见图5A所示，该数据扫描集群可以包括指令存储、数据存储、常量存储、寄存器组、数据存储链表、指令执行等基本模块。进一步的，参见图5B所示，该数据扫描集群还可以包括多个处理单元(如FPGA等)，每个处理单元用于进行不同数据格式的转换，此外，该数据扫描集群还可以包括调度与管理模块、输入模块和输出模块等。

在上述应用场景下，参见图6所示，为本申请实施例提出的数据处理方法的流程图，可以应用于数据湖分析系统的数据扫描集群，该方法可以包括：

步骤601，获取数据处理请求，如数据扫描(data scan)请求等。

具体的，客户端可以通过负载均衡设备向数据湖分析系统发送数据处理请求，这样，数据湖分析系统的数据扫描集群可以获取到该数据处理请求。例如，数据扫描集群的调度与管理模块可以获取到该数据处理请求。

步骤602，判断数据湖分析系统是否支持与数据处理请求对应的数据格式转换。如果是，则执行步骤603；如果否，则提示不支持数据处理请求。

具体的，数据处理请求可以包括输入数据格式(即数据源中的数据的格式，为了区分方便，后续以第一输入格式为例，如json数据格式)和输出目标格式(即需要输出的数据的格式，为了区分方便，后续以第二输出格式为例，如Presto数据格式)，因此，可以判断数据湖分析系统是否支持第一输入格式与第二输出格式的转换，如果是，执行步骤603；如果否，提示不支持数据处理请求。

例如，数据扫描集群的调度与管理模块可以从数据处理请求中获取第一输入格式和第二输出格式，并查询数据湖分析系统是否支持第一输入格式与第二输出格式的转换。具体的，假设数据湖分析系统包括能力注册表，且能力注册表用于记录数据湖分析系统支持的所有数据格式的转换，且能力注册表参见图4所示。若能力注册表不存在第一输入格式和/或第二输出格式，则确定数据湖分析系统不支持第一输入格式与第二输出格式的转换；若能力注册表存在第一输入格式和第二输出格式，且第一输入格式和第二输出格式对应的为“否”，则确定数据湖分析系统不支持第一输入格式与第二输出格式的转换；若能力注册表存在第一输入格式和第二输出格式，且第一输入格式和第二输出格式对应的为“是”，则确定数据湖分析系统支持第一输入格式与第二输出格式的转换。

步骤603，从数据湖分析系统的多个处理单元中选择目标处理单元。

其中，针对所述多个处理单元中的每个处理单元，该处理单元可以为：当前未工作的处理单元(即该处理单元当前没有执行数据的转换操作)，或者，当前已工作的处理单元(即该处理单元当前正在执行数据的转换操作)。

例如，可以从处理单元1、处理单元2和处理单元3中选择目标处理单元，处理单元1可以为当前未工作的处理单元或者当前已工作的处理单元，处理单元2可以为当前未工作的处理单元或者当前已工作的处理单元，以此类推。

在一个例子中，数据处理请求还可以包括服务模式，若该服务模式为流量模式，则表示用户采用数据总量计费，基于此，这个用户可以与其它用户共用处理单元，因此，数据湖分析系统的多个处理单元，可以为当前未工作的处理单元或者当前已工作的处理单元，也就是说，可以将当前未工作的处理单元作为目标处理单元，也可以将当前已工作的处理单元作为目标处理单元。若该服务模式为实例模式，表示用户采用处理单元数量计费，基于此，这个用户单独使用处理单元，因此，数据湖分析系统的多个处理单元，可以为当前未工作的处理单元，也就是说，可以将当前未工作的处理单元作为目标处理单元。

在一个例子中，可以从数据湖分析系统的多个处理单元中任意选择处理单元，并将选择的处理单元作为目标处理单元。或者，可以获取数据湖分析系统的多个处理单元的目标转换信息，并利用每个处理单元的目标转换信息从所述多个处理单元中选择处理单元，并将选择的处理单元作为目标处理单元。

例如，假设数据扫描集群的调度与管理模块需要从处理单元1、处理单元2和处理单元3中选择目标处理单元，则采用如下方式：可以从这些处理单元中随机选择处理单元，如选择处理单元1，并将处理单元1作为目标处理单元；或者，根据处理单元1、处理单元2和处理单元3的目标转换信息，从这些处理单元中选择处理单元，如选择处理单元2，并将处理单元2作为目标处理单元。

其中，利用每个处理单元的目标转换信息从多个处理单元中选择处理单元，并将选择的处理单元作为目标处理单元，可以包括但不限于：若存在目标转换信息为第一转换信息(用于实现第一输入格式与第二输出格式的转换)的处理单元，则可以将目标转换信息为第一转换信息的处理单元确定为目标处理单元；或者，若不存在目标转换信息为第一转换信息的处理单元，则可以从多个处理单元中随机选择处理单元，并将选择的处理单元确定为目标处理单元。

其中，目标转换信息是处理单元当前使能的转换信息，即处理单元当前正在使用的转换信息。例如，处理单元配置转换信息A1(用于将json数据格式的数据，转换为与Presto数据格式匹配的数据)和转换信息A2(用于将json数据格式的数据，转换为与 Spark数据格式匹配的数据)，若目标转换信息是转换信息A1，则表示处理单元当前用于将json数据格式的数据，转换为与Presto数据格式匹配的数据，但是，不用于将json数据格式的数据，转换为与Spark数据格式匹配的数据。若目标转换信息是转换信息A2，则表示处理单元当前用于将json数据格式的数据，转换为与Spark数据格式匹配的数据，以此类推。

假设第一输入格式为json数据格式，第二输出格式为Presto数据格式，则第一转换信息为转换信息A1，即第一转换信息用于实现json数据格式与Presto数据格式的转换。若处理单元1的目标转换信息是转换信息A1，则处理单元1的目标转换信息为第一转换信息，可以将处理单元1确定为目标处理单元。

在一个例子中，数据处理请求还可以包括分片数量，表示用户需要使用的处理单元的数量，因此，还可以根据该分片数量确定目标处理单元的数量，然后，从数据湖分析系统的多个处理单元中选择所述数量个目标处理单元。

例如，假设分片数量为5，即处理单元的数量为5，则需要从数据湖分析系统的多个处理单元中选择5个目标处理单元，具体选择方式参见上述实施例。

步骤604，根据第一输入格式和第二输出格式将目标处理单元(如一个或多个目标处理单元，如5个目标处理单元)的目标转换信息设置为第一转换信息。

其中，该第一转换信息用于实现第一输入格式与第二输出格式的转换，也就是说，用于将第一输入格式的数据转换为第二输出格式的数据。

具体的，若目标处理单元的目标转换信息为第一转换信息，则根据第一输入格式和第二输出格式保持目标处理单元的目标转换信息不变；或者，若目标处理单元的目标转换信息为第二转换信息(第二转换信息不用于实现第一输入格式与第二输出格式的转换)，则根据第一输入格式和第二输出格式将目标处理单元的目标转换信息，从第二转换信息修改为第一转换信息。

例如，假设第一输入格式为json数据格式，第二输出格式为Presto数据格式，则第一转换信息为转换信息A1，即第一转换信息用于实现json数据格式与Presto数据格式的转换。进一步的，若目标处理单元的目标转换信息是转换信息A1，则可以保持目标处理单元的目标转换信息不变，即目标转换信息仍然是转换信息A1。若目标处理单元的目标转换信息是转换信息A2(用于实现json数据格式与Spark数据格式的转换)，则可以将目标处理单元的目标转换信息修改为转换信息A1，这样，目标处理单元不再用于实现json数据格式与Spark数据格式的转换，而是用于实现json数据格式与Presto数据格式的转换。

其中，可以由数据扫描集群的调度与管理模块执行步骤601-步骤604。

步骤605，根据数据处理请求从数据源获取第一输入格式的第一数据(可以将数据源中的数据称为第一数据)，并将第一数据输出给目标处理单元。

具体的，数据处理请求可以包括数据源的信息，基于数据源的信息，可以从数据源获取第一数据，且第一数据的数据格式为第一输入格式，对此获取过程不再赘述。然后，可以将第一输入格式的第一数据输出给目标处理单元。

例如，数据扫描集群的输入模块可以从数据源获取第一输入格式的第一数据，并将第一输入格式的第一数据输出给目标处理单元。

步骤606，目标处理单元利用第一转换信息将第一数据转换为第二输出格式的第二数据(将转换后的数据称为第二数据)，对此转换过程不再赘述。

具体的，参见上述实施例，目标处理单元的目标转换信息为第一转换信息，如转换信息A1，转换信息A1用于实现json数据格式与Presto数据格式的转换。假设第一输入格式为json数据格式，第二输出格式为Presto数据格式，基于此，第一数据的数据格式为json数据格式，而且，目标处理单元能够利用转换信息A1将json数据格式的第一数据转换为Presto数据格式的第二数据。

步骤607，从目标处理单元获取第二输出格式的第二数据，并输出第二数据。

例如，数据扫描集群的输出模块从目标处理单元获取第二输出格式的第二数据，如Presto数据格式的第二数据，并将Presto数据格式的第二数据输出给计算节点，如基于Presto的计算集群内的计算节点。由于输出给计算节点的是Presto数据格式的第二数据，因此，计算节点可以利用第二数据进行处理。

在一个例子中，数据处理请求还可以包括服务模式，若该服务模式为流量模式(即共享服务型)，则表示用户采用数据总量计费，基于此，这个用户可以与其它用户共用处理单元，因此，可以获取数据总量(即从数据源中读取的数据总量)，并根据该数据总量确定虚拟资源信息(如费用信息)，并输出虚拟资源信息，如向用户输出虚拟资源信息。若该服务模式为实例模式(即独占实例型)，表示用户采用处理单元数量计费，基于此，这个用户单独使用处理单元，因此，可以获取目标处理单元数量，并根据目标处理单元数量确定虚拟资源信息(如费用信息)，并输出虚拟资源信息，如向用户输出虚拟资源信息。

基于上述技术方案，本申请实施例中，由目标处理单元实现数据格式的转换，目标处理单元通常由逻辑芯片实现，具有很高的处理性能，节省数据湖分析系统的计算资源(如CPU资源等)，提高数据湖分析系统的整体处理性能，提升数据湖分析系统整体的使用效率和体验，加速数据处理和计算性能，结合硬件加速技术处理存储集群的数据对接，向计算集群提供数据接口。本实施例中的数据扫描集群具有更好的通用性和产品化应用能力，大大提升对接和加速的计算集群适用范围，大大提升云产品的产品化能力，提供多种模式的FPGA数据扫描加速服务，提出通用的FPGA数据扫描引擎，能够内置多种数据格式的输入与输出支持，为特定计算引擎开发特定的FPGA数据扫描计算加速核。

基于与上述方法同样的申请构思，本申请实施例还提供一种数据处理装置，如图7所示，为所述数据处理装置的结构图，所述数据处理装置包括：

获取模块71，用于获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；获取目标处理单元，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

处理模块72，用于根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

所述获取模块71获取目标处理单元时具体用于：获取数据湖分析系统的多个处理单元的目标转换信息，并利用所述目标转换信息从所述多个处理单元中选择处理单元作为目标处理单元。

在一个例子中，所述处理模块72还用于：

若目标处理单元的目标转换信息为第一转换信息，则根据第一输入格式和第二输出格式保持所述目标处理单元的目标转换信息不变；或者，

若目标处理单元的目标转换信息为第二转换信息，则根据第一输入格式和第二输出格式将所述目标处理单元的目标转换信息修改为第一转换信息。

基于与上述方法同样的申请构思，本申请实施例还提供一种数据处理设备，包括：处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令；所述计算机指令被执行时进行如下处理：

参见图8所示，为本申请实施例中提出的数据处理设备的结构图，所述数据处理设备80可以包括：处理器81，网络接口82，总线83，存储器84。存储器84可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据等等。例如，存储器84可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种数据处理方法，其特征在于，所述方法包括：

获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；

获取目标处理单元，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

从所述目标处理单元获取所述第二数据，并输出所述第二数据。
根据权利要求1所述的方法，其特征在于，

所述获取目标处理单元，包括：

获取数据湖分析系统的多个处理单元的目标转换信息，并利用所述目标转换信息从所述多个处理单元中选择处理单元作为目标处理单元。
根据权利要求2所述的方法，其特征在于，所述利用所述目标转换信息从所述多个处理单元中选择处理单元作为目标处理单元，包括：

若存在目标转换信息为第一转换信息的处理单元，则将目标转换信息为第一转换信息的处理单元确定为所述目标处理单元；或者，

若不存在目标转换信息为第一转换信息的处理单元，则从所述多个处理单元中选择处理单元，将选择的处理单元确定为所述目标处理单元。
根据权利要求1所述的方法，其特征在于，

所述获取目标处理单元之后，所述方法还包括：

若目标处理单元的目标转换信息为第一转换信息，则根据第一输入格式和第二输出格式保持所述目标处理单元的目标转换信息不变；或者，

若目标处理单元的目标转换信息为第二转换信息，则根据第一输入格式和第二输出格式将所述目标处理单元的目标转换信息修改为第一转换信息。
根据权利要求1所述的方法，其特征在于，

所述获取目标处理单元，包括：

判断数据湖分析系统是否支持第一输入格式与第二输出格式的转换；

如果是，则从数据湖分析系统的多个处理单元中获取目标处理单元。
根据权利要求1所述的方法，其特征在于，

所述数据处理请求还包括分片数量，所述获取目标处理单元，包括：

根据所述分片数量确定目标处理单元的数量；

获取所述数量个目标处理单元。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述数据处理请求还包括服务模式，若所述服务模式为流量模式，则获取数据总量，并根据所述数据总量确定虚拟资源信息，并输出所述虚拟资源信息；

若所述服务模式为实例模式，则获取目标处理单元数量，并根据所述目标处理单元数量确定虚拟资源信息，并输出所述虚拟资源信息。
一种数据处理方法，其特征在于，应用于数据湖分析系统，所述数据湖分析系统用于为用户提供无服务器化的数据处理服务，所述方法包括：

获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；

从所述数据湖分析系统的多个处理单元中获取目标处理单元；其中，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

从所述目标处理单元获取所述第二数据，并输出所述第二数据；

其中，所述数据源包括所述数据湖分析系统提供的云数据库。
根据权利要求8所述的方法，其特征在于，

所述数据湖分析系统具体为：存储与计算分离的数据湖分析系统；所述数据湖分析系统包括存储集群和计算集群，所述存储集群包括采用不同输入格式的多个数据源，所述计算集群包括采用不同输出格式的多个计算节点；

所述数据湖分析系统还包括数据扫描集群，所述数据扫描集群包括多个处理单元；所述数据扫描集群作为所述计算集群的内置模块，与所述计算集群的计算资源部署在相同节点；或者，所述数据扫描集群作为所述计算集群的独立模块，与所述计算集群的计算资源部署在不同节点；或者，所述数据扫描集群作为与所述计算集群不同的独立集群。
一种数据处理方法，其特征在于，所述方法包括：

获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；

根据所述数据处理请求从数据源获取第一输入格式的第一数据；

将所述第一输入格式的第一数据输出给目标处理单元，以使所述目标处理单元将所述第一数据转换为第二输出格式的第二数据；

从所述目标处理单元获取所述第二数据，并输出所述第二数据。
一种数据处理方法，其特征在于，应用于数据湖分析系统，针对所述数据湖分析系统的多个处理单元中的处理单元，所述处理单元包括多个不同的转换信息，不同的转换信息用于实现不同格式的数据转换，所述方法包括：

所述处理单元获取第一输入格式的第一数据；

若所述处理单元的目标转换信息为第一转换信息，且所述第一转换信息用于实现所述第一输入格式与第二输出格式的转换，则利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

所述处理单元输出所述第二数据。
根据权利要求11所述的方法，其特征在于，所述利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据之前，所述方法还包括：

若所述处理单元的目标转换信息不为所述第一转换信息，则所述处理单元将所述处理单元的目标转换信息修改为所述第一转换信息。
一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；获取目标处理单元，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

处理模块，用于根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

从所述目标处理单元获取所述第二数据，并输出所述第二数据。
根据权利要求13所述的装置，其特征在于，

所述获取模块获取目标处理单元时具体用于：

获取数据湖分析系统的多个处理单元的目标转换信息，并利用所述目标转换信息从所述多个处理单元中选择处理单元作为目标处理单元。
根据权利要求13所述的装置，其特征在于，所述处理模块还用于：

若目标处理单元的目标转换信息为第一转换信息，则根据第一输入格式和第二输出格式保持所述目标处理单元的目标转换信息不变；或者，

若目标处理单元的目标转换信息为第二转换信息，则根据第一输入格式和第二输出格式将所述目标处理单元的目标转换信息修改为第一转换信息。
一种数据处理设备，其特征在于，包括：

处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

获取数据处理请求，所述数据处理请求包括第一输入格式和第二输出格式；

获取目标处理单元，所述目标处理单元的目标转换信息为第一转换信息，所述第一转换信息用于实现所述第一输入格式与所述第二输出格式的转换；

根据所述数据处理请求从数据源获取第一输入格式的第一数据，并将所述第一数据输出给所述目标处理单元，以使所述目标处理单元利用所述第一转换信息将所述第一数据转换为第二输出格式的第二数据；

从所述目标处理单元获取所述第二数据，并输出所述第二数据。