WO2017024966A1

WO2017024966A1 - 一种数据表的分类方法和装置

Info

Publication number: WO2017024966A1
Application number: PCT/CN2016/092819
Authority: WO
Inventors: 李晓菲
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-08-11
Filing date: 2016-08-02
Publication date: 2017-02-16
Also published as: CN106708835A

Abstract

一种数据表的分类方法和装置，所述方法包括：服务器获取第一数据表的表参数，所述表参数包括完整性参数和更新参数，所述完整性参数用于标识所述第一数据表的元数据完整性，所述更新参数用于标识所述第一数据表的更新记录（S101）；所述服务器判断所述表参数是否符合第一判断条件（S102）；若所述表参数符合所述第一判断条件，将所述第一数据表的标识更新为第一标识（S103）；所述服务器接收查询请求，所述查询请求包括查询条件（S104）；若符合所述查询条件的多个数据表中包括所述第一数据表，根据数据表的标识向所述查询请求展示所述多个数据表；其中，所述第一数据表的展示位置优于第二数据表的展示位置，所述第二数据表为所述多个数据表中的一个数据表，所述第二数据表的标识不是所述第一标识（S105）。通过数据表的分类，这样在查询数据表时，可以将查询结果中具有第一标识的、质量更优的数据表优先展示给查询的用户，从而免去了在质量不高的数据表中查找的时间，提高了查询效率。

Description

一种数据表的分类方法和装置

本申请要求2015年08月11日递交的申请号为201510490712.0、发明名称为“一种数据表的分类方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据处理领域，特别是涉及一种数据表的分类方法和装置。

背景技术

云计算平台上保存有大量的数据表(table)。数据表中保存的数据可以是从各个系统中采集来的日志数据、交易数据、用户数据等，数据表可以由用户上传或提供到云计算平台以便起到共享等作用。用户可以在云计算平台上查找所需的数据表。

目前大数据的广泛应用使得云计算平台上保存的数据表的数量指数级增长。用户在云计算平台上查找数据表时，符合查询关键词(key word)的数据表会有很多，而且通过查询关键词展示给用户的数据表的质量可能良莠不齐，即使是有经验的用户也需要消耗大量时间找到所需的数据表并鉴别数据表的质量，导致用户需要花费3到5个小时甚至几天的时间才可能从海量的查询结果中找到真正适合自身需求的数据表。

发明内容

为了解决上述技术问题，本发明提供了一种数据表的分类方法和装置，从数据表中判断出高质量的数据表，并在查询过程中，将查询结果中的高质量数据表优先展示，提高了查询效率。

本发明实施例公开了如下技术方案：

一种数据表的分类方法，所述方法包括：

服务器获取第一数据表的表参数，所述表参数包括完整性参数和更新参数，所述完整性参数用于标识所述第一数据表的元数据完整性，所述更新参数用于标识所述第一数据表的更新记录；

所述服务器判断所述表参数是否符合第一判断条件；

若所述表参数符合所述第一判断条件，所述服务器将所述第一数据表的标识更新为第一标识；

所述服务器接收查询请求，所述查询请求包括查询条件；

若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表；其中，所述第一数据表的展示位置优于第二数据表的展示位置，所述第二数据表为所述多个数据表中的一个数据表，所述第二数据表的标识不是所述第一标识。

可选的，所述表参数还包括类目参数、变更频率参数和数据指令控制DQC参数中的任意一种或多种的组合，所述类目参数用于标识所述第一数据表的所属的分类，所述变更频率参数用于标识所述第一数据表中字段的变更频率和/或第一数据表的变更频率，所述DQC参数用于标识所述第一数据表被DQC监控的参数。

可选的，若所述表参数包括所述类目参数，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，还包括：

所述服务器将所述多个数据表按照类目参数进行分类展示，其中，所述第一数据表展示在所述第一数据表所属的分类下。

可选的，所述服务器判断所述表参数是否符合第一判断条件，还包括：

若所述表参数不符合所述第一判断条件，所述服务器将所述第一数据表的标识更新为第二标识；

若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，包括：

第三数据表的展示位置优于所述第一数据表的展示位置，所述第三数据表为所述多个数据表中的一个数据表，所述第三数据表的标识是所述第一标识。

可选的，若所述表参数不符合所述第一判断条件，还包括：

所述服务器判断所述表参数是否符合第二判断条件，所述第二判断条件的符合条件低于所述第一判断条件的符合条件；

若所述表参数不符合所述第二判断条件，所述服务器将所述第一数据表的标识更新为第三标识；

所述若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，包括：

所述服务器在展示所述多个数据表的过程中屏蔽所述第一数据表。

可选的，

所述第一判断条件包括所述完整性参数具有表注释、注释字段占比达到预设阈值、具有数据层次、具有数据的存储类型和具有调度周期中的任意一项或多项的组合；

所述第一判断条件还包括所述更新参数具有持续更新的更新记录。

一种数据表的分类装置，所述装置包括：

获取单元，用于获取第一数据表的表参数，所述表参数包括完整性参数和更新参数，所述完整性参数用于标识所述第一数据表的元数据完整性，所述更新参数用于标识所述第一数据表的更新记录；

判断单元，用于判断所述表参数是否符合第一判断条件；若所述表参数符合所述第一判断条件，触发第一更新单元；

所述第一更新单元，用于将所述第一数据表的标识更新为第一标识；

接收单元，用于接收查询请求，所述查询请求包括查询条件；

展示单元，用于若符合所述查询条件的多个数据表中包括所述第一数据表，根据数据表的标识向所述查询请求展示所述多个数据表；其中，所述第一数据表的展示位置优于第二数据表的展示位置，所述第二数据表为所述多个数据表中的一个数据表，所述第二数据表的标识不是所述第一标识。

可选的，若所述表参数包括所述类目参数，所述展示单元还用于将所述多个数据表按照类目参数进行分类展示，其中，所述第一数据表展示在所述第一数据表所属的分类下。

可选的，若所述表参数不符合所述第一判断条件，所述判断单元还用于触发第二更新单元；

所述第二更新单元，用于将所述第一数据表的标识更新为第二标识；

所述展示单元根据数据表的标识向所述查询请求展示所述多个数据表，其中，第三数据表的展示位置优于所述第一数据表的展示位置，所述第三数据表为所述多个数据表中的一个数据表，所述第三数据表的标识是所述第一标识。

可选的，若所述表参数不符合所述第一判断条件，所述判断单元还用于判断所述表参数是否符合第二判断条件，所述第二判断条件的符合条件低于所述第一判断条件的符合条件；若所述表参数不符合所述第二判断条件，触发第三更新单元；

所述第三更新单元，用于将所述第一数据表的标识更新为第三标识；

所述展示单元根据数据表的标识向所述查询请求展示所述多个数据表，其中，在展示所述多个数据表的过程中屏蔽所述第一数据表。

可选的，

由上述技术方案可以看出，服务器通过判断第一数据表的表参数是否符合第一判断条件，在符合第一判断条件时，将所述第一数据表的标识更新为第一标识，所述服务器接收包括查询条件的查询请求，当符合查询条件的多个数据表中包括所述第一数据表时，所述服务器将根据数据表的标识向所述查询请求展示所述多个数据表，使得标识为第一标识的第一数据表的展示位置优于标识不是第一标识的第二数据表的展示位置，由此，通过数据表的分类，为能够符合第一判断条件的数据表或者说质量更优的数据表的标识更新为第一标识，这样在查询数据表时，可以将查询结果中具有第一标识的、质量更优的数据表将会优先展示给查询的用户，这些高质量数据表相对于质量不高的数据表更能够满足用户的查询需求，用户基本上只需浏览这些高质量的数据表就可以找到符合自身需求的数据表，从而从很大程度上免去了在质量不高的数据表中查找的时间，节约了查询时间，提高了查询效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据表的分类方法的方法流程图；

图2为本发明实施例提供的一种数据表的分类方法的方法流程图；

图3为本发明实施例提供的一种数据表的分类方法的方法流程图；

图4为本发明实施例提供的一种数据表分类结构示意图；

图5为本发明实施例提供的一种数据表的分类装置的装置结构图；

图6为本发明实施例提供的一种数据表的分类装置的装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

云计算平台上保存有大量的数据表。在研发或使用过程中，用户可以根据自身需求在云计算平台上进行查询，看看是否已经保存了符合自身需求的数据表，若能够查询到，则可以节约大量的研发时间、精力。然而由于目前大数据的广泛应用，使得云计算平台上保存的数据表的数量指数级增长。用户在云计算平台上查找数据表时，符合查询关键词或者说查询条件的数据表会有很多，而且通过查询关键词展示给用户的数据表的质量可能良莠不齐，即使是有经验的用户也需要消耗大量时间找到所需的数据表并鉴别数据表的质量，导致用户需要花费3到5个小时甚至几天的时间才可能从海量的查询结果中找到真正适合自身需求的数据表。而且，若找到的数据表质量不高，例如更新频率没有保障的话，用户在使用该数据表时，可能会由于该数据表的数据更新延时导致使用该数据表的项目产出延迟，用户体验差。

为此，本发明实施例提供了一种数据表的分类方法和装置，服务器通过判断第一数据表的表参数是否符合第一判断条件，在符合第一判断条件时，将所述第一数据表的标识更新为第一标识，所述服务器接收包括查询条件的查询请求，当符合查询条件的多个数据表中包括所述第一数据表时，所述服务器将根据数据表的标识向所述查询请求展示所述多个数据表，使得标识为第一标识的第一数据表的展示位置优于标识不是第一标识的第二数据表的展示位置，由此，通过数据表的分类，为能够符合第一判断条件的数据表或者说质量更优的数据表的标识更新为第一标识，这样在查询数据表时，可以将查询结果中具有第一标识的、质量更优的数据表将会优先展示给查询的用户，这些高质量数据表相对于质量不高的数据表更能够满足用户的查询需求，用户基本上只需浏览这些高质量的数据表就可以找到符合自身需求的数据表，从而从很大程度上免去了在质量不高的数据表中查找的时间，节约了查询时间，提高了查询效率。并且，若用户最终从查找结果中确定出标识为第一标识的数据表作为真正符合查询需求的数据表，由于标识为第一标识的数据表的元数据完整性较好、更新记录较为完备，可以有效的保证用户在使用该数据表是，会较少的出现由于该数据表更新延迟导致使用该数据表的项目产出延迟的情况，提高了用户体验。

实施例一

图1为本发明实施例提供的一种数据表的分类方法的方法流程图，所述方法包括：

S101：服务器获取第一数据表的表参数，所述表参数包括完整性参数和更新参数，所述完整性参数用于标识所述第一数据表的元数据完整性，所述更新参数用于标识所述第一数据表的更新记录。

举例说明，所述服务器服务于云计算平台。所述服务器可以为保存包括所述第一数据表的数据表存储服务器，也可以是仅用于处理表分类和查询的服务器，本发明对此不进行限定。

通过所述完整性参数可以判定所述第一数据表的元数据是否完整，是否无缺失。可选的，所述第一判断条件包括所述完整性参数具有表注释、注释字段占比达到预设阈值、具有数据层次、具有数据的存储类型和具有调度周期中的任意一项或多项的组合；所述第一判断条件还包括所述更新参数具有持续更新的更新记录。也就是说，所述完整性参数具体可以至少包括：是否有表注释，有表注释的完整性更好。是否有表负责人，有表负责人的完整性更好。有注释的字段占比，百分比越高完整性越好。是否有数据层次，有数据层次的完整性更好。是否有数据的存储类型(全量分区表/增量分区表/非分区表等)，有数据的存储类型的完整性更好。是否有调度周期(天/小时/周/分钟等)，有调度周期的完整性更好。通过所述更新参数所标识的更新记录，可以判断所述第一数据表是否是持续更新的。

S102：所述服务器判断所述表参数是否符合第一判断条件。若所述表参数符合所述第一判断条件，执行S103。

举例说明，所述第一判断条件可以理解为用于判断所述表参数是否达到一定标准的判断条件。以S101中所举的例子为例，所述第一判断条件可以是判断所述表参数中的完整性参数是否有表注释、是否有数据层次、有注释的字段占比是否达到一定百分比；可以根据所述更新参数判断所述第一数据表是否持续更新。当有表注释、有数据层次、有注释字段占比达到100％且持续更新时所述表参数符合所述第一判断条件，反之则不符合所述第一判断条件。

S103：所述服务器将所述第一数据表的标识更新为第一标识。

所述第一标识是对应于高质量数据表的标识，服务器可以通过读取数据表的标识来识别数据表属于哪一类别，这里所述的类别可以为高质量、普通等。当所述表参数符合所述第一判断条件，可以判断出所述第一数据表属于高质量的数据表。将被判定为高质量的所述第一数据表的标识更新为第一标识，可以理解为将所述第一数据表分到了高质量数据表的类别中。

对于所述标识需要说明的是，所述第一数据表的标识与所述第一数据表唯一对应。所述第一数据表的标识有且只有一个，可以用于明确所述第一数据表所处的类别。例如当所述第一数据表的标识为第一标识时，所述第一数据表处于所述第一标识对应的高质量数据表的类别，若所述第一数据表的标识之后因为原因导致无法符合所述第一判断条件时，所述第一数据表的标识将会从第一标识被更新为其他标识例如稍后会提到的第二标识或第三标识，则所述第一数据表处于所述第二标识或第三标识对应的类别。

S104：所述服务器接收查询请求，所述查询请求包括查询条件。

举例说明，所述查询条件可以包括查询关键字等，这里不再赘述。

S105：若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表；其中，所述第一数据表的展示位置优于第二数据表的展示位置，所述第二数据表为所述多个数据表中的一个数据表，所述第二数据表的标识不是所述第一标识。

举例说明，尤其在大数据的背景下，依据一个查询条件获取到的符合该查询条件的数据表是海量的。在本发明实施例中，通过检索，符合所述查询条件的多个数据表的数量至少为两个，一个是所述第一数据表，另一个是所述第二数据表。所述第一数据表在S103中已经被判断为高质量数据表，所述第一数据表的标识被更新为对应所述高质量数据表类别的第一标识。所述第二数据表的标识不是所述第一标识，也就是说所述第二数据表没有处于所述第一标识所对应的高质量数据表的类别，或者说所述第二数据表不是高质量数据表。

在针对所述查询请求展示查询结果时，所述服务器将根据数据表的标识确定数据表的展示位置。根据本发明实施例中的数据表分类，从数据表中确定出了高质量数据表类别，处于高质量数据表类别中的数据表的标识均被更新为所述第一标识。在展示查询结果时，所述服务器可以通过数据表的标识识别出处于高质量数据表类别的数据表(即标识为第一标识的数据表)，也可以通过数据表的标识识别出不处于高质量数据表类别的数据表(即标识不是第一标识的数据表)。所述服务器在确定展示位置时，将标识为第一标识的所述第一数据表的展示位置放在较所述第二数据表的展示位置更优的位置，使得用户看到所述查询结果时，所述第一数据表能够更加容易的被看到，所述第二数据表将没有所述第一数据表那么容易的被看到。对所述展示位置进行举例说明，例如需要多页展示查询结果时，所述第一数据表可以位于靠前的页面，所述第二数据表位于相对第一数据表更为靠后的页面。例如需要单页展示查询结果时，所述第一数据表的展示位置可以更加靠上，使得可以被用户第一时间看到，而所述第二数据表的展示位置将较于所述第一数据表更加靠下，使得可能需要滚动屏幕后才能被看到。展示的方式较多，展示位置也可以不单纯的理解为“位置”，例如也可以对具有第一标识的数据表进行彩色展示、放大展示等。这里不再一一举例说明。

可见，服务器通过判断第一数据表的表参数是否符合第一判断条件，在符合第一判断条件时，将所述第一数据表的标识更新为第一标识，所述服务器接收包括查询条件的查询请求，当符合查询条件的多个数据表中包括所述第一数据表时，所述服务器将根据数据表的标识向所述查询请求展示所述多个数据表，使得标识为第一标识的第一数据表的展示位置优于标识不是第一标识的第二数据表的展示位置，由此，通过数据表的分类，为能够符合第一判断条件的数据表或者说质量更优的数据表的标识更新为第一标识，这样在查询数据表时，可以将查询结果中具有第一标识的、质量更优的数据表将会优先展示给查询的用户，这些高质量数据表相对于质量不高的数据表更能够满足用户的查询需求，用户基本上只需浏览这些高质量的数据表就可以找到符合自身需求的数据表，从而从很大程度上免去了在质量不高的数据表中查找的时间，节约了查询时间，提高了查询效率。

实施例二

所述表参数除了包括所述完整性参数和更新参数以外，还可以进一步的包括其他用于标识数据表相关内容的参数。一般来说，表参数包括的参数种类越多，相应的所述第一判断条件中的判断标准也越多，对数据表的分类精度也越高。本发明实施例提供了表参数可以包括的参数组合，可选的，所述表参数还包括类目参数、变更频率参数和数据质量控制(英文：Data Quality Control，缩写：DQC)参数中的任意一种或多种的组合。所述类目参数用于标识所述第一数据表的所属的分类，如表1所示：

类目导航
公共中间层(1711)
蚂蚁金服(1001)

安全部(378)
阿里云(859)
共享业务(6)
元数据(10)
阿里妈妈(16)
天猫(129)
搜索事业部(39)
航旅事业群(5)

表1

表1中展示的就是针对一次查询请求的包括多个类目的查询结果。表1中具体包括了10个不同的类目，实际也可以包括更多类目或不同的类目名称等。表1括号中显示的数字为符合本次查询条件的数据表中属于不同类目的数量，例如查询结果中共有1711个数据表属于公共中间层这一类目，共有378个数据表属于安全部这一类目。

也就是说，若所述表参数包括所述类目参数，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，还包括：

举例说明，通过分类目的展示，可以使得用户可以目的性更为明确，由于类目可以与工作领域等相关，用户可以根据自己所在的领域，直接进入查找结果中对应的类目，该类目中的数据表能够有更大的几率命中查询需求。由此进一步的提高了查询效率，节约了查询时间。

所述变更频率参数用于标识所述第一数据表中字段的变更频率和/或第一数据表的变更频率。这里的变更频率可以理解为是否频繁变更。所依据的参数可以包括：近90天表或字段重命名天数<2天、近90天重命名的字段占比<5％、近90天发生过表重建的天数<2天、近7天平均运行时长小于2小时。如果达到上述参数的部分或全部要求，可以以此确定变更频繁，反之则不频繁。

所述DQC参数用于标识所述第一数据表被DQC监控的参数。其中可以包括是否有强监控、监控类型个数是否超过三个、是否有强唯一值监控等。其中任一个条件为是时，可以理解为所述DQC参数符合所述第一判断条件。

需要注意的是，如图1所对应实施例中，若所述服务器判断所述表参数是否符合第一判断条件得到判断结果为不符合，将不会将所述第一数据表的标识更新为第一标识。在图1所对应实施例的基础上，图2为本发明实施例提供的一种数据表的分类方法的方法流程图，所述方法包括：

S201：服务器获取第一数据表的表参数。

S202：所述服务器判断所述表参数是否符合第一判断条件；若所述表参数不符合所述第一判断条件，执行S203。

S203：所述服务器将所述第一数据表的标识更新为第二标识。

举例说明，若不符合所述第一判断条件，可以理解为所述第一数据表并不符合成为一个高质量数据表，那么所述第一数据表将不会被划分到高质量数据表这一类别中。所述第二标识可以理解为对应于普通数据表类别。本发明实施例提出的数据表分类，并不是一次性的分类，而是会根据表参数的变化而相应的改变。通过周期性的或其他方式分析所述表参数，当所述第一数据表的表参数达到第一判断条件的标准，则可以将所述第一数据表的标识更新为第一标识，当之后所述第一数据表的表参数不能达到所述第一判断条件的标准，则将所述第一数据表的标识从所述第一标识更新为所述第二标识，若之后所述第一数据表的表参数再一次的达到所述第一判断条件的标准，又可以将所述第一数据表的标识从所述第二标识更新为所述第一标识。

S204：所述服务器接收查询请求，所述查询请求包括查询条件。

S205：若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表；其中，第三数据表的展示位置优于所述第一数据表的展示位置，所述第三数据表为所述多个数据表中的一个数据表，所述第三数据表的标识是所述第一标识。

也就是说，当所述第一数据表的标识为第二标识时，在作为查询结果进行展示时，属于普通数据表类别的所述第一数据表的展示位置将劣于属于高质量数据表类别的所述第三数据表的展示位置，具体如何劣于可以参照S105的相关描述，其中S205中的所述第一数据表可以视为S105中的所述第二数据表，S205中的所述第三数据表可以视为S105中的所述第一数据表。

通过所述第一判断条件，可以将云计算平台上的保存的数据表分为两个类别，一个类别为符合所述第一判断条件的高质量数据表类别，一个类别为不符合所述第一判断条件的普通数据表类别。为了更加精细化的对数据表分类，还可以增加第二判断条件，从而分出数据表的第三类别。在图1所对应实施例的基础上，图3为本发明实施例提供的一种数据表的分类方法的方法流程图，所述方法包括：

S301：服务器获取第一数据表的表参数。

S302：所述服务器判断所述表参数是否符合第一判断条件；若所述表参数不符合所述第一判断条件，执行S303。

S303：所述服务器判断所述表参数是否符合第二判断条件，所述第二判断条件的符合条件低于所述第一判断条件的符合条件。若所述表参数不符合所述第二判断条件，执行S304，若所述表参数符合所述第二判断条件，则执行S203。

S304：所述服务器将所述第一数据表的标识更新为第三标识。

举例说明，所述第二判断条件可以理解为相较于所述第一判断条件更容易符合的判断条件。在本发明实施例中，所述第二判断条件可以用于作为判断数据表是否属于普通数据表类别的基准，若所述第一数据表不符合所述第一判断条件但符合所述第二判断条件，所述服务器可以将所述第一数据表的标识更新为所述第二标识。若所述第一数据表不能符合所述第二判断条件，则可以认为所述第一数据表不符合成为普通数据表的条件，将不能被分类到所述第二标识对应的普通数据表类别，所述服务器将所述第一数据表的标识更新为第三标识，相当于将所述第一数据表分配到所述第三标识对应的类别中。对于这种低质量数据表，本发明实施例所采取的措施是在展示时将标识为第三标识的数据表屏蔽。

需要注意的是，在本发明实施例中，不符合所述第二判断条件的数据表并不一定都是质量不好的数据表，例如，由于有些产生数据表的项目相对机密性较高或私密性较高，不希望被他人在云计算平台中搜索到。或者，有些开发者在线上测试过程中使用的数据表并不想公开出来，以防止被他人引用过多产生故障。根据这些需求，也可以将这些需求作为所述第二判断条件的一部分判断依据。云计算平台在保存数据表的过程中，会将数据表分成了上生产调度的生产表和开发过程中的开发表(即dev表)、临时表(tmp表)，故而早本发明实施例的解决方案中，可以是将开发表、临时表直接作为不符合所述第二判断条件的数据表，使其不可被他人搜索到。

S305：所述服务器接收查询请求，所述查询请求包括查询条件。

S306：若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，其中，所述服务器在展示所述多个数据表的过程中屏蔽所述第一数据表。

举例说明，所述服务器在向用户展示查询结果时，会将所述查询结果中标识为第三标识的数据表屏蔽掉，即不向所述用户展示标识为第三标识的数据表。从而免去了用户在查询结果中的低质量数据表中所浪费的时间。

通过第一判断条件和第二判断条件，可以将云计算平台上的数据表分为三个类别，图4为本发明实施例提供的一种数据表分类结构示意图，如图4所示，符合所述第一判断条件的数据表被分类为精品表(即前述高质量数据表)，不符合所述第一判断条件但符合第二判断条件的数据表被分类为普通表，部符合所述第二判断条件的数据表被分类为私有表。其中，查询结果中的精品表和普通表可以展示给用户，而查询结果中的私有表将不会展示给用户，对用户处于不可见的状态。使用金字塔的形式来组织云计算平台的数据表，可以为精品表增加服务等级协议(英文：Service-Level Agreement，缩写：SLA)保障。

本发明实施例并不限定仅将数据表分类为两个或三个类别，根据具体的应用场景，还可以分为更多个类别。

实施例三

图5为本发明实施例提供的一种数据表的分类装置的装置结构图，所述装置包括：

获取单元501，用于获取第一数据表的表参数，所述表参数包括完整性参数和更新参数，所述完整性参数用于标识所述第一数据表的元数据完整性，所述更新参数用于标识所述第一数据表的更新记录。

通过所述完整性参数可以判定所述第一数据表的元数据是否完整，是否无缺失。所述完整性参数具体可以至少包括：是否有表注释，有表注释的完整性更好。是否有表负责人，有表负责人的完整性更好。有注释的字段占比，百分比越高完整性越好。是否有数据层次，有数据层次的完整性更好。是否有数据的存储类型(全量分区表/增量分区表/非分区表等)，有数据的存储类型的完整性更好。是否有调度周期(天/小时/周/分钟等)，有调度周期的完整性更好。通过所述更新参数所标识的更新记录，可以判断所述第一数据表是否是持续更新的。

判断单元502，用于判断所述表参数是否符合第一判断条件；若所述表参数符合所述第一判断条件，触发第一更新单元503。

举例说明，所述第一判断条件可以理解为用于判断所述表参数是否达到一定标准的判断条件。可选的，所述第一判断条件包括所述完整性参数具有表注释、注释字段占比达到预设阈值、具有数据层次、具有数据的存储类型和具有调度周期中的任意一项或多项的组合；所述第一判断条件还包括所述更新参数具有持续更新的更新记录。以在获取单元501的相关描述中所举的例子为例，所述第一判断条件可以是判断所述表参数中的完整性参数是否有表注释、是否有数据层次、有注释的字段占比是否达到一定百分比；可以根据所述更新参数判断所述第一数据表是否持续更新。当有表注释、有数据层次、有注释字段占比达到100％且持续更新时所述表参数符合所述第一判断条件，反之则不符合所述第一判断条件。

所述第一更新单元503，用于将所述第一数据表的标识更新为第一标识。

所述第一标识是对应于高质量数据表的标识，可以通过读取数据表的标识来识别数据表属于哪一类别，这里所述的类别可以为高质量、普通等。当所述表参数符合所述第一判断条件，可以判断出所述第一数据表属于高质量的数据表。将被判定为高质量的所述第一数据表的标识更新为第一标识，可以理解为将所述第一数据表分到了高质量数据表的类别中。

接收单元504，用于接收查询请求，所述查询请求包括查询条件。

展示单元505，用于若符合所述查询条件的多个数据表中包括所述第一数据表，根据数据表的标识向所述查询请求展示所述多个数据表；其中，所述第一数据表的展示位置优于第二数据表的展示位置，所述第二数据表为所述多个数据表中的一个数据表，所述第二数据表的标识不是所述第一标识。

举例说明，尤其在大数据的背景下，依据一个查询条件获取到的符合该查询条件的数据表是海量的。在本发明实施例中，通过检索，符合所述查询条件的多个数据表的数量至少为两个，一个是所述第一数据表，另一个是所述第二数据表。所述第一数据表已由所述判断单元502判断为高质量数据表，所述第一数据表的标识被更新为对应所述高质量数据表类别的第一标识。所述第二数据表的标识不是所述第一标识，也就是说所述第二数据表没有处于所述第一标识所对应的高质量数据表的类别，或者说所述第二数据表不是高质量数据表。

在针对所述查询请求展示查询结果时，所述展示单元505将根据数据表的标识确定数据表的展示位置。根据本发明实施例中的数据表分类，从数据表中确定出了高质量数据表类别，处于高质量数据表类别中的数据表的标识均被更新为所述第一标识。在展示查询结果时，所述展示单元505可以通过数据表的标识识别出处于高质量数据表类别的数据表(即标识为第一标识的数据表)，也可以通过数据表的标识识别出不处于高质量数据表类别的数据表(即标识不是第一标识的数据表)。所述展示单元505在确定展示位置时，将标识为第一标识的所述第一数据表的展示位置放在较所述第二数据表的展示位置更优的位置，使得用户看到所述查询结果时，所述第一数据表能够更加容易的被看到，所述第二数据表将没有所述第一数据表那么容易的被看到。对所述展示位置进行举例说明，例如需要多页展示查询结果时，所述第一数据表可以位于靠前的页面，所述第二数据表位于相对第一数据表更为靠后的页面。例如需要单页展示查询结果时，所述第一数据表的展示位置可以更加靠上，使得可以被用户第一时间看到，而所述第二数据表的展示位置将较于所述第一数据表更加靠下，使得可能需要滚动屏幕后才能被看到。展示的方式较多，展示位置也可以不单纯的理解为“位置”，例如也可以对具有第一标识的数据表进行彩色展示、放大展示等。这里不再一一举例说明。

实施例四

所述表参数除了包括所述完整性参数和更新参数以外，还可以进一步的包括其他用于标识数据表相关内容的参数。一般来说，表参数包括的参数种类越多，相应的所述第一判断条件中的判断标准也越多，对数据表的分类精度也越高。本发明实施例提供了表参数可以包括的参数组合，可选的，所述表参数还包括类目参数、变更频率参数和DQC参数中的任意一种或多种的组合。所述类目参数用于标识所述第一数据表的所属的分类，例如表1所示。

可选的，若所述表参数包括所述类目参数，所述展示单元505还用于将所述多个数据表按照类目参数进行分类展示，其中，所述第一数据表展示在所述第一数据表所属的分类下。

在图5所对应实施例的基础上，图6为本发明实施例提供的一种数据表的分类装置的装置结构图，若所述表参数不符合所述第一判断条件，所述判断单元502还用于触发第二更新单元601；

所述第二更新单元601，用于将所述第一数据表的标识更新为第二标识。

所述展示单元505根据数据表的标识向所述查询请求展示所述多个数据表，其中，第三数据表的展示位置优于所述第一数据表的展示位置，所述第三数据表为所述多个数据表中的一个数据表，所述第三数据表的标识是所述第一标识。

也就是说，当所述第一数据表的标识为第二标识时，在作为查询结果进行展示时，属于普通数据表类别的所述第一数据表的展示位置将劣于属于高质量数据表类别的所述第三数据表的展示位置，具体如何劣于可以参照图5所对应实施例的相关描述。

通过所述第一判断条件，可以将云计算平台上的保存的数据表分为两个类别，一个类别为符合所述第一判断条件的高质量数据表类别，一个类别为不符合所述第一判断条件的普通数据表类别。为了更加精细化的对数据表分类，还可以增加第二判断条件，从而分出数据表的第三类别。如图6所示：

若所述表参数不符合所述第一判断条件，所述判断单元502还用于判断所述表参数是否符合第二判断条件，所述第二判断条件的符合条件低于所述第一判断条件的符合条件；若所述表参数不符合所述第二判断条件，触发第三更新单元602。

所述第三更新单元602，用于将所述第一数据表的标识更新为第三标识。

举例说明，所述第二判断条件可以理解为相较于所述第一判断条件更容易符合的判断条件。在本发明实施例中，所述第二判断条件可以用于作为判断数据表是否属于普通数据表类别的基准，若所述第一数据表不符合所述第一判断条件但符合所述第二判断条件，可以将所述第一数据表的标识更新为所述第二标识。若所述第一数据表不能符合所述第二判断条件，则可以认为所述第一数据表不符合成为普通数据表的条件，将不能被分类到所述第二标识对应的普通数据表类别，所述第三更新单元602将所述第一数据表的标识更新为第三标识，相当于将所述第一数据表分配到所述第三标识对应的类别中。对于这种低质量数据表，本发明实施例所采取的措施是在展示时将标识为第三标识的数据表屏蔽。

所述展示单元505根据数据表的标识向所述查询请求展示所述多个数据表，其中，在展示所述多个数据表的过程中屏蔽所述第一数据表。

举例说明，所述展示单元505在向用户展示查询结果时，会将所述查询结果中标识为第三标识的数据表屏蔽掉，即不向所述用户展示标识为第三标识的数据表。从而免去了用户在查询结果中的低质量数据表中所浪费的时间。

通过第一判断条件和第二判断条件，可以将云计算平台上的数据表分为三个类别，如图4所示，符合所述第一判断条件的数据表被分类为精品表(即前述高质量数据表)，不符合所述第一判断条件但符合第二判断条件的数据表被分类为普通表，部符合所述第二判断条件的数据表被分类为私有表。其中，查询结果中的精品表和普通表可以展示给用户，而查询结果中的私有表将不会展示给用户，对用户处于不可见的状态。使用金字塔的形式来组织云计算平台的数据表，可以为精品表增加SLA保障。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

一种数据表的分类方法，其特征在于，所述方法包括：

服务器获取第一数据表的表参数，所述表参数包括完整性参数和更新参数，所述完整性参数用于标识所述第一数据表的元数据完整性，所述更新参数用于标识所述第一数据表的更新记录；

所述服务器判断所述表参数是否符合第一判断条件；

若所述表参数符合所述第一判断条件，所述服务器将所述第一数据表的标识更新为第一标识；

所述服务器接收查询请求，所述查询请求包括查询条件；

若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表；其中，所述第一数据表的展示位置优于第二数据表的展示位置，所述第二数据表为所述多个数据表中的一个数据表，所述第二数据表的标识不是所述第一标识。
根据权利要求1所述的方法，其特征在于，所述表参数还包括类目参数、变更频率参数和数据指令控制DQC参数中的任意一种或多种的组合，所述类目参数用于标识所述第一数据表的所属的分类，所述变更频率参数用于标识所述第一数据表中字段的变更频率和/或第一数据表的变更频率，所述DQC参数用于标识所述第一数据表被DQC监控的参数。
根据权利要求2所述的方法，其特征在于，若所述表参数包括所述类目参数，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，还包括：

所述服务器将所述多个数据表按照类目参数进行分类展示，其中，所述第一数据表展示在所述第一数据表所属的分类下。
根据权利要求1至3任一项所述的方法，其特征在于，所述服务器判断所述表参数是否符合第一判断条件，还包括：

若所述表参数不符合所述第一判断条件，所述服务器将所述第一数据表的标识更新为第二标识；

若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，包括：

第三数据表的展示位置优于所述第一数据表的展示位置，所述第三数据表为所述多个数据表中的一个数据表，所述第三数据表的标识是所述第一标识。
根据权利要求4所述的方法，其特征在于，若所述表参数不符合所述第一判断条件，还包括：

所述服务器判断所述表参数是否符合第二判断条件，所述第二判断条件的符合条件低于所述第一判断条件的符合条件；

若所述表参数不符合所述第二判断条件，所述服务器将所述第一数据表的标识更新为第三标识；

所述若符合所述查询条件的多个数据表中包括所述第一数据表，所述服务器根据数据表的标识向所述查询请求展示所述多个数据表，包括：

所述服务器在展示所述多个数据表的过程中屏蔽所述第一数据表。
根据权利要求1所述的方法，其特征在于，

所述第一判断条件包括所述完整性参数具有表注释、注释字段占比达到预设阈值、具有数据层次、具有数据的存储类型和具有调度周期中的任意一项或多项的组合；

所述第一判断条件还包括所述更新参数具有持续更新的更新记录。
一种数据表的分类装置，其特征在于，所述装置包括：

获取单元，用于获取第一数据表的表参数，所述表参数包括完整性参数和更新参数，所述完整性参数用于标识所述第一数据表的元数据完整性，所述更新参数用于标识所述第一数据表的更新记录；

判断单元，用于判断所述表参数是否符合第一判断条件；若所述表参数符合所述第一判断条件，触发第一更新单元；

所述第一更新单元，用于将所述第一数据表的标识更新为第一标识；

接收单元，用于接收查询请求，所述查询请求包括查询条件；

展示单元，用于若符合所述查询条件的多个数据表中包括所述第一数据表，根据数据表的标识向所述查询请求展示所述多个数据表；其中，所述第一数据表的展示位置优于第二数据表的展示位置，所述第二数据表为所述多个数据表中的一个数据表，所述第二数据表的标识不是所述第一标识。
根据权利要求7所述的装置，其特征在于，所述表参数还包括类目参数、变更频率参数和数据指令控制DQC参数中的任意一种或多种的组合，所述类目参数用于标识所述第一数据表的所属的分类，所述变更频率参数用于标识所述第一数据表中字段的变更频率和/或第一数据表的变更频率，所述DQC参数用于标识所述第一数据表被DQC监控的参数。
根据权利要求8所述的装置，其特征在于，若所述表参数包括所述类目参数，所述展示单元还用于将所述多个数据表按照类目参数进行分类展示，其中，所述第一数据表展示在所述第一数据表所属的分类下。
根据权利要求7至9任一项所述的装置，其特征在于，若所述表参数不符合所述第一判断条件，所述判断单元还用于触发第二更新单元；

所述第二更新单元，用于将所述第一数据表的标识更新为第二标识；

所述展示单元根据数据表的标识向所述查询请求展示所述多个数据表，其中，第三数据表的展示位置优于所述第一数据表的展示位置，所述第三数据表为所述多个数据表中的一个数据表，所述第三数据表的标识是所述第一标识。
根据权利要求10所述的装置，其特征在于，若所述表参数不符合所述第一判断条件，所述判断单元还用于判断所述表参数是否符合第二判断条件，所述第二判断条件的符合条件低于所述第一判断条件的符合条件；若所述表参数不符合所述第二判断条件，触发第三更新单元；

所述第三更新单元，用于将所述第一数据表的标识更新为第三标识；

所述展示单元根据数据表的标识向所述查询请求展示所述多个数据表，其中，在展示所述多个数据表的过程中屏蔽所述第一数据表。
根据权利要求7所述的装置，其特征在于，

所述第一判断条件包括所述完整性参数具有表注释、注释字段占比达到预设阈值、具有数据层次、具有数据的存储类型和具有调度周期中的任意一项或多项的组合；

所述第一判断条件还包括所述更新参数具有持续更新的更新记录。