WO2020238131A1

WO2020238131A1 - 网络爬虫系统的测试方法及装置、存储介质、电子设备

Info

Publication number: WO2020238131A1
Application number: PCT/CN2019/123059
Authority: WO
Inventors: 吕小立
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-05-24
Filing date: 2019-12-04
Publication date: 2020-12-03
Also published as: CN110333980A

Abstract

一种网络爬虫系统的测试方法及装置，属于测试工具技术领域，该方法包括：当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机（S110）；当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间（S120）；根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果（S130）。该方法提高了网络爬虫系统的测试效率，且测试结果准确。

Description

网络爬虫系统的测试方法及装置、存储介质、电子设备

本申请要求于2019年05月24日提交中国专利局、申请号为201910444805.8、申请名称为“网络爬虫系统的测试方法及装置、存储介质、电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及测试工具技术领域，具体而言，涉及一种网络爬虫系统的测试方法、网络爬虫系统的测试装置、计算机可读存储介质以及电子设备。

背景技术

随着网络的迅速发展，互联网成为了大量信息的载体，搜索引擎作为一个辅助人们检索获取各类信息的工具已经成为用户访问互联网的入口和指南。

其中，作为搜索引擎的重要组成部分之一的网络爬虫系统是一个自动提取网页的系统，网络爬虫系统包括爬虫任务分发机和多个爬虫机器，爬虫任务分发机用于向爬虫机器分发任务，爬虫机器在接收爬虫任务后，从一个或若干个初始网页的URL(Uniform Resource Locator，统一资源定位符)开始，不断从当前页面上抽取新的URL放入队列进行搜索，直到满足系统的停止条件。由于网络爬虫系统每天都需要抓取巨量的网站，因此为了了解网络爬虫系统的工作效率，需要对网络爬虫系统的性能进行测试。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的实施例提供一种网络爬虫系统的测试方法、网络爬虫系统的测试装置、计算机可读存储介质以及电子设备。

根据本公开的第一方面，提供一种网络爬虫系统的测试方法，包括：

当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机；

当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间；

根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。

根据本公开的第二方面，提供一种网络爬虫系统的测试装置，包括：

任务获取模块，配置为当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机；

时间记录模块，配置为当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间；

判断模块，配置为根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述的网络爬虫系统的测试方法。可选的，该计算机可读存储介质可以是计算机非易失性可读存储介质。

根据本公开的第四方面，提供一种电子设备，包括：

处理器；以及

存储器，其上存储有计算机程序；

其中，所述处理器被配置为经由执行所述计算机程序来实现如上述任意一项所述的网络爬虫系统的测试方法。

本公开通过计算每一爬虫机器在爬虫任务分发机向网络爬虫机器集群分发任务期间内的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果，测试过程简单易行，提高了用户对网络爬虫系统的测试效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1示出根据本公开一示例性实施例的一种网络爬虫系统的测试方法的流程示意示意图。

图2示出根据本公开一示例性实施例的图1的网络爬虫系统的测试方法中的步骤S130的流程示意图。

图3示出根据本公开一示例性实施例的一种网络爬虫系统的测试方法中还包括的建立系统任务数据库的流程示意图。

图4示出根据本公开一示例性实施例的一种网络爬虫系统的测试装置的示意组成框图。

图5示出根据本公开一示例性实施例的电子设备的示意组成框图。

图6示出根据本公开一示例性实施例的一种计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。

请参阅图1，图1为根据本公开(本申请)一示例性实施例的网络爬虫系统的测试方法的流程示意图，如图1中的实施例所示，提供了一种网络爬虫系统的测试方法，该网络爬虫系统的测试方法可以运行于任意计算设备中，例如运行于终端或者服务器，也可以运行于服务器集群或云服务器等，当然，本领域技术人员也可以根据需求在其他平台运行本申请的方法，本公开对此不做特殊限定，如图1所示，该网络爬虫系统的测试方法包括：

步骤S110，当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机。

其中，网络爬虫系统是指按照预定规则，自动抓取万维网信息的系统，该网络爬虫系统包括爬虫任务分发机和网络爬虫机器集群，爬虫任务分发机用于向网络爬虫机器集群分发爬虫任务，网络爬虫机器集群包括多个爬虫机器，当网络爬虫机器集群接收到爬虫任务分发机所分发的爬虫任务时，由爬虫机器针对该爬虫任务进行爬取。

测试请求信号是指用于请求开始测试的信号，在一个示例中，测试请求信号可以是由用户点击界面的特定区域而被发送的，例如用户点击测试请求按键等等。在另一示例中，测试请求信号可以是每隔预定时间进行发送，该预定时间可以为8小时、12小时或者24小时等等，本示例对此不做特殊限定，例如该测试请求信号可以被配置为在每日的18时进行发送以请求开始测试等等。

系统任务数据库是指用于存储测试网络爬虫系统的爬虫任务的数据库，当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机，由爬虫任务分发机向网络爬虫机器集群分发爬虫任务。其中爬虫任务的数量为多个，本领域技术人员可根据实际需求进行设置，例如可以获取1000个爬虫任务、2000个爬虫任务或者5000个爬虫任务等等，本示例对此不做特殊限定。

请参考图3，图3为根据本公开一示例性实施例的一种网络爬虫系统的测试方法中还包括的建立系统任务数据库的流程示意图，在由系统任务数据库中获取爬虫任务之前，该网络爬虫系统的测试方法还包括：

步骤S310，获取多个统一资源定位符。

其中，统一资源定位符(Uniform Resource Locator，URL)是互联网上标准资源的地址。爬虫机器在进行爬取任务时，是从一个或若干个初始网页的URL开始，不断从当前页面上抽取新的URL放入队列进行搜索，直到满足系统的停止条件。在一示例中，可以由互联网中进行随机搜索以获取该统一资源定位符。

步骤S320，将该多个统一资源定位符发送至该网络爬虫机器集群，由该网络爬虫机器集群中的爬虫机器对每一统一资源定位符进行爬取，记录爬取结果。

其中，将多个统一资源定位符发送至网络爬虫机器集群，由该网络爬虫机器集群中的爬虫机器对每一统一资源定位符进行爬取，并对记录爬虫机器的爬取结果，以获得足够数量的URL作为爬虫任务进行存储。

步骤S330，当爬取结果的数量满足预定数量时，将所有爬取结果作为爬取任务存储于系统任务数据库中。

其中，预定数量为预先配置，例如该预定数量可以为1000个、2000个或者5000个等等。当爬取结果满足预定数量时，停止爬取，并将所记录的爬取结果作为爬虫任务存储于系统任务数据库中，以供进行之后的测试。

步骤S120，当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间。

其中，由爬虫任务分发机向网络爬虫机器集群中的爬虫机器分发爬虫任务，当爬虫机器完成当前爬虫任务时，爬虫任务分发机继续向该爬虫机器分发下一爬虫任务。记录每一爬虫机器的完成每一爬虫任务所需的工作时间，并分别将每一爬虫机器完成爬虫任务所需的工作时间进行相加，以得到每一爬虫机器完成爬虫任务的总工作时间。

在一示例性实施例中，所述获取网络爬虫机器集群中的每一爬虫机器的总工作时间包括：

当每一爬虫机器接收到由该爬虫任务分发机所分发的爬虫任务时，记录该爬虫机器完成该爬虫任务所需要的工作时间。

其中，当每一爬虫机器接收到由爬虫任务分发机所分发的爬虫任务，以该爬虫机器开始爬取的时刻为起点，停止爬取的时刻为终点，记录该爬虫机器完成该爬虫任务所需要的工作时间。例如爬虫机器在15:30时刻开始爬取，在15:35时刻停止爬取，完成了爬虫任务，则该爬虫机器完成该爬虫任务所需要的工作时间为5min。

在一示例性实施例中，所述记录该爬虫机器完成该爬虫任务所需要的工作时间包括：

当该爬虫机器接收到该爬虫任务时，在该爬虫机器开始第一次爬取的时候开始计时；

当该爬虫机器针对该爬虫任务完成预定次数的爬取之后结束计时，以得到该爬虫机器完成该爬虫任务所需的工作时间，并该工作时间与该爬虫机器进行对应存储。

在该实施例中，通过计时的方式获取该爬虫机器完成该爬虫任务所需要的工作时间，使得所获取的工作时间更加直观，无需进行多余的计算，减少了不必要的功率损耗。

当该爬虫任务分发机内的任务分发完毕且所有爬虫任务均已被完成时，基于每一爬虫机器完成每一爬虫任务所需的工作时间，计算得到每一爬虫机器的总工作时间。

其中，分别将每一爬虫机器完成每一爬虫任务所需要的工作时间进行相加，以得到该爬虫机器的总工作时间，例如爬虫机器完成了三个爬虫任务，完成该三个爬虫任务的工作时间分别为70S、98、82S，则该爬虫机器的总工作时间为250S。

步骤S130，根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。

其中，爬虫机器的总工作时间越长则代表着该爬虫机器的工作量越大。根据每一爬虫机器的总工作时间，能够得出该网络爬虫机器集群中的爬虫机器的工作量情况。根据每一爬虫机器的工作量情况，可判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡，若不均衡，则代表着有爬虫机器长时间处于闲置状态，即爬虫机器的调用不合理，降低了网络爬虫机器集群的工作效率。使用者可根据该判断结果，对网络爬虫系统进行调试，以达到对该网络爬虫系统的性能充分使用，提高爬虫效率。

请参考图2，图2为根据本公开一示例性实施例的图1的网络爬虫系统的测试方法中的步骤S130的流程示意图，在图2所示的实施例中，所述根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果包括：

步骤S210，将每一爬虫机器的总工作时间按照从小到大的顺序进行排序，以得到工作时间序列；

步骤S220，基于所得到的工作时间序列，将该工作时间序列中的最后一个总工作时间减去第一个总工作时间，以得到时间差值；

步骤S230，将该时间差值除以该时间序列中的第一个总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量的均衡率；

步骤S240，基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡。

在本示例性实施例中，将每一爬虫机器的总工作时间按照从小到大的顺序进行排序，例如网络爬虫机器集群中包括4个爬虫机器，4个爬虫机器分别对应的总工作时间为125S、113S、98S和136S，将每一爬虫机器的总工作时间按照从小到大的顺序进行排序，得到的工作时间序列为(98，113,125,136)。基于所得到的工作时间序列，将排列在该工作时间序列中最后一位的工作时间减去排列在该工作时间序列中第一位的工作时间即将该工作时间序列中的最大值减去最小值，以得到时间差值。例如工作时间序列为(98，113,125,136)，则该工作时间序列的时间差值为136-98＝38。

将计算所得到的时间差值除以排列在该工作时间序列中第一位的总工作时间，以得到该时间差值占排列在该工作时间序列中第一位的总工作时间的比例，该比例即为该网络爬虫机器集群中的爬虫机器的工作量的均衡率。例如网络爬虫机器集群的4个爬虫机器的工作时间序列为(98，113,125,136)，该工作时间序列的时间差值为136-98＝38，将该时间差值除以排列在该工作时间序列中第一位的总工作时间，得到该网络爬虫机器集群的爬虫机器的工作量的均衡率为38/98≈38.78％。

根据该均衡率，能够直观的得出总工作时间最长的爬虫机器比总工作时间最短的爬虫机器所多出的工作量与总工作时间最短的爬虫机器的工作量之间的关系。均衡率越大，则代表着总工作时间最长的爬虫机器的工作量相比较于总工作时间最短的爬虫机器的工作量越多即该网络爬虫机器集群中的爬虫机器的工作量不均衡，反之，均衡率越小，则代表着总工作时间最长的爬虫机器的工作量相比较于总工作时间最短的爬虫机器的工作量越小，即该网络爬虫机器集群中的爬虫机器的工作量均衡。

在一示例性实施例中，所述基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡包括：

当该均衡率小于或等于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量均衡；

当该均衡率大于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量不均衡。

其中，预定阈值为预先配置，该预定阈值可以为10％、20％或者25％等等，本示例对此不做特殊限定。在一示例中，获取该预定阈值可以通过用户设备来采集，例如手机或者电脑等等，该用户设备向用户显示特定的获取界面，由用户触发触发获取界面上的特定功能进行获取，例如用户点击获取界面上的“预定阈值输入”按钮，获取界面上出现输入框，用户通过输入设备例如键盘或者触控显示屏在输入框中输入预定阈值。

在可选的实施例中，还可获取所述网络爬虫机器集群中的每一爬虫机器的任务爬取成功率(如任务爬取成功的次数和总次数的比值)，进而可根据每一爬虫机器的总工作时间和任务爬取成功率，得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。由此可进一步提升爬虫机器工作量是否均衡的判断结果的可靠性。

示例的，当该均衡率小于或等于预定阈值，且所有爬虫机器的任务爬取成功率均高于预设第一成功率阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量均衡；

当该均衡率大于预定阈值，且任一爬虫机器的任务爬取成功率低于或等于预设第一成功率阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量不均衡。

示例的，还可计算所有爬虫机器的任务爬取成功率的均值。当该均衡率小于或等于预定阈值，且该均值高于预设第二成功率阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量均衡；

当该均衡率大于预定阈值，且该均值低于或等于预设第二成功率阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量不均衡。

其中，上述阈值可预先设置得到，或者通过其他方式确定出，本申请不做限定。

本公开实施例还提供了一种网络爬虫系统的测试装置。参考图4所示，该示例性网络爬虫系统的测试装置可以包括任务获取模块410、时间记录模块420以及判断模块430。其中：

任务获取模块410被配置为：当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机；

时间记录模块420被配置为：当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间；

判断模块430被配置为：根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。

在一示例性实施方式中，所述判断模块430还包括排序单元431、第一计算单元432、第二计算单元433以及判断单元434，其中：

排序单元431用于将每一爬虫机器的总工作时间按照从小到大的顺序进行排序，以得到时间序列；

第一计算单元432用于基于所得到的工作时间序列，将该工作时间序列中的最后一个总工作时间减去第一个总工作时间，以得到时间差值；

第二计算单元433用于将该时间差值除以该时间序列中的第一个总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量的均衡率；

判断单元434用于基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡。

上述网络爬虫系统的测试装置中各模块的具体细节已经在对应的网络爬虫系统的测试方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

根据一个示例性实施例，该装置可被实现为一种电子设备，该电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序在被所述处理器执行时，使得所述处理器执行如上所述的各方法实施例中的任一个，或者，所述计算机程序在被所述处理器执行时使得该电子设备实现如上所述的装置各实施例的组成单元/模块所实现的功能。

上面的实施例中所述的处理器可以指单个的处理单元，如中央处理单元CPU，也可以是包括多个分散的处理单元的分布式处理器系统。

上面的实施例中所述的存储器可以包括一个或多个存储器，其可以是计算设备的内部存储器，例如暂态或非暂态的各种存储器，也可以是通过存储器接口连接到计算设备的外部存储装置。

下面参照图5来描述根据本申请的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。例如，所述处理单元510可以执行如图1中所示的步骤S110，当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机；步骤S120，当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间；步骤S130，根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元(ROM)5203。

存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且，电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器560通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图6所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过本公开的各实施例，当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将所获取的爬虫任务发送至爬虫任务分发机进行分发，当爬虫任务分发机向网络爬虫机器集群中的爬虫机器分发任务时，获取每一爬虫机器到所有爬虫任务结束后的总工作时间，并根据每一爬虫机器的总工作时间，得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。通过计算每一爬虫机器在爬虫任务分发机向网络爬虫机器集群分发任务期间内的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果，测试过程简单易行，若均衡则代表着该网络爬虫系统的资源利用充分，效率较高，若不均衡则代表着该网络爬虫系统的资源未能得到充分利用，效率较低。用户可根据该判断结果选择是否需要对网络爬虫系统进行调试，提高了用户对网络爬虫系统的测试效率。

上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

Claims

一种网络爬虫系统的测试方法，其特征在于，包括：

当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机；

当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间；

根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。
根据权利要求1所述的网络爬虫系统的测试方法，其特征在于，所述获取网络爬虫机器集群中的每一爬虫机器的总工作时间包括：

当每一爬虫机器接收到由该爬虫任务分发机所分发的爬虫任务时，记录该爬虫机器完成该爬虫任务所需要的工作时间；

当该爬虫任务分发机内的任务分发完毕且所有爬虫任务均已被完成时，基于每一爬虫机器完成每一爬虫任务所需的工作时间，计算得到每一爬虫机器的总工作时间。
根据权利要求2所述的网络爬虫系统的测试方法，其特征在于，所述记录该爬虫机器完成该爬虫任务所需要的工作时间包括：

当该爬虫机器接收到该爬虫任务时，在该爬虫机器开始第一次爬取的时候开始计时；

当该爬虫机器针对该爬虫任务完成预定次数的爬取之后结束计时，以得到该爬虫机器完成该爬虫任务所需的工作时间，并将该工作时间与爬虫机器进行对应存储。
根据权利要求1所述的网络爬虫系统的测试方法，其特征在于，所述根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果包括：

将每一爬虫机器的总工作时间按照从小到大的顺序进行排序，以得到工作时间序列；

基于所得到的工作时间序列，将该工作时间序列中的最后一个总工作时间减去第一个总工作时间，以得到时间差值；

将该时间差值除以该工作时间序列中的第一个总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量的均衡率；

基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡。
根据权利要求4所述的网络爬虫系统的测试方法，其特征在于，所述基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡包括：

当该均衡率小于或等于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量均衡；

当该均衡率大于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量不均衡。
根据权利要求1所述的网络爬虫系统的测试方法，其特征在于，在由系统任务数据库中获取爬虫任务之前，还包括：

获取多个统一资源定位符；

将该多个统一资源定位符发送至该网络爬虫机器集群，由该网络爬虫机器集群中的爬虫机器对每一统一资源定位符进行爬取，记录爬取结果；

当爬取结果的数量满足预定数量时，将所有爬取结果作为爬取任务存储于系统任务数据库中。
根据权利要求1-6任一项所述的网络爬虫系统的测试方法，其特征在于，所述方法还包括：

获取所述网络爬虫机器集群中的每一爬虫机器的任务爬取成功率；

所述根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果，包括：

根据每一爬虫机器的总工作时间和任务爬取成功率，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。
一种网络爬虫系统的测试装置，其特征在于，包括：

任务获取模块，配置为当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机；

时间记录模块，配置为当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间；

判断模块，配置为根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。
根据权利要求8所述的网络爬虫系统的测试装置，其特征在于，所述时间记录模块在获取网络爬虫机器集群中的每一爬虫机器的总工作时间时，具体用于：

当每一爬虫机器接收到由该爬虫任务分发机所分发的爬虫任务时，记录该爬虫机器完成该爬虫任务所需要的工作时间；

当该爬虫任务分发机内的任务分发完毕且所有爬虫任务均已被完成时，基于每一爬虫机器完成每一爬虫任务所需的工作时间，计算得到每一爬虫机器的总工作时间。
根据权利要求9所述的网络爬虫系统的测试装置，其特征在于，所述时间记录模块在记录该爬虫机器完成该爬虫任务所需要的工作时间时，具体用于：

当该爬虫机器接收到该爬虫任务时，在该爬虫机器开始第一次爬取的时候开始计时；

当该爬虫机器针对该爬虫任务完成预定次数的爬取之后结束计时，以得到该爬虫机器完成该爬虫任务所需的工作时间，并将该工作时间与爬虫机器进行对应存储。
根据权利要求8所述的网络爬虫系统的测试装置，其特征在于，所述判断模块包括：

排序单元，用于将每一爬虫机器的总工作时间按照从小到大的顺序进行排序，以得到时间序列；

第一计算单元，用于基于所得到的工作时间序列，将该工作时间序列中的最后一个总工作时间减去第一个总工作时间，以得到时间差值；

第二计算单元，用于将该时间差值除以该时间序列中的第一个总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量的均衡率；

判断单元，用于基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡。
根据权利要求11所述的网络爬虫系统的测试装置，其特征在于，所述判断单元具体用于：

当该均衡率小于或等于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量均衡；

当该均衡率大于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量不均衡。
根据权利要求8所述的网络爬虫系统的测试装置，其特征在于，

所述任务获取模块，在被配置为在由系统任务数据库中获取爬虫任务之前，获取多个统一资源定位符；将该多个统一资源定位符发送至该网络爬虫机器集群，由该网络爬虫机器集群中的爬虫机器对每一统一资源定位符进行爬取，记录爬取结果；当爬取结果的数量满足预定数量时，将所有爬取结果作为爬取任务存储于系统任务数据库中。
根据权利要求8-13任一项所述的网络爬虫系统的测试装置，其特征在于，

所述任务获取模块，还被配置为获取所述网络爬虫机器集群中的每一爬虫机器的任务爬取成功率；

所述判断模块具体用于：

根据每一爬虫机器的总工作时间和任务爬取成功率，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的网络爬虫系统的测试方法。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有计算机程序；

其中，所述处理器被配置为经由执行所述计算机程序来实现以下步骤：

当接收到测试请求信号时，由系统任务数据库中获取爬虫任务，并将该爬虫任务发送至爬虫任务分发机；

当该爬虫任务分发机向网络爬虫机器集群分发任务时，获取网络爬虫机器集群中的每一爬虫机器的总工作时间；

根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果。
根据权利要求16所述的电子设备，其特征在于，所述处理器在执行所述获取网络爬虫机器集群中的每一爬虫机器的总工作时间时，具体执行以下步骤：

当每一爬虫机器接收到由该爬虫任务分发机所分发的爬虫任务时，记录该爬虫机器完成该爬虫任务所需要的工作时间；

当该爬虫任务分发机内的任务分发完毕且所有爬虫任务均已被完成时，基于每一爬虫机器完成每一爬虫任务所需的工作时间，计算得到每一爬虫机器的总工作时间。
根据权利要求17所述的电子设备，其特征在于，所述处理器在执行所述记录该爬虫机器完成该爬虫任务所需要的工作时间时，具体执行以下步骤：

当该爬虫机器接收到该爬虫任务时，在该爬虫机器开始第一次爬取的时候开始计时；

当该爬虫机器针对该爬虫任务完成预定次数的爬取之后结束计时，以得到该爬虫机器完成该爬虫任务所需的工作时间，并将该工作时间与爬虫机器进行对应存储。
根据权利要求16所述的电子设备，其特征在于，所述处理器在执行所述根据每一爬虫机器的总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量是否均衡的判断结果时，具体执行以下步骤：

将每一爬虫机器的总工作时间按照从小到大的顺序进行排序，以得到工作时间序列；

基于所得到的工作时间序列，将该工作时间序列中的最后一个总工作时间减去第一个总工作时间，以得到时间差值；

将该时间差值除以该工作时间序列中的第一个总工作时间，以得到该网络爬虫机器集群中的爬虫机器的工作量的均衡率；

基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡。
根据权利要求19所述的电子设备，其特征在于，所述处理器在执行所述基于该均衡率，判断该网络爬虫机器集群中的爬虫机器的工作量是否均衡时，具体执行以下步骤：

当该均衡率小于或等于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量均衡；

当该均衡率大于预定阈值时，判定该网络爬虫机器集群中的爬虫机器的工作量不均衡。