WO2019079992A1

WO2019079992A1 - 分布式爬虫系统中任务管理器的分配方法及系统

Info

Publication number: WO2019079992A1
Application number: PCT/CN2017/107595
Authority: WO
Inventors: 马岩
Original assignee: 麦格创科技（深圳）有限公司
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2019-05-02

Abstract

本发明公开了一种分布式爬虫系统中任务管理器的分配方法，所述方法包括如下步骤：分布式设备接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；分布式设备将N个数据包依次发送给分布式设备的其他M个设备；分布式设备统计M个设备返回的N个数据包的M个时延和，求该M个时延和的平均值；分布式设备接收其他M个设备发送的M个分配消息得到M个时延和平均值，该分配消息包含本机的时延和平均值；分布式设备按M个时延和平均值倒序向M个设备发送所述分配消息。本发明提供的技术方案具有效率高的优点。

Description

分布式爬虫系统中任务管理器的分配方法及系统技术领域

[0001] 本发明涉及数据处理领域，尤其涉及一种分布式爬虫系统中任务管理器的分配方法及系统。

背景技术

[0002] 网络爬虫（又被称为网页蜘蛛，网络机器人，在 FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

[0003] 网络爬虫实际是一种网络信息抓取的应用程序，现有的网络爬虫抓取数据量大，任务的分配的任务管理器为随机分配的，其可能影响任务分配的效率，影响爬虫的效率。

技术问题

[0004] 本申请提供一种分布式爬虫系统中任务管理器的分配方法。其解决现有技术的技术方案效率低的缺点。问题的解决方案

技术解决方案

[0005] 一方面，提供一种分布式爬虫任务分配方法，所述方法包括如下步骤：

[0006] 分布式设备接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；分布式设备将 N个数据包依次发送给分布式设备的其他 M个设备；分布式设备统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；分布式设备接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；按 M个吋延和平均值倒序向 M个设备发送所述分配消息。

[0007] 可选的，所述方法还包括：

[0008] 分布式设备获取历史分享的数据包的大小；提取历史数据包的大小区间，将该大小区间划分成 N个子区间，分布式设备虚拟 N个数据包，其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间的中值，分布式设备将 N个数据包依次发送给 M个其他分布式设备，统计其他 M个分布式设备中每个接入点的 N 个数据包的吋延和，得到 M个吋延和。

[0009] 可选的，所述方法还包括：

[0010] 吋延 = t ACK (la) - tla; 其中， t ACK (la) 为第一设备返回数据包 A的确认消息的接收吋间， tla为数据包 A向第一设备的发送吋间。

[0011] 第二方面，提供一种分布式爬虫任务分配系统，所述系统包括：多个分布式设备，所述多个分布式设备包括第一分布式设备和其他 N个分布式设备；

[0012] 第一分布式设备，用于接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；将 N个数据包依次发送给分布式设备的其他 M个设备；统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；按 M个吋延和平均值倒序向 M个设备发送所述分配消息；

[0013] 其他 N个分布式设备，用于获取本地的吋延和，将该本地吋延和发送给第一分布式设备。

[0014] 可选的，所述分布式设备，还用于获取历史分享的数据包的大小；提取历史数据包的大小区间，将该大小区间划分成 N个子区间，分布式设备虚拟 N个数据包，其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间的中值，分布式设备将 N个数据包依次发送给 M个其他分布式设备，统计其他 M个分布式设备中每个接入点的 N个数据包的吋延和，得到 M个吋延和。

[0015] 可选的，所述分布式设备，还用于吋延 = t ACK (la) - tla; 其中， t ACK (la ) 为第一设备返回数据包 A的确认消息的接收吋间， tla为数据包 A向第一设备的发送吋间。

[0016] 第三方面，提供一种分布式设备，包括：处理器、无线收发器、存储器和总线

，所述处理器、无线收发器、存储器通过总线连接，

[0017] 所述无线收发器，用于接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；

[0018] 所述处理器，用于将 N个数据包依次发送给分布式设备的其他 M个设备；统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；按 M个吋延和平均值倒序向 M个设备发送所述分配消息。

[0019] 可选的，所述处理器，用于获取历史分享的数据包的大小；提取历史数据包的大小区间，将该大小区间划分成 N个子区间，

分布式设备虚拟 N个数据包，其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间的中值，分布式设备将 N个数据包依次发送给 M个其他分布式设备，统计其他 M个分布式设备中每个接入点的 N个数据包的吋延和，得到 M个吋延和。

[0020] 可选的，所述处理器，用于吋延 t ACK (la) - tla_; 其中， t ACK (la) 为第一设备返回数据包 A的确认消息的接收吋间， tla为数据包 A向第一设备的发送吋间。

[0021] 第四方面，提供一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第一方面提供的方法。

发明的有益效果

有益效果

[0022] 本发明提供的技术方案通过分配的方法实现了按吋延和的倒序来分配任务，这样试验和较大的设备能够优先分配到任务进行处理，提高效率。

对附图的简要说明

附图说明

[0023] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0024] 图 1为本发明第一较佳实施方式提供的一种分布式爬虫系统中任务管理器的分配方法的流程图；

[0025] 图 2为本发明第二较佳实施方式提供的一种分布式爬虫系统中任务管理器的分配系统的结构图。 [0026] 图 3为本发明第二较佳实施方式提供的一种分布式设备的硬件结构图。

本发明的实施方式

[0027] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0028] 请参考图 1，图 1是本发明第一较佳实施方式提出的一种分布式爬虫系统中任务管理器的分配方法，该方法如图 1所示，包括如下步骤：

[0029] 步骤 S101、分布式设备接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器。

[0030] 步骤 S102、分布式设备将 N个数据包依次发送给分布式设备的其他 M个设备。

[0031] 上述步骤 S102的实现方法可以为：

[0032] 分布式设备获取历史分享的数据包的大小 (即容量，多少个 MB或多个 KB); 提取历史数据包的大小区间，将该大小区间划分成 N个子区间，分布式设备虚拟 N 个数据包，其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间的中值，分布式设备将 N个数据包依次发送给 M个其他分布式设备，统计其他 M 个分布式设备中每个接入点的 N个数据包的吋延和，得到 M个吋延和。

[0033] 下面以一个实际的例子来说明反馈参数为吋间和的计算方式；

[0034] 这里的数据包的大小具体可以包括： 6MB、 5MB、 4MB、 3MB、 2MB、 1MB ，这里划分的 N个区间以 2个区间为例，具体的 2个区间的范围可以为，区间 1 【6 MB , 4MB】；区间 2 【3MB， 1MB】，那么分布式设备虚拟出 2个数据包，为了方便说明，这里以数据包 A表示第一区间虚拟数据包，数据包 B表示第二区间虚拟数据包，数据包 A的大小为 5MB，数据包 B的大小为 2MB，将数据包 A以及数据包 B依次发送给 M个其他设备，（这里以三个 AP为例，分别为 API , AP2以及 AP3) ， API接收到数据包 A以后会返回 ACK (la) ，接收吋间为 t ACK (la) ，数据包 A的发送吋间为 tla， API接收到数据包 B以后会返回 ACK (lb) ，接收吋间可以为 t ACK (lb) ，数据包 B的发送吋间为 tlb; 那么 API的吋间和 TAPl=( t ACK (la) - tla) + ( t ACK (lb) - tlb)。同理可以计算出 TAP2、 TAP3的值， Ta (吋延和平均值） = (TAP1+TAP2+TAP3) /3。

[0035] 上述方法还可以获取设备参数可以包括：设备硬件参数，例如，内存、 CPU、存储器的参数，当然还可以包括一些可变参数，例如，爬虫任务数量、内存使用率、 CPU使用率等等。

[0036] 步骤 S103、分布式设备统计 M个设备返回的 N个数据包的 M个吋延和，求该 M 个吋延和的平均值。

[0037] 步骤 S104、分布式设备接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值。

[0038] 步骤 S105、分布式设备按 M个吋延和平均值倒序向 M个设备发送所述分配消息

[0039] 本发明提供的技术方案通过分配的方法实现了按吋延和的倒序来分配任务，这样试验和较大的设备能够优先分配到任务进行处理，提高效率。

[0040] 可选的，上述方法还可以包括：

[0041] 将吋延最少的分布式设备确定为任务管理器，将吋延和次少的分布式设备确定为备用任务管理器，降低备用任务管理器的任务处理阈值。

[0042] 可选的，上述方法还可以包括：

[0043] 如任务管理器故障，启动备用任务管理器作为分布式系统的任务管理器。

[0044] 此方式避免多次分配影响进程。

[0045] 请参考图 2，图 2是本发明第二较佳实施方式提出的一种分布式爬虫实现系统，该系统如图 2所示，包括：第一分布式设备 201以及其他 N个分布式设备 201，所述任务管理器与设备连接；

[0046] 第一分布式设备，用于接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；将 N个数据包依次发送给分布式设备的其他 M个设备；统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；从 M+1个吋延和平均值中选择吋延和最小的设备作为任务管理器； [0047] 其他 N个分布式设备，用于获取本地的吋延和，将该本地吋延和加载在分配消息内发送给第一分布式设备。

[0048] 可选的，所述第一分布式设备 201，还用于将吋延和次少的分布式设备确定为备用任务管理器，降低备用任务管理器的任务处理阈值。

[0049] 可选的，所述第一分布式设备 201，还用于如任务管理器故障，启动备用任务管理器作为分布式系统的任务管理器。

[0050] 参阅图 3，图 3为一种分布式设备 30，包括：处理器 301、无线收发器 302、存储器 303和总线 304，无线收发器 302用于与外部设备之间收发数据。处理器 301的数量可以是一个或多个。本申请的一些实施例中，处理器 301、存储器 302和收发器 303可通过总线 304或其他方式连接。服务器 30可以用于执行图 1的步骤。关于本实施例涉及的术语的含义以及举例，可以参考图 1对应的实施例。此处不再赘述。

[0051] 无线收发器 302，用于获取该爬虫任务，获取与该任务管理器连接的设备的距离以及爬虫任务数量。

[0052] 其中，存储器 303中存储程序代码。处理器 901用于调用存储器 903中存储的程序代码，用于执行以下操作：

[0053] 处理器 301，用于依据将 N个数据包依次发送给分布式设备的其他 M个设备；统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；从 M+1个吋延和平均值中选择吋延和最小的设备作为任务管理器

[0054] 需要说明的是，这里的处理器 301可以是一个处理元件，也可以是多个处理元件的统称。例如，该处理元件可以是中央处理器（Central Processing Unit, CPU ) ，也可以是特定集成电路（Application Specific Integrated Circuit, ASIC) ，或者是被配置成实施本申请实施例的一个或多个集成电路，例如：一个或多个微处理器（digital singnal processor, DSP) ，或，一个或者多个现场可编程门阵列 (Field Programmable Gate Array， FPGA) 。

[0055] 存储器 303可以是一个存储装置，也可以是多个存储元件的统称，且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器 303可以包括随机存储器（RAM) ，也可以包括非易失性存储器（non- volatile memory ) ，例如磁盘存储器，闪存（Flash) 等。

[0056] 总线 304可以是工业标准体系结构（Industry Standard Architecture, ISA) 总线、外部设备互连（Peripheral

Component, PCI) 总线或扩展工业标准体系结构（Extended Industry Standard Architecture, EISA) 总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图 3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

[0057] 该终端还可以包括输入输出装置，连接于总线 304，以通过总线与处理器 301等其它部分连接。该输入输出装置可以为操作人员提供一输入界面，以便操作人员通过该输入界面选择布控项，还可以是其它接口，可通过该接口外接其它设备。

[0058] 需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某一些步骤可以采用其他顺序或者同吋进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

[0059] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

[0060] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（英文： Read-Only Memory，简称： ROM) 、随机存取器（英文： Random Access Memory , 简称： RAM) 、磁盘或光盘等。

[0061] 以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同吋，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求书

[权利要求 1] 一种分布式爬虫系统中任务管理器的分配方法，其特征在于，所述方法包括如下步骤：

分布式设备接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；

分布式设备将 N个数据包依次发送给分布式设备的其他 M个设备；分布式设备统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；

分布式设备接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；

分布式设备按 M个吋延和平均值倒序向 M个设备发送所述分配消息。

[权利要求 2] 根据权利要求 1所述的方法，其特征在于，所述分布式设备将 N个数据包依次发送给分布式设备的其他 M个设备；分布式设备统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值包括：分布式设备获取历史分享的数据包的大小；提取历史数据包的大小区间，将该大小区间划分成 N个子区间，分布式设备虚拟 N个数据包，其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间的中值，分布式设备将 N个数据包依次发送给 M个其他分布式设备，统计其他 M个分布式设备中每个接入点的 N个数据包的吋延和，得到 M个吋延和。

[权利要求 3] 根据权利要求 1所述的方法，其特征在于，所述吋延的获取方式，包括：

吋延 = t ACK (la) - tla; 其中， t

ACK (la) 为第一设备返回数据包 A的确认消息的接收吋间， tla为数据包 A向第一设备的发送吋间。

[权利要求 4] 一种分布式爬虫任务分配系统，其特征在于，所述系统包括：多个分布式设备，所述多个分布式设备包括第一分布式设备和其他 N个分布式设备；第一分布式设备，用于接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；将 N个数据包依次发送给分布式设备的其他 M个设备；统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；按 M 个吋延和平均值倒序向 M个设备发送所述分配消息；

其他 N个分布式设备，用于获取本地的吋延和，将该本地吋延和发送给第一分布式设备。

[权利要求 5] 根据权利要求 4所述的系统，其特征在于，

所述第一分布式设备，还用于获取历史分享的数据包的大小；提取历史数据包的大小区间，将该大小区间划分成 N个子区间，分布式设备虚拟 N个数据包，其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间的中值，分布式设备将 N个数据包依次发送给 M个其他分布式设备，统计其他 M个分布式设备中每个接入点的 N个数据包的吋延和，得到 M个吋延和。

[权利要求 6] 根据权利要求 4所述的方法，其特征在于，

所述第一分布式设备，还用于吋延 = t ACK (la) - tla; 其中， t ACK (la) 为第一设备返回数据包 A的确认消息的接收吋间， tla为数据包 A向第一设备的发送吋间。

[权利要求 7] —种分布式设备，包括：处理器、无线收发器、存储器和总线，所述处理器、无线收发器、存储器通过总线连接，其特征在于，所述无线收发器，用于接收或发起分配消息，所述分配消息用于从分布式爬虫系统中分配出任务管理器；

所述处理器，用于将 N个数据包依次发送给分布式设备的其他 M个设备；统计 M个设备返回的 N个数据包的 M个吋延和，求该 M个吋延和的平均值；接收其他 M个设备发送的 M个分配消息得到 M个吋延和平均值，该分配消息包含本机的吋延和平均值；按 M个吋延和平均值倒序向 M个设备发送所述分配消息。

[权利要求 8] 根据权利要求 7所述的服务器，其特征在于，所述处理器，用于获取历史分享的数据包的大小；提取历史数据包的大小区间，将该大小区间划分成 N个子区间，分布式设备虚拟 N个数据包，其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间的中值，分布式设备将 N个数据包依次发送给 M个其他分布式设备，统计其他 M个分布式设备中每个接入点的 N个数据包的吋延和，得到 M个吋延和。

[权利要求 9] 根据权利要求 7所述的服务器，其特征在于，所述处理器，用于吋延= t ACK (la) - tla; 其中， t ACK (la) 为第一设备返回数据包 A的确认消息的接收吋间， tla为数据包 A向第一设备的发送吋间。

[权利要求 10] 一种计算机可读存储介质，其特征在于，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求 1-3 任一项所述的方法。