WO2016086784A1

WO2016086784A1 - 一种网页数据采集方法、装置及系统

Info

Publication number: WO2016086784A1
Application number: PCT/CN2015/095584
Authority: WO
Inventors: 刘庆; 黄华; 殷贤君; 张美德
Original assignee: 阿里巴巴集团控股有限公司; 刘庆; 黄华; 殷贤君; 张美德
Priority date: 2014-12-02
Filing date: 2015-11-26
Publication date: 2016-06-09
Also published as: CN105721519B; CN105721519A

Abstract

一种网页数据采集方法、装置及系统，该方法可以包括：接收批量采集数据的请求，其中，所述请求携带有目标网址信息(S110)；确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式(S120)；根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据(S130)。

Description

一种网页数据采集方法、装置及系统

技术领域

本申请涉及互联网领域，尤其涉及一种网页数据采集方法、装置及系统。

背景技术

在网站的SEO(Search Engine Optimization，搜索引擎优化)建设过程中，为了能够准确了解到站点现阶段的总体优化情况，会产生一些对第三方站点或平台的数据采集需求，通过对采集到的各类信息进行分析从而制定下一步的网站优化策略。

目前，主要通过互联网加载第三方站点或平台的网页数据来采集第三方站点或平台的数据。加载网页数据主要包括同步和异步两种加载方式。同步方加载方式，为请求直接返回HTML页面。异步加载方式，在页面返回后，通过加载JS(JavaScript，一种直译式脚本语言)方式改变页面原有结构从而加载出数据。在得到返回的HTML页面之后，可以对HTML页面进行解析，将有用的数据提取分离出来，比如可以抽取出新浪网新闻频道里的某个新闻的标题。

由于制定网站优化策略的数据需求量较大，因此，需要批量采集第三方站点或平台的网页数据。然而，由于不同网页数据加载方式可能不同，为了保证数据采集结果的准确性，只能统一采取异步加载的方式。但是，由于JS执行需要消耗额外的时间，对于本来同步就能加载出的数据会额外消耗大量硬件资源和时间，导致数据采集效率较低。

发明内容

有鉴于此，本申请的目的在于提供一种网页数据采集方法、装置及系统以实现提高数据采集效率的目的。

在本申请实施例的第一个方面，提供了一种网页数据采集方法。例如，该方法可以包括：接收批量采集数据的请求，其中，所述请求携带有目标网址信息；确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式；根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。

在本申请实施例的第二个方面，提供了一种网页数据采集装置。例如，该装置可以包括：请求接收单元，可以用于接收批量采集数据的请求，其中，所述请求携带有目标网址信息。策略确定单元，可以用于确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式。采集单元，可以用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。

在本申请实施例的第三个方面，提供了一种网页数据采集系统。例如，该系统可以包括：客户端，可以用于发出批量采集数据的请求，其中，所述请求携带有目标网址信息。采集策略配置服务器，可以用于接收客户端发送的批量采集数据的请求，确定所述请求携带的目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式，以及，生成用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据的采集任务，将所述采集任务分发给采集服务器集群中的采集服务器。采集服务器集群，可以用于接收采集策略配置服务器分发的采集任务，执行所述采集任务，反馈采集到的目标数据。

可见本申请具有如下有益效果：

由于本申请实施例在接收批量采集数据的请求之后，根据请求携带的目标网址信息确定了对应的可成功采集目标数据的采集策略，而该采集策略是通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得的，因此，如果目标网址信息对应的网页以同步加载方式能够采集出目标数据，则测试得到的可成功采集目标数据的采集策略中包含的加载方式就可以是同步加载方式，从而采取采集策略中设置的同步加载方式采集数据，使同步就能加载出的数据可以避免采用异步加载方式加载，避免造成资源和时间的额外消耗，因此，本申请实施例在保证成功采集到目标数据的同时，可以有效提高数据采集效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种网页数据采集方法流程示意图；

图2为本申请实施例公开的一种网页数据采集装置结构示意图；

图3为本申请实施例公开的一种网页数据采集系统结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

一般来说，由于JS执行需要消耗额外的时间，对同一个页面结构如果不执行JS，则执行效率会有一定提升。基于这个原理，在批量采集网页数据前，如果能够对页面数据的加载方式进行至少包括同步加载测试的有效分析测试，则可以区分出可同步加载目标数据的网址信息以及必须异步加载目标数据的网址信息，并设置对应的可成功采集目标数据的采集策略。这样，在批量采集数据时，可以根据与目标网址信息对应的采集策略，采取其中设置的同步加载方式或异步加载方式采集数据，使本来同步就能加载出的数据可以避免采用异步加载方式加载，从而避免造成资源和时间的额外消耗，可以有效的提高数据采集效率。

例如，参见图1，为本申请实施例提供的一种网页数据采集方法流程示意图。如图1所示，该方法可以包括：

S110、接收批量采集数据的请求，其中，所述请求携带有目标网址信息。

例如，所接收的批量采集数据的请求，可以携带有用户在前端页面上输入的批量采集配置信息。假设要批量采集1688站点搜索页面在检索不同关键词时的搜索结果数据。那么批量采集配置信息可以包括：目标网址信息“http://s.1688.com/selloffer/offer_search.htm？keywords＝${keyword}&button_click＝top&n＝y”。其中，${keyword}可以替换成不同的关键词，目标数据的HTML标签可以配置成id:breadCrumbText|class[0]:sm-navigatebar-count|text，表示抽取breadCrumbText这个HTML标签下面第一个sm-navigatebar-count class下的纯文本。其中，批量采集配置信息也可以配置成XPath的描述方式，本申请对此并不进行限制。可以理解的是，批量采集配置信息还可以按照用户自己的需求选择性配置其他参数，本申请对此并不进行限制。

另外，根据实际需要，如果除了用户提交的批量采集配置信息之外，还需要从其他文件中读取相关参数，则还需要对用于保存该参数的相关文件与相关文件存储地址的映射关系进行设置，以便进行数据采集测试时根据映射关系读取到文件中的参数。例如，在批量采集1688站点搜索页面在搜索不同关键词时的搜索结果数据的应用场景中，用户提交的关键词文件可以按照指定地址下载到用于执行数据采集测试的机器上，同时，设置并保存关键词文件与存储地址的映射关系，例如，"taskKeywordsFile":"/home/admin/1/test.txt"，从而进行数据采集测试时，可以根据映射关系读取到关键词文件中的关键词。

S120、确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式。

需要说明的是，所述目标网址信息对应的可成功采集目标数据的采集策略，可以在接收批量采集数据的请求之前，预先通过对各种不同网址信息进行至少包括同步加载测试的目标数据采集测试获得，也可以在接收到针对所述目标网址信息的批量采集数据的请求时，实时通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，再或者，也可以是在确定预先测试获得的采集策略无效后，再次进行至少包括同步加载测试的目标数据采集测试获得。

例如，在预先对各种不同网址信息进行至少包括同步加载测试的目标数据采集测试的实施方式中，可以预先接收用户在前端页面上输入的测试配置信息，主要包括待测试的不同类型网址、用于标识目标数据的HTML标签等。在确定需要测试的网址信息以及对应的用于标识目标数据的HTML标签之后，可以进行同步加载方式优先的目标数据采集测试，得到不同类型网址分别对应的采集策略。

一些可能的实施方式中，预先测试获得的采集策略可以作为历史采集策略保存于数据库中，以便在接收到批量采集数据的请求时，从数据库中提取出对应的历史采集策略来进行数据采集。

当然，在提取所述目标网址信息对应的历史采集策略之前，还可以进一步判断是否存在所述请求携带的目标网址信息对应的历史采集策略，如果不存在，则可以通过对该目标网址信息进行同步加载方式优先的目标数据采集测试，获得对应的可成功采集目标数据的采集策略，所述采集策略包括同步加载方式或异步加载方式，以及，将该采集策略保存为所述目标网址信息对应的历史采集策略。

一些可能的实施方式中，可以在提取所述请求携带的目标网址信息对应的历史采集策略之后，直接确定以所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略。

另一些可能的实施方式中，考虑到第三方站点或平台的页面数据的加载方式可能会发生变化，原来同步加载可以成功采集到目标数据的网址，有可能变为只能异步加载的网址。因此，在提取目标网址信息对应的历史采集策略之后，还可以进行小规模的测试，从而校验已存在的历史采集策略是否可继续使用。

例如，小规模测试可以包括：按预设小规模测试规则确定用于标识小规模测试数据的HTML标签以及所述目标网址信息中需要测试的网址信息，根据所述目标网址信息对应的采集策略以及用于标识小规模测试数据的HTML标签，尝试采集需要测试的网址信息指向的网页中的小规模测试数据，如果采集成功，则可以确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略，进行正式批量采集。且，还包括，如果采集不成功，则可以对该目标网址信息进行至少包括同步加载测试的目标数据采集测试，获得对应的可成功采集目标数据的采集策略，根据所获得的采集策略更新所述目标网址信息对应的历史采集策略。

需要说明的是，本申请实施例对预设小规模测试规则的具体实施方式不限。例如，可以按照固定预设小规模数量或一定缩减比例，从目标网址信息中选择出少量需要测试的网址信息，等等。例如，结合上述批量采集1688站点搜索页面在搜索不同关键词时的搜索结果数据的应用场景。在进行小规模测试时，可以从用户提交的大量关键词中提取前10个(如果用户提交的关键词不足10个，可以按实际数量提取)，逐一替换到用户配置的网址信息中搜索关键词参数的位置，确定出需要测试的10个网址信息。从而根据需要测试的10个网址信息、以及，用于标识目标数据的HTML标签等信息，采取从数据库中提取的历史采集策略，进行测试。例如，历史采集策略中可以包括加载方式(同步加载方式或异步加载方式)、连接超时时间、获取页面超时时间等参数。在该应用场景中，提取出的历史采集策略的格式可以为：“[{"url":"http://s.1688.com/selloffer/offer_search.htm？keywords＝${keyword}&button_click＝top&n＝y","keywordsPath":"/usr/group/seo/test.txt","conto":"5000","readto":"6000","crawlType":"sync"}]”。经过小规模测试，如果确定采集不成功，可以针对用户配置的目标网址信息，重新进行至少包括同步加载测试的目标数据采集测试目标数据采集测试，根据重新获得的采集策略更新所述目标网址信息对应的历史采集策略。基于更新后的采集策略正式批量的进行目标数据采集。

需要说明的是，本申请实施例对目标网址信息进行至少包括同步加载测试的目标数据采集测试的具体实现方式不限。

例如，一些可能的实施方式中，对目标网址信息进行至少包括同步加载测试的目标数据采集测试可以包括：采取同步加载方式加载所述目标网址信息指向的网页，针对同步加载得到的网页，从中尝试读取目标数据，针对可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式，针对不可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。

再例如，另一些可能的实施方式中，可以先采取异步加载方式加载所述目标网址信息指向的网页，从异步加载到的网页中尝试读取目标数据，再采取同步加载方式加载所述目标网址信息指向的网页，从同步加载到的网页中尝试读取目标数据。如果可从同步加载到的网页中读取出目标数据的网址信息，则可以设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式。如果不可从同步加载到的网页中读取出目标数据、且可以从异步加载到的网页中读取出目标数据，则可以设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。

一些可能的实施方式中，考虑到加载网页页面成功与否还会受到网络稳定性影响，可能需要在连接超时时重试连接以及在读取页面超时时重试读取页面，因此，在进行至少包括同步加载测试的目标数据采集测试过程中，所述采取同步加载方式加载所述目标网址信息指向的网页的步骤可以多次执行，且，还可以包括：在每次执行时，均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间；在设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式时，根据在多次执行过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中同步加载方式对应的连接超时时间以及获取页面超时时间的设定。而且，针对不可从同步加载得到的网页中读取出目标数据的网址信息，可以多次采取异步加载方式加载其指向的网页，且每次执行时均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间，从而在设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式时，可以根据多次采取异步加载方式加载网页过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中连接超时时间以及获取页面超时时间的设定。

其中，所述根据在多次执行过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中连接超时时间以及获取页面超时时间的设定的具体实现方式不限。例如，可以取多次执行过程中记录的建立连接的时间的平均值得到需要设定的连接超时时间，取多次执行过程中记录的用于获取网页页面的时间的平均值得到需要设定的获取页面超时时间。当然，也可以有其他计算连接超时时间以及获取页面超时时间的实现方式，本申请对此并不进行限制。

在上面的实施方式中，由于在采集策略中设置了连接超时时间以及获取页面超时时间，从而后续批量采集数据时，可以根据采集策略中设定的连接超时时间，在出现连接超时时重新发出连接请求，以及，根据采集策略中设定的获取页面超时时间，在出现读取页面超时时重新发出读取页面请求。另外，在采集策略中还可以设定重试连接的次数上限值以及重试读取页面的次数上限值，以便当重试次数超过上限值时，放弃对该网址信息对应页面数据的采集。

S130、根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。

需要说明的是，所述请求携带的目标网址信息可以为一个或多个。本发明实施例可以对不同类型的网址信息分别进行至少包括同步加载测试的目标数据采集测试，区分出可同步加载目标数据的网址信息以及必须异步加载目标数据的网址信息，并设置对应的可成功采集目标数据的采集策略。针对多个不同类型的目标网址信息，可以分别采取与之对应的采集策略来采集网页中的目标数据。其中，对各种不同类型的网址信息进行至少包括同步加载测试的目标数据采集测试，可以参照上述对目标网址信息进行至少包括同步加载测试的实施方式实现，在此不再赘述。

可见，应用本申请实施例提供的方法，由于目标网址信息对应的采集策略是通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得的，因此，在批量采集数据时，可以根据与目标网址信息对应的采集策略，采取其中设置的同步加载方式或异步加载方式采集数据，使同步就能加载出的数据可以避免采用异步加载方式加载，从而避免造成资源和时间的额外消耗，可以有效的提高数据采集效率。另外，本申请还对页面连接和页面读取时间进行记录、分析，在采集策略中设定相应的连接超时时间、获取页面超时时间，从而在正式进行批量数据采集时可以根据采集策略合理调用同步或异步两种加载方式，在保证准确采集到数据的同时最大限度提高采集效率，避免了额外硬件资源和时间消耗。

与上述网页数据采集方法相对应的，本申请还提供了一种网页数据采集装置。

例如，参见图2，为本申请实施例通过的一种网页数据采集装置结构示意图。如图2所示，该装置可以包括：

请求接收单元210，可以用于接收批量采集数据的请求，其中，所述请求携带有目标网址信息。策略确定单元220，可以用于确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式。采集单元230，可以用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。

一些可能的实施方式中，可以在提取所述请求携带的目标网址信息对应的历史采集策略之后，直接确定以所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略。因此，所述策略确定单元220，可以用于提取所述目标网址信息对应的历史采集策略，所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述历史采集策略包括同步加载方式或异步加载方式，确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略。

另一些可能的实施方式中，在提取目标网址信息对应的历史采集策略之后，还可以进行小规模的测试。例如，所述策略确定单元220包括：提取子单元221，可以用于提取所述目标网址信息对应的历史采集策略，所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述历史采集策略包括同步加载方式或异步加载方式。小规模测试确定子单元222，可以用于按预设小规模测试规则确定用于标识小规模测试数据的HTML标签以及所述目标网址信息中需要测试的网址信息。策略测试子单元223，可以用于根据所述目标网址信息对应的历史采集策略以及用于标识小规模测试数据的HTML标签，尝试采集需要测试的网址信息指向的网页中的小规模测试数据。策略确定子单元224，可以用于如果采集成功，确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略。测试子单元225，可以用于如果采集不成功，则重新对该目标网址信息进行至少包括同步加载测试的目标数据采集测试，获得对应的可成功采集目标数据的采集策略。更新子单元226，可以用于根据所述测试子单元获得的采集策略更新所述目标网址信息对应的历史采集策略。

需要说明的是，本申请实施例对所述测试子单元225通过目标数据采集测试，获得对应的可成功采集目标数据的采集策略的具体实现方式不限。例如，一些可能的实施方式中，其中，所述测试子单元225可以包括：同步加载子单元2251，可以用于采取同步加载方式加载所述目标网址信息指向的网页。目标数据读取子单元2252，可以用于针对同步加载得到的网页，从中尝试读取目标数据。同步策略设置子单元2253，可以用于针对可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式。异步策略设置子单元2254，可以用于针对不可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。

一些可能的实施方式中，考虑到加载网页页面成功与否还会受到网络稳定性影响，可能需要在连接超时时重试连接以及在读取页面超时时重试读取页面，因此，其中，所述同步加载子单元2251，可以用于多次执行采取同步加载方式加载所述目标网址信息指向的网页的步骤。且，所述测试子单元还可以包括：同步记录子单元2255，可以用于在所述同步加载子单元每次执行加载时，均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间。同步超时设定子单元2256，可以用于在设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式时，根据所述同步加载子单元在多次执行加载过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中同步加载方式对应的连接超时时间以及获取页面超时时间的设定。异步记录子单元2257，可以用于针对不可从同步加载得到的网页中读取出目标数据的网址信息，多次采取异步加载方式加载其指向的网页，且每次执行时均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间。异步超时设定子单元2258，可以用于在设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式时，根据多次采取异步加载方式加载网页过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中连接超时时间以及获取页面超时时间的设定。

需要注意的是，本申请实施例所述的提取子单元221、小规模测试确定子单元222、策略测试子单元223、策略确定子单元224、同步测试子单元225、更新子单元226、同步加载子单元2251、目标数据读取子单元2252、同步策略设置子单元2253、异步策略设置子单元2254、同步记录子单元2255、同步超时设定子单元2256、异步记录子单元2257、异步超时设定子单元2258在图2中均以虚线绘制，以表示这些单元不是本申请提供的网页数据采集装置的必要单元。

与上述网页数据采集方法相对应的，本申请还提供了一种用于实现该方法的网页数据采集系统。

例如，参见图3，为本申请实施例提供的一种网页数据采集系统结构示意图。如图3所示，该系统可以包括：

客户端310，可以用于发出批量采集数据的请求，其中，所述请求携带有目标网址信息。

采集策略配置服务器320，可以用于接收批量采集数据的请求，其中，所述请求携带有目标网址信息，确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式；以及，生成用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据的采集任务，将所述采集任务分发给采集服务器集群330中的采集服务器。

采集服务器集群330，可以用于接收采集策略配置服务器分发的采集任务，执行所述采集任务，反馈采集到的目标数据。

可见，应用本申请实施例提供的网页数据采集系统，可以由采集策略配置服务器320生成批量的采集任务，按预置的分发策略将批量的采集任务分发给采集服务器集群330中空闲的采集服务器，使得采集任务可以并发执行，进一步提高了网页数据的采集效率。

一些可能的实施方式中，用户可以在客户端310设置批量采集配置信息，用户可以通过客户端310发出携带有该批量采集配置信息的请求。其中批量采集配置信息中可以包括目标网址信息等参数。在上面提到的批量采集某1688网站的不同搜索关键词的搜索结果数据的应用场景中，采集策略配置服务器320除了得到批量采集配置信息之外，还需要将用户提交的关键词文件按照指定地址下载到采集服务器集群330中用于执行数据采集测试的采集服务器上，同时，设置并保存关键词文件与存储地址的映射关系，例如，"taskKeywordsFile":"/home/admin/1/test.txt"。并将该映射关系封装到测试任务中，与测试任务一并发送给采集服务器。从而在采集服务器进行数据采集测试时，可以根据映射关系读取到关键词文件中的关键词，扩展出相应的用于搜索出与相关的页面数据的目标网址信息。

另一些可能的实施方式中，采集策略配置服务器320可以包括：策略生成服务器321、测试服务器322、数据库服务器323。

其中，策略生成服务器321，可以用于预先针对不同类型网址，生成预先测试任务，将预先测试任务提交给测试服务器322，从数据库服务器323获取测试时记录的加载方式、连接时间、获取页面时间等。根据所获取的加载方式、连接时间、获取页面时间生成与不同类型网址对应的采集策略。向数据库服务器323发送不同类型网址对应的采集策略以便作为历史采集策略入库保存。以及，接收客户端310发出的请求，从数据库服务器获取目标网址信息对应的历史采集策略。生成对所述目标网址信息采取历史采集策略进行小规模测试的小规模测试任务。将小规模测试任务提交给测试服务器322。如果测试采集成功，则可以生成用于根据所述历史采集策略采集所述目标网址信息指向的网页中的目标数据的采集任务。如果采集不成功，则生成对所述目标网址信息进行目标数据采集的重试任务。将重试测试任务提交给测试服务器322。从数据库服务器323获取重新测试时记录的加载方式、连接时间、获取页面时间等。根据所获取的加载方式、连接时间、获取页面时间，生成与目标网址信息对应的更新的采集策略。向数据库服务器323发送所述目标网址信息对应的更新的采集策略以便更新数据库中保存的历史采集策略，并生成用于根据更新的采集策略采集所述目标网址信息指向的网页中的目标数据的采集任务。将生成的采集任务分发给采集服务器集群330中的采集服务器来执行。

其中，测试服务器322，可以用于从策略生成服务器321得到预先测试任务、小规模测试任务、和/或者，重试任务。将得到的得到预先测试任务、小规模测试任务、和/或者，重试任务分发给采集服务器集群330中的采集服务器来执行。收集在测试任务执行过程中的加载方式、连接时间、获取页面时间等。将收集到的加载方式、连接时间、获取页面时间等保存到数据库中以便策略生成服务器321使用。在测试服务器322中，可以包含同步加载方式和异步加载方式两种加载方式，其中，同步加载方式可以采用httpclient+htmlparser的方式进行加载和页面解析，异步加载方式可以采用webkit进行加载和页面解析。

其中，数据库服务器323，可以用于保存所述测试服务器322收集到的加载方式、连接时间、获取页面时间等，以及，保存策略生成服务器321生成的采集策略。

在上面的实施方式中，采集策略配置服务器320与采集服务器集群330可以布置不同的网络系统中。数据库服务器323可以搭建在MySQL数据库集群上。另外，考虑到数据的量级，数据库服务器323可以采用分布式进行部署以提供良好的读取性能。

需要注意的是，本申请实施例所述策略生成服务器321、测试服务器322、数据库服务器在图2中以虚线绘制，以表示这些单元不是采集策略配置服务器的必要服务器。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

一种网页数据采集方法，其特征在于，包括：

接收批量采集数据的请求，其中，所述请求携带有目标网址信息；

确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式；

根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。
根据权利要求1所述的方法，其特征在于，所述确定所述目标网址信息对应的可成功采集目标数据的采集策略包括：

提取所述目标网址信息对应的历史采集策略，所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述历史采集策略包括同步加载方式或异步加载方式；

确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略。
根据权利要求1所述的方法，其特征在于，所述确定所述目标网址信息对应的可成功采集目标数据的采集策略包括：

提取所述目标网址信息对应的历史采集策略，所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述历史采集策略包括同步加载方式或异步加载方式；

按预设小规模测试规则确定用于标识小规模测试数据的HTML标签以及所述目标网址信息中需要测试的网址信息；

根据所述目标网址信息对应的历史采集策略以及用于标识小规模测试数据的HTML标签，尝试采集需要测试的网址信息指向的网页中的小规模测试数据；

如果采集成功，则确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略；

如果采集不成功，则对该目标网址信息进行至少包括同步加载测试的目标数据采集测试，获得对应的可成功采集目标数据的采集策略，根据获得的采集策略更新所述目标网址信息对应的历史采集策略。
根据权利要求1-3任一项所述的方法，其特征在于，所述对目标网址信息进行至少包括同步加载测试的目标数据采集测试包括：

采取同步加载方式加载所述目标网址信息指向的网页，针对同步加载得到的网页，从中尝试读取目标数据，针对可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式，针对不可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。
根据权利要求4所述的方法，其特征在于，所述采取同步加载方式加载所述目标网址信息指向的网页的步骤多次执行，且，还包括：

在每次执行时，均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间，在设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式时，根据在多次执行过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中同步加载方式对应的连接超时时间以及获取页面超时时间的设定；

针对不可从同步加载得到的网页中读取出目标数据的网址信息，多次采取异步加载方式加载其指向的网页，且每次执行时均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间，在设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式时，根据多次采取异步加载方式加载网页过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中异步加载方式对应的连接超时时间以及获取页面超时时间的设定。
一种网页数据采集装置，其特征在于，包括：

请求接收单元，用于接收批量采集数据的请求，其中，所述请求携带有目标网址信息；

策略确定单元，用于确定所述目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式；

采集单元，用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据。
根据权利要求6所述的装置，其特征在于，所述策略确定单元，用于提取所述目标网址信息对应的历史采集策略，所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述历史采集策略包括同步加载方式或异步加载方式，确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略。
根据权利要求6所述的装置，其特征在于，所述策略确定单元包括：

提取子单元，用于提取所述目标网址信息对应的历史采集策略，所述历史采集策略具体预先通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述历史采集策略包括同步加载方式或异步加载方式；

小规模测试确定子单元，用于按预设小规模测试规则确定用于标识小规模测试数据的HTML标签以及所述目标网址信息中需要测试的网址信息；

策略测试子单元，用于根据所述目标网址信息对应的历史采集策略以及用于标识小规模测试数据的HTML标签，尝试采集需要测试的网址信息指向的网页中的小规模测试数据；

策略确定子单元，用于如果采集成功，确定所述历史采集策略为所述目标网址信息对应的可成功采集目标数据的采集策略；

测试子单元，用于如果采集不成功，则对该目标网址信息进行至少包括同步加载测试的目标数据采集测试，获得对应的可成功采集目标数据的采集策略；

更新子单元，用于根据所述测试子单元获得的采集策略更新所述目标网址信息对应的历史采集策略。
根据权利要求8所述的装置，其特征在于，所述测试子单元包括：

同步加载子单元，用于采取同步加载方式加载所述目标网址信息指向的网页；目标数据读取子单元，用于针对同步加载得到的网页，从中尝试读取目标数据；同步策略设置子单元，用于针对可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式；异步策略设置子单元，用于针对不可从同步加载得到的网页中读取出目标数据的网址信息，设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式。
根据权利要求9所述的装置，其特征在于，所述同步加载子单元，用于多次执行采取同步加载方式加载所述目标网址信息指向的网页的步骤；

且，所述测试子单元还包括：

同步记录子单元，用于在所述同步加载子单元每次执行加载时，均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间；

同步超时设定子单元，用于在设置该类型的网址信息对应的采集策略中的加载方式为同步加载方式时，根据所述同步加载子单元在多次执行加载过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中同步加载方式对应的连接超时时间以及获取页面超时时间的设定；

异步记录子单元，用于针对不可从同步加载得到的网页中读取出目标数据的网址信息，多次采取异步加载方式加载其指向的网页，且每次执行时均记录与网址建立连接的时间、以及在连接后用于获取网页页面的时间；

异步超时设定子单元，用于在设置该类型的网址信息对应的采集策略中的加载方式为异步加载方式时，根据多次采取异步加载方式加载网页过程中记录的建立连接的时间、以及在连接后用于获取网页页面的时间，进行对应的采集策略中连接超时时间以及获取页面超时时间的设定。
一种网页数据采集系统，其特征在于，包括：

客户端，用于发出批量采集数据的请求，其中，所述请求携带有目标网址信息；

采集策略配置服务器，用于接收客户端发送的批量采集数据的请求，确定所述请求携带的目标网址信息对应的可成功采集目标数据的采集策略，其中，所述目标网址信息对应的采集策略具体通过对该目标网址信息进行至少包括同步加载测试的目标数据采集测试获得，所述采集策略包括同步加载方式或异步加载方式，以及，生成用于根据所述目标网址信息对应的采集策略中设置的同步加载方式或异步加载方式，采取相应的加载方式采集所述目标网址信息指向的网页中的目标数据的采集任务，将所述采集任务分发给采集服务器集群中的采集服务器；

采集服务器集群，用于接收采集策略配置服务器分发的采集任务，执行所述采集任务，反馈采集到的目标数据。