WO2018157686A1

WO2018157686A1 - 网页爬取方法和装置

Info

Publication number: WO2018157686A1
Application number: PCT/CN2018/074262
Authority: WO
Inventors: 单长美; 李玲
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-03-01
Filing date: 2018-01-26
Publication date: 2018-09-07
Also published as: CN108536691A

Abstract

一种网页爬取方法包括：配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；根据所述目标网站生成爬取列表；依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。

Description

网页爬取方法和装置

技术领域

本公开涉及但不限于互联网技术领域，尤其是一种网页爬取方法和装置。

背景技术

随着网络信息技术的迅猛发展，网站上的大数据正呈指数级形式飞速增长，网页已经成为海量信息的载体。通常采用网络爬虫来抓取网站数据的方式来采集网页中的信息。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本领域已知的网页爬取方式抓取网站数据时，采用全部爬取方式，爬取的杂质数据通常是有效数据的十倍以上，既大大增加了对存储空间的要求，也为用户后期数据提取增加了难度。特别是网页中包含大量与主题无关的网站链接，对网页中所有的网站链接进行爬取时，既抓取了大量无用的杂质数据，又占用了大量的带宽资源，因此对带宽要求较高。

本公开提供一种网页爬取方法和装置，对存储空间和带宽的要求不高。

本公开实施例提供一种网页爬取方法，包括以下步骤：

配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；

根据所述目标网站生成爬取列表；

依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；

根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。

在一种示例性实施方式中，所述URL限制策略包括指定URL只执行一次爬取，或指定URL每隔预设时长执行一次爬取，或指定第一URL只执行一次爬取和指定第二URL每隔预设时长执行一次爬取。

在一种示例性实施方式中，所述爬取策略还包括频率限制策略，所述依次爬取所述爬取列表中目标网站的网页包括：根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。

在一种示例性实施方式中，所述爬取策略还包括数量限制策略，所述依次爬取所述爬取列表中目标网站的网页包括：根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。

在一种示例性实施方式中，所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。

在一种示例性实施方式中，所述依次爬取所述爬取列表中目标网站的网页包括：

抓取所述目标网站的网页信息；

根据预设的解析插件对所述网页信息进行去噪处理，提取出所述网页信息中的有效内容并予以存储。

在一种示例性实施方式中，所述解析插件包括通用解析插件或经用户对通用解析插件进行二次开发后的自定义解析插件。

本公开实施例还提供一种网页爬取装置，所述装置包括：

配置模块，设置为：配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；

网页爬取模块，设置为：根据所述目标网站生成爬取列表；依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；

链接过滤模块，设置为：根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供所述网页爬取模块后续爬取。

在一种示例性实施方式中，所述爬取策略还包括频率限制策略，所述网页爬取模块是设置为：根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。

在一种示例性实施方式中，所述爬取策略还包括数量限制策略，所述网页爬取模块是设置为：根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。

在一种示例性实施方式中，所述网页爬取模块包括：

抓取单元，设置为：抓取所述目标网站的网页信息；

解析单元，设置为：根据预设的解析插件对所述网页信息进行去噪处理，提取出所述网页信息中的有效内容并予以存储。

在一种示例性实施方式中，所述装置还包括插件开发模块，所述插件开发模块设置为：接收用户对通用解析插件进行二次开发的指令，生成自定义解析插件。

本公开实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被执行时实现上述网页爬取方法。

本公开实施例的网页爬取方法，通过配置URL限制策略，根据URL限制策略过滤爬取的网页中的网站链接，以滤除网站链接中的无效链接，将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。从而有效过滤了无关网站，减少了网站爬取数据，更大程度上定位到有用信息的爬取，既提高了爬取效率，减少了无用的杂质数据，进而降低了对存储空间的要求，又大大减少了对带宽的占用，对存储空间和带宽的要求不高。

同时，利用解析插件对抓取的网页信息进行去噪处理，提取出网页信息中的有效内容予以存储，从而大大降低了对存储空间的要求，并减小了杂质数据的干扰，为用户后期数据提取降低了难度。并且，允许用户对通用解析插件进行二次开发生成自定义解析插件，利用自定义解析插件解析网页信息，实现了对网站数据进行精确爬取，并满足了用户的个性化需求。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图概述

图1为本公开第一实施例的网页爬取方法的流程图；

图2为本公开第二实施例的网页爬取装置的模块示意图；

图3为图2中的网页爬取模块的模块示意图；

图4为本公开第三实施例的网页爬取装置的模块示意图；

图5为图4中的网页爬取装置进行网页爬取时多个模块的交互示意图。

本公开的较佳实施方式

下面结合附图对本公开的实施方式进行描述。

实施例一

参见图1，提出本公开第一实施例的网页爬取方法，所述方法包括以下步骤：

S11、配置爬取任务和爬取策略，爬取任务包括目标网站，爬取策略包括URL限制策略。

本步骤S11中，网页爬取装置可以接收用户的配置操作，对爬取任务和爬取策略进行配置。

爬取任务至少包括目标网站，即可以接收用户对待爬取的网站入口的设置，根据该设置配置出待爬取的目标网站。此外，爬取任务还可以包括任务每天启停时间(即开启时间和停止时间)、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种，即用户还可以配置任务每天启动时间、任务每天停止时间、任务爬取深度、任务每天循环次数、任务循环间隔时间等参数信息。

爬取策略至少包括统一资源定位器(Uniform Resource Locator，URL)限制策略，所述URL限制策略可以包括指定URL只执行一次爬取，或指定URL每隔预设时长执行一次爬取，或指定某一URL(这里称为第一URL)只执行一次爬取和指定另一URL(这里称为第一URL)每隔预设时长执行一次爬取，例如：某些URL执行一次爬取之后，后续可以不再次爬取；某些URL爬取一次之后，一段时间内不再爬取。可选地，爬取策略还可以包括频率限制策略、数量限制策略等，其中，频率限制策略是指对网页中不同的内容设置不同的爬取频率，数量限制策略是指只爬取网页中预设数量的指定内容。

S12、根据目标网站生成爬取列表。

本步骤S12中，网页爬取装置首先可以读取用户配置的目标网站，将目标网站的URL进行合并，消除重复的URL入口；然后可以对合并处理后的URL进行排序，如通过域名、链接数和哈希(hash)算法综合进行降序(或升序)排列，生成爬取列表。

S13、依次爬取爬取列表中目标网站的网页，获取网页中的网站链接。

本步骤S13中，网页爬取装置可以根据爬取列表中至少一个目标网站中每个目标网站的URL的排列顺序，依次爬取目标网站的网页。网页爬取装置可以向目标网站发送请求，抓取目标网站的网页信息，该网页信息可以包括正文、评论、网站链接等各种网页内容，并将网页信息存储起来。网页爬取装置可配置多线程进行抓取，以提高抓取效率，对于同一域名的网站可以采取特定的爬取策略，以避开网站的防爬设计，如采取降低爬取频率、延长爬取周期、采用多台机器进行爬取等策略。

可选地，还可以预设解析插件，该解析插件可以采用readabilityBUNDLE算法来实现，可以利用解析插件对抓取的网页信息进行去噪处理，以对网页信息进行精简化，去除网页信息中的广告、网站背景等无效内容(或非必要内容)，只提取出网页信息中的标题、文章、评论等有效内容，只将有效内容存储起来，由此，大大降低了对存储空间的要求，并减小了杂质数据的干扰，为用户后期数据提取降低了难度。

可选地，解析插件将网页信息解析为结构化数据，网页爬取装置的存储模块将解析过后的结构化数据存储到文件系统中。可选地，若一次抓取的数据过大则分大于一个文件进行存储，如每个文件最大容量可为10M(最大容量可修改)，方便后续数据文件的处理。

前述解析插件可以包括出厂预置的通用解析插件，也可以包括经用户对通用解析插件进行二次开发后的自定义解析插件。例如，用户有特殊需求，要解析出文章、作者、发表时间、日期等特定信息，则用户可以在线编辑通用解析插件获取自定义解析插件，网页爬取装置则可以加载该自定义解析插件，按照用户要求解析网页信息，将网页信息解析成用户需要的结构化数据，从而实现根据用户要求对网站数据进行精确爬取。

可选地，当爬取策略还包括频率限制策略时，网页爬取装置则根据频率限制策略以不同的频率爬取目标网站的网页中不同的内容。例如，针对新闻网站，对新闻内容的爬取可以非常频繁(如一个小时爬取一次)，但评论内容的爬取则可以一天一次。从而，一方面提高了爬取效率，另一方面减少了无用的杂质数据，降低了对存储空间的要求。

可选地，当爬取策略还包括数量限制策略时，网页爬取装置则根据数量限制策略爬取目标网站的网页中预设数量的指定内容。例如，对于评论内容的爬取，可以只爬取预设条数的评论内容，或者只爬取预设页数(如最前面的几页)的评论内容。从而，一方面提高了爬取效率，另一方面减少了无用的杂质数据，降低了对存储空间的要求。

S14、根据URL限制策略过滤网站链接，将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。

本步骤S14中，网页爬取装置可以根据配置的URL限制策略对当前爬取的网页中的网站链接进行过滤，滤除网站链接中的无效链接，只将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中，以待后续爬取。

例如，对于某些URL，URL限制策略为只执行一次爬取。相应地，对于这些URL中的任意一个URL，当网页爬取装置对该URL执行一次爬取之后，则滤除该URL，后续不再爬取该URL。

又如，对于某些URL，URL限制策略为每隔预设时长执行一次爬取。相应地，对于这些URL中的任意一个URL，当网页爬取装置对该URL执行一次爬取之后，在预设时长内滤除该URL，即一段时间内不再爬取该URL。

可选地，网页爬取装置还可以对爬取任务进行监控，例如监控任务的运行状态，包括是否处于正在运行状态、上次成功执行时间、上次成功执行时长、上次执行失败时间等等，以方便用户实时查看和管理。

可选地，网页爬取装置还可以对爬取任务进行管理，包括添加任务、删除任务、启动任务、停止任务、立即启动任务、查看任务信息等操作，以方便用户对爬取任务进行实时管理。

从而，本公开实施例的网页爬取方法，通过对爬取到的外链进行控制，有效过滤了无关网站，减少了网站爬取数据，更大程度上定位到有用信息的爬取，既提高了爬取效率，减少了无用的杂质数据，进而降低了对存储空间的要求，又大大减少了对带宽的占用。

实施例二

参见图2，提出本公开第二实施例的网页爬取装置，所述装置包括配置模块10、网页爬取模块20和链接过滤模块30，其中：

配置模块10：设置为配置爬取任务和爬取策略。

本实施例中，配置模块10可以是设置为：接收用户的配置操作，对爬取任务和爬取策略进行配置。

爬取任务至少包括目标网站，即配置模块10可以是设置为：接收用户对待爬取的网站入口的设置，根据该设置配置出待爬取的目标网站。此外，爬取任务还可以包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种，即用户还可以配置任务每天启动时间、任务每天停止时间、任务爬取深度、任务每天循环次数、任务循环间隔时间等参数信息。

爬取策略至少包括URL限制策略，所述URL限制策略可以包括指定URL只执行一次爬取，或指定URL每隔预设时长执行一次爬取，或指定某一URL(这里称为第一URL)只执行一次爬取和指定另一URL(这里称为第二URL)每隔预设时长执行一次爬取，例如：某些URL执行一次爬取之后，后续不需要再次爬取；某些URL爬取一次之后，一段时间内不再爬取。可选地，爬取策略还可以包括频率限制策略、数量限制策略等，其中，频率限制策略是指对网页中不同的内容设置不同的爬取频率，数量限制策略是指只爬取网页中预设数量的指定内容。

网页爬取模块20：设置为根据目标网站生成爬取列表，依次爬取爬取列表中目标网站的网页，获取网页中的网站链接。

如图3所示，网页爬取模块20可以包括生成单元201和抓取单元202，生成单元201设置为根据目标网站生成爬取列表，抓取单元202设置为抓取目标网站的网页信息。

生成单元201可以是设置为：读取用户配置的目标网站，将目标网站的URL进行合并，消除重复的URL入口；然后对合并处理后的URL进行排序，如通过域名、链接数和哈希(hash)算法综合进行降序(或升序)排列，生成爬取列表。

抓取单元202可以是设置为：根据爬取列表中至少一个目标网站中每个目标网站的URL的排列顺序，依次爬取目标网站的网页。可选地，抓取单元202可以是设置为：向目标网站发送请求，抓取目标网站的网页信息，该网页信息包括正文、评论、网站链接等各种网页内容，并将网页信息存储起来。抓取单元202可以是设置为：配置多线程进行抓取，以提高抓取效率，对于同一域名的网站可以采取特定的爬取策略，以避开网站的防爬设计，如采取降低爬取频率、延长爬取周期、采用多台机器进行爬取等策略。

可选地，网页爬取模块20还包括解析单元203，该解析单元203设置为：根据预设的解析插件对网页信息进行去噪处理，提取出网页信息中的有效内容并予以存储。可选地，解析插件将网页信息解析为结构化数据。

解析插件可以采用readabilityBUNDLE算法来实现，解析单元203可以是设置为：加载解析插件后，利用解析插件对抓取的网页信息进行去噪处理，以对网页信息进行精简化，去除网页信息中的广告、网站背景等无效内容(或非必要内容)，只提取出网页信息中的标题、文章、评论等有效内容，只将有效内容存储起来，从而大大降低了对存储空间的要求，并减小了杂质数据的干扰，为用户后期数据提取降低了难度。

可选地，当爬取策略还包括频率限制策略时，网页爬取模块20还设置为：根据频率限制策略以不同的频率爬取目标网站的网页中不同的内容。例如，针对新闻网站，对新闻内容的爬取可以非常频繁(如一个小时爬取一次)，但评论内容的爬取则可以一天一次。从而，一方面提高了爬取效率，另一方面减少了无用的杂质数据，降低了对存储空间的要求。

可选地，当爬取策略还包括数量限制策略时，网页爬取模块20还设置为：根据数量限制策略爬取目标网站的网页中预设数量的指定内容。例如，对于评论内容的爬取，可以只爬取预设条数的评论内容，或者只爬取预设页数(如最前面的几页)的评论内容。从而，一方面提高了爬取效率，另一方面减少了无用的杂质数据，降低了对存储空间的要求。

链接过滤模块30：设置为根据URL限制策略过滤网站链接，以滤除网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供网页爬取模块20后续爬取。

链接过滤模块30可以是设置为：根据配置的URL限制策略对当前爬取的网页中的网站链接进行过滤，滤除网站链接中的无效链接，只将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中，更新爬取列表，以待网页爬取模块20后续爬取新加入的网站链接。

例如，对于某些URL，URL限制策略为只执行一次爬取。相应地，对于这些URL中的任意一个URL，当网页爬取模块20对该URL执行一次爬取之后，链接过滤模块30则滤除该URL，以使网页爬取模块20后续不再爬取该URL。

又如，对于某些URL，URL限制策略为每隔预设时长执行一次爬取。相应地，对于这些URL中的任意一个URL，当网页爬取模块20对该URL执行一次爬取之后，在预设时长内链接过滤模块30滤除该URL，即一段时间内网页爬取模块20不再爬取该URL。

可选地，网页爬取装置还可以包括存储模块，存储模块设置为：将解析过后的结构化数据存储到文件系统中。可选地，若一次抓取的数据过大则分大于一个文件进行存储，如每个文件的最大容量可为10M(最大容量可修改)，方便后续数据文件的处理。

在某些实施例中，前述解析插件可以包括出厂预置的通用解析插件。

在一可选实施例中，所述装置还可以包括插件开发模块，所述插件开发模块设置为：接收用户对通用解析插件进行二次开发的指令，生成自定义解析插件。

例如，用户有特殊需求，要解析出文章、作者、发表时间、日期等特定信息，则用户可以通过插件开发模块在线编辑通用解析插件获取自定义解析插件，网页爬取模块20则可以加载该自定义解析插件，按照用户要求解析网页信息，将网页信息解析成用户需要的结构化数据，从而实现根据用户要求对网站数据进行精确爬取。

从而，本公开实施例的网页爬取装置，通过对爬取到的外链进行控制，有效过滤了无关网站，减少了网站爬取数据，更大程度上定位到有用信息的爬取，既提高了爬取效率，减少了无用的杂质数据，进而降低了对存储空间的要求，又大大减少了对带宽的占用。

实施例三

参见图4，提出本公开第三实施例的网页爬取装置，所述装置包括图形用户界面模块100、基础支撑模块200、插件开发模块300、爬取模块400和存储模块500，其中：

基础支撑模块200：设置为提供网页爬取的基础服务，包括各种配置、管理及监控类服务。基础支撑模块200与用户进行交互，用户可通过交互式方式对任务进行操作，系统支持多任务同时运行。通过此模块对整个系统进行管理，接收用户配置的目标种子(如目标网站)，及各种爬取策略，将接收的用户配置的上述信息保存在配置文件中，供后续爬取使用。

基础支撑模块200可包括配置模块10和监管模块，该配置模块10与第二实施例中的配置模块10相同，在此不赘述。监管模块设置为对爬取任务进行监控和管理，其中：进行任务监控时，监控任务的运行状态，包括是否处于正在运行状态、上次成功执行时间、上次成功执行时长、上次执行失败时间等等，以方便用户实时查看和管理；进行任务管理时，包括添加任务、删除任务、启动任务、停止任务、立即启动任务、查看任务信息等操作，以方便用户对爬取任务进行实时管理。

图形用户界面模块100：设置为为用户提供图形化显示界面，方便用户进行图形化操作，包括爬取任务配置、爬取策略配置、任务监控、任务管理及插件开发的图形化展示和操作，实现用户交互式操作，极大程度上提升易用性。

插件开发模块300：设置为接收用户对通用解析插件进行二次开发的指令，生成自定义解析插件。用户可根据需求在图形化界面上开发用户特有的解析插件。本实施例中的插件开发模块300与第二实施例中的插件开发模块300相同，在此不赘述。

爬取模块400：设置为根据目标网站生成爬取列表，依次爬取爬取列表中目标网站的网页，获取网页中的网站链接；根据URL限制策略过滤网站链接，以滤除网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供网页爬取模块20后续爬取。本实施例中的爬取模块相当于由第二实施例中的网页爬取模块20和链接过滤模块30组合而成，可参见第二实施例中的网页爬取模块20和链接过滤模块30，在此不再赘述。

存储模块500：设置为存储爬取模块爬取的网页信息。当爬取模块对网页信息进行了解析时，将解析过后的结构化数据存储到文件系统中。可选地，若一次抓取的数据过大则分大于一个文件进行存储，如每个文件最大容量可为10M(最大容量可修改)，方便后续数据文件的处理。

如图5所示，采用本实施例的网页爬取装置进行网页爬取时，可包括以下流程：

步骤101：当用户进行爬取任务配置、爬取策略配置、任务管理等操作时，图形用户界面模块下发操作命令给基础支撑模块，基础支撑模块解析操作命令，并进行相应的处理。

步骤102：基础支撑模块模块对用户的操作命令进行相应处理后，将操作结果返回用户，并保存信息，如配置等操作信息。

步骤103：当用户在线进行插件开发编辑后，图形用户界面发送操作命令给插件开发模块，插件开发模块解析操作命令，并进行相应的处理。

步骤104：插件开发模块将用户开发的解析插件生成为自定义解析插件，供后面解析网页使用，保存信息，并将操作结果返回给图形用户界面以显示给用户。

步骤105：用户通过图形用户界面模块向爬取模块发出立即启动任务命令，爬取模块做出相应反应。

步骤106：当配置的任务启动时间到时，爬取模块做出相应反应。

步骤107：当接收到立即启动任务命令时或者任务启动时间到达时，爬取模块启动爬取任务，对网页进行爬取，解析网页，并将过滤后的外链加入到待爬取网页库(如爬取列表)。

步骤108：爬取模块爬取完成后，下发存储命令给存储模块，通知其存储数据。

步骤109：存储模块接收到存储命令后，将网页结构化后的数据存储在文件中，根据数据大小分文件存储。

步骤110：存储模块存储完成后，返回爬取结果给图形用户界面，以通过给图形用户界面告知用户所有操作完成，并更新任务状态。

本公开实施例的网页爬取装置，通过配置URL限制策略，根据URL限制策略过滤爬取的网页中的网站链接，以滤除网站链接中的无效链接，将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。从而有效过滤了无关网站，减少了网站爬取数据，更大程度上定位到有用信息的爬取，既提高了爬取效率，减少了无用的杂质数据，进而降低了对存储空间的要求，又大大减少了对带宽的占用。

本公开实施例的网页爬取装置，既可设置在单机上也可设置在hadoop集群中。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加与软件相配合的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本公开的技术方案本质上或者说对本领域做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开不同实施例所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、电可擦除只读存储器(EEPROM，Electrically Erasable Programmable Read-only Memory)、闪存或其他存储器技术、光盘只读存储器(CD-ROM，Compact Disc Read-Only Memory)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本领域的普通技术人员可以理解，可以对本公开的技术方案进行修改或者等同替换，而不脱离本公开技术方案的精神和范围，均应涵盖在本公开的权利要求范围当中。

工业实用性

本公开实施例的网页爬取方法，通过配置URL限制策略，根据URL限制策略过滤爬取的网页中的网站链接，以滤除网站链接中的无效链接，将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。从而有效过滤了无关网站，减少了网站爬取数据，更大程度上定位到有用信息的爬取，既提高了爬取效率，减少了无用的杂质数据，进而降低了对存储空间的要求，又大大减少了对带宽的占用。

Claims

一种网页爬取方法，包括以下步骤：

配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；

根据所述目标网站生成爬取列表；

依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；

根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。
根据权利要求1所述的网页爬取方法，其中，所述URL限制策略包括指定URL只执行一次爬取，或指定URL每隔预设时长执行一次爬取，或指定第一URL只执行一次爬取和指定第二URL每隔预设时长执行一次爬取。
根据权利要求1所述的网页爬取方法，其中，

所述爬取策略还包括频率限制策略，所述依次爬取所述爬取列表中目标网站的网页包括：

根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。
根据权利要求1所述的网页爬取方法，其中，

所述爬取策略还包括数量限制策略，所述依次爬取所述爬取列表中目标网站的网页包括：

根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。
根据权利要求1所述的网页爬取方法，所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。
根据权利要求1至5任一项所述的网页爬取方法，其中，所述依次爬取所述爬取列表中目标网站的网页包括：

抓取所述目标网站的网页信息；

根据预设的解析插件对所述网页信息进行去噪处理，提取出所述网页信息中的有效内容并予以存储。
根据权利要求6所述的网页爬取方法，其中，所述解析插件包括通用解析插件或经用户对通用解析插件进行二次开发后的自定义解析插件。
一种网页爬取装置，包括：

配置模块，设置为：配置爬取任务和爬取策略；所述爬取任务包括目标网站，所述爬取策略包括URL限制策略；

网页爬取模块，设置为：根据所述目标网站生成爬取列表；依次爬取所述爬取列表中目标网站的网页，获取所述网页中的网站链接；

链接过滤模块，设置为：根据所述URL限制策略过滤所述网站链接，以滤除所述网站链接中的无效链接，并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供所述网页爬取模块后续爬取。
根据权利要求8所述的网页爬取装置，其中，所述URL限制策略包括指定URL只执行一次爬取，或指定URL每隔预设时长执行一次爬取，指定第一URL只执行一次爬取和指定第二URL每隔预设时长执行一次爬取。
根据权利要求8所述的网页爬取装置，

所述爬取策略还包括频率限制策略，所述网页爬取模块还设置为：根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。
根据权利要求8所述的网页爬取装置，

所述爬取策略还包括数量限制策略，所述网页爬取模块还设置为：根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。
根据权利要求8所述的网页爬取装置，所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。
根据权利要求8至12任一项所述的网页爬取装置，其中，所述网页爬取模块包括：

抓取单元，设置为：抓取所述目标网站的网页信息；

解析单元，设置为：根据预设的解析插件对所述网页信息进行去噪处理，提取出所述网页信息中的有效内容并予以存储。
根据权利要求13所述的网页爬取装置，其中，

所述装置还包括插件开发模块，所述插件开发模块设置为：接收用户对通用解析插件进行二次开发的指令，生成自定义解析插件。