WO2020211367A1

WO2020211367A1 - 数据爬取方法、装置、计算机设备和存储介质

Info

Publication number: WO2020211367A1
Application number: PCT/CN2019/118419
Authority: WO
Inventors: 张师琲
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-04-19
Filing date: 2019-11-14
Publication date: 2020-10-22
Also published as: CN110209909A

Abstract

本申请涉及一种数据爬取方法、装置、计算机设备和存储介质，该方法包括：根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；根据所述代码块序列，对所需爬虫进行配置；采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：对预设的多个网站分别进行数据爬取，并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。本申请能够满足用户的不同需求。

Description

数据爬取方法、装置、计算机设备和存储介质

本申请要求与2019年4月19日提交中国专利局、申请号为201910319429X、申请名称为“数据爬取方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及爬虫技术领域，尤其涉及一种数据爬取方法、装置、计算机设备和存储介质。

背景技术

发明人发现目前，开源爬虫的种类繁多，但是各种爬虫各有优缺，不能满足数据爬取的各种需求。举例来说，随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。而万维网上的数据形式有多种，例如图片、数据库、音频、视频多媒体等，还有不同形式的网页、不同形式的反爬技术，使得目前开源社区各种各样的爬虫已经不足以支持对于不同形式数据的爬取要求。

发明内容

本申请实施例提供一种数据爬取方法、装置、计算机设备和存储介质，能够满足数据爬取的不同需求。

依据本申请一个方面，本申请实施例提供一种数据爬取方法，包括：

根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；

根据所述代码块序列，对所需爬虫进行配置；

采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；

其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：

对预设的多个网站分别进行数据爬取，并将在数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。

依据本申请另一个方面，本申请实施例还提供一种数据爬取装置，包括：

序列确定模块，用于根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；

爬虫配置模块，用于根据所述代码块序列，对所需爬虫进行配置；

数据爬取模块，用于采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；

数据库构建模块，用于预先构建所述数据库，所述数据库中包括多个代码块，所述数据库构建模块具体用于：对预设的多个网站分别进行数据爬取，并将在数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。

依据本申请又一个方面，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述数据爬取方法的步骤。

依据本申请再一个方面，本申请实施例还提供一种存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述数据爬取方法的步骤。

本申请实施例提供的数据爬取方法、装置、计算机设备和存储介质，根据数据爬取需求从数据库中选择所需的代码块，然后将选择出的各个代码块按照步骤执行顺序进行排序，得到代码块序列，进而依据代码块序列配置所需的爬虫，最后利用配置好的爬虫进行数据爬取。由于本申请实施例可以根据数据爬取需求选择出所需的代码块，然后对选择出的代码块进行排序，也就是说，相当于根据数据爬取需求选择多个爬取步骤进而对各个爬取步骤进行组合排序，这样配置成的爬虫可以满足用户的各种需求，例如，是下载整个网页还是精准抓取、是抓取javascript网页还是非javascript网页等，而且，本申请实施例提供的数据爬取方法简单、易配置，可以实现对不同网站、不同形式的数据的爬取。

附图说明

图1为一个实施例中计算机设备的内部结构框图；

图2为一个实施例中数据爬取方法的流程图；

图3为一个实施例中数据爬取装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为本申请一个实施例中计算机设备的结构示意图。如图1所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种数据爬取方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种数据爬取方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请实施例提供一种数据爬取方法，该方法可以由图1中的计算机设备执行。如图2所示，该方法包括如下步骤：

S21、根据数据爬取需求，从预先构建的数据库中选择所需的代码块，并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；

其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：对预设的多个网站分别进行数据爬取，并将在数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。

可理解的是，上述计算机代码为爬取步骤对应的代码，可以简称为爬取代码。

在实际应用中，上述预设的多个网站，例如，某购物网站、某交友网站、某新闻网站、某数据库网站等，可以选择不同种类的网站作为上述预设的多个网站，从而使得构建的数据库中的代码块比较全面，能够配置成各种爬虫。

可理解的是，在数据库构建过程中，将每一个爬取步骤对应的代码作为一个代码块，一个代码块也可以称之为一个组件，也就是说，一个步骤对应一个代码块或一个组件。所谓的步骤，例如，爬取网页时的登陆的步骤、进入列表的步骤、翻页的步骤、下拉翻滚的步骤等。可见，将每一个步骤对应的计算机代码作为一个代码块保存至数据库中，相当于将每一个步骤作为一个单独的组件保存下来。

在实际应用中，上述对预设的多个网站分别进行数据爬取的过程可以包括：对所述预设的多个网站分别编写对应的计算机代码，并采用每一网站对应的计算机代码对该网站进行数据爬取。

也就是说，针对每一个预设的网站先编写计算机代码，这样可以得到适合爬取该网站的爬虫，然后采用每一个预设的网站对应的计算机代码(即每一个预设的网站对应的爬虫)进行数据爬取，将爬取过程中的每一个步骤对应的代码作为一个代码块(也可以称之为一个组件)保存至数据库中。这种针对每一个预设的网站编写计算机代码的方式，能够得到非常适合该网站的爬虫，以便使得在数据爬取过程中各个步骤能够非常有效的完成爬取工作。

其中，上述对所述预设的多个网站分别编写对应的计算机代码的过程可以包括：采用细粒度分解方式对所述预设的多个网站分别编写对应的用来进行数据爬取的计算机代码。通俗的讲就是将业务模型中的对象加以细分，从而得到更科学合理的对象模型，直观的说就是划分出很多对象。具体过程可以包括：对预设的每一个网站编写对应的用来进行数据爬取的计算机代码时，针对不同的爬取对象分别编写计算机代码；其中，所述爬取对象包括图品、音频、视频和文字信息中的至少一种。举例来说，对某个新闻网站编写计算机代码时，将该新闻网站中的图片作为爬取对象编写计算机代码、将该新闻网站中的音频作为爬取对象编写计算机代码、将该新闻网站中的视频作为爬取对象编写计算机代码、将该新闻网站中的文字信息作为爬取对象编写计算机代码等。针对每一个网站均细分出很多爬取对象，可以使数据库中的代码块更加全面，这样可以满足各种各样的数据爬取需求。

举例来说，通过上述过程构建的数据库中的多个代码块所对应的多个步骤可以包括：(1)登录记录cookie；(2)进入列表页爬取网络地址URL；(3)进入文章页爬取文章内容；(4)点击next翻到下一页继续执行；(5)进入文章页爬取文章内容；(6)下拉滚动条出现下一页内容；(7)搜索框输入内容搜索。

可理解的是，上述数据爬取需求可以是多种多样的，例如，对哪个网站进行数据爬取，对该网站上的何种内容(图片、音频、视频、文字等)进行数据爬取。不同的数据爬取需求，所需要的代码块不同。

可理解的是，本申请实施例根据数据爬取需求从数据库中选择出所需要的各个代码块，由于不同的代码块对应不同的步骤，也就是说，各个代码块的执行顺序对应各个步骤的执行顺序，因此需要对各个代码块进行排序，相当于按照执行顺序对各个步骤进行排序。

例如，用户想要爬取新浪微博的内容，根据这一数据爬取需求，可知爬取步骤会包括：登录-搜索热词-爬取微博ID、微博内容、发布时间等-翻页，可见依据上文举例，其步骤顺序大致是(1)-(7)-(3)-(4)，因此需要从数据库中选择出步骤(1)、(3)、(4)、(7)对应的代码块，然后将这四个代码块按照执行顺序(1)-(7)-(3)-(4)进行排序，得到对应的代码块序列。

再例如，用户想要爬取网易新闻上的内容，根据这一数据爬取需求，可知爬取步骤会包括：进入列表页爬取URL–进入文章页–下滑翻页，可见依据上文举例，其步骤顺序大致是(2)-(3)-(6)，因此需要从数据库中选择出步骤(2)、(3)和(6)对应的代码块，然后将这三个代码块按照执行顺序(2)-(3)-(6)进行排序，得到对应的代码块序列。

S22、根据所述代码块序列，对所需爬虫进行配置；

可理解的是，对所述所需爬虫进行配置的过程实际上是生成配置文件的过程，得到配置文件后所需爬虫即配置完成。因此上述步骤S22的具体过程可以包括：根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件。其中，说明文档中可以存储有一些说明信息，这些说明信息可以辅助用户生成配置文件，例如，生成配置文件的流程步骤，在每一步骤中需要那些信息等。

在实际应用中，可以通过可扩展标记语言XML的形式进行配置，也就是说，配置文件中的代码可以采用XML的形式，可以提高上述所需爬虫的通用性。

举例来说，针对上述用户想要爬取新浪微博的内容这一数据爬取需求，其代码块序列为步骤(1)-(7)-(3)-(4)对应的代码块序列，此时可以按照这一代码块序列生成配置文件。

可理解的是，数据爬取需求不仅仅包括爬取是哪个网站、爬取何种内容，还可以包括是全量爬取还是增量爬取、爬取javascript网页内容还是非javascript网页内容、从第几级网页开始抓取内容、翻页模式是不是下拉滑动、所要抓取字段有何属性等，因此还需要对这些内容进行配置。

在具体实施时，根据代码块序列对爬虫进行配置的过程可以包括：对种子、种子的地址、种子的所在区域、是否为全量抓取、爬取所需的关键字、翻页模式、需要抓取的字段的属性、开始抓取的网页的级数和是否抓取javascript网页内容中的至少一项进行配置。

具体过程可以包括如下步骤：

a1、对种子进行配置，seed即种子，顾名思义是以种子为引进而发散抓取内容；

a2、对种子的地址进行配置，url即种子的地址，例如，url被配置为http://www.chinanews.com/business/gd.shtml；

a3、对是否为全量抓取进行配置，fully即是否为全量爬取，fully取1为是，fully取0为否；

a4、对爬取javascript网页内容还是非javascript网页内容进行配置，例如，javascript即是否为javascript网页，javascript取1为是，javascript取0为否)；

a5、对关键字进行配置，keyword即关键字，在代码中也可不设置关键字；

a6、对种子所在区域进行配置，seedArea即种子所在区域，如若不填则将全网页的URL地址全部取下，在上述片段代码中种子所在区域为！[CDATA[#content_right>div.content_list]]；

a7、对从第几级网页开始抓取进行配置，start即从第几级网页开始抓取内容，例如，从第2级网页开始抓取；

a8、对翻页模式进行配置，turning即翻页模式，turning配置为slider，则表示翻页模式为下拉滑动；

a9、对需要抓取的字段的属性进行配置，meta即需要抓取字段的属性，例如，field即领域、site即地址、tag即标签、index即索引、pic即图片等。

从上述片段代码可知，可以选择javascript网页或非javascript网页，也就是说可以实现javascript网页抓取和非javascript页面抓取。当选择javascript网页时，可以精确解释javascript代码，进而转变为正常的带标签的html代码。可理解的是，javascript网页即为动态生成的页面，非javascript网页即为静态生成的页面。

由于本申请实施例中可以根据数据爬取需要对不同的代码块进行组合排序(即对各种步骤进行任意组合配置)，并按照排序得到的代码块序列进行爬虫配置，因此配置得到的爬虫可以实现完整页面下载，也可以实现精准抓取，例如，只抓取图片。当然，通过对数据爬取需求的设置，还可以实现集群分布式爬取，以提高爬取速度。

可见，不论数据爬取需求是什么，都能通过上述方式配置所需爬虫。

当然，在实际应用中，还可以将所述配置文件上传至服务器上进行存储，以便后续针对同样的数据爬取需求直接获取即可，即从所述服务器上获取所述配置文件，并根据所述配置文件进行数据爬取，更加方便。

S23、采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据。

在进行数据爬取时，爬虫可能会遇到网站的反爬机制，所谓的反爬机制是指一个代理IP地址对一个网站进行频繁访问，该网站就会对该代理IP地址进行访问限制。对此问题，可以通过以两种下方式中的任意一种进行改善：

(1)爬虫向所要登陆的网站的服务器发送登陆请求，所述登陆请求中携带有用于登陆该网站的服务器的代理地址(即代理IP地址)，周期性对所述代理地址进行修改，这样可以避免因采用同一个代理地址频繁访问网站而受限的问题。例如，爬虫每隔半小时修改一次代理地址，再将修改后的代理地址存储起来，在需要访问网站时，提取修改后的代理地址即可。

(2)爬虫向所要登陆的网站的服务器发送登陆请求，所述登陆请求中携带有用于登陆该网站的服务器的代理地址(即代理IP地址)，在遇到访问受限或访问错误时通过爬虫对所述代理地址进行修改。当服务器发现一个代理地址频繁访问其网站后，会进行拦截，并向登陆请求的发送者即爬虫反馈一个访问受限或访问错误的信息，当爬虫接收到该信息后，会修改代理地址，再次发送登陆请求，此时登陆请求中携带的是修改后的代理地址。当代理地址被修改后，网站的服务器就不会进行拦截。例如，当爬虫向网站的服务器发送登陆请求后收到访问受限或者访问错误的反馈信息，此时爬虫对登陆请求中的代理地址进行修改，然后发送携带有修改后的代理地址的登陆请求，这样就会成功登陆网站。

无论哪种方式，对代理地址的修改过程可以根据需要，例如，上一次使用的代理地址为192.168.1.1，下一次使用的代理地址可以修改为192.168.2.1。

在实际应用中，数据爬取后得到的爬取数据可能存在重复页面和/或存在广告，此时可以采用局部敏感哈希算法对所述爬取数据进行去重过滤。

其中，局部敏感哈希算法即simhash算法，simhash算法的原理大致包括如下内容：对爬取出的文本进行基本的预处理，比如去除停词(即数词、量词、功能词等没有含义的词)、词根还原、分段(即chunking)，最后可以得到多个向量。将每一个向量进行hash算法转换，得到长度f位的hash码，每一位然后对每一位上的1-0值进行正负权值转换，例如f1位是1时，权值设为+weight,f1位为0时，权值设为-weight，由此每一个向量对应一个f位的权值向量。将所有的向量对应的权值向量按照对应位累加，最后得到一个f位的权值数组，将数组中位为正的置1，位为负的置0，那么文本就转变成一个f位的新的1-0数组，也就是一个新的hash码，即为hash指纹，进而利用hash指纹进行去重和过滤，去除大量的重复页面和广告等。

本申请实施例提供的数据爬取方法，根据数据爬取需求从数据库中选择所需的代码块，然后将选择出的各个代码块按照步骤执行顺序进行排序，得到代码块序列，进而依据代码块序列配置所需的爬虫，最后利用配置好的爬虫进行数据爬取。由于本申请实施例可以根据数据爬取需求选择出所需的代码块，然后对选择出的代码块进行排序，也就是说，相当于根据数据爬取需求选择多个爬取步骤进而对各个爬取步骤进行组合排序，这样配置成的爬虫可以满足用户的各种需求，例如，是下载整个网页还是精准抓取、是抓取javascript网页还是非javascript网页等，而且，本申请实施例提供的数据爬取方法简单、易配置，可以实现对不同网站、不同形式的数据的爬取。

如图3所示，在一个实施例中，提供了一种数据爬取装置30，该装置30可以集成于上述的计算机设备中，具体可以包括：

序列确定模块32，用于根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；

爬虫配置模块33，用于根据所述代码块序列，对所需爬虫进行配置；

数据爬取模块34，用于采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；

数据库构建模块31，用于预先构建所述数据库，所述数据库中包括多个代码块，所述数据库构建模块具体用于：对预设的多个网站分别进行数据爬取，并将在数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。

在一些实施例中，所述装置还包括：去重过滤模块，用于采用局部敏感哈希算法对所述爬取数据进行去重过滤。

在一些实施例中，所述爬虫配置模块具体用于：根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件，其中，所述说明文档中存储有用于生成所述配置文件的说明信息。

在一些实施例中，所述数据库构建模块中对预设的多个网站分别进行数据爬取包括：对所述预设的多个网站分别编写对应的所述计算机代码，并采用每一网站对应的所述计算机代码对该网站进行数据爬取。

在一些实施例中，所述数据库构建模块中对所述预设的多个网站分别编写对应的所述计算机代码包括：采用细粒度分解方式对所述预设的多个网站分别编写对应的所述计算机代码。

在一些实施例中，数据爬取模块中采用配置完成的所述所需爬虫进行数据爬取包括：采用所述所需爬虫登陆对应网站，具体包括：通过所述所需爬虫向对应网站的服务器发送登陆请求，所述登陆请求中携带有代理地址，且周期性通过所述所需爬虫对所述代理地址进行修改或者在遇到访问受限或访问错误时通过所述所需爬虫对所述代理地址进行修改。

在一些实施例中，所述爬虫配置模块具体用于：a1、对种子进行配置；a2、对所述种子的地址进行配置；a3、对是否为全量抓取进行配置；a4、对爬取javascript网页内容还是非javascript网页内容进行配置；a5、对爬取所需的关键字进行配置；a6、对所述种子的所在区域进行配置；a7、开始抓取网页的级数进行配置；a8、对翻页模式进行配置；a9、对需要抓取的字段的属性进行配置。

本申请实施例提供的数据爬取装置，序列确定模块根据数据爬取需求从数据库中选择所需的代码块，然后将选择出的各个代码块按照步骤执行顺序进行排序，得到代码块序列，进而爬虫配置模块依据代码块序列配置所需的爬虫，最后数据爬取模块利用配置好的爬虫进行数据爬取。由于本申请实施例可以根据数据爬取需求选择出所需的代码块，然后对选择出的代码块进行排序，也就是说，相当于根据数据爬取需求选择多个爬取步骤进而对各个爬取步骤进行组合排序，这样配置成的爬虫可以满足用户的各种需求，例如，是下载整个网页还是精准抓取、是抓取javascript网页还是非javascript网页等，而且，本申请实施例提供的数据爬取方法简单、易配置，可以实现对不同网站、不同形式的数据的爬取。

在一些实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；根据所述代码块序列，对所需爬虫进行配置；采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：对预设的多个网站分别进行数据爬取，并将在数据爬取过程中的每一个步骤所对应的计算机代码作为一个代码块。

在一些实施例中，所述处理器执行所述计算机程序时还实现以下步骤：采用局部敏感哈希算法对所述爬取数据进行去重过滤。

在一些实施例中，所述处理器执行的所述根据所述代码块序列，对所需爬虫进行配置，包括：根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件，其中，所述说明文档中存储有用于生成所述配置文件的说明信息。

在一些实施例中，所述处理器执行的所述对预设的多个网站分别进行数据爬取，包括：对所述预设的多个网站分别编写对应的所述计算机代码，并采用每一网站对应的所述计算机代码对该网站进行数据爬取。

在一些实施例中，所述处理器执行的所述对所述预设的多个网站分别编写对应的所述计算机代码，包括：采用细粒度分解方式对所述预设的多个网站分别编写对应的所述计算机代码。

在一些实施例中，所述处理器执行的所述采用配置完成的所述所需爬虫进行数据爬取，包括：采用所述所需爬虫登陆对应网站，具体包括：通过所述所需爬虫向对应网站的服务器发送登陆请求，所述登陆请求中携带有代理地址，且周期性通过所述所需爬虫对所述代理地址进行修改或者在遇到访问受限或访问错误时通过所述所需爬虫对所述代理地址进行修改。

在一些实施例中，所述处理器执行的所述根据所述代码块序列，对所需爬虫进行配置包括：a1、对种子进行配置；a2、对所述种子的地址进行配置；a3、对是否为全量抓取进行配置；a4、对爬取javascript网页内容还是非javascript网页内容进行配置；a5、对爬取所需的关键字进行配置；a6、对所述种子的所在区域进行配置；a7、开始抓取网页的级数进行配置；a8、对翻页模式进行配置；a9、对需要抓取的字段的属性进行配置。本申请提供的计算机设备的有益效果与上述数据爬取方法和装置相同，这里不再赘述。

在一个实施例中，提出了一种存储有计算机可读指令的非易失性可读存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；根据所述代码块序列，对所需爬虫进行配置；采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：对预设的多个网站分别进行数据爬取，并将在数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。

在一些实施例中，所述一个或多个处理器执行所述计算机可读指令时还实现以下步骤：采用局部敏感哈希算法对所述爬取数据进行去重过滤。

在一些实施例中，所述一个或多个处理器执行的所述根据所述代码块序列，对所需爬虫进行配置，包括：根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件，其中，所述说明文档中存储有用于生成所述配置文件的说明信息。

在一些实施例中，所述一个或多个处理器执行的所述对预设的多个网站分别进行数据爬取，包括：对所述预设的多个网站分别编写对应的所述计算机代码，并采用每一网站对应的所述计算机代码对该网站进行数据爬取。

在一些实施例中，所一个或多个处理器执行的所述对所述预设的多个网站分别编写对应的所述计算机代码，包括：采用细粒度分解方式对所述预设的多个网站分别编写对应的所述计算机代码。

在一些实施例中，所述一个或多个处理器执行的所述采用配置完成的所述所需爬虫进行数据爬取，包括：采用所述所需爬虫登陆对应网站，具体包括：通过所述所需爬虫向对应网站的服务器发送登陆请求，所述登陆请求中携带有代理地址，且周期性通过所述所需爬虫对所述代理地址进行修改或者在遇到访问受限或访问错误时通过所述所需爬虫对所述代理地址进行修改。

在一些实施例中，所述一个或多个处理器执行的所述根据所述代码块序列，对所需爬虫进行配置包括：a1、对种子进行配置；a2、对所述种子的地址进行配置；a3、对是否为全量抓取进行配置；a4、对爬取javascript网页内容还是非javascript网页内容进行配置；a5、对爬取所需的关键字进行配置；a6、对所述种子的所在区域进行配置；a7、开始抓取网页的级数进行配置；a8、对翻页模式进行配置；a9、对需要抓取的字段的属性进行配置。

本申请提供的存储介质的有益效果与数据爬取方法和装置相同，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种数据爬取方法，包括：

根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；

根据所述代码块序列，对所需爬虫进行配置；

采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；

其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：

对预设的多个网站分别进行数据爬取，并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
根据权利要求1所述的方法，还包括：采用局部敏感哈希算法对所述爬取数据进行去重过滤。
根据权利要求1所述的方法，所述根据所述代码块序列，对所需爬虫进行配置，包括：根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件；其中，所述说明文档中存储有用于生成所述配置文件的说明信息。
根据权利要求1所述的方法，所述对预设的多个网站分别进行数据爬取，包括：对所述预设的多个网站分别编写对应的所述计算机代码，并采用每一网站对应的所述计算机代码对该网站进行数据爬取。
根据权利要求4所述的方法，所述对所述预设的多个网站分别编写对应的所述计算机代码，包括：采用细粒度分解方式对所述预设的多个网站分别编写对应的所述计算机代码。
根据权利要求1所述的方法，所述采用配置完成的所述所需爬虫进行数据爬取，包括：采用所述所需爬虫登陆对应网站，具体包括：通过所述所需爬虫向对应网站的服务器发送登陆请求，所述登陆请求中携带有代理地址，且周期性通过所述所需爬虫对所述代理地址进行修改或者在遇到访问受限或访问错误时通过所述所需爬虫对所述代理地址进行修改。
根据权利要求1所述的方法，所述根据所述代码块序列，对所需爬虫进行配置，包括：

a1、对种子进行配置；

a2、对所述种子的地址进行配置；

a3、对是否为全量抓取进行配置；

a4、对爬取javascript网页内容还是非javascript网页内容进行配置；

a5、对爬取所需的关键字进行配置；

a6、对所述种子的所在区域进行配置；

a7、开始抓取网页的级数进行配置；

a8、对翻页模式进行配置；

a9、对需要抓取的字段的属性进行配置。
一种数据爬取装置，所述装置包括：

序列确定模块，用于根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；

爬虫配置模块，用于根据所述代码块序列，对所需爬虫进行配置；

数据爬取模块，用于采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；

数据库构建模块，用于预先构建所述数据库，所述数据库中包括多个代码块，所述数据库构建模块具体用于：对预设的多个网站分别进行数据爬取，并将在数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
根据权利要求8所述的装置，所述装置还包括：去重过滤模块，用于采用局部敏感哈希算法对所述爬取数据进行去重过滤。
根据权利要求8所述的装置，所述爬虫配置模块，具体用于根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件；其中，所述说明文档中存储有用于生成所述配置文件的说明信息。
根据权利要求8所述的装置，所述数据库构建模块中对预设的多个网站分别编写对应的所述计算机代码，并采用每一网站对应的所述计算机代码对该网站进行数据爬取。
根据权利要求11所述的装置，所述数据库构建模块中对所述预设的多个网站分别编写对应的所述计算机代码，包括：采用细粒度分解方式对所述预设的多个网站分别编写对应的所述计算机代码。
根据权利要求8所述的装置，所述数据爬取模块中采用配置完成的所述所需爬虫进行数据爬取，包括：采用所述所需爬虫登陆对应网站，具体包括：通过所述所需爬虫向对应网站的服务器发送登陆请求，所述登陆请求中携带有代理地址，且周期性通过所述所需爬虫对所述代理地址进行修改或者在遇到访问受限或访问错误时通过所述所需爬虫对所述代理地址进行修改。
根据权利要求8所述的装置，所述爬虫配置模块，具体用于：a1、对种子进行配置；a2、对所述种子的地址进行配置；a3、对是否为全量抓取进行配置；a4、对爬取javascript网页内容还是非javascript网页内容进行配置；a5、对爬取所需的关键字进行配置；a6、对所述种子的所在区域进行配置；a7、开始抓取网页的级数进行配置；a8、对翻页模式进行配置；a9、对需要抓取的字段的属性进行配置。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行数据爬取方法的步骤，包括：根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；根据所述代码块序列，对所需爬虫进行配置；采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：对预设的多个网站分别进行数据爬取，并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
根据权利要求15所述的计算机设备，所述计算机可读指令被所述处理器执行时，使得所述处理器执行所述方法还包括：采用局部敏感哈希算法对所述爬取数据进行去重过滤。
根据权利要求15所述的计算机设备，所述计算机可读指令被所述处理器执行时，使得所述处理器执行所述根据所述代码块序列，对所需爬虫进行配置，包括：根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件；其中，所述说明文档中存储有用于生成所述配置文件的说明信息。
一种存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行数据爬取方法的步骤，包括：根据数据爬取需求，从预先构建的数据库中选择所需的代码块；并根据选择出的各个代码块的执行顺序，对选择出的各个代码块进行排序，得到对应的代码块序列；根据所述代码块序列，对所需爬虫进行配置；采用配置完成的所述所需爬虫进行数据爬取，得到爬取数据；其中，所述数据库中包括多个代码块，所述数据库的预先构建过程包括：对预设的多个网站分别进行数据爬取，并将数据爬取过程中的每一个爬取步骤所对应的计算机代码作为一个代码块。
根据权利要求18所述的存储介质，所述计算机可读指令被所述处理器执行时，使得所述处理器执行所述方法还包括：采用局部敏感哈希算法对所述爬取数据进行去重过滤。
根据权利要求18所述的存储介质，所述计算机可读指令被所述处理器执行时，使得所述处理器执行所述根据所述代码块序列，对所需爬虫进行配置，包括：根据所述代码块序列和预设的说明文档，确定所述所需爬虫的配置文件；其中，所述说明文档中存储有用于生成所述配置文件的说明信息。