WO2019019344A1

WO2019019344A1 - 网页数据爬取方法、装置、用户终端及可读存储介质

Info

Publication number: WO2019019344A1
Application number: PCT/CN2017/103932
Authority: WO
Inventors: 周晶
Original assignee: 上海壹账通金融科技有限公司
Priority date: 2017-07-26
Filing date: 2017-09-28
Publication date: 2019-01-31
Also published as: CN107689951A

Abstract

一种网页数据爬取方法、装置、用户终端及可读存储介质，该方法包括通过客户端嵌入的待爬取网站登录界面，接收输入的与待爬取网站对应的账户和密码，通过与待爬取网站对应的账户和密码登录待爬取网站；检测是否成功登录待爬取网站；当成功登录待爬取网站时，则判断客户端的账户与待爬取网站的账户是否匹配；当匹配时，则爬取待爬取网站中的待爬取数据；将所爬取的待爬取数据发送至服务器。

Description

网页数据爬取方法、装置、用户终端及可读存储介质

本申请要求于2017年7月26日提交中国专利局、申请号为2017106192634、发明名称为“网页数据爬取方法、装置、用户终端及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机技术领域，特别是涉及一种网页数据爬取方法、装置、用户终端及可读存储介质。

背景技术

目前，互联网上大量有价值的信息均需要爬取到服务器进行分析，以对用户的行为等进行分析，例如可以通过服务器登录向待爬取网站输入账号和密码，以登录待爬取网站，然后爬取存储在待爬取网站中的数据，但是由于当前各个网站的安全机制都非常高，同一IP地址爬取过多账户的信息会触发网站的风控机制，导致用户的账户被封锁，从而用户不能使用账户。

发明内容

根据本申请的各种实施例，提供一种网页数据爬取方法、装置、存储介质和终端，解决了背景技术中所涉及的一个或多个问题。

一种网页数据爬取方法，包括：

通过客户端嵌入的待爬取网站登录界面，接收输入的与所述待爬取网站对应的账户和密码，通过与所述待爬取网站对应的账户和密码登录所述待爬取网站；

检测是否成功登录所述待爬取网站；

当成功登录所述待爬取网站时，则判断所述客户端的账户与所述待爬取网站的账户是否匹配；

当所述客户端的账户与所述待爬取网站的账户匹配时，则爬取所述待爬取网站中的待爬取数据；及

将所爬取的待爬取数据发送至服务器。

一种网页数据爬取装置，包括：

登录模块，用于通过客户端嵌入的待爬取网站登录界面，接收输入的与所述待爬取网站对应的账户和密码，通过与所述待爬取网站对应的账户和密码登录所述待爬取网站；

检测模块，用于检测是否成功登录所述待爬取网站；

验证模块，用于当成功登录所述待爬取网站时，则判断所述客户端的账户与所述待爬取网站的账户是否匹配；

爬取模块，用于当所述客户端的账户与所述待爬取网站的账户匹配时，则爬取所述待爬取网站中的待爬取数据；

发送模块，用于将所爬取的待爬取数据发送至服务器。

一种用户终端，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

检测是否成功登录所述待爬取网站；

将所爬取的待爬取数据发送至服务器。

一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现以下步骤：

检测是否成功登录所述待爬取网站；

将所爬取的待爬取数据发送至服务器。

本发明的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一实施例中网页数据爬取方法的应用环境图；

图2为一实施例中的网页数据爬取方法的流程图；

图3为图2所示实施例的步骤S208的流程图；

图4为一实施例中qq邮箱登录界面的界面图；

图5为一实施例中账单数据爬取过程界面的界面图；

图6为一实施例中账单数据爬取成功的界面图；

图7为图2所示实施例中的步骤S208的另一流程图；

图8为图2所示实施例中的步骤S210的流程图；

图9为一实施例中的网页数据爬取装置的结构示意图；

图10为一实施例中的用户终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

在详细说明根据本发明的实施例前，应该注意到的是，所述的实施例主要在于与网页数据爬取方法、装置、用户终端及可读存储介质相关的步骤和系统组件的组合。因此，所属系统组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了，并且只示出了与理解本发明的实施例有关的细节，以免因对于得益于本发明的本领域普通技术人员而言显而易见的那些细节模糊了本发明的公开内容。

在本文中，诸如左和右，上和下，前和后，第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作，而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

参阅图1，图1为一实施例中网页数据爬取方法的应用环境图，在该实施例中，包括服务器以及数个用户终端，服务器可以分别与数个用户终端相通信，其中用户终端中安装有客户端APP，客户端APP中嵌入有待爬取网站。用户终端可以是手机、平板或电脑等终端，用户终端中安装的客户端APP可以是任意APP提供商的APP，其中嵌入有待爬取网站，例如微信等客户端APP中可以嵌入邮箱登录界面等。

请参阅图2，在其中一个实施例中，提供一种网页数据爬取方法，本实施例以该方法应用到上述图1中的服务器来举例说明。该服务器上运行有网页数据爬取程序，通过该网页数据爬取程序来实施网页数据爬取方法。该方法具体包括如下步骤：

S202：通过客户端嵌入的待爬取网站登录界面，接收输入的与待爬取网站对应的账户和密码，通过与待爬取网站对应的账户和密码登录待爬取网站。

具体地，客户端是指安装在用户终端的APP等应用程序，其中嵌入了待爬取网站登录界面，该待爬取网站界面可以是邮箱登录界面、电商登录界面，例如qq邮箱登录界面、126邮箱登录界面、163邮箱登录界面、淘宝登录界面、支付宝登录界面、京东登录界面、唯品会登录界面等。

当用户通过客户端的账户登录客户端后，再打开该待爬取网站登录界面，输入待爬取网站的账户和密码，从而可以通过客户端中嵌入的待爬取网站登录界面登录待爬取网站。例如在“平安一账通APP”中嵌入有qq邮箱登录界面，用户可以首先通过“平安一账通APP”登录“平安一账通APP”，然后打开嵌入至“平安一账通APP”中的qq邮箱登录界面，通过向该qq邮箱登录界面输入qq邮箱账户和密码登录qq邮箱。

S204：检测是否成功登录待爬取网站。

具体地，由于在爬取待爬取网站中的待爬取数据前，需要成功登录待爬取网站，因此在爬取待爬取网站中的待爬取数据前，需要检测是否成功登录待爬取网站，如果未成功登录，则无法爬取待爬取网站中的待爬取数据。

S206：当成功登录待爬取网站时，则判断客户端的账户与待爬取网站的账户是否匹配。

具体地，在某些情况下，用户可能通过自己的客户端来登录其他用户的待爬取网站的账户，如果此时也爬取其他用户的待爬取网站的账户，则会导致最终爬取的数据不是用户自己的，从而导致数据错误。因此在爬取之前，为了保证待爬取网站的账户是用户本人的，因此判断客户端的账户与待爬取网站的账户是否匹配。例如“平安一账通APP”的用户账户中可以设置用户的唯一标识，例如用户的身份证号等，且qq邮箱的账户中也可以设置用户的唯一标识，例如身份证号等，只有“平安一账通APP”的账户唯一标识与qq邮箱的账户唯一标识相匹配时，才会进行下一步来爬取待爬取网站中的待爬取数据。

S208：当客户端的账户与待爬取网站的账户匹配时，则爬取待爬取网站中的待爬取数据。

具体地，当客户端的账户与待爬取网站的账户匹配时，则证明待爬取网站中的待爬取数据是用户的数据，则直接通过客户端中的爬取程序爬取待爬取网站中的待爬取数据即可，这样每个用户的待爬取数据在每个用户终端进行爬取，而非所有用户的待爬取数据均在服务器进行爬取，从而可以有效避免由于待爬取网站的风控机制将用户的待爬取网站的账户锁定的情况的发生。

S210：将所爬取的待爬取数据发送至服务器。

具体地，当用户终端爬取到相应的待爬取数据时，则可以将该些待爬取数据发送至服务器，从而服务器可以根据该些数据为用户提供相应的服务。例如当用户终端爬取的是qq邮箱中的信用卡账单时，服务器可以根据该账单数据提醒用户何时需要还款，或者可以给用户提供还款红包，例如当用户需要还款1000元时，则给用户提供5元抵扣红包等服务。

上述网页数据爬取方法，通过客户端来爬取待爬取网站中的待爬取数据，在通过客户端嵌入的待爬取网站登录界面登录待爬取网站后，验证待爬取网站的账户与客户端的账户是否对应，来确保所爬取的待爬取数据即为客户端用户的数据，并将爬取的待爬取数据发送至服务器以供服务器进行处理分析，可以避免在服务器端爬取待爬取网站中的待爬取数据触发风控机制，导致用户账户被锁等情况的发生。

在其中一个实施例中，参阅图3，图3为图2所示实施例的步骤S208的流程图，该步骤S208，即爬取待爬取网站中的待爬取数据的步骤可以包括：

S302：向服务器发送爬取脚本获取请求。

具体地，爬取脚本是指可以用于用户终端的，用来爬取待爬取网站中的待爬取数据的脚本。该爬取脚本是存储在服务器的，这样可以仅在服务器端对该爬取脚本进行修改，且在下次爬取待爬取网站中的爬取数据前，直接从服务器下载新的爬取脚本即可，由于该爬取脚本是采用脚本的方式，其占用空间小，传输速度快。当在客户端的账户与待爬取网站的账户相匹配时，用户终端则向服务器发送爬取脚本获取请求，服务器在接收到爬取脚本获取请求后，查询到该爬取脚本，然后将该爬取脚本进行打包后发送至相应的客户端，这样可以数据的传输量。

S304：接收服务器返回的与爬取脚本获取请求对应的爬取脚本。

具体地，当服务器查询到与爬取脚本获取指令对应的爬取脚本后，则将该爬取脚本发送到用户终端，用户终端从而可以通过该爬取脚本爬取待爬取网站中的待爬取数据。

S306：通过爬取脚本爬取待爬取网站中的待爬取数据。

具体地，用户终端通过从服务器下载的爬取脚本爬取相应的待爬取数据，请参阅图4至图6，图4为一实施例中qq邮箱登录界面的界面图，图5为一实施例中账单数据爬取过程界面的界面图，如6为一实施例中账单数据爬取成功的界面图。其中qq邮箱界面是嵌入至用户终端的客户端的，用户通过在qq邮箱界面中输入账户和密码来登录qq邮箱，如图4，当qq邮箱登录成功后，用户终端检测客户端的账户与qq邮箱的账户相匹配后，则从服务器下载爬取脚本，然后通过爬取脚本来爬取qq邮箱中的账单信息，例如图5，可以显示用户终端爬取待爬取数据的进度，图5中表示qq邮箱验证成功、也搜索到相应的账单，且账单已经爬取了64％。当用户终端爬取到了待爬取数据，即账单后，则可以提示用户爬取完成，例如图6。

上述实施例中，在客户端账户和待爬取网站的账户相匹配时，则向服务器发送获取脚本的信息，服务器接收到该信息后，将最新的脚本进行打包后传输给用户终端。这样操作首先，脚本存储在服务器，可以仅在服务器对爬取脚本进行修改，但是如果爬取脚本是与客户端安装包一起下发的话，则当爬取脚本修改时，则就需要下发新的安装包，导致客户端更新频率增加，其次在发送爬取脚本时，打包后再发送，可以减少数据传输量。

在其中一个实施例中，向服务器发送爬取脚本获取请求的步骤之前还可以包括：获取上次接收服务器返回爬取脚本的时间；当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取待爬取网站中的待爬取数据。当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则执行向服务器发送爬取脚本获取请求的步骤，即步骤S302。

具体地，为了防止用户终端短时间内从服务器多次爬取爬取脚本，设置了一预设范围，只要用户上次从服务器获取爬取脚本的时间与当前时间的差值在预设范围内，则用户终端则不需要再次从服务器下载爬取脚本。该预设范围可以是1小时、30分钟、2小时、1天、1星期等，在此不做限制。例如，上一次爬取时，从服务器下载了爬取脚本，时间为上午9点30分，预设范围是2小时，则再次爬取时是上午10点30分，由于与上午9点30分的差值是1小时，小于预设范围2小时，因此在10点30分爬取时，则采用上次从服务器下载的爬取脚本即可，不需要重新下载爬取脚本，但是如果再次爬取的时间是下午2点30分，与上午9点30分的差值5小时，大于预设范围2小时，因此在下午2点30分爬取时，则需要重新从服务器下载爬取脚本。

上述实施例中，在客户端账户和待爬取网站的账户相匹配后，可以首先获取上一次爬取脚本获取的时间，如果上一次爬取脚本与当前时间的差值在预设范围，则直接调用用户终端存储的爬取脚本，而不再需要从服务器下载，这样可以避免，例如一天内用户频繁登录qq邮箱同步账单导致每次都下载脚本，造成数据流量的浪费等。

在其中一个实施例中，检测是否成功登录待爬取网站的步骤，即图2所示实施例中的步骤S204可以包括：检测客户端所显示的当前页面的URL地址是否改变；当客户端所显示的当前页面的URL地址改变，则成功登录待爬取网站；当客户端所显示的当前页面的URL地址未改变，则未成功登录待爬取网站。

具体地，由于不同网页的URL(统一资源定位符，Uniform Resource Locator)地址是不同的，所以可以通过检测网页的URL地址是否改变来确定是否成功登录待爬取网站。例如待爬取网站登录界面的URL地址可能是A，而在登录成功后URL地址可能变成B，如果登录失败，则仍会停留在当前的待爬取网站登录界面，即其URL地址仍未A，从而通过判断URL地址是否改变即可判断出是否成功登录待爬取网站，操作简单。

上述实施例中，检测是否成功登录待爬取网站可以通过检测客户端当前界面的URL地址是否改变来进行，只有在登录成功时，客户端当前界面的URL地址才会改变。登录失败的时候，客户端当前界面的URL地址不变，且会提供相应的登录失败的提示信息。

在其中一个实施例中，待爬取网站为邮箱网站；参阅图7，图7为图2所示实施例中的步骤S208的另一流程图，该步骤S208，即爬取待爬取网站中的待爬取数据的步骤可以包括：

S702：从邮箱网站中选取标题与待爬取数据对应的邮件。

具体地，由于邮箱中可能存储有大量的数据，而服务器只关心与待爬取数据对应的邮件，因此首先可以通过待爬取数据的性质从邮箱中选取与待爬取数据对应的邮件。例如当需要爬取账单数据时，则首先爬取邮件标题与账单有关的邮件。

S704：从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。

具体地，由于账单邮件中可能存储大量的账单信息，例如有的账单信息可能包括姓名、日期、消费额、收款方等多种信息，但是服务器仅需要爬取姓名、消费额信息即可，则用户终端则从所选取的邮件中爬取姓名和消费额字段的数据作为爬取数据即可，而不需要爬取其他额外的数据。

上述实施例，首先根据邮件的标题进行锁定邮件，例如可以遍历收件箱中的邮件的标题，或者遍历某一时间段中收件箱中的邮件的标题，以确定与信用卡账单相关联的邮件。当用户是首次使用客户端APP时，则需要遍历整个收件箱中的邮件，但是如果用户非首次使用客户端APP时，则可以获取服务器最近一次获取账单的时间，仅需要遍历该时间以后的收件箱中的邮件即可。当已经锁定标题与账单相关的邮件后，再获取预设字段的内容，例如可以是仅获取日期、摘要、支入、支出等信息，即过滤掉无用信息，或者还可以获取所有的信息，例如余额、支入支出对象信息等。

在其中一个实施例中，参阅图8，图8为图2所示实施例中的步骤S210的流程图，该步骤S210，即将所爬取的待爬取数据发送至服务器的步骤可以包括：

S802：将所爬取的待爬取数据进行加密处理。

具体地，由于所爬取的数据涉及到用户的隐私信息，因此在传输过程中需要进行加密处理，其可以采用对称加密方法也可以采用非对称的加密方法，在此不作限定。当用户终端爬取到待爬取数据后，则将待爬取数据进行加密处理，然后发送到服务器，服务器接收到该些数据后，进行相应的解密操作以获取所爬取的待爬取数据。

S804：将加密后的待爬取数据进行打包。

具体地，为了减少数据的传输量，可以对所爬取的数据进行打包处理，将打包后的数据发送给服务器，从而可以减少用户流量的使用。

S806：将打包后的待爬取数据发送至服务器。

具体地，当待爬取数据打包完成后，则将打包完成的数据发送给服务器，此时用户终端可以检测当前所处的网络环境，当网路为wifi网络时，则将打包后的待爬取数据发送至服务器，当网络为移动网络时，则暂时不发送该打包后的待爬取数据，直至用户终端的网络编程为wifi网络后，则将打包后的待爬取数据发送至服务器，这样可以减少用户流量的使用。

上述实施例中，在发送爬取的待爬取数据时，首先对该些待爬取数据进行加密，然后将加密后的待爬取数据进行打包，这样，即可以保证待爬取数据在传输过程中的安全性，有可以降低数据传输量。

虽然上文中图2、图3、图7、图8的流程图中的各个步骤按照箭头的指示一次显示，但是这些步骤并不是必然按照箭头指示的顺序一次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图2、图3、图7、图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替执行。

参阅图9，图9为一实施例中的网页数据爬取装置的结构示意图，该网页数据爬取装置包括：

登录模块100，用于通过客户端嵌入的待爬取网站登录界面，接收输入的与待爬取网站对应的账户和密码，通过与待爬取网站对应的账户和密码登录待爬取网站。

检测模块200，用于检测是否成功登录待爬取网站。

验证模块300，用于当成功登录待爬取网站时，则判断客户端的账户与待爬取网站的账户是否匹配。

爬取模块400，用于当客户端的账户与待爬取网站的账户匹配时，则爬取待爬取网站中的待爬取数据。

发送模块500，用于将所爬取的待爬取数据发送至服务器。

在其中一个实施例中，发送模块可以还用于向服务器发送爬取脚本获取请求。

爬取模块可以包括：

接收单元，用于接收服务器返回的与爬取脚本获取请求对应的爬取脚本。

爬取单元，用于通过爬取脚本爬取待爬取网站中的待爬取数据。

在其中一个实施例中，网页数据爬取装置还可以包括：

时间获取模块，用于获取上次接收服务器返回爬取脚本的时间。

比较模块，用于当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取待爬取网站中的待爬取数据；当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则执行向服务器发送爬取脚本获取请求的步骤。

在其中一个实施例中，检测模块还可以用于检测客户端所显示的当前页面的URL地址是否改变；当客户端所显示的当前页面的URL地址改变，则成功登录待爬取网站；当客户端所显示的当前页面的URL地址未改变，则未成功登录待爬取网站。

在其中一个实施例中，待爬取网站为邮箱网站。爬取模块还可以用于从邮箱网站中选取标题与待爬取数据对应的邮件；从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。

在其中一个实施例中，发送模块可以包括：

加密单元，用于将所爬取的待爬取数据进行加密处理。

打包单元，用于将加密后的待爬取数据进行打包。

发送单元，用于将打包后的待爬取数据发送至服务器。

其中网页数据爬取装置中所涉及到的模块、单元可以是依据功能划分的程序段，此外上述关于网页数据爬取装置的限定可以参加上文中关于网页数据爬取方法的限定，在此不再赘述。上述网页数据爬取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述网页数据爬取装置可以实现为一种计算机可读指令的形式，计算机可读指令可在如图1所示的服务器运行。

本发明实施例提出了一种计算机设备，该计算机设备包括一系列存储于存储器上的计算机可读指令，当计算机可读指令被处理器执行时，可以实现本发明各个实施例提出的网页数据爬取方法，在一些实施例中，基于该计算机可读指令各部分所实现的特定的操作。请参阅图8，图8为一实施例中的用户终端的结构示意图，其中用户终端包括通过系统总线连接的存储器、处理器、操作系统，其中该处理器用于提供计算和控制能力，支撑整个计算机设备的运行。存储器用于存储数据、程序代码等。

该存储器上存储至少一个计算机可执行程序，该计算机可执行程序可被处理器执行，以实现本申请各实施例中提供的网页数据爬取方法。该计算机可执行程序可被处理器所执行，以用于实现上述各个实施例所提供的一种网页数据爬取方法。用户终端中的内存储器为非易失性存储介质中的操作系统、数据库和计算机可执行程序提供高速缓存的运行环境。

其中，处理器执行程序时实现以下步骤：通过客户端嵌入的待爬取网站登录界面，接收输入的与待爬取网站对应的账户和密码，通过与待爬取网站对应的账户和密码登录待爬取网站；检测是否成功登录待爬取网站；当成功登录待爬取网站时，则判断客户端的账户与待爬取网站的账户是否匹配；当客户端的账户与待爬取网站的账户匹配时，则爬取待爬取网站中的待爬取数据；将所爬取的待爬取数据发送至服务器。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：向服务器发送爬取脚本获取请求；接收服务器返回的与爬取脚本获取请求对应的爬取脚本；通过爬取脚本爬取待爬取网站中的待爬取数据。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：获取上次接收服务器返回爬取脚本的时间；当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取待爬取网站中的待爬取数据；当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则执行向服务器发送爬取脚本获取请求的步骤。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：获取输入的申请信息的步骤包括：检测客户端所显示的当前页面的URL地址是否改变；当客户端所显示的当前页面的URL地址改变，则成功登录待爬取网站；当客户端所显示的当前页面的URL地址未改变，则未成功登录待爬取网站。

在其中一个实施例中，待爬取网站为邮箱网站；处理器执行程序时还可以实现以下步骤：从邮箱网站中选取标题与待爬取数据对应的邮件；从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：将所爬取的待爬取数据进行加密处理；将加密后的待爬取数据进行打包；将打包后的待爬取数据发送至服务器。

上述对于爬虫终端的限定可以参见上文中对于网页数据爬取方法的具体限定，在此不再赘述。

请继续参阅图8，还提供一种计算机可读存储介质，其上存储有计算机可读指令，如图8中所示的非易失性存储介质，其中，存储器可包括磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质。在一个实施例中，存储器包括非易失性存储介质及内存储器。计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可执行程序。该数据库中存储有用于实现上述各个实施例所提供的一种网页数据爬取方法相关的数据。其中，该程序被处理器执行时实现以下步骤：通过客户端嵌入的待爬取网站登录界面，接收输入的与待爬取网站对应的账户和密码，通过与待爬取网站对应的账户和密码登录待爬取网站；检测是否成功登录待爬取网站；当成功登录待爬取网站时，则判断客户端的账户与待爬取网站的账户是否匹配；当客户端的账户与待爬取网站的账户匹配时，则爬取待爬取网站中的待爬取数据；将所爬取的待爬取数据发送至服务器。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：向服务器发送爬取脚本获取请求；接收服务器返回的与爬取脚本获取请求对应的爬取脚本；通过爬取脚本爬取待爬取网站中的待爬取数据。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：获取上次接收服务器返回爬取脚本的时间；当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取待爬取网站中的待爬取数据；当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则执行向服务器发送爬取脚本获取请求的步骤。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：获取输入的申请信息的步骤包括：检测客户端所显示的当前页面的URL地址是否改变；当客户端所显示的当前页面的URL地址改变，则成功登录待爬取网站；当客户端所显示的当前页面的URL地址未改变，则未成功登录待爬取网站。

在其中一个实施例中，待爬取网站为邮箱网站；该程序被处理器执行时还可以实现以下步骤：从邮箱网站中选取标题与待爬取数据对应的邮件；从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：将所爬取的待爬取数据进行加密处理；将加密后的待爬取数据进行打包；将打包后的待爬取数据发送至服务器。

上述对于计算机可读存储介质的限定可以参见上文中对于网页数据爬取方法的具体限定，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种网页数据爬取方法，其特征在于，包括：

通过客户端嵌入的待爬取网站登录界面，接收输入的与所述待爬取网站对应的账户和密码，通过与所述待爬取网站对应的账户和密码登录所述待爬取网站；

检测是否成功登录所述待爬取网站；

当成功登录所述待爬取网站时，则判断所述客户端的账户与所述待爬取网站的账户是否匹配；

当所述客户端的账户与所述待爬取网站的账户匹配时，则爬取所述待爬取网站中的待爬取数据；及

将所爬取的待爬取数据发送至服务器。
根据权利要求1所述的方法，其特征在于，所述爬取所述待爬取网站中的待爬取数据的步骤，包括：

向服务器发送爬取脚本获取请求；

接收服务器返回的与所述爬取脚本获取请求对应的爬取脚本；

通过所述爬取脚本爬取所述待爬取网站中的待爬取数据。
根据权利要求2所述的方法，其特征在于，所述向服务器发送爬取脚本获取请求的步骤之前，还包括：

获取上次接收服务器返回爬取脚本的时间；

当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取所述待爬取网站中的待爬取数据；当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则执行所述向服务器发送爬取脚本获取请求的步骤。
根据权利要求1所述的方法，其特征在于，所述检测是否成功登录所述待爬取网站的步骤，包括：

检测所述客户端所显示的当前页面的URL地址是否改变；

当所述客户端所显示的当前页面的URL地址改变，则成功登录所述待爬取网站；

当所述客户端所显示的当前页面的URL地址未改变，则未成功登录所述待爬取网站。
根据权利要求1所述的方法，其特征在于，所述待爬取网站为邮箱网站；

所述爬取所述待爬取网站中的待爬取数据的步骤，包括：

从所述邮箱网站中选取标题与所述待爬取数据对应的邮件；

从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。
根据权利要求1所述的方法，其特征在于，所述将所爬取的待爬取数据发送至服务器的步骤，包括：

将所爬取的待爬取数据进行加密处理；

将加密后的待爬取数据进行打包；

将打包后的待爬取数据发送至服务器。
一种网页数据爬取装置，其特征在于，包括：

登录模块，用于通过客户端嵌入的待爬取网站登录界面，接收输入的与所述待爬取网站对应的账户和密码，通过与所述待爬取网站对应的账户和密码登录所述待爬取网站；

检测模块，用于检测是否成功登录所述待爬取网站；

验证模块，用于当成功登录所述待爬取网站时，则判断所述客户端的账户与所述待爬取网站的账户是否匹配；

爬取模块，用于当所述客户端的账户与所述待爬取网站的账户匹配时，则爬取所述待爬取网站中的待爬取数据；及

发送模块，用于将所爬取的待爬取数据发送至服务器。
根据权利要求7所述的装置，其特征在于，所述发送模块还用于向服务器发送爬取脚本获取请求；

所述爬取模块包括：

接收单元，用于接收服务器返回的与所述爬取脚本获取请求对应的爬取脚本；

爬取单元，用于通过所述爬取脚本爬取所述待爬取网站中的待爬取数据。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

时间获取模块，用于获取上次接收服务器返回爬取脚本的时间；

比较模块，用于当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取所述待爬取网站中的待爬取数据；当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则向服务器发送爬取脚本获取请求。
根据权利要求7所述的装置，其特征在于，所述检测模块还用于检测所述客户端所显示的当前页面的URL地址是否改变；当所述客户端所显示的当前页面的URL地址改变，则成功登录所述待爬取网站；当所述客户端所显示的当前页面的URL地址未改变，则未成功登录所述待爬取网站。
根据权利要求7所述的装置，其特征在于，所述待爬取网站为邮箱网站；

所述爬取模块还用于从所述邮箱网站中选取标题与所述待爬取数据对应的邮件；从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。
根据权利要求7所述的装置，其特征在于，所述发送模块包括：

加密单元，用于将所爬取的待爬取数据进行加密处理；

打包单元，用于将加密后的待爬取数据进行打包；

发送单元，用于将打包后的待爬取数据发送至服务器。
一种用户终端，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现以下步骤：

通过客户端嵌入的待爬取网站登录界面，接收输入的与所述待爬取网站对应的账户和密码，通过与所述待爬取网站对应的账户和密码登录所述待爬取网站；

检测是否成功登录所述待爬取网站；

当成功登录所述待爬取网站时，则判断所述客户端的账户与所述待爬取网站的账户是否匹配；

当所述客户端的账户与所述待爬取网站的账户匹配时，则爬取所述待爬取网站中的待爬取数据；及

将所爬取的待爬取数据发送至服务器。
根据权利要求13所述的用户终端，其特征在于，所述处理器执行的爬取所述待爬取网站中的待爬取数据的步骤，包括：

向服务器发送爬取脚本获取请求；

接收服务器返回的与所述爬取脚本获取请求对应的爬取脚本；

通过所述爬取脚本爬取所述待爬取网站中的待爬取数据。
根据权利要求14所述的用户终端，其特征在于，所述处理器执行的向服务器发送爬取脚本获取请求的步骤之前，还包括：

获取上次接收服务器返回爬取脚本的时间；

当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取所述待爬取网站中的待爬取数据；当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则执行所述向服务器发送爬取脚本获取请求的步骤。
根据权利要求13所述的用户终端，其特征在于，所述处理器执行的检测是否成功登录所述待爬取网站的步骤，包括：

检测所述客户端所显示的当前页面的URL地址是否改变；

当所述客户端所显示的当前页面的URL地址改变，则成功登录所述待爬取网站；

当所述客户端所显示的当前页面的URL地址未改变，则未成功登录所述待爬取网站。
根据权利要求13所述的用户终端，其特征在于，所述待爬取网站为邮箱网站；

所述处理器执行的爬取所述待爬取网站中的待爬取数据的步骤，包括：

从所述邮箱网站中选取标题与所述待爬取数据对应的邮件；

从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。
根据权利要求13所述的用户终端，其特征在于，所述处理器执行的将所爬取的待爬取数据发送至服务器的步骤，包括：

将所爬取的待爬取数据进行加密处理；

将加密后的待爬取数据进行打包；

将打包后的待爬取数据发送至服务器。
一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，该计算机可读指令被处理器执行时以下步骤：

通过客户端嵌入的待爬取网站登录界面，接收输入的与所述待爬取网站对应的账户和密码，通过与所述待爬取网站对应的账户和密码登录所述待爬取网站；

检测是否成功登录所述待爬取网站；

当成功登录所述待爬取网站时，则判断所述客户端的账户与所述待爬取网站的账户是否匹配；

当所述客户端的账户与所述待爬取网站的账户匹配时，则爬取所述待爬取网站中的待爬取数据；及

将所爬取的待爬取数据发送至服务器。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现的爬取所述待爬取网站中的待爬取数据的步骤，包括：

向服务器发送爬取脚本获取请求；

接收服务器返回的与所述爬取脚本获取请求对应的爬取脚本；

通过所述爬取脚本爬取所述待爬取网站中的待爬取数据。
根据权利要求20所述的计算机可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现的向服务器发送爬取脚本获取请求的步骤之前，还包括：

获取上次接收服务器返回爬取脚本的时间；

当上次接收服务器返回爬取脚本的时间与当前时间的差值在预设范围时，则通过上次所接收的服务器返回的爬取脚本爬取所述待爬取网站中的待爬取数据；当上次接收服务器返回爬取脚本的时间与当前时间的差值不在预设范围内，则执行所述向服务器发送爬取脚本获取请求的步骤。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现的检测是否成功登录所述待爬取网站的步骤，包括：

检测所述客户端所显示的当前页面的URL地址是否改变；

当所述客户端所显示的当前页面的URL地址改变，则成功登录所述待爬取网站；

当所述客户端所显示的当前页面的URL地址未改变，则未成功登录所述待爬取网站。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述待爬取网站为邮箱网站；

所述计算机可读指令被处理器执行时实现的爬取所述待爬取网站中的待爬取数据的步骤，包括：

从所述邮箱网站中选取标题与所述待爬取数据对应的邮件；

从所选取的邮件中爬取预设字段的数据作为所爬取的待爬取数据。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现的将所爬取的待爬取数据发送至服务器的步骤，包括：

将所爬取的待爬取数据进行加密处理；

将加密后的待爬取数据进行打包；

将打包后的待爬取数据发送至服务器。