WO2021226954A1

WO2021226954A1 - 信息爬取方法、装置、电子设备及存储介质

Info

Publication number: WO2021226954A1
Application number: PCT/CN2020/090329
Authority: WO
Inventors: 郭子亮
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2021-11-18
Also published as: CN115087969A

Abstract

一种信息爬取方法、装置、电子设备及存储介质，该方法包括：通过在浏览器中打开目标统一资源定位符URL网络资源，进入目标URL网络资源对应的目标页面（101）；定位目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素（102）；获取目标DOM元素的定位路径信息（103）；将目标URL网络资源加载到新标签窗口（104）；根据定位路径信息在新标签窗口提取目标价值信息，并对目标价值信息进行统一存储（105），如此，可以在较短时间内实现基于纯浏览器环境的单机爬虫，对于开发人员来说，开发周期短，操作简单，从而有效降低了开发门槛、配置管理和维护成本，从而可实现低成本、便捷高效的轻量级信息爬取。

Description

信息爬取方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机领域，具体涉及一种信息爬取方法、装置、电子设备及存储介质。

背景技术

爬虫技术是一种自动对网络中大量价值信息进行分析、收集、解析和存储的过程。现有的爬虫系统，从系统架构上主要分为单机和分布式两类。这些爬虫系统主要基于流行的Python和Java爬虫框架(如Scrapy框架、Nutch框架)，来实现对目标价值信息的分析和爬取。

现有的爬虫框架的接口复杂、过于繁重，对于小规模或临时性的爬虫任务来说，主要存在以下缺陷：第一，开发周期长，维护成本高，例如，在基于现有的单机和分布式爬虫框架实现爬取任务时，不仅要考虑Python、Java代码如何实现，还要考虑服务器以及相应数据库的配置及管理。因此对于临时性爬虫的需求，现有的爬虫框架开发周期过长，学习代价和维护成本过高。第二，难以爬取异步JavaScript和可扩展标记语言(asynchronous javascript and extensible markup language，AJAX)信息和JavaScript代码动态生成的价值信息，对于采用AJAX异步加载和JavaScript代码动态生成的价值信息，现有爬虫框架难以定位到目标价值信息，需要结合应用程序自动测试框架来模拟真实浏览网页的过程，实现对目标价值信息的提取。因此，需要安装浏览器测试框架和相应的浏览器驱动，增加了额外代价和开销。第三，容易被反爬虫机制及登陆验证限制，例如，现有爬虫框架的浏览器标识过于简单，很容易被反爬虫机制检测出来。

发明内容

本申请实施例提供了一种信息爬取方法及相关产品，能够实现低成本、便捷高效的轻量级信息爬取。

第一方面，本申请实施例一种信息爬取方法，包括：

在浏览器中打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面；

定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；

获取所述目标DOM元素的定位路径信息；

根据所述定位路径信息将所述目标URL网络资源加载到新标签窗口；

在所述新标签窗口提取所述目标价值信息，并对所述目标价值信息进行统一存储。

第二方面，本申请实施例提供了一种信息爬取装置，所述装置包括：开启单元、定位单元、获取单元、加载单元、提取单元和存储单元，其中，

开启单元，用于在浏览器中打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面；

定位单元，用于定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；

获取单元，用于获取所述目标DOM元素的定位路径信息；

加载单元，用于根据所述定位路径信息将所述目标URL网络资源加载到新标签窗口；

提取单元，用于在所述新标签窗口提取所述目标价值信息；

存储单元，用于对所述目标价值信息进行统一存储。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口，以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

附图说明

下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种电子设备的结构示意图；

图1B本申请实施例提供的另一种电子设备的结构示意图；

图1C是本申请实施例公开的一种信息爬取方法的流程示意图；

图2是本申请实施例公开的另一种信息爬取方法的流程示意图；

图3是本申请实施例公开的另一种电子设备的结构示意图；

图4A是本申请实施例公开的一种信息爬取装置的结构示意图；

图4B是本申请实施例公开的一种图4A所描述的信息爬取装置的变型结构。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(智能手表、无线耳机)、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminal device)等等。为方便描述，上面提到的设备统称为电子设备。电子设备还可以为服务器。

为了便于更好的理解本申请所描述的技术方案，下面对本申请实施例所涉及的技术术语进行解释：

Python，一种面向对象、跨平台的计算机程序设计语言。

Java，一种面向对象、跨平台的计算机程序设计语言。

JavaScript，一种面向对象的Web程序设计语言。

Scrapy，一种基于Python语言编写的开源Web爬虫框架。

Nutch，一种基于Java语言编写的开源搜索引擎。

用户代理(user-agent)，一种用于标识浏览器、浏览器操作系统、加密等级、浏览器渲染引擎的HTTP头部字段。

Cookie，一种用于标识合法用户身份的超文本传输协议(hypertext transport protocol，HTTP)头部字段。

下面对本申请实施例进行详细介绍。

请参阅图1A，图1A是本申请实施例公开的一种电子设备的结构示意图，电子设备100可以包括控制电路，该控制电路可以包括存储和处理电路110。该存储和处理电路110可以存储器，例如硬盘驱动存储器，非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程只读存储器等)，易失性存储器(例如静态或动态随机存取存储器等)等，本申请实施例不作限制。存储和处理电路110中的处理电路可以用于控制电子设备100的运转。该处理电路可以基于一个或多个微处理器，微控制器，基带处理器，功率管理单元，音频编解码器芯片，专用集成电路，显示驱动器集成电路等来实现。

存储和处理电路110可用于运行电子设备100中的软件，例如互联网浏览应用程序，互联网协议语音(voice over internet protocol,VOIP)电话呼叫应用程序，电子邮件应用程序，媒体播放应用程序，操作系统功能等。这些软件可以用于执行一些控制操作，例如，基于照相机的图像采集，基于环境光传感器的环境光测量，基于接近传感器的接近传感器测量，基于诸如发光二极管的状态指示灯等状态指示器实现的信息显示功能，基于触摸传感器的触摸事件检测，与在多个(例如分层的)显示器上显示信息相关联的功能，与执行无线通信功能相关联的操作，与收集和产生音频信号相关联的操作，与收集和处理按钮按压事件数据相关联的控制操作，以及电子设备100中的其它功能等，本申请实施例不作限制。

电子设备100还可以包括输入-输出电路150。输入-输出电路150可用于使电子设备100实现数据的输入和输出，即允许电子设备100从外部设备接收数据和也允许电子设备100将数据从电子设备100输出至外部设备。输入-输出电路150可以进一步包括传感器170。传感器170可以包括环境光传感器，基于光和电容的接近传感器，触摸传感器(例如，基于光触摸传感器和/或电容式触摸传感器，其中，触摸传感器可以是触控显示屏的一部分，也可以作为一个触摸传感器结构独立使用)，加速度传感器，重力传感器，和其它传感器等。

输入-输出电路150还可以包括一个或多个显示器，例如显示器130。显示器130可以包括液晶显示器，有机发光二极管显示器，电子墨水显示器，等离子显示器，使用其它显示技术的显示器中一种或者几种的组合。显示器130可以包括触摸传感器阵列(即，显示器130可以是触控显示屏)。触摸传感器可以是由透明的触摸传感器电极(例如氧化铟锡(ITO)电极)阵列形成的电容式触摸传感器，或者可以是使用其它触摸技术形成的触摸传感器，例如音波触控，压敏触摸，电阻触摸，光学触摸等，本申请实施例不作限制。

音频组件140可以用于为电子设备100提供音频输入和输出功能。电子设备100中的音频组件140可以包括扬声器，麦克风，蜂鸣器，音调发生器以及其它用于产生和检测声音的组件。

通信电路120可以用于为电子设备100提供与外部设备通信的能力。通信电路120可以包括模拟和数字输入-输出接口电路，和基于射频信号和/或光信号的无线通信电路。通信电路120中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说，通信电路120中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(near field communication，NFC)的电路。例如，通信电路120可以包括近场通信天线和近场通信收发器。通信电路120还可以包括蜂窝电话收发器和天线，无线局域网收发器电路和天线等。

电子设备100还可以进一步包括电池，电力管理电路和其它输入-输出单元160。输入-输出单元160可以包括按钮，操纵杆，点击轮，滚动轮，触摸板，小键盘，键盘，照相机，发光二极管和其它状态指示器等。

用户可以通过输入-输出电路150输入命令来控制电子设备100的操作，并且可以使用输入-输出电路150的输出数据以实现接收来自电子设备100的状态信息和其它输出。

相关技术中，爬虫框架可包括单机爬虫框架和分布式爬虫框架，其中，Scrapy是一款基于Python语言实现的单机爬虫框架，其主要由Scrapy引擎、任务调度器、下载器、爬虫、管道五个模块构成。Scrapy引擎负责向各模块发送爬取命令，以及协调各模块之间的通信和数据传递。任务调度器对Scrapy引擎发送的统一资源定位符(uniform resource locator，URL)网络资源进行统一调度和队列管理。下载器负责向URL网络资源发送URL请求并获取URL响应。爬虫对响应内容进行解析和提取需要的价值信息，并传递到管道进行统一分析、过滤和存储。Nutch是一款基于Java语言实现的分布式搜索引擎和爬虫框架，主要依赖分布式基础架构来实现对海量信息的分布式爬取和数据存储。其主要由生成器、任务调度器、下载器、解析器、存储器模块构成。生成器主要从数据库中查询目标价值信息，并由任务调度器动态下发搜索任务至分布式系统基础架构集群，以完成目标价值信息的搜索和建立索引。下载器和解析器负责建立URL网络请求和提取URL网络响应中的信息字段。最后由存储器完成对目标价值信息的集中存储。

上述现有的爬虫框架对于海量信息的爬取任务来说，具有较好的爬取能力，但是，对于轻量级的信息爬取任务，现有的爬虫框架开发周期长、维护成本高，难以爬取到AJAX信息和JavaScript代码动态生成的价值信息，还容易被反爬虫机制进行限制。

基于此，请参阅图1B，图1B提供了另一种电子设备的结构示意图，其中，电子设备包括用于实施本申请实施例所涉及的信息爬取方法的信息爬取框架，其中，信息爬取框架可包括浏览器100、浏览器的控制台110、网络资源加载器120、网络资源解析器130和存储器140，其中，

所述浏览器100，用于打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面；

所述控制台110，用于打开新标签窗口，在新标签窗口中加载所述URL网络资源；

所述网络资源解析器130，用于定位所述目标页面中目标价值信息所在的文档对象模型(document object model，DOM)元素，得到目标DOM元素；获取所述目标DOM元素的定位路径信息；

所述网络资源加载器120，用于通过URL网络资源加载所述目标价值信息；

所述网络资源解析器130，还用于根据所述定位路径信息在所述新标签窗口提取所述目标价值信息；

所述存储器140，用于对所述目标价值信息进行统一存储。

上述信息爬取框架，无需安装Java、Python运行环境和应用程序自动测试框架依赖包，无需配置任何分布式系统基础架构服务器和数据库，只需基于浏览器自身的功能实现目标价值信息的定位，可以在较短时间内实现基于纯浏览器环境的单机爬虫，对于Web开发人员来说，开发周期短，操作简单，从而有效降低了开发门槛、配置管理和维护成本。由于现有的操作系统大多自带浏览器应用，因此本方案拥有跨平台的优势，可以能胜任不同平台的渗透测试、安全测试以及其它临时爬取和定向爬取的项目需求，具有良好的跨平台性。此外，本方案基于真实浏览器来启动正常的浏览行为，抗反爬虫能力强。

请参阅图1C，图1C是本申请实施例提供的一种信息爬取方法的流程示意图，本实施例中所描述的信息爬取方法，应用于如图1A或者图1B所示的的电子设备，该信息爬取方法包括：

101、在浏览器中打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面。

其中，可在浏览器中打开目标URL网络资源，其中，目标统一资源定位符URL用于标识网络资源的位置和访问方式。

其中，目标页面为目标URL网络资源对应的浏览器页面，可通过浏览器打开目标URL网络资源，进入目标页面。

可选地，上述步骤101中，在浏览器中打开目标统一资源定位符URL网络资源时，还可以包括如下步骤：

若所述目标URL网络资源需要登陆账号，获取所述URL网络资源对应的登录账号信息；

对所述登录账号信息进行验证，若验证成功，执行所述进入所述目标URL网络资源对应的目标页面的操作。

考虑到有的网络资源需要进行用户账号登录，针对需要登录账号的目标URL网络资源，可获取URL网络资源对应的登录账号信息，具体地，在登陆所述登陆账号时，可通过用户输入的登录账号信息的方式获取登录账号信息，例如，电子设备可接收用户通过浏览器输入的用户名、密码和验证码。可选地，在首次登录该登录账号时，可记录并保存登录账号信息，以便后续进行信息爬取时，可以直接调用已经保存的登录账号信息进行账号登录，不需要用户重复输入登录账号信息。

可见，本申请实施例基于真实浏览器来启动正常的浏览行为，并且携带正常用户账号信息，因此，现有的基于登陆功能限制的反爬虫技术都难以进行限制，从而可提高反爬虫能力。

102、定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素。

本申请实施例中，可通过浏览器定位目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素。如此，可仅通过浏览器实现对目标价值信息的定位，不需要安装应用程序自动测试框架模拟真实浏览网页，来定位目标价值信息，可节省成本，且操作简单。

可选地，上述步骤102中，定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素，可以包括如下步骤：

通过所述浏览器的页面元素审查功能定位所述目标价值信息所在的目标DOM元素。

其中，具体实现中，浏览器具有页面元素审查功能，电子设备可以基于浏览器的页面元素审查功能定位目标价值信息在所在的目标DOM元素，如此，可以得到精确的目标DOM元素定位结果。

103、获取所述目标DOM元素的定位路径信息。

其中，定位路径信息可包括层叠样式表(cascading style sheets，CSS)选择器或可扩展标记语言(extensible markup language path，Xpath)路径。

具体实施中，电子设备可定位到目标信息所在DOM节点并获取该节点元素的CSS选择器或Xpath路径，通过浏览器获取定位路径信息，可以在较短时间内定位到目标价值信息对应的定位路径信息从而提高信息爬取效率。

可选地，上述步骤103中，获取所述目标DOM元素的定位路径信息，可以包括如下步骤：

21、定位所述目标价值信息所在的DOM节点；

22、获取所述DOM节点下第一节点元素的定位路径对应的定位路径信息。

其中，DOM节点是指在XML文档中的每个成分都是一个节点，整个文档是一个文档节点，每个XML标签是一个元素节点。

具体实施中，电子设备可首先定位目标价值信息所在的DOM节点，然后获取DOM节点下第一节点元素，得到定位该第一节点元素的CSS选择器或Xpath路径，如此，可得到精确的定位路径信息。

可选地，上述步骤103之后，还可包括以下步骤：

31、通过所述浏览器的控制台验证所述定位路径信息对应的定位路径是否有效；

32、若是，执行所述将所述目标URL网络资源加载到新的标签窗口的操作；

33、若否，调整所述定位路径信息。

本申请实施例中，可开启浏览器的控制台，然后验证CSS选择器或Xpath路径是否有效，若CSS选择器或Xpath路径有效，则继续执行将所述目标URL网络资源加载到新的标签窗口，进而提取目标价值信息，若CSS选择器或Xpath路径无效，则可调整CSS选择器或Xpath路径。

可选地，上述步骤31中，通过所述控制台验证所述定位路径信息对应的定位路径是否有效，可包括以下步骤：

在所述控制台输入所述定位路径信息对应的定位路径，若能成功定位到所述目标DOM元素，确定所述定位路径信息对应的定位路径有效。

其中，可开启浏览器的控制台，在控制台输入CSS选择器或Xpath路径，若能成功定位到目标DOM元素，确定CSS选择器或Xpath路径有效，若不能成功定位到目标DOM元素，则表明CSS选择器或Xpath路径无效。

可选地，上述步骤33中，调整所述定位路径信息，可包括以下步骤：

获取所述DOM节点下第二节点元素的定位路径对应的定位路径信息，其中，所述第二节点元素和所述第一节点元素分别对应所述DOM节点下的不同子节点；

调整所述定位路径信息至所述第二节点元素的定位路径对应的定位路径信息。

其中，电子设备可获取DOM节点下第二节点元素的CSS选择器或Xpath路径，得到调整后的CSS选择器或Xpath路径，还可将调整后的CSS选择器或Xpath路径输入控制台，确定调整后的CSS选择器或Xpath路径是否有效。如此，通过对定位路径信息进行调整，可以保证定位到目标价值信息对应的定位路径信息。

104、将所述目标URL网络资源加载到新标签窗口。

其中，电子设备可通过浏览器的控制台开启新标签窗口，然后，将目标URL网络资源加载到新标签窗口，从而在新标签窗口中提取目标价值信息。

105、根据所述定位路径信息在所述新标签窗口提取所述目标价值信息，并对所述目标价值信息进行统一存储。

其中，目标价值信息可包括AJAX信息和JavaScript代码生成的价值信息，具体实施中，可电子设备可根据定位路径信息对新标签窗口中的目标价值信息进行提取，进而，将目标价值信息存储到存储器中。如此，可仅通过浏览器实现对AJAX信息和JavaScript代码生成的价值信息的爬取，无需安装Java、Python运行环境和应用程序自动测试框架依赖包，无需配置任何分布式系统基础架构服务器和数据库，只需基于浏览器自身的功能实现目标价值信息的定位，可以在较短时间内实现目标价值信息的爬取，开发周期短，操作简单，降低了开发门槛和维护成本。

此外，由于现有的操作系统大多自带浏览器应用，因此本方案拥有跨平台的优势，可以能胜任不同平台的渗透测试、安全测试以及其它临时爬取和定向爬取的项目需求，因此，本方案具有良好的跨平台性。

可选地，上述步骤105中，根据所述定位路径信息在所述新标签窗口提取所述目标价值信息，可包括以下步骤：

51、通过所述控制台向所述新标签窗口注入爬虫代码；

52、执行所述爬虫代码，并根据所述定位路径信息提取所述目标价值信息。

其中，上述爬虫代码可以为JavaScript代码，JavaScript为一种面向对象的Web程序设计语言。

具体实施中，可通过控制台向新标签窗口注入爬虫代码，在新标签窗口执行爬虫代码，并根据CSS选择器或Xpath路径提取目标价值信息，如此，可以提取出JavaScript代码动态生成的价值信息，实现较好的动态信息爬取能力。

可选地，所述爬虫代码为JavaScript代码，上述步骤52中，根据所述定位路径信息提取所述目标价值信息，可包括以下步骤：

通过所述浏览器对所述目标价值信息进行解析和渲染；

根据所述定位路径信息下载所述目标价值信息，所述目标价值信息包括AJAX信息和所述JavaScript代码生成的价值信息，所述AJAX信息为异步JavaScript和可扩展标记语言XML信息。

其中，在执行JavaScript代码的过程中，可通过浏览器对所述目标价值信息进行解析和渲染然后可根据定位路径信息下载目标价值信息，从而，无需安装Java、Python运行环境，以及应用程序自动测试框架依赖包，无需配置任何分布式系统基础架构服务器和数据库，就可实现浏览器对所述目标价值信息进行解析和渲染。

可以看出，本申请实施例中所描述的信息爬取方法，通过在浏览器中打开目标统一资源定位符URL网络资源，进入目标URL网络资源对应的目标页面；定位目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；获取目标DOM元素的定位路径信息；将目标URL网络资源加载到新标签窗口；根据定位路径信息在新标签窗口提取目标价值信息，并对目标价值信息进行统一存储，如此，无需安装Java、Python运行环境和应用程序自动测试框架依赖包，无需配置任何分布式系统基础架构服务器和数据库，只需基于浏览器自身的功能实现目标价值信息的定位，可以在较短时间内实现基于纯浏览器环境的单机爬虫，对于Web开发人员来说，开发周期短，操作简单，从而有效降低了开发门槛、配置管理和维护成本，从而可实现低成本、便捷高效的轻量级信息爬取。

与上述一致地，请参阅图2，图2是本申请实施例提供的另一种信息爬取方法的流程示意图，本实施例中所描述的信息爬取方法，应用于如图1A或者图1B所示的的电子设备，该方法可包括以下步骤：

在浏览器中打开目标统一资源定位符URL网络资源，判断所述目标URL网络资源是否需要登陆账号，若所述目标URL网络资源需要登陆账号，获取所述URL网络资源对应的登录账号信息；对所述登录账号信息进行验证，若验证成功，进入所述目标URL网络资源对应的目标页面；通过所述浏览器的页面元素审查功能定位所述目标价值信息所在的目标DOM元素；若所述目标URL网络资源不需要登陆账号，则直接通过所述浏览器的页面元素审查功能定位所述目标价值信息所在的目标DOM元素；获取所述目标DOM元素的定位路径信息；通过所述浏览器的控制台验证所述定位路径信息对应的定位路径是否有效；若是，将所述目标URL网络资源加载到新的标签窗口；若否，调整所述定位路径信息；通过所述控制台打开所述新标签窗口；进而将所述目标URL网络资源加载到新标签窗口；通过所述控制台向所述新标签窗口注入爬虫代码；执行所述爬虫代码，并根据所述定位路径信息提取所述目标价值信息；对所述目标价值信息进行统一存储。

其中，上述步骤的具体描述可以参照图1C所示的信息爬取方法，在此不再赘述。

可以看出，本申请实施例中所描述的信息爬取方法，在浏览器中打开目标URL网络资源，判断目标URL网络资源是否需要登陆账号，若目标URL网络资源需要登陆账号，获取URL网络资源对应的登录账号信息；对登录账号信息进行验证，若验证成功，进入目标URL网络资源对应的目标页面；通过浏览器的页面元素审查功能定位目标价值信息所在的目标DOM元素；若目标URL网络资源不需要登陆账号，则直接通过浏览器的页面元素审查功能定位目标价值信息所在的目标DOM元素；获取目标DOM元素的定位路径信息；通过浏览器的控制台验证定位路径信息对应的定位路径是否有效；若是，将目标URL网络资源加载到新的标签窗口；若否，调整定位路径信息；通过控制台打开新标签窗口；进而将目标URL网络资源加载到新标签窗口；通过控制台向新标签窗口注入爬虫代码；执行爬虫代码，并根据定位路径信息提取目标价值信息；对目标价值信息进行统一存储，如此，可实现低成本、便捷高效的轻量级信息爬取，此外，本方案基于真实浏览器来启动正常的浏览行为，并且携带正常用户账号信息，因此，现有的基于登陆功能限制的反爬虫技术都难以进行限制，从而可提高反爬虫能力。

以下是实施上述信息爬取方法的装置，具体如下：

与上述一致地，请参阅图3，图3是本申请实施例提供的一种电子设备，包括：处理器和存储器；以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置成由所述处理器执行，所述程序包括用于执行以下步骤的指令：

获取所述目标DOM元素的定位路径信息；

将所述目标URL网络资源加载到新标签窗口；

根据所述定位路径信息在所述新标签窗口提取所述目标价值信息，并对所述目标价值信息进行统一存储。

可以看出，本申请实施例中所描述的电子设备，通过在浏览器中打开目标统一资源定位符URL网络资源，进入目标URL网络资源对应的目标页面；定位目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；获取目标DOM元素的定位路径信息；将目标URL网络资源加载到新标签窗口；根据定位路径信息在新标签窗口提取目标价值信息，并对目标价值信息进行统一存储，如此，无需安装Java、Python运行环境和应用程序自动测试框架依赖包，无需配置任何分布式系统基础架构服务器和数据库，只需基于浏览器自身的功能实现目标价值信息的定位，可以在较短时间内实现基于纯浏览器环境的单机爬虫，对于Web开发人员来说，开发周期短，操作简单，从而有效降低了开发门槛、配置管理和维护成本，从而可实现低成本、便捷高效的轻量级信息爬取。

在一个可能的示例中，在所述定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素方面，所述程序包括用于执行以下步骤的指令：

在一个可能的示例中，在所述获取所述目标DOM元素的定位路径信息方面，所述程序包括用于执行以下步骤的指令：

定位所述目标价值信息所在的DOM节点；

获取所述DOM节点下第一节点元素的定位路径对应的定位路径信息。

在一个可能的示例中，所述获取所述目标DOM元素的定位路径信息之后，所述程序还包括用于执行以下步骤的指令：

通过所述浏览器的控制台验证所述定位路径信息对应的定位路径是否有效；

若是，执行所述将所述目标URL网络资源加载到新的标签窗口的操作；

若否，调整所述定位路径信息。

在一个可能的示例中，在所述通过所述控制台验证所述定位路径信息对应的定位路径是否有效方面，所述程序包括用于执行以下步骤的指令：

在一个可能的示例中，在所述调整所述定位路径信息方面，所述程序包括用于执行以下步骤的指令：

在一个可能的示例中，所述将所述目标URL网络资源加载到新标签窗口之前，所述程序还包括用于执行以下步骤的指令：

通过所述控制台打开所述新标签窗口；

在所述根据所述定位路径信息在所述新标签窗口提取所述目标价值信息方面，所述程序包括用于执行以下步骤的指令：

通过所述控制台向所述新标签窗口注入爬虫代码；

执行所述爬虫代码，并根据所述定位路径信息提取所述目标价值信息。

在一个可能的示例中，所述爬虫代码为JavaScript代码，在所述根据所述定位路径信息提取所述目标价值信息方面，所述程序包括用于执行以下步骤的指令：

通过所述浏览器对所述目标价值信息进行解析和渲染；

根据所述定位路径信息下载目标价值信息，所述目标价值信息包括AJAX信息和所述JavaScript代码生成的价值信息，所述AJAX信息为异步JavaScript和可扩展标记语言XML信息。

在一个可能的示例中，所述程序还包括用于执行以下步骤的指令：

请参阅图4A，图4A是本实施例提供的一种信息爬取装置的结构示意图。该信息爬取装置应用于如图1A所示或者图1B所示的的电子设备，所述信息爬取装置包括：开启单元401、定位单元402、获取单元403、加载单元404、提取单元405和存储单元406，其中，

所述开启单元401，用于在浏览器中打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面；

所述定位单元402，用于定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；

所述获取单元403，用于获取所述目标DOM元素的定位路径信息；

所述加载单元404，用于将所述目标URL网络资源加载到新标签窗口；

所述提取单元405，用于根据所述定位路径信息在所述新标签窗口提取所述目标价值信息；

所述存储单元406，用于对所述目标价值信息进行统一存储。

可以看出，本申请实施例中所描述的信息爬取装置，应用于电子设备，通过在浏览器中打开目标统一资源定位符URL网络资源，进入目标URL网络资源对应的目标页面；定位目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；获取目标DOM元素的定位路径信息；将目标URL网络资源加载到新标签窗口；根据定位路径信息在新标签窗口提取目标价值信息，并对目标价值信息进行统一存储，如此，无需安装Java、Python运行环境和应用程序自动测试框架依赖包，无需配置任何分布式系统基础架构服务器和数据库，只需基于浏览器自身的功能实现目标价值信息的定位，可以在较短时间内实现基于纯浏览器环境的单机爬虫，对于Web开发人员来说，开发周期短，操作简单，从而有效降低了开发门槛、配置管理和维护成本，从而可实现低成本、便捷高效的轻量级信息爬取。

在一个可能的示例中，在所述定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素方面，所述定位单元402具体用于：

在一个可能的示例中，在获取所述目标DOM元素的定位路径信息方面，所述获取单元403具体用于：

定位所述目标价值信息所在的DOM节点；

在一个可能的示例中，如图4B，图4B为图4A所描述的信息爬取装置的变型结构，其与图4A相比较，还可以包括：验证单元407和调整单元408，其中，

所述开启单元401，还用于开启浏览器的控制台；

所述验证单元407，用于通过所述控制台验证所述定位路径信息对应的定位路径是否有效；

若是，由所述加载单元404执行所述将所述目标URL网络资源加载到新的标签窗口的操作；

所述调整单元408，用于若所述定位路径信息对应的定位路径无效，调整所述定位路径信息。

在一个可能的示例中，在所述通过所述控制台验证所述定位路径信息对应的定位路径是否有效方面，所述验证单元407具体用于：

在一个可能的示例中，在所述调整所述定位路径信息方面，所述调整单元408具体用于：

在一个可能的示例中，所述加载单元将所述目标URL网络资源加载到新标签窗口之前，

所述开启单元401，还用于通过所述控制台打开所述新标签窗口；

在所述根据所述定位路径信息在所述新标签窗口提取所述目标价值信息方面，所述提取单元405具体用于：

通过所述控制台向所述新标签窗口注入爬虫代码；

在一个可能的示例中，所述爬虫代码为JavaScript代码，在所述根据所述定位路径信息提取所述目标价值信息方面，所述提取单元405具体用于：

通过所述浏览器对所述目标价值信息进行解析和渲染；

在一个可能的示例中，所述获取单元403，还用于若所述目标URL网络资源需要登陆账号，获取所述URL网络资源对应的登录账号信息；

所述开启单元，还用于对所述登录账号信息进行验证，若验证成功，执行所述进入所述目标URL网络资源对应的目标页面的操作。

可以理解的是，本实施例的信息爬取装置的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种信息爬取方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种信息爬取方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种信息爬取方法，其特征在于，所述方法包括：

在浏览器中打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面；

定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；

获取所述目标DOM元素的定位路径信息；

将所述目标URL网络资源加载到新标签窗口；

根据所述定位路径信息在所述新标签窗口提取所述目标价值信息，并对所述目标价值信息进行统一存储。
根据权利要求1所述方法，其特征在于，所述定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素，包括：

通过所述浏览器的页面元素审查功能定位所述目标价值信息所在的目标DOM元素。
根据权利要求2所述方法，其特征在于，所述获取所述目标DOM元素的定位路径信息，包括：

定位所述目标价值信息所在的DOM节点；

获取所述DOM节点下第一节点元素的定位路径对应的定位路径信息。
根据权利要求3所述方法，其特征在于，所述获取所述目标DOM元素的定位路径信息之后，所述方法还包括：

通过所述浏览器的控制台验证所述定位路径信息对应的定位路径是否有效；

若是，执行所述将所述目标URL网络资源加载到新的标签窗口的操作；

若否，调整所述定位路径信息。
根据权利要求4所述方法，其特征在于，所述通过所述控制台验证所述定位路径信息对应的定位路径是否有效，包括：

在所述控制台输入所述定位路径信息对应的定位路径，若能成功定位到所述目标DOM元素，确定所述定位路径信息对应的定位路径有效。
根据权利要求4所述方法，其特征在于，所述调整所述定位路径信息，包括：

获取所述DOM节点下第二节点元素的定位路径对应的定位路径信息，其中，所述第二节点元素和所述第一节点元素分别对应所述DOM节点下的不同子节点；

调整所述定位路径信息至所述第二节点元素的定位路径对应的定位路径信息。
根据权利要求1-6任一项所述方法，其特征在于，所述将所述目标URL网络资源加载到新标签窗口之前，所述方法还包括：

通过所述控制台打开所述新标签窗口；

所述根据所述定位路径信息在所述新标签窗口提取所述目标价值信息，包括：

通过所述控制台向所述新标签窗口注入爬虫代码；

执行所述爬虫代码，并根据所述定位路径信息提取所述目标价值信息。
根据权利要求7所述方法，其特征在于，所述爬虫代码为JavaScript代码，所述根据所述定位路径信息提取所述目标价值信息，包括：

通过所述浏览器对所述目标价值信息进行解析和渲染；

根据所述定位路径信息下载目标价值信息，所述目标价值信息包括AJAX信息和所述JavaScript代码生成的价值信息，所述AJAX信息为异步JavaScript和可扩展标记语言XML信息。
根据权利要求1所述方法，其特征在于，所述方法还包括：

若所述目标URL网络资源需要登陆账号，获取所述URL网络资源对应的登录账号信息；

对所述登录账号信息进行验证，若验证成功，执行所述进入所述目标URL网络资源对应的目标页面的操作。
一种信息爬取装置，其特征在于，所述装置包括：开启单元、定位单元、获取单元、加载单元、提取单元和存储单元，其中，

所述开启单元，用于在浏览器中打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面；

所述定位单元，用于定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；

所述获取单元，用于获取所述目标DOM元素的定位路径信息；

所述加载单元，用于将所述目标URL网络资源加载到新标签窗口；

所述提取单元，用于根据所述定位路径信息在所述新标签窗口提取所述目标价值信息；

所述存储单元，用于对所述目标价值信息进行统一存储。
根据权利要求10所述的装置，其特征在于，在所述定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素方面，所述定位单元具体用于：

通过所述浏览器的页面元素审查功能定位所述目标价值信息所在的目标DOM元素。
根据权利要求11所述的装置，其特征在于，在获取所述目标DOM元素的定位路径信息方面，所述获取单元具体用于：

定位所述目标价值信息所在的DOM节点；

获取所述DOM节点下第一节点元素的定位路径对应的定位路径信息。
根据权利要求10-12任一项所述的装置，其特征在于，所述装置还包括验证单元和调整单元，其中，

所述开启单元，还用于开启浏览器的控制台；

所述验证单元，用于通过所述控制台验证所述定位路径信息对应的定位路径是否有效；

若是，由所述加载单元执行所述将所述目标URL网络资源加载到新的标签窗口的操作；

所述调整单元，用于若所述定位路径信息对应的定位路径无效，调整所述定位路径信息。
根据权利要求13所述的装置，其特征在于，在所述通过所述控制台验证所述定位路径信息对应的定位路径是否有效方面，所述验证单元具体用于：

在所述控制台输入所述定位路径信息对应的定位路径，若能成功定位到所述目标DOM元素，确定所述定位路径信息对应的定位路径有效。
根据权利要求10-14任一项所述的装置，其特征在于，在所述调整所述定位路径信息方面，所述调整单元具体用于：

获取所述DOM节点下第二节点元素的定位路径对应的定位路径信息，其中，所述第二节点元素和所述第一节点元素分别对应所述DOM节点下的不同子节点；

调整所述定位路径信息至所述第二节点元素的定位路径对应的定位路径信息。
根据权利要求10-15任一项所述的装置，其特征在于，所述加载单元将所述目标URL网络资源加载到新标签窗口之前，

所述开启单元，还用于通过所述控制台打开所述新标签窗口；

在所述根据所述定位路径信息在所述新标签窗口提取所述目标价值信息方面，所述提取单元具体用于：

通过所述控制台向所述新标签窗口注入爬虫代码；

执行所述爬虫代码，并根据所述定位路径信息提取所述目标价值信息。
一种电子设备，其特征在于，包括浏览器、浏览器的控制台、网络资源加载器、网络资源解析器和存储器，其中，

所述浏览器，用于打开目标统一资源定位符URL网络资源，进入所述目标URL网络资源对应的目标页面；

所述控制台，用于打开新标签窗口，在新标签窗口中加载所述URL网络资源；

所述网络资源解析器，用于定位所述目标页面中目标价值信息所在的文档对象模型DOM元素，得到目标DOM元素；获取所述目标DOM元素的定位路径信息；

所述网络资源加载器，用于通过URL网络资源加载所述目标价值信息；

所述网络资源解析器，还用于根据所述定位路径信息在所述新标签窗口提取所述目标价值信息；

所述存储器，用于对所述目标价值信息进行统一存储。
一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-9任一项所述的方法中的步骤的指令。
一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-9任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如权利要求1-9任一项所述的方法。