WO2021103557A1

WO2021103557A1 - 一种网页结构化数据自适应提取方法

Info

Publication number: WO2021103557A1
Application number: PCT/CN2020/101247
Authority: WO
Inventors: 陈星�; 郭莹楠; 杨植; 郑勇杰; 陈晓娜
Original assignee: 福州大学
Priority date: 2019-11-29
Filing date: 2020-07-10
Publication date: 2021-06-03
Also published as: CN110968761A; CN110968761B

Abstract

一种网页结构化数据自适应提取方法，首先封装抽取模板，根据抽取模板判断目标网页的结构是否改变，若未改变则根据抽取模板中的数据的路径找到目标网页中的数据；若目标网页的结构改变，则计算抽取模板指定区域和目标网页所有区域的相似度，取相似度最高的区域作为候选区域，进行候选区域内数据项的映射，对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算，每个数据项对应相似度最高的节点。所述方法在网页结构变化后仍然能够正确抽取出目标数据。

Description

一种网页结构化数据自适应提取方法

技术领域

本发明涉及物联网网页结构化数据提取领域，特别是一种网页结构化数据自适应提取方法。

背景技术

互联网(Internet)是一个巨大的资源库，目前的网页数量已达千亿级，每小时还以惊人的速度持续增长，互联网的高速发展，使得信息呈现爆炸式增长，Web作为互联网信息的主要载体，充斥着各种各样的信息。为了收集网页中包含着的我们所需的有效信息，人们提出了各种各样的Web数据抽取技术。

技术问题

然而当前的Web数据抽取技术一般只针对特定的网页结构，当网页迭代更新时，可能会遇到页面结构变化的问题，导致无法抽取网页信息或者抽取出错误的信息。

技术解决方案

有鉴于此，本发明的目的是提出一种网页结构化数据自适应提取方法，在网页结构变化后仍然能够正确抽取出目标数据。

本发明采用以下方案实现：一种网页结构化数据自适应提取方法，包括以下步骤：

封装抽取模板，根据抽取模板判断目标网页的结构是否改变，若未改变则根据抽取模板中的数据的路径找到目标网页中的数据；若目标网页的结构改变，则计算抽取模板指定区域和目标网页所有区域的相似度，取相似度最高的区域作为候选区域，进行候选区域内数据项的映射，对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算，每个数据项对应相似度最高的节点。

进一步地，所述封装抽取模板具体包括以下步骤：

步骤S11：输入目标网页、待提取数据及抽取模板的名称，系统调用JS脚本提取页面中所有节点的信息，并解析生成DOM树；

步骤S12：根据输入的标注信息找到DOM树中包含待提取数据的指定子树；

步骤S13：将该子树的信息爬取下来存为特定格式的文件Template＝<Json,DOMTree>，其中，Json表示网页特定区域需要抽取数据的结构化表示，DOMTree表示网页特定区域的DOM树子树。

进一步地，步骤S13中，所述Json表示为：

Json＝<name ₁:value ₁,name ₂:value ₂,...,name _n:value _n>；

式中，name _i是要抽取的数据名，value _i是该数据名所对应的数据值；

所述DOMTree表示为：

DOMTree＝<Node ₁,Node ₂,…,Node _n>；

式中，Node _i为该树的一个节点，其中Node ₁为该子树的根节点；

给定DOM树中的一个节点Node，表示为：

Node＝<tag,Father,Child,xpath,text,Attri>；

式中，tag为该节点的标签名，Father为该节点的父节点，Child为该节点的子节点列表，xpath为该节点的路径，text为该节点的文本内容，Attri为该节点的特征属性；

给定一个节点的特征属性Attribute，表示为：

Attri＝<id,class,x,y,w,h>；

式中，id为该节点标签的页面id，class为该节点标签的类名，x为该节点与页面左边框的距离，y为该节点和网页顶部的距离，w为该节点在网页中所占区域的宽度，h为该节点在网页中所占区域的高；

给定一个节点Node的路径xpath，表示为一个序列：

path＝</tag ₁[x ₁]/tag ₂[x ₂]/…/tag _n[x _n]>；

式中，tag表示路径上的标签名，x _i表示该节点是DOM树中处于同一层的第x _i个节点。

进一步地，所述根据抽取模板判断目标网页的结构是否改变具体为：

读取抽取模板中的json串和子树所有节点信息，解析成DOM树，调用JS脚本提取目标页面中所有节点的信息，并解析生成DOM树；

根据抽取模板生成的DOM树根节点的路径找到目标页面该路径下的子树，判断两个子树结构是否变化，若两个子树的相似度大于指定阈值，则目标网页结构未改变；否则认为目标网页的结构改变。

进一步地，所述计算抽取模板指定区域和目标网页所有区域的相似度，取相似度最高的区域作为候选区域具体包括以下步骤：

步骤S21：判断指定区域与目标网页中每个区域间的路径相似度；

步骤S22：判断指定区域与目标网页中每个区域间的结构相似度；

步骤S23：判断指定区域与目标网页中每个区域间的文本相似度；

步骤S24：对目标网页中的每个区域，分别按照预设的权重将区域间的路径相似度、区域间的结构相似度、区域间的文本相似度进行加权计算得到该区域与指定区域的总相似度，选择总相似度最高的区域作为候选区域。

进一步地，所述进行候选区域内数据项的映射，对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算，每个数据项对应相似度最高的节点具体包括以下步骤：

步骤S21：计算指定区域与候选区域中各数据项之间的路径相似度；

步骤S22：计算指定区域与候选区域中各数据项之间的结构相似度；

步骤S23：计算指定区域与候选区域中各数据项之间的文本相似度；

步骤S24：对指定区域中的每个数据项，分别按照预设的权重将步骤S21至步骤S23中的路径相似度、结构相似度、文本相识度进行加权计算得到该数据项与候选区域中的各个数据项的总相似度，选取总相似度最高的作为指定区域中该数据项所对应的候选区域中的数据项。

有益效果

与现有技术相比，本发明有以下有益效果：本发明通过页面渲染提取网页各个区域的特征值，再结合页面DOM树结构、文本相似度等信息，使其在网页结构变化后仍然能够正确抽取出目标数据。

附图说明

图1为本发明实施例的方法原理示意图。

图2为本发明实施例的系统调用JS脚本示例1，其中Algorithm1为爬虫脚本，Algorithm2为搜索树算法。

图3为本发明实施例的系统调用JS脚本示例2。其中，Algorithm3为区域内数据项匹配算法。

图4为本发明实施例中网页更新前后的例子，其中(a)为网页更新前，(b)为网页更新后。

图5为本实施例方法的抽取结果示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种网页结构化数据自适应提取方法，包括以下步骤：

较佳的，抽取模板的封装过程可描述为输入要抽取信息的网址、要抽取数据的标注信息及抽取模板的命名，系统将根据标注内容找到网页上相应的区块，将该区块的特征值及标签信息封装成抽取模板存储为特定格式的文件。封装抽取模板之后的步骤为web数据自适应抽取过程，可描述为首先从抽取模板中读取所需的模板信息，包括旧版页面特定区域需要抽取的信息以及该区域的特征属性，用已有的爬虫工具将网页解析成DOM树并获取网页的特征属性，根据抽取模板指定的区域路径找到当前网页该路径下的区域，计算其相似度，判断两区域是否相似，若相似则网页结构未改变，提取指定信息；若相似度小于指定阈值，则网页结构改变，进行新旧网页的自适应匹配。其中，新旧网页的自适应匹配过程可分为两个阶段：目标区域匹配和区域内数据项映射。这两个阶段都包含了路径相似度计算、结构相似度计算以及文本相似度计算，从这三个方面综合计算节点间的相似度，提高自适应的准确率。

在本实施例中，所述封装抽取模板具体包括以下步骤：

较佳的，步骤S11中，系统所调用的JS脚本的算法如图2所示。

在本实施例中，步骤S13中，所述Json表示为：

Json＝<name ₁:value ₁,name ₂:value ₂,...,name _n:value _n>；

所述DOMTree表示为：

DOMTree＝<Node ₁,Node ₂,…,Node _n>；

给定DOM树中的一个节点Node，表示为：

Node＝<tag,Father,Child,xpath,text,Attri>；

给定一个节点的特征属性Attribute，表示为：

Attri＝<id,class,x,y,w,h>；

给定一个节点Node的路径xpath，表示为一个序列：

path＝</tag ₁[x ₁]/tag ₂[x ₂]/…/tag _n[x _n]>；

较佳的，得到抽取模板后，输入模板名字和目标网页的网址即可抽取网页中所需的数据。Web数据自适应抽取的过程可分为3个步骤：1、读取抽取模板中的json串和子树所有节点信息，解析成DOM树，调用JS脚本提取目标页面中所有节点的信息，并解析生成DOM树。2、根据抽取模板生成的DOM树根节点的路径找到目标页面该路径下的子树，判断两个子树结构是否变化，相似度大于指定阈值，则网页结构未改变，根据抽取模板中数据的路径找到目标网页中的数据；若相似度小于指定阈值，则开始自适应匹配阶段。3、自适应阶段首先计算抽取模板指定区域和目标网页所有区域的相似度，相似度计算包括路径相似度、结构相似度和文本相似度，最后总的相似度为各个相似度加权平均得到，取相似度最高的区域为候选区域，进行区域内数据项的映射。每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算，同样分为路径相似度、结构相似度和文本相似度，取加权平均值，每个数据项对应相似度最高的节点。

在本实施例中，所述根据抽取模板判断目标网页的结构是否改变具体为：

在本实施例中，关于目标区域匹配，网页在结构上可分割为若干个区域，即将网页的DOM树分割成若干个子树，抽取模板中存储着预先从网页上爬取下来的指定区域的特征属性和所要提取的数据结构，区域相似度比较的过程就是将抽取模板中存储着的指定区域的所有特征值和属性与所输入的网页的所有区域的特征值和属性进行相似度计算，相似度最高的区域即看作是网页迭代更新后的指定区域。

具体的，所述计算抽取模板指定区域和目标网页所有区域的相似度，取相似度最高的区域作为候选区域具体包括以下步骤：

步骤S21：判断指定区域与目标网页中每个区域间的路径相似度；通过观察大量迭代更新前后的网页，发现即使网页结构变化，大部分网页的子块也只会在原本的位置附近移动，因此两区域的路径相似度可作为考察区域相似度的一个指标。取两区域的根节点的DOM树路径path为两个变量，构造公式。常用的网页DOM树路径通常被视为一条从根节点到叶节点所包含的标签序列，传统网页DOM树路径匹配模型采用路径匹配计算路径序列的相似度，只考虑序列匹配，忽略了树路径在网页DOM树中出现的位置，显然不符合实际，计算出的相似度结果也不能真实有效地反应实际相似信息。因此，本实施例提出一种改进的路径相似度计算方法，对于两条树路径：

xpath _i＝＜/tagName ₁[x ₁]/tagName ₂[x ₂]/.../tagName _n[x _n]＞，

xpath _tar＝＜/tagName ₁[x ₁]/tagName ₂[x ₂]/.../tagName _n[x _n]＞，

他们之间的DOM树路径相似度定义如下：

sim(xpath _i,xpath _tar)＝st(xpath _i,xpath _tar)*ω ₁+sp(xpath _i,xpath _tar)*(1-ω ₁)；

其中，

表示示树路径的标签序列相似度，path _i(tagName _i)Ιpath _tar(tagName _j)表示两条路径以根节点为开始的最长公共标签序列长度，len(path _i)表示路径path _i的标签序列长度；

表示两条树路径的位置相似度，表示两条路径以根节点为开始的最长公共标签序列中有相同层序号的节点数。

路径相似度主要由st(path _i,path _tar)和sp(path _i,path _tar)两部分构成，分别体现了路径相似性中的标签序列和位置信息，ω是它们之间的权重，取值范围为0-1，改变ω可调节这两部分在路径相似性中的重要性。

步骤S22：判断指定区域与目标网页中每个区域间的结构相似度；区域间结构的相似度主要考虑虚拟的结构和真实的结构，即DOM树的结构和网页可视化的结构，由两个部分组成：树结构相似度及区域在网页中的坐标和大小。其中，树结构相似度包含父节点是否一致、树内包含的总节点数比较、DOM树高度比较；而区域在网页中的坐标和大小则包括两区域的高度、宽度以及距离页面顶部的长度和距离页面左侧的宽度。对于两个区域，他们的区域间结构相似度比较定义如下：

sim(treestru _i,treestru _tar)＝st(T _i,T _tar)*ω+sp(T _i,T _tar)*(1-ω)；

其中，

表示网页DOM树结构的相似度，equal(root _i,root _tar)表示判断两区域根节点是否一致，T _i(node)表示T _i所包含的节点总数，H(T _i)表示T _i的树高度，即该DOM树的节点层数。ω _i(i＝1,2,3)是它们之间的权重，取值范围为0-1。

其中，

表示两区域在整个页面中所占的大小和坐标的相似度，height(T _i)表示区域的高度，width(T _i)表示区域的宽度，top(T _i)表示T _i所表示区域距离页面顶部的长度，left(T _i)表示T _i所表示区域距离页面左侧的宽度，ω _i(i＝1,2,3,4)是它们之间的权重，取值范围为0-1。

区域间结构的相似度主要由st(T _i,T _tar)和sp(T _i,T _tar)两部分构成，分别体现了结构相似性中的DOM树结构信息和图形界面布局信息，ω是它们之间的权重，取值范围为0-1，改变ω可调节这两部分在结构相似性中的重要性。

步骤S23：判断指定区域与目标网页中每个区域间的文本相似度；文本相似度也是区域间相似度的一个度量因子，本实施例使用的是同义词词林来计算词与词之间的相似度。同义词词林进行语义分类，并将单词组织成五级树结构，每个单元同义词采用八位数编码。该结构中包括同义关系，高级关系和词义的下义关系。对于第五级，单词被分组，一个字符被添加到编码的末尾以标记相应的单词是同义词(“＝”)，同源(“#”)或该组只有一个单词(“@”)。利用这种编码规则，本实施使用以下算法来执行中文文本的相似度计算。区域内的文本可以看作句子，句子由几个单词组成。如前所述，计算文本相似度本质上是计算句子相似度。因此，本实施例可以使用这个公式，使用单词相似度sim(word；text _tar)获得文本相似度：

sim(w,text)＝max(sim(word,word ₁),...,sim(word,word _k))，

其中，w是一个单词，text是区域内的所有文本，包含k个单词。sim(word,word _i)是两个词的相似度。text _i和text _tar为两个区域内的所有文本，定义为，text _i＝{w _i,1,w _i,2,...,w _i,m},text _tar＝{w _tar,1,w _tar,2,...,w _tar,n}。m,n分别为text _i和text _tar拆分的单词个数。文本相似度包含两个度量因子：文本内容的相似度以及两区域所有文本的长度比较。ω是它们之间的权重，取值范围为0-1，改变ω可调节这两部分在文本相似性中的重要性。

步骤S24：对目标网页中的每个区域，分别按照预设的权重将区域间的路径相似度、区域间的结构相似度、区域间的文本相似度进行加权计算得到该区域与指定区域的总相似度，选择总相似度最高的区域作为候选区域。其中，总相似度的计算采用下式：

sim(tree _i,tree _tar)＝sim(xpath _i,xpath _tar)*ω ₁

+sim(treestru _i,treestru _tar)*ω ₂。

+sim(text _i,text _tar)*ω ₃

通过上述的计算，本实施例可得到与目标区域相似度最高的区域，将其看做疑似的目标区域，如果相似度大于一定的阈值，则进行下一步计算区域内的数据项匹配；若相似度小于该阈值，则说明在更新后的网页中未能找到目标区域。首先定义，取区域内所包含文本内容不为空的节点构成待匹配的节点集合为：

Items＝<node ₁,node ₂,...,node _k>；

集合中包含k个节点node _i。图3为本实施例中数据项匹配的算法。

在本实施例中，所述进行候选区域内数据项的映射，对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算，每个数据项对应相似度最高的节点具体包括以下步骤：

步骤S21：计算指定区域与候选区域中各数据项之间的路径相似度；数据项间的路径相似度按之前构造的公式计算，不同的是这里的参数path是区域内路径而不是在整个网页中的路径，即：

path＝xpath-xpath _root；

其中，xpath _root为该区域根节点的路径，则数据项路径相似度的计算公式为：

步骤S22：计算指定区域与候选区域中各数据项之间的结构相似度；数据项间的结构相似度主要有以下考量：页面的标签属性以及在区域内的相对位置。其中，页面的标签属性包含标签名是否一致、标签id是否一致以及css样式中的字体类型是否一致、字体大小和颜色是否一致；区域内的相对位置包含距离页面顶部的长度和距离页面左侧的宽度的比较。对于两个数据项的结构相似度计算定义如下：

其中，

表示数据项的标签属性的相似度，equal(tagName _i,tagName _tar)表示标签名是否一致，若一致则为1，否则为0；equal(id _i,id _tar)表示标签id是否一致，若一致则为1，否则为0。equal(font-family _i,font-family _tar)、equal(font-size _i,font-size _tar)、equal(font-color _i,font-color _tar)分别代表字体类型是否一致、字体大小和颜色是否一致，若一致则为1，否则为0。ω _i是它们之间的权重，取值范围为0-1。

表示数据项在区域内的相对位置，表示数据项距离页面顶部的长度，表示数据项距离页面左侧的宽度，它们的重要程度一致，所以权重各占一半，都为0.5。

步骤S23：计算指定区域与候选区域中各数据项之间的文本相似度；数据项的文本相似度计算同样使用上述定义的公式，不同的是文本内容text只包含单个数据项的文本内容，而不是整个区域内的所有文本。

sim(w,nodetext)＝max(sim(word,word ₁),...,sim(word,word _s))，

其中，nodetext是单个节点所包含的文本，包含s个词，sim(word,word _i)是两个词的相似度。nodetext _i和nodetext _tar为两个节点内的文本，定义为，nodetext _i＝{w _i,1,w _i,2,...,w _i,p},nodetext _tar＝{w _tar,1,w _tar,2,...,w _tar,q}。p,q分别为nodetext _i和nodetext _tar拆分的单词个数。文本相似度包含两个度量因子：文本内容的相似度以及两区域所有文本的长度比较。ω是它们之间的权重，取值范围为0-1，改变ω可调节这两部分在文本相似性中的重要性。

步骤S24：对指定区域中的每个数据项，分别按照预设的权重将步骤S21至步骤S23中的路径相似度、结构相似度、文本相识度进行加权计算得到该数据项与候选区域中的各个数据项的总相似度，选取总相似度最高的作为指定区域中该数据项所对应的候选区域中的数据项。计算区域内所有的数据项与配置文件所指定的特定区域内的数据项的相似度，将上述得到的三个度量因子按一定权重计算总相似度，可得如下式子：

sim(node _i,node _tar)＝sim(path _i,path _tar)*ω ₁+sim(nodestru _i,nodestru _tar)*ω ₂+sim(nodetext _i,nodetext _tar)*ω ₃

。

特别的，为了更好地说明本实施例的效果，如图4所示，图4是网页更新前后变化的一个例子，可以看到网页的结构发生了较大的变化，目标区域的位置和大小都发生了变化，同时需要抽取的数据内容也发生了一些改变，然而本实施例的方法仍然能够定位到目标区域，并且输出数据项的一一对应关系。如果用传统的网页数据抽取算法在网页结构变化后是无法定位到我们所需的目标块的，更无法找到新旧版页面数据项的对应关系，这不利于数据的规模化抽取，本实施例希望能实时监控网页的变化并自适应调整抽取模板来适应页面的更新。

针对这个例子来讨论本实施例方法的可行性，对于这个网页本实施例要抽取大夫的信息。首先将该网站的url和标注的json数据{'推荐热度(综合)：':'3.5','感谢信：':'1','礼物：':'0','科室：':'西南医科大学附属医院眼科','擅长：':'角膜病、角膜屈光手术、葡萄膜疾病、屈光不正的矫正及防治，眼部激光检查及治疗','简介：':'郑洋，女，副主任医师，副教授，医学硕士，中华医学会会员，从事临床医疗、教学和科研工作近10余年。专业方...'}以及抽取模板的命名“doctor”输入系统，运行得到相应的抽取模板。当本实施例要抽取该区域的信息时，输入抽取模板的名字和网页url，系统会将网页解析成存储页面所有节点信息的DOM树，然后根据抽取模板指定的区域路径找到当前网页该路径下的区域，计算其相似度，判断两区域是否相似，若相似则网页结构未改变，提取指定信息；若相似度小于指定阈值，则网页结构改变，进行新旧网页的自适应匹配以及抽取模板的更新。图4所示网页的更新前后抽取的信息如图5所示，其中(a)为网页更新前抽取的数据，(b)为网页更新后抽取的数据。可以由图看出，本实施例的方法能够在网页结构改变较大的情况下仍然有效提取数据。

综上，本实施例提出的方法在制定抽取模板时不仅定义相应的抽取规则，而且根据页面数据的文本特征、HTML标签特征、视觉特征、DOM树结构特征定义自适应匹配规则。web与相应的抽取模板进行匹配，匹配成功后按照抽取规则进行数据抽取；若页面发生变化，xpath表达式失效，则根据自适应匹配规则重新搜索数据，并更新xpath。实验结果表明该方法具有较高的准确率，并且有效地减少了抽取过程中的人工干预。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

一种网页结构化数据自适应提取方法，其特征在于，包括以下步骤：

封装抽取模板，根据抽取模板判断目标网页的结构是否改变，若未改变则根据抽取模板中的数据的路径找到目标网页中的数据；若目标网页的结构改变，则计算抽取模板指定区域和目标网页所有区域的相似度，取相似度最高的区域作为候选区域，进行候选区域内数据项的映射，对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算，每个数据项对应相似度最高的节点。
根据权利要求1所述的一种网页结构化数据自适应提取方法，其特征在于，所述封装抽取模板具体包括以下步骤：

步骤S11：输入目标网页、待提取数据及抽取模板的名称，系统调用JS脚本提取页面中所有节点的信息，并解析生成DOM树；

步骤S12：根据输入的标注信息找到DOM树中包含待提取数据的指定子树；

步骤S13：将该子树的信息爬取下来存为特定格式的文件Template＝<Json,DOMTree>，其中，Json表示网页特定区域需要抽取数据的结构化表示，DOMTree表示网页特定区域的DOM树子树。
根据权利要求2所述的一种网页结构化数据自适应提取方法，其特征在于，步骤S13中，所述Json表示为：

Json＝<name ₁:value ₁,name ₂:value ₂,...,name _n:value _n>；

式中，name _i是要抽取的数据名，value _i是该数据名所对应的数据值；

所述DOMTree表示为：

DOMTree＝<Node ₁,Node ₂,…,Node _n>；

式中，Node _i为该树的一个节点，其中Node ₁为该子树的根节点；

给定DOM树中的一个节点Node，表示为：

Node＝<tag,Father,Child,xpath,text,Attri>；

式中，tag为该节点的标签名，Father为该节点的父节点，Child为该节点的子节点列表，xpath为该节点的路径，text为该节点的文本内容，Attri为该节点的特征属性；

给定一个节点的特征属性Attribute，表示为：

Attri＝<id,class,x,y,w,h>；

式中，id为该节点标签的页面id，class为该节点标签的类名，x为该节点与页面左边框的距离，y为该节点和网页顶部的距离，w为该节点在网页中所占区域的宽度，h为该节点在网页中所占区域的高；

给定一个节点Node的路径xpath，表示为一个序列：

path＝</tag ₁[x ₁]/tag ₂[x ₂]/…/tag _n[x _n]>；

式中，tag表示路径上的标签名，x _i表示该节点是DOM树中处于同一层的第x _i个节点。
根据权利要求1所述的一种网页结构化数据自适应提取方法，其特征在于，所述根据抽取模板判断目标网页的结构是否改变具体为：

读取抽取模板中的json串和子树所有节点信息，解析成DOM树，调用JS脚本提取目标页面中所有节点的信息，并解析生成DOM树；

根据抽取模板生成的DOM树根节点的路径找到目标页面该路径下的子树，判断两个子树结构是否变化，若两个子树的相似度大于指定阈值，则目标网页结构未改变；否则认为目标网页的结构改变。
根据权利要求1所述的一种网页结构化数据自适应提取方法，其特征在于，所述计算抽取模板指定区域和目标网页所有区域的相似度，取相似度最高的区域作为候选区域具体包括以下步骤：

步骤S21：判断指定区域与目标网页中每个区域间的路径相似度；

步骤S22：判断指定区域与目标网页中每个区域间的结构相似度；

步骤S23：判断指定区域与目标网页中每个区域间的文本相似度；

步骤S24：对目标网页中的每个区域，分别按照预设的权重将区域间的路径相似度、区域间的结构相似度、区域间的文本相似度进行加权计算得到该区域与指定区域的总相似度，选择总相似度最高的区域作为候选区域。
根据权利要求1所述的一种网页结构化数据自适应提取方法，其特征在于，所述进行候选区域内数据项的映射，对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算，每个数据项对应相似度最高的节点具体包括以下步骤：

步骤S21：计算指定区域与候选区域中各数据项之间的路径相似度；

步骤S22：计算指定区域与候选区域中各数据项之间的结构相似度；

步骤S23：计算指定区域与候选区域中各数据项之间的文本相似度；

步骤S24：对指定区域中的每个数据项，分别按照预设的权重将步骤S21至步骤S23中的路径相似度、结构相似度、文本相识度进行加权计算得到该数据项与候选区域中的各个数据项的总相似度，选取总相似度最高的作为指定区域中该数据项所对应的候选区域中的数据项。