WO2014000571A1

WO2014000571A1 - 一种网页中非正文文本的识别系统及方法

Info

Publication number: WO2014000571A1
Application number: PCT/CN2013/077102
Authority: WO
Inventors: 王志刚
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2012-06-25
Filing date: 2013-06-09
Publication date: 2014-01-03
Also published as: CN102779172A; CN102779172B; US20150205769A1; US10042827B2

Abstract

本发明公开了一种网页中非正文文本的识别系统及方法，涉及正文抽取领域。所述系统包括：网页抓取器适于抓取目标网站的所有网页的数据； DOM树构建单元，适于构建目标网站的每个网页对应的DOM树；DOM树分析单元，适于根据DOM树找出网页中的单元文本段；文本统计单元，适于统计单元文本段在目标网站的所有网页中的出现次数；文本识别单元，适于在所述出现次数大于预定阈值时，将所述单元文本段识别为非正文文本。所述系统及方法，克服了现有方法对于非正文文本识别的滞后问题，并且具有较高的识别准确度。

Description

一种网页中非正文文本的识别系统及方法

技术领域

本发明涉及正文抽取技术领域，特别涉及一种网页中非正文文本的识别系统及方法。背景技术

正文抽取在搜索引擎、移动阅读等领域有着越来越重要的作用。正文抽取常用的技术有基于规则、基于 DOM ( Document Object Model, 文档对象模型）树、基于标记窗、基于最大文本块等。这些方法都需要对网站中的非正文文本，比如广告、网站声明等，进行排除。如图 la所示是一段网站声明的代码段示意图，图 lb是图 la中代码段在网页中的实际展示效果图，这种网站声明在网页中非常常见，对于用户阅读价值不大，都需要在正文抽取时进行排除。然而，如何有效地识别这些非正文文本，是一个难题。

现有技术中主要釆用垃圾关键词密度的方法进行非正文文本识别。在基于垃圾关键词识别非正文文本时，需要有垃圾关键词构成的词典，并且不断对词典进行更新。对于词典的更新，只有在发现问题后才能加入新的垃圾关键词。因此，这种方法对于问题的解决具有严重的滞后性，而且当面对全互联网的海量数据时，这种滞后性显的更加突出。发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减緩上述问题的网页中非正文文本的识别系统及方法。

根据本发明的一个方面，提供了一种网页中非正文文本的识别系统，所述系统包括：网页抓取器、 DOM树构建单元、 DOM树分析单元、文本统计单元和文本识别单元；所述网页抓取器适于抓取目标网站的所有网页的数据；所述 DOM树构建单元，适于构建目标网站的每个网页对应的 DOM树；段；所述文本统计单元，适于统计所述单元文本段在所述目标网站的所有网页中的出现次数；所述文本识别单元，适于在所述出现次数大于预定阔值时，将所述单元文本段识别为非正文文本。根据本发明的另一个方面，提供了一种网页中非正文文本的识别方法，其包括步骤：

A: 使用网页抓取器抓取目标网站的所有网页的数据；

B: 构建目标网站的每个网页对应的 DOM树；

C: 根据所述 DOM树找出所述网页中的单元文本段；

D: 统计所述单元文本段在所述目标网站的所有网页中的出现次数； E: 根据所述出现次数，判断所述单元文本段是否是非正文文本。

其中，所述步骤 B中，釆用网页语言对应的解析器构建目标网站的每个网页对应的 DOM树。

根据本发明的又一个方面，提供了一种计算机程序，其包括计算机可读代码，当所述计算机可读代码在服务器上运行时，导致所述服务器执行根据权利要求 9-16中的任一个所述的网页中非正文文本的识别方法。

根据本发明的再一个方面，提供了一种计算机可读介质，其中存储了如权利要求 17所述的计算机程序。

本发明的有益效果为：

依据本发明实施例的网页中非正文文本的识别系统及方法，釆用 DOM 树获取每个网页的单元文本段，进而对单元文本段在目标网站中出现的次数进行统计，并将其出现次数与预定阔值进行比较，从而识别出网站上的非正文文本，克服了现有方法对于非正文文本识别的滞后问题，并且具有较高的识别准确度，在搜索引擎中具有广泛的应用前景。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图 1 a是一段网站声明的代码段示意图；

图 lb是图 la中代码段在网页中的实际展示效果图；图 2是本发明实施例所述网页中非正文文本的识别系统的模块结构图；图 3是所述 DOM树分析单元的内部模块结构图；

图 4是所述文本统计单元的内部模块结构图；

图 5是本发明实施例的网页中非正文文本的识别方法的流程图；图 6是 HTML网页对应的 DOM树示意图；

图 7是所述步骤 C的流程图；

图 8是所述步骤 D的流程图；

图 9是单元文本段统计原理示意图；

图 10示意性地示出了用于执行根据本发明的方法的服务器的框图；以及

图 11示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。具体实施例

下面结合附图和具体的实施方式对本发明作进一步的描述。

图 2是本发明实施例所述网页中非正文文本的识别系统的模块结构图，如图 2所示，所述系统包括：网页抓取器 100、 DOM树构建单元 200、 DOM 树分析单元 300、文本统计单元 400和文本识别单元 500。

所述网页抓取器 100适于抓取目标网站的所有网页的数据，其一般可以釆用网络蜘蛛、网页爬虫、搜索机器人或网络抓取脚本程序。

所述 DOM树构建单元 200, 适于构建所述目标网站的每个网页对应的 DOM树。所述 DOM树构建单元釆用网页语言对应的解析器，并且对于 HTML网页，釆用 HTML解析器。

所述 DOM树分析单元 300 , 适于根据所述 DOM树找出所述网页中的单元文本段。

图 3是所述 DOM树分析单元的内部模块结构图，如图 3所示，所述 DOM树分析单元 300包括：节点访问模块 301和文本段划分模块 302。

所述节点访问模块 301 , 适于从所述 DOM树的根节点开始，依次访问所述 DOM树中的节点，并将访问到的当前节点发送给所述文本段划分模块 302; 以及适于判断所述 DOM树中是否还有需要访问的节点，如果是，将相应的节点作为新的当前节点发送给所述文本段划分模块 302。

其中，所述节点访问模块 301可以按照广度优先算法、深度优先算法或者其他搜索算法访问所述 DOM树中的节点。由于所述 DOM树分析单元 300 在判定当前节点对应的文本段为单元文本段时，将停止对当前节点的后代节点的访问，因此，所述节点访问模块 301 , 优选适于按照广度优先算法依次访问所述 DOM树中的节点，并将访问到的当前节点发送给所述文本段划分模块 302; 以及适于判断所述 DOM树中是否还有需要访问的当前节点的同层节点或者下层节点，如果是，将相应的同层节点或者下层节点作为新的当前节点发送给所述文本段划分模块 302。其中，广度优先算法又称作宽度优先搜索，或横向优先搜索，是一种从根节点开始，自上层至下层，沿着树的宽度遍历树的节点的算法。

所述文本段划分模块 302, 适于判断当前节点对应的文本段是否满足单元文本段的条件，并且在满足条件时，将所述当前节点对应的文本段作为单元文本段，并且通知所述节点访问模块 301停止对所述当前节点的后代节点的访问。其中，当所述当前节点到其后代节点的最长路径小于等于预定长度，并且所述当前节点的后代节点中不包含复杂节点时，认为所述当前节点对应的文本段满足单元文本段的条件。所述复杂节点包括：标签 table、 tr、 td、 ul、 ol、 frame、 select、 input、 marquee和 /或 map对应的节点。

所述文本统计单元 400, 适于统计所述单元文本段在所述目标网站的所有网页中的出现次数。

图 4是所述文本统计单元的内部模块结构图，如图 4所示，所述文本统计单元 400进一步包括：哈希运算模块 401和统计模块 402。

所述哈希运算模块 401 , 适于对所述单元文本段进行哈希运算，得到结果键值。

所述统计模块 402, 适于根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。

所述文本识别单元 500, 适于判断所述出现次数是否大于预定阔值，如果是，将所述单元文本段识别为非正文文本；否则，将所述单元文本段识别为正文文本。

图 5是本发明实施例的网页中非正文文本的识别方法的流程图，如图 5所示，对应所述系统，所述方法包括步骤：

A: 使用网页抓取器抓取目标网站的所有网页的数据。所述网页抓取器一般可以是网络蜘蛛、网页爬虫、搜索机器人或网络抓取脚本程序。所述网页可以釆用 HTML ( Hypertext Markup Language, 超文本标记语言）、 XML ( extensible markup language , 可扩展标" i己语言) 、 XHTML ( extensible Hypertext Markup Language, 可扩展超文本标记语言)等标记语言, 为简单起见，后续均以 HTML网页为例说明。这里的所有网页包括所述目标网站的主网页和子网页。

B: 构建目标网站的每个网页对应的 DOM树。本实施例中釆用 HTML解析器构建目标网站的每个网页对应的 DOM树，本领域技术人员容易想到，当所述网页釆用其他标记语言时，可以釆用相应的解析器，比如釆用 XML 解析器构建 XML网页对应的 DOM树。图 6是 HTML网页对应的 DOM树示意图，如图 6所示， DOM树中的节点对应于 HTML代码中的标签或者文本。

C: 根据所述 DOM树找出所述网页中的单元文本段。

图 7是所述步骤 C的流程图，如图 7所示，所述步骤 C中具体包括步骤：

C 1：从所述 DOM树的根节点开始，依次访问所述 DOM树中的节点。 C2: 判断当前节点对应的文本段是否满足单元文本段的条件，如果是，停止对所述当前节点的后代节点的访问，将所述当前节点对应的文本段作为单元文本段，执行步骤 C3; 否则，直接执行步骤 C3。

所述步骤 C2具体包括步骤：

C21 : 判断当前节点是否满足以下条件：所述当前节点到其后代节点的最长路径小于等于预定长度，并且所述当前节点的后代节点中不包含复杂节点；如果是，执行步骤 C22; 否则，执行步骤 C3。本步骤的含义是，当所述当前节点同时满足，所述当前节点到其后代节点的最长路径小于等于预定长度，并且所述当前节点的后代节点中不包含复杂节点时，将所述当前节点对应的文本段作为单元文本段。

仍以图 6为例，图 6中左侧 div节点与其最远的后代节点的距离为 3 , 小于预定距离 4, 同时，其后代节点中不含所述复杂节点，因此，图 6中左侧 div节点对应的文本段被识别为单元文本段。需要说明的是，对所述单元文本段的识别与所述当前节点的标签名称无关。

所述后代节点包括所述当前节点的各子孙节点，即在所述当前节点所在分支上并且位于所述当前节点下层的所有节点。对于所述预定长度的设定以及所述复杂节点所包括节点的范围可以根据实际使用情况适时调整。比如，所述预定长度可以设置为 3或者 4或者 5, 本实施例中，所述预定长度优选为 4。仍以图 6中的 DOM树为例，对于图 6中左侧的 div节点，当其作为当前节点时，其对应的分支为 div->p->a->text2 , 该 div节点距离其最远的后代节点 text2的距离为 3 , 小于预定长度 4。本实施例中，所述复杂节点包括：标签 table、 tr、 td、 ul、 ol、 frame、 select、 input、 marquee和 /或 map对应的节点。

C22: 停止对所述当前节点的后代节点的访问，将所述当前节点对应的文本段作为单元文本段，执行步骤 C3。

C3: 判断所述 DOM树中是否还有需要访问的节点，如果是，将相应的节点作为新的当前节点，执行步骤 C2; 否则，执行所述步骤 D。

所述步骤 C1中，可以釆用广度优先算法、深度优先算法或者其他搜索算法访问所述 DOM树中的节点。由于本发明实施例所述方法在判定当前节点对应的文本段为单元文本段时，将停止对当前节点的后代节点的访问，因此，所述步骤 C1中优选釆用广度优先算法。

当所述步骤 C1中，按照广度优先算法依次访问所述 DOM树中的节点时，所述步骤 C3具体包括步骤：

C31 : 判断所述 DOM树中是否还有未访问的所述当前节点的同层节点，如果是，将所述同层节点作为新的当前节点，执行步骤 C2; 否则，执行步骤 C32。所述同层节点是指与所述当前节点处于同一层的节点，其可以是所述当前节点的兄弟节点，也可以是所述当前节点的非兄弟节点（如图 6中的 text2节点与 text3节点是同层节点但不是兄弟节点）。

C32: 判断所述 DOM树中是否还有需要访问的所述当前节点的下层节点，如果是，将所述下层节点作为新的当前节点，执行步骤 C2; 否则，执行所述步骤 D。需要说明的是，当所述当前节点对应的文本段被识别为单元文本段时，所述当前节点的后代节点无需再被访问。

D: 统计所述单元文本段在所述目标网站的所有网页中的出现次数。图 8是所述步骤 D的流程图 , 如图 8所示，所述步骤 D具体包括步骤：

D1 : 对所述单元文本段进行哈希运算，得到结果键值。本实施例中，釆用 MD5 ( Message Digest Algorithm 5 , 消息摘要算法第五版）算法对所述单元文本段进行哈希运算，当然本领域技术人员容易想到还可以利用其他类似算法进行哈希运算。本实施例中，在对所述出现次数进行统计时，建立了以所述结果键值为 key, 以所述出现次数为 value的 key-value表格，进而根据所述 key-value表格判断每个 key值对应的 value值是否大于所述预定阔值，以识别出每个 key值对应的单元文本段是否是非正文文本。 D2:根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。

E: 根据所述出现次数，判断所述单元文本段是否是非正文文本。所述步骤 E具体包括步骤：判断所述出现次数是否大于预定阔值，如果是，将所述单元文本段识别为非正文文本；否则 ,将所述单元文本段识别为正文文本。

图 9是单元文本段统计原理示意图，如图 9所示，各所述单元文本段出现次数的统计范围为所述目标网站的所有网页。其中，所述预定阔值可以根据实际使用情况进行调整，比如预定阔值可以优选为 100, 或者 90、 150等等。

本发明实施例所述网页中非正文文本的识别系统及方法，釆用 DOM树获取每个网页的单元文本段，进而对单元文本段在目标网站中出现的次数进行统计，并将其出现次数与预定阔值进行比较，从而识别出网站上的非正文文本，克服了现有方法对于非正文文本识别的滞后问题，并且具有较高的识别准确度，在搜索引擎中具有广泛的应用前景。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP ) 全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图 10示出了可以实现根据本发明的网页中非正文文本的识别方法的服务器，例如应用服务器。该服务器传统上包括处理器 1010和以存储器 1020 形式的计算机程序产品或者计算机可读介质。存储器 1020 可以是诸如闪存、 EEPROM (电可擦除可编程只读存储器）、 EPROM、硬盘或者 ROM之类的电子存储器。存储器 1020具有用于执行上述方法中的任何方法步骤的程序代码 1031的存储空间 1030。例如，用于程序代码的存储空间 1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码 1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘（CD ) 、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图 11所述的便携式或者固定存储单元。该存储单元可以具有与图 10的服务器中的存储器 1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码 103Γ , 即可以由例如诸如 1010之类的处理器读取的代码，这些代码当由服务器运行时，导致该服务器执行上面所描述的方法中的各个步骤。

本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里"在一个实施例中"的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

权利要求

1、一种网页中非正文文本的识别系统，其包括：网页抓取器、 DOM树构建单元、 DOM树分析单元、文本统计单元和文本识别单元；

所述网页抓取器适于抓取目标网站的所有网页的数据；

所述 DOM树构建单元，适于构建目标网站的每个网页对应的 DOM树；所述 DOM树分析单元，适于根据所述 DOM树找出所述网页中的单元文本段；

所述文本统计单元，适于统计所述单元文本段在所述目标网站的所有网页中的出现次数；

所述文本识别单元，适于在所述出现次数大于预定阈值时，将所述单元文本段识别为非正文文本。

2、如权利要求 1所述的系统，其中，所述 DOM树构建单元釆用网页语言对应的解析器。

3、如权利要求 1所述的系统，其中，所述 DOM树分析单元包括：节点访问模块和文本段划分模块；

所述节点访问模块，适于从所述 DOM树的根节点开始，依次访问所述 DOM树中的节点，并将访问到的当前节点发送给所述文本段划分模块；以及适于判断所述 DOM树中是否还有需要访问的节点，如果是，将相应的节点作为新的当前节点发送给所述文本段划分模块；

所述文本段划分模块，适于判断当前节点对应的文本段是否满足单元文本段的条件，并且在满足条件时，将所述当前节点对应的文本段作为单元文本段，并且通知所述节点访问模块停止对所述当前节点的后代节点的访问。

4、如权利要求 3所述的系统，其中，所述节点访问模块，适于从所述 DOM树的根节点开始，按照广度优先算法依次访问所述 DOM树中的节点，并将访问到的当前节点发送给所述文本段划分模块；以及适于判断所述 DOM树中是否还有需要访问的当前节点的同层节点或者下层节点，如果是，将相应的同层节点或者下层节点作为新的当前节点发送给所述文本段划分模块。

5、如权利要求 3所述的系统，其中，当所述当前节点到其后代节点的最长路径小于等于预定长度，并且所述当前节点的后代节点中不包含复杂节点时，认为所述当前节点对应的文本段满足单元文本段的条件。

6、如权利要求 5所述的系统，其中，所述复杂节点包括：标签 table、 tr、 td、 ul、 ol、 frame、 select、 input、 marquee和 /或 map对应的节点。

7、如权利要求 1所述的系统，其中，所述文本统计单元包括：哈希运算模块和统计模块；

所述哈希运算模块，适于对所述单元文本段进行哈希运算，得到结果键值；

所述统计模块，适于根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。

8、如权利要求 1所述的系统，其中，所述文本识别单元，还适于在所述出现次数小于等于所述预定阔值时，将所述单元文本段识别为正文文本。

9、一种网页中非正文文本的识别方法，其包括步骤：

A: 使用网页抓取器抓取目标网站的所有网页的数据；

B: 构建目标网站的每个网页对应的 DOM树；

C: 根据所述 DOM树找出所述网页中的单元文本段；

D: 统计所述单元文本段在所述目标网站的所有网页中的出现次数；

E: 根据所述出现次数，判断所述单元文本段是否是非正文文本。

10、如权利要求 9所述的方法，其中，所述步骤 B中，釆用网页语言对应的解析器构建目标网站的每个网页对应的 DOM树。

11、如权利要求 9所述的方法，其中，所述步骤 C中具体包括步骤： C1 : 从所述 DOM树的根节点开始，依次访问所述 DOM树中的节点；

C2: 判断当前节点对应的文本段是否满足单元文本段的条件，如果是，停止对所述当前节点的后代节点的访问，将所述当前节点对应的文本段作为单元文本段，执行步骤 C3; 否则，直接执行步骤 C3;

12、如权利要求 11所述的方法，其中，所述步骤 C2具体包括步骤： C21 : 判断当前节点是否满足以下条件：所述当前节点到其后代节点的最长路径小于等于预定长度，并且所述当前节点的后代节点中不包含复杂节点；如果是，执行步骤 C22; 否则，执行步骤 C3;

13、如权利要求 12所述的方法，其中，所述复杂节点包括：标签 table、 tr、 td、 ul、 ol、 frame、 select、 input、 marquee和 /或 map对应的节点。

14、如权利要求 11所述的方法，其中，所述步骤 C1中，按照广度优先算法依次访问所述 DOM树中的节点；

所述步骤 C3具体包括步骤：

C31 : 判断所述 DOM树中是否还有未访问的所述当前节点的同层节点，如果是，将所述同层节点作为新的当前节点，执行步骤 C2; 否则，执行步骤 C32;

C32: 判断所述 DOM树中是否还有需要访问的所述当前节点的下层节点，如果是，将所述下层节点作为新的当前节点，执行步骤 C2; 否则，执行所述步骤 D。

15、如权利要求 9所述的方法，其中，所述步骤 D具体包括步骤： D1 : 对所述单元文本段进行哈希运算，得到结果键值；

D2:根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。

16、如权利要求 9所述的方法，其中，所述步骤 E具体包括步骤：判断所述出现次数是否大于预定阈值，如果是，将所述单元文本段识别为非正文文本；否则，将所述单元文本段识别为正文文本。

17、一种计算机程序，包括计算机可读代码，当所述计算机可读代码在服务器上运行时，导致所述服务器执行根据权利要求 9-16中的任一个所述的网页中非正文文本的识别方法。

18、一种计算机可读介质，其中存储了如权利要求 17所述的计算机程序。