WO2013178193A2

WO2013178193A2 - 一种文本内容提取方法和装置

Info

Publication number: WO2013178193A2
Application number: PCT/CN2013/080666
Authority: WO
Inventors: 叶伟
Original assignee: 中兴通讯股份有限公司
Priority date: 2012-11-20
Filing date: 2013-08-01
Publication date: 2013-12-05
Also published as: WO2013178193A3; CN103020129B; CN103020129A

Abstract

本发明公开了一种文本内容提取方法和装置，其中，所述方法包括：将输入的HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；提取各模块包含的链接地址，统计所有链接地址中使用频率最高的字符内容，将包含所述字符内容的各链接地址标记为有效链接，将不包含所述字符内容的各链接地址标记为无效链接；根据综合得分=位置得分×（文本长度+有效链接的文字长度）/无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。本发明所述方法能够有效去除网页中非内容部分的冗余的信息，实现了更为准确的对网页的有效内容进行提取。

Description

一种文本内容提取方法和装置技术领域本发明涉及通信技术领域，尤其涉及一种文本内容提取方法和装置。背景技术随着互联网技术的迅猛发展，浏览网页逐渐成为人们获取信息的主要手段，而在所有接触的页面信息中，文本信息又占了其中的主要部分。如何有效的提取页面中的文本信息是很重要的，因为如果将文本的内容全部提取出来，其中必然会掺杂许多不必要的内容，如广告信息、导航信息等等，这些信息通常是大量重复的，而且并不是用户感兴趣和需要的内容；再者，大量重复和无效的信息也会降低文本聚类和文本分类的准确性，会加大内容检索的工作量。而在不同的网页中，页面的排版和布局是多种多样的，若单从模块或位置进行划分，则很难准确的获取有效的文本信息。目前，文本内容的提取手段是将输入网页分解为多个模块，并通过计算每个模块的综合得分来确定对应模块是否为内容模块。其中，综合得分的计算方式为：综合得分=位置得分 X文字长度 /链接文字长度，然而，该计算方式仍然不够精确，并不能准确对内容进行划分。所以，目前如何能提供一种文本提取方法，实现对文本内容的准确提取成为目前亟待解决的技术问题。发明内容本发明实施例提供一种文本内容提取方法和装置，用以解决现有技术中采用的文本内容提取方法不能准确提取文本内容的问题。为了解决上述问题，本发明实施例采用的技术方案如下：一方面，本发明实施例提供一种文本内容提取方法，包括：将输入的超文本标记语言 HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；根据综合得分 =模块的位置得分 x (模块的文本长度 +模块内有效链接的文字长度） /模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。进一步地，本发明实施例所述方法中，使用 Table标签或 Div标签将输入的 HTML 网页分解为多个模块。进一歩地，本发明实施例所述方法中，若分解得到的模块还能够继续分解且未出现标签混杂的情况，则对分解后的模块继续分解。进一步地，本发明实施例所述方法中，在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。进一歩地，本发明实施例所述方法中，计算各模块的文本长度具体包括：对于每个模块，提取出模块的超文本标记语言（Hypertext Mark-Up Language,简称为 HTML) 标签，根据所述 HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；进一步地，本发明实施例所述方法中，通过 achor标签提取出各模块的链接地址。另一方面，本发明实施例还提供一种文本内容提取装置，包括：网页处理单元，设置为将输入的超文本标记语言 HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度：标记处理单元，设置为提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；内容提取单元，设置为根据综合得分 =模块的位置得分 X (模块的文本长度十模块内有效链接的文字长度） /模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。进一步地，本发明实施例所述装置中，所述网页处理单元，具体设置为使用 Table 标签或 Div标签将输入的 HTML网页分解为多个模块。进一步地，本发明实施例所述装置中，所述网页处理单元，还设置为判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况，若是，则对分解后的模块继续分解。进一步地，本发明实施例所述装置中，所述标记处理单元，还设置为在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，所述内容提取单元，还设置为在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。进一步地，本发明实施例所述装置中，所述网页处理单元，具体设置为对于每个模块，提取出模块的 HTML标签，根据所述 HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；进一步地，本发明实施例所述装置中，所述标记处理单元，具体设置为通过 achor 标签提取出各模块的链接地址。与现有技术相比，本发明有益效果如下：本发明实施例所述方法和装置，使用了普通文本同有效链接文字长度之和与无效链接文字长度的比例，能够更为准确的对 HTML网页的内容进行提取，去除了冗余的广告等信息，使得后面的分词阶段的工作量大大降低，提高了文本聚类和文本分类、自动摘要的准确性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图 1为本发明实施例提供的一种文本内容提取方法的流程图；图 2为本发明实施例中网页布局示意图; 图 3为本发明实施例提供的文本内容提取方法具体流程图; 图 4为本发明实施例提供的一种文本内容提取装置的结构框图。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。为了解决现有技术中采用的文本内容提取方法不能准确提取文本内容的问题，本发明实施例提供一种文本内容提取方法和装置。如图 1所示，本发明实施例提供的一种文本内容提取方法，具体包括- 步骤 S101 , 将输入的 HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；该步骤中，优选地，使用 Table标签或 Div标签将输入的 HTML网页分解为多个模块。进一步地，该步骤中，若分解得到的模块还能够继续分解且未出现标签混杂的情况，则对分解后的模块继续分解。其中，标签混杂：目前主流的页面布局方式主要分为两种，即通过 <Table>标签或 <Div>¾签进行页面结构上的布局划分，但在编辑页面内容时，这两个标签也可能互相包含，即釆用 <Table>布局的页面中可能包含<0^>标签，同样采用<0 >布局的页面中也可能包含 <Talbe>标签；另外，标签混杂也指控制结构的标签 (如 <Table>、 <hl>)和控制表现的标签 (如 <font>、 <b>)混杂在一起使用，造成改版和数据划分的困难。本发明实施例中由于是需要对模块进行划分，所以此处所用的标签混杂主要是指 <了& ^>和<0^>标签的混杂使用。进一步地，该步骤中，计算各模块的文本长度具体包括：对于每个模块，提取出模块的 HTML标签，根据所述 HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度。步骤 S102, 提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含使用频率最高的字符内容的各链接地址标记为有效链接，将不包含使用频率最高的字符内容的各链接地址标记为无效链接；该步骤中，优选地，通过 achor标签提取出各模块的链接地址。步骤 S103，根据综合得分 =模块的位置得分 x (模块的文本长度 +模块内有效链接的文字长度） /模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。该步骤中所述的有效链接的文字长度和无效链接的文字长度，优选地，是在标记有效链接和无效链接时，统一计算得到的；当然，也可以在确定各模块的综合得分时，针对每个模块分别计算得到的。

为了更清楚的阐述本发明实施例所述方法的实现过程，下面结合附图 2至 3对本发明实施例所述方法进行进一步说明，具体涉及如下内容：本发明实施例提供的文本内容提取方法为改进型的基于 HTML特征的文本内容提取方法，该方法能够更加准确和合理的划分文本内容。本发明实施例中，把网页布局分为内容模块和非内容模块，如图 2所示，内容模块是网页中的内容部分，而非内容模块一般是用来展示导航信息，横幅，版权申明或者广告等信息。本发明实施例所述方案的目标就是能够准确分解 HTML网页，把内容模块从 HTML网页中提取出来。针对每个分解出来的模块，根据它所在的网页布局中的位置给与不同的得分，处于用户视线焦点的模块得分越高，反之得分越低，如果无效链接文字长度相对该模块比例过大，那么该模块展示的可能是广告或者导航信息。本发明实施例所述的基于 HTML特征的文本内容提取方法，具体包括：步骤 1，使用标签把输入的 HTML网页分解成多个模块；该歩骤中，优选地，釆用 Table或 Div标签把输入的 HTML网页分解成多个模块。本发明实施例之所以采用 Table标签和 Div标签这两个用于布局的标签来分解模块，一方面是由于它们是用于网页布局，另一方面也能够减少分析网页的复杂度，对诸如 span, br这些其他的标签不进行处理，大大的加快了网页的解析速度，减少了系统资源的分析。步骤 2，如果步骤 1中分解的模块还能继续再分解，而且没有出现 Table或 Div标签混杂的情况，那么再把该模块送到步骤 1继续分解；步骤 3，把输入的模块根据在布局中的不同位置给于不同位置得分。当然，该步骤中，对于布局中每个位置的具体得分是预先设置的好的，其基本原则是模块越处于布局中用户注意力集中的位置其权重越高，位置得分也越高；步骤 4，计算每个模块内的文本长度; 步骤 5，统计所有模块的链接地址中使用频率最高的字符内容，由于同属于该网页相关内容的链接地址必然有部分字符内容是相同的，而诸如广告之类的链接地址则不会包含这部分相同的字符内容，因此可以用所统计出的使用频率最高的字符内容来区分有效的链接地址（网页相关内容的链接）和无效的链接地址（广告等同网页内容不相关的链接），该步骤中，在统计使用频率最高的字符内容时，将所有统一资源定位符（Uniform Resource Locator, 简称为 URL) 均具有的共有字符，如 www、 http这些共有的协议字符，排除在统计之外；步骤 6，将包含步骤 5中所统计出的字符内容的链接地址标记为有效链接，并计算各有效链接内的文字长度；步骤 7, 将不包含步骤 5中所统计出的字符内容的链接地址标记为无效链接，并计算各无效链接内的文字长度；步骤 8，根据模块的综合得分 =模块的位置得分 X (模块内的文本长度 +有效链接内的文字长度） /无效链接内的文字长度，得出每个模块综合得分，综合得分高于所设阈值的即认为是内容模块；步骤 9，根据事先设定的阈值（即认为内容模块所应达到的综合得分下限），判断所述的步骤 8中的综合得分，其分值若高于所设定的阈值，则认为该模块的内容是需要提取的文本内容。基于上述的原理表述，下面结合以具体示例进行说明，如图 3所示，包括：在获取网页后，把网页作为输入，如步骤 L中，如果能使用 Table标签和 Div标签把输入的网页分解为多个模块，就把输入的网页分解。在步骤 2中判断分解出来的模块是否还可以继续分解，如果可以那么回到步骤 1继续分解，否则进入步骤 3。步骤 3提出由步骤 2输入的模块中的所有 HTML标签后获得简单的文本，计算出这个文本的长度。歩骤 4使用 achor标签提取出所有的链接，并统计所有模块的链接地址中使用频率最高的字符内容。步骤 5计算包含和不包含步骤 4所统计出的字符内容的链接文字长度，分别标记为有效链接和无效链接。步骤 6利用公式：综合得分=位置得分 X (文字长度 +有效链接文字长度） /无效链接文字长度，计算出每个模块的综合得分。综合得分小于阈值的模块经过歩骤 7删除，综合得分高于阈值的模块进入歩骤 8输出。综上所述，本发明实施例所述方法，使用了普通文本同有效链接文字长度之和与无效链接文字长度的比例，能够更为准确的对 HTML网页的内容进行提取，去除了冗余的广告等信息，使得后面的分词阶段的工作量大大降低，提高了文本聚类和文本分类、自动摘要的准确性。如图 4所示，本发明实施例还提供一种文本内容提取装置，具体包括- 网页处理单元 410，设置为将输入的 HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；标记处理单元 420，设置为提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含使用频率最高的字符内容的各链接地址标记为有效链接，将不包含使用频率最高的字符内容的各链接地址标记为无效链接；内容提取单元 430，设置为根据综合得分 =模块的位置得分 X (模块的文本长度 + 模块内有效链接的文字长度） /模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。基于上述原理框架，下面给出上述各单元在实现对应功能时的具体实现方式，具体如下：本发明实施例中，网页处理单元 410，具体使用 Table标签或 Div标签将输入的 HTML网页分解为多个模块；以及对于每个模块，提取出模块的 HTML标签，根据所述 HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度。进一步地，网页处理单元 410，还设置为判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况，若是，则对分解后的模块继续分解。本发明实施例中，标记处理单元 420，还设置为在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，内容提取单元 430，在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。进一步地，本发明实施例中，标记处理单元 420，具体设置为通过 achor标签提取出各模块的链接地址。综上所述，本发明实施例所述装置，使用了普通文本同有效链接文字长度之和与无效链接文字长度的比例，能够更为准确的对 HTML网页的内容进行提取，去除了冗余的广告等信息，使得后面的分词阶段的工作量大大降低，提高了文本聚类和文本分类、自动摘要的准确性。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求书、一种文本内容提取方法，包括：

将输入的超文本标记语言 HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；

提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；根据综合得分 =模块的位置得分 X (模块的文本长度十模块内有效链接的文字长度） /模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。、如权利要求 1所述的方法，其中，所述方法中，使用 Table标签或 Div标签将输入的 HTML网页分解为多个模块。、如权利要求 2所述的方法，其中，所述方法中，若分解得到的模块还能够继续分解且未出现标签混杂的情况，则对分解后的模块继续分解。、如权利要求 1所述的方法，其中，所述方法中，在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。、如权利要求 1至 4中任一项所述的方法，其中，所述方法中，计算各模块的文本长度具体包括：对于每个模块，提取出模块的 HTML标签，根据所述 HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；

所述方法中，通过 achor标签提取出各模块的链接地址。、一种文本内容提取装置，其中，包括- 网页处理单元，设置为将输入的超文本标记语言 HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；标记处理单元，设置为提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；

内容提取单元，设置为根据综合得分 =模块的位置得分 X (模块的文本长度十模块内有效链接的文字长度） /模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。、如权利要求 6所述的装置，其特征在于，所述网页处理单元，具体设置为使用 Table标签或 Div标签将输入的 HTML网页分解为多个模块。、如权利要求 7所述的装置，其特征在于，所述网页处理单元，还设置为判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况，若是，则对分解后的模块继续分解。、如权利要求 6所述的装置，其特征在于，

所述标记处理单元，还设置为在标记有效链接和无效链接时，统一计算各链接内的文字长度；

或者，所述内容提取单元，还设置为在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。 0、如权利要求 6至 9中任一项所述的装置，其特征在于，

所述网页处理单元，具体设置为对于每个模块，提取出模块的 HTML标签，根据所述 HTML 标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；

所述标记处理单元，具体设置为通过 achor标签提取出各模块的链接地址。