WO2017008448A1 - 一种网页核心内容提取方法 - Google Patents

一种网页核心内容提取方法 Download PDF

Info

Publication number
WO2017008448A1
WO2017008448A1 PCT/CN2015/098464 CN2015098464W WO2017008448A1 WO 2017008448 A1 WO2017008448 A1 WO 2017008448A1 CN 2015098464 W CN2015098464 W CN 2015098464W WO 2017008448 A1 WO2017008448 A1 WO 2017008448A1
Authority
WO
WIPO (PCT)
Prior art keywords
paragraph
core
paragraphs
webpage
content
Prior art date
Application number
PCT/CN2015/098464
Other languages
English (en)
French (fr)
Inventor
陈勇
耿光刚
Original Assignee
中国互联网络信息中心
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国互联网络信息中心 filed Critical 中国互联网络信息中心
Publication of WO2017008448A1 publication Critical patent/WO2017008448A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种网页核心内容的提取方法,包括以下步骤:1)根据网页代码中的html标签,将网页内容分割为多个段落;2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值;3)根据所述特征值计算每个段落的核心特征值。根据网页中各个段落的核心特征值分布情况,得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落,从而得到网页的核心内容。该方法与现有技术相比具有以下优点:不单纯依赖于html标签,充分考虑到文本段落本身特征、段落布局之间的特征,因而准确率高。实施并不依赖于特定类型的网页,具有通用性,能处理互联网上各类常见的网页。实施简单,计算量小,处理效率高。

Description

一种网页核心内容提取方法 技术领域
本发明涉及信息技术领域,尤其涉及互联网信息处理技术领域,具体涉及一种网页核心内容提取方法。
背景技术
随着互联网的发展,互联网站网页数目、互联网用户都不断增长,互联网网页内容成为了人们获取信息的一个不可或缺的渠道。而在商业运作的因素下,为用户提供原始信息的网站,会在其包含有价值数据的网页中提供一些额外的信息,如广告数据以及对其他站点相关内容的链接(这些广告、链接数据可能是文本,也可能是图片,甚至可能是插件);这些广告、链接等数据的不断加入也使得本来应该很精简的页面外观变得繁琐;各类的网页制作工具以及各种动态元素的加入也使得页面的内在结构变得复杂。
网页内容与结构的日趋复杂影响用户阅读体验,耗费大量互联网带宽资源,这些数据不仅影响了网页信息浏览的效率,如果应用于检索的话,还会导致检索的准确性降低。如何准确快速分析获取网页核心内容成为众多Web内容处理应用(如搜索引擎、网络归档、信息收集系统等)迫切需要解决的一个难题。
另外,移动互联网的蓬勃发展使得在移动端浏览网页成为大势所趋,而移动端所具有的屏幕小、流量受限等特点,无法显示常规网页中的所有内容,这也使得网页核心内容的有效提取变得更为迫切。
现有技术中提取网页核心内容的方法一般有如下几种方法:
1.根据网页中行与行的字符数进行确定
1)针对网页,确定第i行和第(i+1)行内容的字符总数和中文字符数;
2)计算第i行和第(i+1)行内容的文本密度,例如可以用中文字符数除以字符总数计算文本密度;
3)将计算得到的文本密度与预设的阀值进行比较;
4)若比较结果为文本密度不小于预设的阀值,则确定第i行和第(i+1)行为核心内容,若比较结果为文本密度小于预设的阀值,则确定第i行和第(i+1)行内容为非核心内容;
5)若确定出第i行和第(i+1)行内容为核心内容,则按照上述方法确定第i行、第(i+1)行以及第(i+2)行内容是否为核心内容;
6)若确定出第i行和第(i+1)行内容为非核心内容,则按照上述方法确定第(i+2)行和第(i+3)行内容是否为核心内容;
7)执行上述步骤,直至遍历该网页的所有行。
现有技术的上述方法,在提取网页核心内容时,若连续多行内容的文本密度不小于预设阀值,就认为该连续多行内容为正文内容,但是现在很多网页中,存在较多干扰度较高的非核心内容,例如个人信息、短文摘要、免责申明等,这些非核心内容同样具有文本密度较大的特点,很可能大于预设的阀值,从而配误认为核心内容;而调整阀值的话,有可能将核心内容误判为非核心内容,从而使得核心内容的提取准确性降低。
另外,由于上述方法算法比较繁琐遇到网页加载了大量内容的情况时,可能需要较长的处理时长才能完成网页核心内容的提取,影响用户的体验感受,也无法满足现阶段对信息技术越来越倾向于高速高效的信息处理的要求。
2.利用网页结构布局信息对网页进行区域分割,提取核心网页块的内容
通过利用网页页面的布局进行分块,将一个网页分成多个部分,再根据这几个部分的特征进行分类。但是这种基于网页布局的方法并不适用于所有的网页,需要提前设定处理模板。江苏新瑞峰信息科技有限公司对上述方法进行了改进,提出基于html标签对网页进行区域分块然后提取文本内容(专利申请号为201210213554.0)。该方法只单纯依赖于html标签,并没有考虑到网页中文本内容本身的相关性,实际效果上只能对新闻网页进行有效处理(根据其描述对新闻网页的处理成功率为80%到85%)
3.基于文档对象模型(DOM,Document Object Model)提取网页的核心内容
通过抽取网页文档里中的文档对象模型,根据特定的对象模型节点提取网页内容。事实上各个网页的文档对象模型中内容节点都是网页设计者自行定义的,该方法无法适用于所有网页。
发明内容
为了解决上述问题,本发明的目的是提供一种网页核心内容的提取方法,该方法通过将网页内容分割为段落,通过段落的长度、段落之间的文本距离、段落内部的文本密集程度定位网页的核心内容。
为了实现上述目的,本发明采取的方案是:
一种网页核心内容的提取方法,包括以下步骤:
1)根据网页代码中的html标签,将网页内容分割为多个段落;
2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值。
3)根据所述特征值计算每个段落的核心特征值。根据网页中各个段落的核心特征值分布情况,得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落,从而得到网页的核心内容。
进一步地,步骤1)根据html标签(包括<p></p><div></div><span></span><div></div><br><br/>等)对网页进行段落划分。
所述相邻段落的间隔距离包括的种类有一段落与其上一段落的距离及该段落与其下一段落的距离。
进一步地,所述相邻段落的间隔距离定义为段落之间的字符数+M,其中M的值根据一段落的前一段落的结束标签与该段落的开始标签确定。
进一步地,所述段落内部密集程度定义为段落中出现的中文和英文字符总和/Q,其中Q的值定义为段落中出现的中文和英文字符总和+段落中的标点符号数×Q1+html标签1长度×Q1+html标签2长度×Q2…+html标签P长度×QP;Q1,Q2…QP为根据html标签的类型确定。
进一步地,一段落的核心特征值定义为段落的字符长度×段落内部密集程度/(该段落与其上一段落的距离+该段落与其下一段落的距离)。
进一步地,步骤3)根据所述特征值计算得到段落的核心特征值,根据各个段落核心特征值的分布情况,选择得到核心特征值在一定阈值范围内核心段落,这些段落的组合为核心文本。
进一步地,所述阀值范围选取的依据为:段落核心特征值代表了网页中核心内容的特征,同一网页中核心段落的特征值是相近的,而非核心内容如广告、免责申明、推送链接等不具备这样的集中性特征,因此选择段落核心特征值最为集中的部分作为选择核心段落的阈值范围。
本发明通过采取上述技术方案,与现有技术相比具有以下优点:
1.不单纯依赖于html标签,充分考虑到文本段落本身特征、段落布局之间的特征,因而准确率高。
2.实施并不依赖于特定类型的网页,具有通用性,能处理互联网上各类常见的网页。
3.实施简单,计算量小,处理效率高。
附图说明
图1为本发明网页核心内容获取流程示意图。
图2a为本发明实施例2中网页核心内容获取示意图的第一部分。
图2b为本发明实施例2中网页核心内容获取示意图的第二部分。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
首先,对本发明的核心构思进行说明:
1.利用html标签将网页代码进行段落划分。
html标签(Hyper Text Markup Language tag;超文本标记语言标签)是HTML语言中最基本的单位,html标签是HTML标准通用标记语言下的一个应用最重要的组成部分。
html标签通常具有以下特点,
1)由尖括号包围的关键词,比如<html>。
2)通常是成对出现的,比如<div>和</div>。
3)标签对中的第一个标签是开始标签,第二个标签是结束标签。
4)开始和结束标签也被称为开放标签和闭合标签。
5)也有单独呈现的标签,如<img src=".jpg"/>等。
6)一般成对出现的标签,其内容在两个标签中间。单独呈现的标签,则在标签属性中赋值。如<h1>标题</h1>和<input type="text"value="按钮"/>。
7)网页的内容需在<html>标签中,标题、字符格式、语言、兼容性、关键字、描述等信息显示在<head>标签中,而网页需展示的内容需嵌套在<body>标签中。某些时候不安标准书写代码虽然可以正常显示,但是作为职业素养,还是应该养成正规编写习惯。
根据如上述特点,利用html标签对网页代码进行划分,所得的段落相应具有以下特点:
被如下标签包围:
<p></p>
<div></div>
<span></span>
<br>(或者<br/>)
<h1></h1>(<h2></h3>……<hn></hn>)
选择这些段落,根据这些段落之间在视觉和字符上的距离计算段落之间的文本距离。
接着,在对段落内部字符的紧密程度做计算得到每个段落本身的文本密集程度值:
2.根据段落文本长度、段落与前一段落之间的文本距离、段落与后一段落之间的文本距离、段落内部的密集程度值这四个特征值进行计算,根据结果判定是否是网页的核心文本内容。
本发明不同于现有技术仅根据字符密度对网页代码内容的各行/段落是否为核心内容或者html标签进行判断,而是综合段落文本长度、段落之间文本距离、段落内部的密集程度这几个特征值进行计算,其与现有技术相比,不但充分考虑了HTML文档本身的特性,网页上上的视觉显示特征,同时也考虑了中文文本结构上的特征,可以处理互联网上各类文本(包括但是不局限于综合网页、新闻网页、博客网页、百科类网页、商品类网站等),得到比较好的效果。为了验证效果,我们对全球互联网中文网站进行抽样,随机获取10万个中文网页,并按照本发明的方法进行处理。实验表明,本发明提取各类网页核心内容的准确程度高达90%。处理效率方面,在同样运算能力下只单纯用html标签处理增加25%的时间消耗,比使用文档对象模型进行处理要少50%的时间消耗。
以下结合图1对本发明的网页核心内容提取方法的处理流程作具体说明:
首先,根据网页代码中的html标签,将网页内容分割为多个段落。在本过程中,对网页代码中的html标签分析,对下列标签包含的部分划分为段落:
<hn></hn>包含的部分
<p></p>包含的部分
<div></div>包含的部分
<span></span>包含的部分
上一个成对出现的标签结束到<br>(或者<br/>)标签之间的部分
上述每个部分作为一个独立段落。
然后,获取段落的长度、段落之间的文本距离、段落密集程度等特征值,其中段落和段落之间的文本距离公式如下:
段落的距离N=段落之间的字符数+M
M的值取决于上一个段落结束标签与这个段落开始标签,不同的标签组合得到不同的M值,组合方式有如下几种:
</hn>和<hn>
</hn>和<p>
</hn>和<span>
</hn>和<div>
</hn>和<br>段落的第一个字符
</p>和<p>
</p>和<hn>
</p>和<span>
</p>和<div>
</p>和<br>段落的第一个字符
</span>和<span>
</span>和<hn>
</span>和<p>
</span>和<div>
</span>和<br>段落的第一个字符
</div>和<div>
</div>和<hn>
</div>和<p>
</div>和<span>
</div>和<br>段落的第一个字符
接着,我们计算每个段落本身的文本密集程度值:
段落本身的文本密集程度值=段落中出现的中文和英文字符总和/Q
Q值的计算=段落中出现的中文和英文字符总和+段落中的标点符号数*Q1+html标签1长度*Q1+html标签2长度*Q2…+html标签P长度*QP
(Q1,Q2…QP为根据html标签的不同而不同)
最后,根据段落的长度、段落与段落之间前后的距离及段落内部密集程度确定网页的核心段落,从而确定网页的核心内容。具体计算过程如下:
段落核心的特征值=段落的长度*段落内部密集程度值/(段落与上一段落的距离+段落与下一段落的距离)
最后,根据网页中段落核心特征值分布,选择在一定阈值范围内的为核心文本内容。
搜索引擎利用本发明的方法可以高效的处理海量网页,提取网页核心内容,而不需要存储网页的原始内容,可以节省海量存储和大量运算消耗,并且在搜索结果方面可以准确的返回网页核心内容。
信息收集系统利用本发明的方法可以不受网页中广告、页面动态元素影响,方便快捷的 收集网页核心内容。
系统获得网页代码,根据html标签将网页中文本内容划分为段落P1到Pn,通过上述方法计算得到每个段落的长度Lp1到Lpn、每个段落与上一段落之间的文本距离Dp前1到Dp前n、每个段落与下一段落的文本距离Dp后1到Dp后n、段落密集程度Mp1到Mpn,通过上述四个特征值计算出段落核心特征值Hp1到Hp2,根据阈值选择,得到核心段落Px,Px+1…,Py,即该网页的核心内容。计算过程参考图2a及图2b。

Claims (8)

  1. 一种网页核心内容的提取方法,包括以下步骤:
    1)根据网页代码中的html标签,将网页内容分割为多个段落;
    2)统计每个段落的字符长度、相邻段落的间隔距离和段落内部密集程度作为特征值;
    3)根据所述特征值计算每个段落的核心特征值;根据网页中各个段落的核心特征值分布情况,得到核心特征值最为集中的范围,核心特征值在此阈值范围内的段落即为网页的核心段落,从而得到网页的核心内容。
  2. 如权利要求1所述的网页核心内容的提取方法,其特征在于,步骤1)中所述html标签包括<p>、</p>、<div>、</div>、<span>、</span>、<div>、</div>、<br>、<br/>。
  3. 如权利要求1所述的网页核心内容的提取方法,其特征在于,步骤2)中所述相邻段落的间隔距离包括的种类有一段落与其上一段落的距离及该段落与其下一段落的距离。
  4. 如权利要求3所述的网页核心内容的提取方法,其特征在于,所述相邻段落的间隔距离定义为段落之间的字符数+M,其中M的值根据一段落的前一段落的结束标签与该段落的开始标签确定。
  5. 如权利要求4所述的网页核心内容的提取方法,其特征在于,所述段落内部密集程度定义为段落中出现的中文和英文字符总和/Q,其中Q的值定义为段落中出现的中文和英文字符总和+段落中的标点符号数×Q1+html标签1长度×Q1+html标签2长度×Q2…+html标签P长度×QP;Q1,Q2…QP为根据html标签的类型确定。
  6. 如权利要求5所述的网页核心内容的提取方法,其特征在于,一段落的核心特征值定义为段落的字符长度×段落内部密集程度/(该段落与其上一段落的距离+该段落与其下一段落的距离)。
  7. 如权利要求1所述的网页核心内容的提取方法,其特征在于,步骤3)中根据所述特征值计算得到段落的核心特征值包括根据各个段落核心特征值的分布情况,选择得到核心特征值在一定阈值范围内核心段落,这些段落的组合为核心文本。
  8. 如权利要求7所述的网页核心内容的提取方法,其特征在于,所述阀值范围选取的依据为:选择段落核心特征值最为集中的部分作为选择核心段落的阈值范围。
PCT/CN2015/098464 2015-07-14 2015-12-23 一种网页核心内容提取方法 WO2017008448A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510413180.0 2015-07-14
CN201510413180.0A CN105320734B (zh) 2015-07-14 2015-07-14 一种网页核心内容提取方法

Publications (1)

Publication Number Publication Date
WO2017008448A1 true WO2017008448A1 (zh) 2017-01-19

Family

ID=55248123

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/098464 WO2017008448A1 (zh) 2015-07-14 2015-12-23 一种网页核心内容提取方法

Country Status (2)

Country Link
CN (1) CN105320734B (zh)
WO (1) WO2017008448A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443814A (zh) * 2019-07-30 2019-11-12 北京百度网讯科技有限公司 车辆的定损方法、装置、设备和存储介质
CN111046302A (zh) * 2019-12-30 2020-04-21 珠海趣印科技有限公司 一种网页内容提取的方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357496B (zh) * 2017-07-19 2019-03-26 掌阅科技股份有限公司 注释处理方法、电子设备及计算机存储介质
CN109543126B (zh) * 2018-11-19 2022-04-29 四川长虹电器股份有限公司 基于块文字占比的网页正文信息提取方法
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN111435405A (zh) * 2019-01-15 2020-07-21 北京行数通科技有限公司 一种文章关键句自动标注方法及装置
CN115098804B (zh) * 2022-06-24 2023-11-03 上海上班族数字科技有限公司 一种基于大数据分析的网页搜索历史记录智能管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012055067A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Extraction of content from a web page
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
CN103020129A (zh) * 2012-11-20 2013-04-03 中兴通讯股份有限公司 一种文本内容提取方法和装置
CN103365935A (zh) * 2012-04-11 2013-10-23 腾讯科技(深圳)有限公司 一种确定页面可读性的方法和服务器
CN103810251A (zh) * 2014-01-21 2014-05-21 南京财经大学 一种文本提取方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093487A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN101408898B (zh) * 2008-11-07 2010-08-11 北大方正集团有限公司 一种提取网页正文的方法和装置
CN104598577B (zh) * 2015-01-14 2017-09-15 晶赞广告(上海)有限公司 一种网页正文的提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012055067A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Extraction of content from a web page
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
CN103365935A (zh) * 2012-04-11 2013-10-23 腾讯科技(深圳)有限公司 一种确定页面可读性的方法和服务器
CN103020129A (zh) * 2012-11-20 2013-04-03 中兴通讯股份有限公司 一种文本内容提取方法和装置
CN103810251A (zh) * 2014-01-21 2014-05-21 南京财经大学 一种文本提取方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443814A (zh) * 2019-07-30 2019-11-12 北京百度网讯科技有限公司 车辆的定损方法、装置、设备和存储介质
CN111046302A (zh) * 2019-12-30 2020-04-21 珠海趣印科技有限公司 一种网页内容提取的方法及装置

Also Published As

Publication number Publication date
CN105320734A (zh) 2016-02-10
CN105320734B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
WO2017008448A1 (zh) 一种网页核心内容提取方法
US8819028B2 (en) System and method for web content extraction
US9514216B2 (en) Automatic classification of segmented portions of web pages
CN102760172B (zh) 一种网络搜索方法及网络搜索系统
JP6224731B2 (ja) 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置
US9075873B2 (en) Generation of context-informative co-citation graphs
CN106055667B (zh) 一种基于文本-标签密度的网页核心内容提取方法
TW201514845A (zh) 從網頁擷取標題及主體
Lloret et al. A novel concept-level approach for ultra-concise opinion summarization
CN103166981A (zh) 一种无线网页转码方法及装置
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法
CN104182424B (zh) 适用于移动终端的网页处理方法和服务器
Liu et al. Main content extraction from web pages based on node characteristics
CN103729354B (zh) 网页信息处理方法及装置
Luo et al. Web article extraction for web printing: a dom+ visual based approach
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
Gali et al. Extracting representative image from web page
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
JP2006331348A (ja) トラックバック元のコメント・トラックバックの集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
CN105550279A (zh) 基于视觉的列表页识别方法
CN115391711A (zh) 网页正文信息提取方法、装置、设备及介质
CN108132919A (zh) 一种网页内容抽取的方法
CN112312189B (zh) 一种视频生成方法及视频生成系统
CN108664522A (zh) 网页处理方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15898172

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 04.06.2018)

122 Ep: pct application non-entry in european phase

Ref document number: 15898172

Country of ref document: EP

Kind code of ref document: A1