WO2013087005A1

WO2013087005A1 - 一种网络评论的采集方法及系统

Info

Publication number: WO2013087005A1
Application number: PCT/CN2012/086575
Authority: WO
Inventors: 张涛; 于晓明; 杨建武
Original assignee: 北大方正集团有限公司; 北京大学; 北京北大方正电子有限公司
Priority date: 2011-12-13
Filing date: 2012-12-13
Publication date: 2013-06-20
Also published as: JP2014532220A; CN103164438A; EP2713287A4; CN103164438B; EP2713287A1; US20140289395A1

Abstract

本申请公开了一种网络评论的釆集方法及系统。所述方法包括：获取网页入口链接地址；判断所述网页入口链接地址对应的网页上是否有N个网络评论，其中，所述N为正整数；在有所述N个网络评论时，判断所述N个网络评论中是否有M个网络评论满足釆集的条件，其中，所述M为小于或等于N的正整数；在有所述M个网络评论满足釆集的条件时，釆集所述M个网络评论。

Description

一种网络评论的采集方法及系统本申请要求在 2011年 12月 13 日提交中国专利局、申请号为 201110415749.9、发明名称为"一种网络评论的釆集方法及系统"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及信息检索和数据集成技术领域，尤其涉及一种网络评论的釆集方法及系统。背景技术

目前，随着互联网技术的高速发展，互联网已经成了世界上最大的信息库，它几乎涵盖了人类所有领域，已经成为人们获取信息、交流信息的重要平台。为了方便人们查阅信息，基于互联网的信息检索技术也得到了深入的研究与长足发展，而基于信息检索的相关应用，诸如网络舆情分析、评价垂直搜索等也由此产生。这些应用技术都是首先将网页下载到本地，然后祛除杂盾抽取出分析需要的内容，最后在此基础上进一步分析。

对于发布在互联网上的信息，网络用户能够在浏览信息后发表自己的想法，形成对该信息的评论。由于当前互联网的普及型性、广泛性和即时性，可以说网络评论在一定程度上代表了大众对某一事件的看法，这对舆情分析有着重大意义和应用空间。

因此，网络评论已成为多种应用的重要数据源之一，釆集网络评论数据源则是最基础的条件。而在现有技术中，对网络评论的釆集研究几乎为空白，缺少对网络评论进行高效、全面的釆集技术。发明内容

本发明实施例提供一种网络评论的釆集方法及系统，用于高效、全面地釆集网络评论。本发明实施例一方面提供了一种网络评论的釆集方法，包括：获取网页入口链接地址；判断所述网页入口链接地址对应的网页上是否有 N个网络评论，其中，所述 N为正整数；在有所述 N个网络评论时，判断所述 N个网络评论中是否有 M个网络评论满足釆集的条件，其中，所述 M为小于或等于 N的正整数；在有所述 M个网络评论满足釆集的条件时，釆集所述 M个网络评论。

优选地，所述获取网页入口链接地址具体包括：获取所述 N个网络评论所评论的主题所在的主题网页；获取所述主题网页的特征码；获取所述主题所在频道的特征码；以及拼接所述主题网页的特征码和所述频道的特征码，得到网页入口链接地址。

优选地，周期性刷新所述主题网页入口链接地址。优选地，当所述网页上的网络评论无更新超过一预定时间时，删除所述网页入口链接地址。

优选地，所述判断所述 N个网络评论中是否有 M个网络评论满足釆集的条件具体包括：计算 N和 P的差值，如果 N大于 P, 则表示有新增的网络评论，且所述新增的网络评论的个数为 N和 P的差值 M, 其中 P为上次访问所述页面时的网络评论的个数。

优选地，计算所述页面的当前页面上包含的网络评论的个数 L, 如果所述 L小于 M, 则计算翻页的页数，并抽取与所述页数对应的翻页链接，其中 L为正整数。

优选地，将所述 N个网络评论中每一个网络评论与所述 P个网络评论中每一个网络评论分别进行比对，如果比对结果不同，则抽取所述比对结果不同的 M个网络评论。

优选地，所述判断所述 N个网络评论中是否有 M个网络评论满足釆集的条件具体包括：将所述 N个网络评论中每一个网络评论与所述 P个网络评论中每一个网络评论分别进行比对，如果比对结果不同，则确定比对结果不同的 M个网络评论为满足釆集条件的网络评论。

优选地，将抽取的所述 M个网络评论内容保存到不同于所述网页的存储单元。

本发明实施例另一方面提供一种网络评论的釆集系统，所述系统包括：入口链接获取部件，用于获取一网页入口链接地址；第一判断部件，用于判断所述网页入口链接地址对应的网页上是否有 N个网络评论，其中，所述 N为正整数；第二判断部件，用于在有所述 N个网络评论时，判断所述 N个网络评论中是否有 M个网络评论满足釆集的条件，其中，所述 M为小于或等于 N的正整数；内容釆集部件，用于在有所述 M个网络评论满足釆集的条件时，釆集所述 M个网络评论。

本发明有益效果如下：

本发明实施例釆用网络评论釆集系统釆集网络评论，通过获取网络评论的入口链接地址及设定釆集条件来达到全面釆集网络评论的技术效果。

进一步，还釆用了比对部件，可以实现将本次抽取的所有评论中的每一条评论和上一次抽取的所有评论中的每一条评论进行比对，然后釆用了内容抽取部件只将比对结果不同的评论抽取出来，所以可以在全面釆集网络评论的基础上达到高效釆集的效果。附图说明

图 1为本发明一实施例中的釆集方法的流程图；

图 2为本发明图 1中釆集方法的详细流程图；

图 3为本发明图 1中釆集方法的详细流程图；

图 4为本发明第一实施例的釆集系统架构图；

图 5为本发明第二实施例的釆集系统架构图；图 6为本发明第三实施例的釆集系统架构图；

图 7为本发明第四实施例的釆集系统架构图；

图 8为本发明另一实施例的釆集系统架构图。具体实施方式

本发明一实施例提供一种网络评论的釆集方法，用于釆集网络评论。如图 1所示，釆集方法包括：

步骤 11：获取一网页入口链接地址；

步骤 12: 判断网页入口链接地址对应的网页上是否有 N个网络评论，其中， N为正整数；

步骤 13: 在有 N个网络评论时，判断 N个网络评论中是否有 M个网络评论满足釆集的条件，其中， M为小于或等于 N的正整数；

步骤 14: 在有 M个网络评论满足釆集的条件时，釆集 M个网络评论。

其中，请参考图 2, 步骤 11具体又包括：

步骤 111 : 获取 N个网络评论所评论的主题所在的主题网页；

步骤 112：获取主题网页的特征码；

步骤 113: 获取主题所在频道的特征码；

步骤 114: 拼接主题网页的特征码和频道的特征码，得到网页入口链接地址。

本发明中，主题网页可以是新闻所在的页面也可以是商品信息所在的页面，现以新闻网页为例对本实施例进行详细说明，在实际中，主题网页也可以是其它信息所在的页面，本发明不作限制。

在本实施例中，对新闻进行评论的评论页面入口链接地址由新闻页面的脚本程序中的特征码按特定规则拼接后获得。例如，对新闻的网络评论页面的入口链接地址是由新闻页面的脚本程序将标识该篇新闻的特征码、标识该篇新闻所在的频道的特征码再加上域名以及一些其他元素（例如当前时间）拼接而成。获得上述特征码，并配置个性化的规则，按照指定模式匹配出网络评论页面的入口链接地址。

请继续参考图 2, 进一步地，步骤 11还包括：

步骤 115: 周期性刷新网页入口链接地址。

在步骤 115中，新闻网页的网站后台会可能对新闻进行再编辑，同一内容的新闻网页链接会发生变化。即意味着标识新闻以及新闻所在频道的特征码会发生变化，网络评论入口链接也随之变化，新的网络评论内容会由变化后网络评论入口链接加载，而之前所抽取出的网络评论入口链接地址所指页面不会再有新评论的更新。由此可见，如果继续使用原来记录的网络评论入口链接进行访问的话，无法获取到新更新的评论内容，故针对该情况，周期性的对当前记录的新闻页面链接进行刷新，如果链接地址变化，站点会自动跳转到变化后的新闻网页，这样就可以根据新获得的新闻网页重新抽取网络评论入口链接继续进行釆集。即当新闻网页入口链接地址有更新时，跳转执行步骤 111 , 否则，本流程结束。

请参考图 3 , 图 3为步骤 13的具体步骤，包括：

步骤 131 : 从网页中抽取出当前网络评论的个数 N, 计算 N与 P的差值 M, 其中 P为上次访问该链接抽取出的网络评论个数；

步骤 132: 判断 M是否大于零；

步骤 133: 当步骤 132的结果为是时，抽取 M个网络评论。

其中，步骤 131中从网页中抽取当前网络评论的个数 N可以是通过正则表达式从网页中抽取，也可以是使用其它方法进行抽取，本发明不作限制。在第一次对网络评论进行釆集时， P等于零。

请继续参考图 ₃ , 其中步骤 133具体包括：

步骤 1331 : 计算页面的当前页面上包含的网络评论的个数 L, 其中 L为小于或者等于 M的正整数；

步骤 1332: 判断 L是否小于 M;

步骤 1333: 当步骤 1332的结果为是时，计算翻页的页数，并抽取与页数对应的翻页链接。

其中，在步骤 1333中，翻页的公式为：尸 _D ―

count―

^Perpage

其中， Pcmmt表示翻页的页数， U te (即 M )表示评论更新数，

(即 L)表示当前网页评论个数， Perp e表示单篇网页评论数。

请继续参考图 3 , 进一步地，步骤 133还包括：步骤 1334: 判断 N个网络评论中每一个网络评论与 P个网络评论中每一个网络评论是否相同；

步骤 1335: 当步骤 1334结果为否时，则抽取比对结果不同的 M个网络评论。

在步骤 1335中抽取出的 M个网络评论内容将会被保存到一不同于评论网页的存储单元，保存至存储单元的网络评论便于集中浏览，方便用户对釆集后的网络评论进行应用。

在本实施例中，新闻是有时效性的，超过一定时间的新闻，就认为是无意义的，同样作为新闻的附属品新闻评论也随着新闻的失效而失效。基于上述原因，若网络评论在超过预定时间无更新的话，就删除该新闻评论链接，不再继续刷新，这样可以节省系统资源，具有更高的工作效率。在另一实施例中，判断在 N个网络评论中是否有 M个网络评论满足釆集的条件时，可以不釆用上述实施例中计算 N和 P的差值 M的方法，而是直接将 N个网络评论中每一个网络评论与 P个网络评论中每一个网络评论分别进行比对，如果比对结果不同，则抽取所述比对结果不同的 M个网络评论。釆用此种釆集方法，是因为新闻网页的网站后台会不定期对网络评论进行删除，譬如，系统第一次釆集有 15 条网络评论，在两次釆集间隔当中，因为某些原因网站后台将 15条评论全部删除与此同时又有 30条新的评论添加进来，而一篇网页中只能显示 15 条评论，所以可以认为网络评论的第一页和第二页的网络评论都是新的。当釆集周期到达时，就将本次釆集到的 30条评论与上次的 15条评论进行比对，这样比对的结果是本次釆集的 30条评论与上次的 15条评论都不相同，故，本次应釆集 30 条新的评论。进一步，将本次釆集的 30条网络评论内容被保存到一不同于评论网页的存储单元，保存至存储单元的网络评论便于集中浏览，方便用户对釆集后的网络评论进行应用。

本发明第一实施例提供一种网络数据的釆集系统，请参考图 4, 图 4为本实施例中的系统架构图。如图 4所示，系统包括入口链接获取部件 10、第一判断部件 20、第二判断部件 30和内容釆集部件 40。入口链接获取部件 10用于获取一网页入口链接地址。第一判断部件 20用于判断网页入口链接地址对应的网页上是否有 N个网络评论。第二判断部件 30用于判断是否有满足釆集条件的 M个网络评论。内容釆集部件 40用于釆集网络评论。

其中，入口链接获取部件 10包括第一获取单元 101、第二获取单元 102、第三获取单元 103、拼接单元 104。第一获取单元 101用于获取 N个网络评论所评论的主题所在的主题网页；第二获取单元 102用于获取主题网页的特征码；第三获取单元 103用于获取主题所在频道的特征码；拼接单元 104用于拼接主题网页的特征码和频道的特征码，得到网页入口链接地址。

第二判断部件 30判断是否有满足釆集条件的 M个网络评论具体是从网页中抽取出 N 个网络评论，计算 N与 P的差值 M, 其中 P为上次访问该链接抽取出的网络评论个数。进一步，判断 M是否大于零，若 M大于零，则表示 M个网络评论为满足釆集条件的评论。在第二实施例中，与第一实施例不同的是，系统还包括入口链接地址刷新部件 50, 入口链接地址刷新部件 50 用于周期性刷新网页入口链接地址，在本实施例中，入口链接地址刷新部件 50可以与入口链接获取部件 10配合运用以便实现及时釆集更新的网络评论。

在第三实施例中，与第一、第二实施例不同的是，系统还包括网络评论页面刷新部件

60, 用于判断网页上的网络评论无更新是否超过一预定时间，如果是，则删除网页入口链接地址。本实施例中，网络评论页面刷新部件 60可以与第一判断部件 20配合运用以便提高系统釆集效率，对久未更新的网络评论便放弃釆集。

第二和第三实施例请分别参考图 5和图 6。在实际中，两个实施例可以结合使用，以便釆集实现全面釆集网络评论的同时提高系统的釆集效率。在第四实施例中，与第一、第二、第三实施例不同的是，内容釆集部件 40还包括翻页抽取部件 401、比对部件 402、内容抽取部件 403和磁盘 I/O部件 404。翻页抽取部件 401用于计算翻页的页数并抽取与页数对应的翻页链接；比对部件 402用于将所述 N个网络评论中每一个网络评论与所述 P个网络评论中每一个网络评论分别进行比对；内容抽取部件 403用于当比对结果不同时抽取所述比对结果不同的网络评论。磁盘 I/O部件 404用于将抽取的网络评论内容保存到一不同于网页的存储单元。本实施例请参考图 7。

本发明另一实施例提供一种网络数据的釆集系统，请参考图 8, 图 8为本实施例中的系统架构图。

本实施例与第一实施例不同的是本实施例不包括比对部件 402和内容抽取部件 403。如图 8所示，本实施例的系统包括入口链接获取部件 80、第一判断部件 81、第二判断部件 82和内容釆集部件 83。入口链接获取部件 80用于获取一网页入口链接地址。第一判断部件 81用于判断网页入口链接地址对应的网页上是否有网络评论。第二判断部件 82用于判断是否有满足釆集条件的网络评论。内容釆集部件 83用于釆集网络评论。

其中，入口链接获取部件 80包括第一获取单元 801、第二获取单元 802、第三获取单元 803、拼接单元 804。第一获取单元 801用于获取 N个网络评论所评论的主题所在的主题网页；第二获取单元 802用于获取主题网页的特征码；第三获取单元 803用于获取主题所在频道的特征码；拼接单元 804用于拼接主题网页的特征码和频道的特征码，得到网页入口链接地址。

第二判断部件 82用于将所述 N个网络评论中每一个网络评论与所述 P个网络评论中每一个网络评论分别进行比对，如果比对结果不同，则确定比对结果不同的 M个网络评论为满足釆集条件的网络评论。

内容釆集部件 83包括翻页抽取部件 831及磁盘 I/O部件 832。翻页抽取部件 831用于计算翻页的页数并抽取与页数对应的翻页链接；磁盘 I/O部件 832用于将抽取的网络评论内容保存到一不同于网页的存储单元。

在本实施例中，入口链接获取部件 80 可以结合第二实施例中的入口链接地址刷新部件 84配合应用，以便实现较全面的釆集网络评论。第一判断部件 81可以结合第三实施例中的网络评论页面刷新部件 85配合应用，以便实现全面、高效地釆集网络评论。

上述第一、第二、第三、第四及另一实施例中的系统可以根据本发明提供的一种网络评论釆集方法的实施例中对方法及其各种变化形式的描述进行实施。本处为了说明书的筒洁，所以不再详述。

本发明一实施例釆用一网络评论釆集系统釆集网络评论，通过获取网络评论的入口链接地址及设定釆集条件来达到全面釆集网络评论的技术效果。进一步，还釆用了比对部件，可以实现将本次抽取的所有评论中的每一条评论和上一次抽取的所有评论中的每一条评论进行比对，然后釆用了内容抽取部件只将比对结果不同的评论抽取出来，所以可以在全面釆集网络评论的基础上达到高效釆集的效果。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种网络评论的釆集方法，其特征在于，包括：

获取网页入口链接地址；

判断所述网页入口链接地址对应的网页上是否有 N个网络评论，其中，所述 N为正整数；

在有所述 N个网络评论时，判断所述 N个网络评论中是否有 M个网络评论满足釆集的条件，其中，所述 M为小于或等于 N的正整数；

在有所述 M个网络评论满足釆集的条件时，釆集所述 M个网络评论。

2、如权利要求 1所述的方法，其特征在于，所述获取网页入口链接地址具体包括：获取所述 N个网络评论所评论的主题所在的主题网页；

获取所述主题网页的特征码；

获取所述主题所在频道的特征码；以及

拼接所述主题网页的特征码和所述频道的特征码，得到网页入口链接地址。

3、如权利要求 2 所述的方法，其特征在于，所述方法还包括：周期性刷新所述网页入口链接地址。

4、如权利要求 1 所述的方法，其特征在于，所述方法还包括：当所述网页上的网络评论无更新超过一预定时间时，删除所述网页入口链接地址。

5、如权利要求 1所述的方法，其特征在于，所述判断所述 N个网络评论中是否有 M 个网络评论满足釆集的条件具体包括：计算 N和 P的差值，如果 N大于 P, 则表示有新增的网络评论，且所述新增的网络评论的个数为 N和 P的差值 M,其中 P为上次访问所述页面时的网络评论的个数。

6、如权利要求 5 所述的方法，其特征在于，所述方法还包括：计算所述页面的当前页面上包含的网络评论的个数 L, 如果所述 L小于 M, 则计算翻页的页数，并抽取与所述页数对应的翻页链接，其中 L为正整数。

7、如权利要求 5所述的方法，其特征在于，所述方法还包括：将所述 N个网络评论中每一个网络评论与所述 P个网络评论中每一个网络评论分别进行比对，如果比对结果不同，则抽取所述比对结果不同的 M个网络评论。

8、如权利要求 1所述的方法，其特征在于，所述判断所述 N个网络评论中是否有 M 个网络评论满足釆集的条件具体包括：将所述 N个网络评论中每一个网络评论与所述 P个网络评论中每一个网络评论分别进行比对，如果比对结果不同，则确定比对结果不同的 M 个网络评论为满足釆集条件的网络评论。

9、如权利要求 1所述的方法，其特征在于，所述方法还包括：将抽取的所述 M个网络评论内容保存到不同于所述网页的存储单元。

10、一种网络评论的釆集系统，其特征在于，包括：

入口链接获取部件 , 用于获取一网页入口链接地址；

第一判断部件，用于判断所述网页入口链接地址对应的网页上是否有 N个网络评论，其中，所述 N为正整数；

第二判断部件，用于在有所述 N个网络评论时，判断所述 N个网络评论中是否有 M 个网络评论满足采集的条件，其中，所述 M为小于或等于 N的正整数；

内容釆集部件，用于在有所述 M个网络评论满足釆集的条件时，釆集所述 M个网络评论。