WO2016000511A1

WO2016000511A1 - 互联网稀有资源的挖掘方法及装置

Info

Publication number: WO2016000511A1
Application number: PCT/CN2015/080803
Authority: WO
Inventors: 王智广
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2014-06-30
Filing date: 2015-06-04
Publication date: 2016-01-07
Also published as: CN104050294A

Abstract

一种互联网稀有资源的挖掘方法及装置，该方法包括：对搜索引擎收录的网页进行切词处理，生成多个词term（S102）；在所述多个term查找出现次数少于次数阈值、且具备意义的稀有term，其中，所述具备意义是指term具备实词含义，能够示意事件内容（S104）；查找包括稀有term的网页，定义为稀有网页（S106）；对所述稀有网页进行处理，挖掘得到稀有网络资源（S108）。在用户查询之前，主动挖掘一些高质量的稀有资源，在用户查询时能够提供相对比较丰富的结果。

Description

互联网稀有资源的挖掘方法及装置

技术领域

本发明涉及互联网应用领域，特别是涉及一种互联网稀有资源的挖掘方法及装置。

背景技术

互联网中充斥着各种资源，有些资源是比较丰富的，有些资源是比较稀有的，比如某些人名、偏远地名、电话号码等就是比较稀有的。所谓稀有就是涉及到这些内容的有价值网页数量较少，当用户利用搜索引擎查询这些查询(query)时搜索引擎给的结果数往往较少，很多时候无法满足用户的查询需求。

满足用户的稀有查询是搜索引擎覆盖率的一个重要指标，直接影响用户的搜索体验。所以多数搜索引擎公司会把稀有查询(也称稀有覆盖率)单独作为一个评价标准。

目前采用的稀有查询方案是，分析用户查询历史，把展现结果数较少的query单独分析，针对这些query分析搜索引擎收录的网页，从中挖掘出一些网页来补充这些query的展现结果。

但是，上述方案的缺点是存在滞后性，在用户没有查询前是不知道哪些是稀有的，用户第一次查询的体验是比较差的，而且覆盖面有限，仅仅是用户查询过的query。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的互联网稀有资源的挖掘方法和相应的装置。

基于本发明的一个方面，本发明实施例提供了一种互联网稀有资源的挖掘方法，包括：

对搜索引擎收录的网页进行切词处理，生成多个词term；

在所述多个term查找出现次数少于次数阈值、且具备意义的稀有term，其中，所述具备意义是指term具备实词含义，能够示意事件内容；

查找包括稀有term的网页，定义为稀有网页；

对所述稀有网页进行处理，挖掘得到稀有网络资源。

基于本发明的另一个方面，本发明实施例还提供了一种互联网稀有资源的挖掘装置，包括：

切词模块，配置为对搜索引擎收录的网页进行切词处理，生成多个词term；

查找模块，配置为在所述多个term查找出现次数少于次数阈值、且具备意义的稀有term，其中，所述具备意义是指term具备实词含义，能够示意事件内容；

所述查找模块还配置为查找包括稀有term的网页，定义为稀有网页；

挖掘模块，配置为对所述稀有网页进行处理，挖掘得到稀有网络资源。

根据本发明的又一个方面，提供了一种计算机程序，其包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据任一个上述的互联网稀有资源的挖掘方法。

根据本发明的再一个方面，提供了一种计算机可读介质，其中存储了上述的计算机程序。

在本发明实施例中，对搜索引擎收录的所有网页进行稀有网络资源挖掘，覆盖面大，能够为用户提供更丰富的数据支持。进一步，通过切词处理等手段对搜索引擎收录的网页进行处理，从中查找到稀有网页，进而挖掘得到稀有网络资源，大大提高了稀有网络资源挖掘的效率，避免对每个网页都进行一次挖掘所造成的多重步骤。并且，由于本发明实施例提供的互联网稀有资源的挖掘方法是对搜索引擎收入的网页进行挖掘，不需要对用户之前的查询历史进行分析，在用户首次查询时就能够为用户提供稀有网络资源，不存在滞后性，提高了用户感受体验。综上，本发明实施例能够在用户查询之前，主动挖掘一些高质量的稀有资源，在用户查询时能够提供相对比较丰富的结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的互联网稀有资源的挖掘方法的处理流程图；

图2提供了一种互联网稀有资源的挖掘装置的结构示意图；

图3示意性地示出了用于执行根据本发明的互联网稀有资源的挖掘方法的计算设备的框图；以及

图4示意性地示出了用于保持或者携带实现根据本发明的互联网稀有资源的挖掘方法的程序代码的存储单元。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步的描述。

为解决上述技术问题，本发明实施例提供了一种互联网稀有资源的挖掘方法。图1示出了根据本发明一个实施例的互联网稀有资源的挖掘方法的处理流程图。参见图1，该方法至少包括步骤S102至步骤S108：

步骤S102、对搜索引擎收录的网页进行切词处理，生成多个词(term)；

步骤S104、在步骤S102经切词处理生成的多个term查找出现次数少于次数阈值、且具备意义的稀有term，其中，具备意义是指term具备实词含义，能够示意事件内容；

其中，步骤S104中的事件是一个大的事件概念，例如时间事件、地点事件、人物事件、联系方式事件，等等。因term能够示意事件内容，因此，term相应的可为时间、地点、人物、电话号码、邮箱地址等具备事件意义的词。

步骤S106、查找包括步骤S104查找的稀有term的网页，定义为稀有网页(rare webpage)；

步骤S108、对步骤S106定义的稀有网页进行处理，挖掘得到稀有网络资源。

其中，步骤S104可采用多种手段或方式生成出现次数少于次数阈值、且具备意义的稀有term，本实施例提供了其中的一种手段：

首先，计算多个term在网页中的出现频率；

其次，在多个term中，将出现频率较高的N个term过滤掉；

最后，在过滤剩下的term中查找出现次数少于次数阈值、且具备意义的稀有term。

考虑到稀有term本身出现次数较少，因此，可以直接将出现频率较高的N个term过滤掉，从而大大减少了后续计算的量。具体执行时，可以将所有的term的出现频率从高到低进行排序，将排在前N位的term直接过滤掉。

从语法的角度进行分析，在文字类语句中，出现频率较高的term的类型通常是不具备实词意义的，例如常见的语气词、连词、助词、具有类型性的名称等等。语气词通常是指对语言进行语气幅度增强类的词语，例如，啊、哇、呀等等，这类词本身没有具体含义，仅用于增加语气幅度。连词是用于连接不同的主语、谓语、宾语等，连词常见的有：和、或者、除非等等。助词通常是指谓语的辅助用词，例如跟在动词后的地。其他具有类型性的名称，是指某一类事务的名称，但这一类事物本身不能示意具体事件内容，无法形成区分性，例如公司、团队、协会等等。

将排在前N位的term直接过滤掉之后，在剩下的term中，进一步根据term是否具备一定的意义进行筛选。此处的N是一个整数值，具体的数值根据实际情况而定。

而在过滤剩下的term中查找出现次数少于次数阈值、且具备意义的稀有term，需要对于剩下的每个term，均执行如下操作：

计算每个term的类型，以及包含此term的网页数量；

查找在网页中的出现次数少于阈值、且根据类型具备意义的term，即为稀有term。

而剩下的每个term的类型可以有多种，现提供其中的5种作为例举，根据用户的需求可以在此基础上再做更多的细分。一是小数点型，比如“0.5”、“8.3米”等；二是英文字符串型，比如“abc”等；三是电话号码型，比如“010-88001235”等；四是汉字型的，比如“北京”、“新华网”等；五是邮箱型的123456@126.com等。

前文中提及，步骤S108对稀有网页进行处理，本发明实施例提供了一种具体的处理方式，即对稀有网页进行去垃圾处理。此处的去垃圾处理的原因是因为，稀有网页很多是质量较低的网页，需要过滤其中垃圾和重复的网页。对于稀有term泛滥的网页需要过滤，稀有term泛滥指的是稀有term数量在总的term的比例高于一定的阈值。另外需要去掉其中的采集、作弊等传统的垃圾。

具体的，本发明实施例通过去重处理实现去垃圾处理。普通网页的去重处理一般会对网页做个签名(最长句子签名是其中的一种)，签名相同的则为相同的网页。稀有的网页去重在此基础上需要对稀有term做个签名，即，为稀有网页进行网页签名，以及为稀有网页中的稀有term生成词签名，进而对网页签名以及词签名均相同的多个网页，保留其中一个。采用这一方式是因为存在一些最长句子签名相同但是存在不同的稀有term的情况。采用本发明实施例可以鉴定出：网页签名相同，并且稀有term签名相同的则为同一个网页。根据稀有term签名来去重，采用保证了挖掘的稀有网页的质量

现提供一个对稀有term做个签名的实例。把网页包含的稀有term排序连城一个字符串，计算此字符串的签名，比如一个网页包含term1term2term3，首先对这三个稀有term排序，并且用特定的分隔符连起来，比如：term1/term2/term3，对此字符串计算签名作为网页的稀有term签名。

经去重处理后，若仍存在多个相同的网页，那么，同主域的相同网页保留质量较好的一个。

现以具体实施例对本发明实施例提供的互联网稀有资源的挖掘方法进行说明。本例中搜索引擎收录的网页包括如下一段文本：“新华网北京4月8日电(记者小明)A国领导人赵公明8日在人民大会堂同B国总统佩佩举行会谈。两国元首就发展两国关系深入交换意见，一致决定推动双边友好交流合作取得更大发展。赵公明希望两国合谈早日取得实质性进展。”

首先，对搜索引擎收录的网页做切词处理，把网页中的文本切分成具有一定意义的term。切词后为“新华-网北京4月8日电(记者小明)A国-领导人赵-公明8日在人民-大-会-堂同B总统佩佩举行-会谈。两国元首就发展两国关系深入交换-意见，一致-决定推动双边友好交流合作取得更大发展。赵-公明希望两国合谈早日取得实质-性进展。”其中的空白处、“-”作为分词分隔符出现。

其次，统计网页切词后总共的term数量，并且过滤掉出现频率较高的term，输出可能是稀有的term。过滤掉的出现频率较高的term是预先分析一些网页，记录下来一些常见的term，命中这些term的不作为稀有term输出。比较常见比如：“的”、“公司”等等，还有一些标点符号等。过滤掉这些是为了后续处理的方便，否则会产生大量的计算，浪费资源。这些常见的非稀有term数量较少但是包含它们的网页数却非常之大，过滤掉这些term可以大大减少后续的计算量。

随后，统计输出的term，计算每个term类型以及包含此term的网页数量。通过分析用户的查询需求，本实施例中term的类型分为6种，当然根据用户的需求可以在此基础上再做更多的细分。一是小数点型，比如“0.5”、“8.3米”等、二是英文字符串型，比如“abc”等、三是电话号码型，比如“010-88067082”等、四是汉字型的，比如“北京”、“新华网”等、五是邮箱型的123456@126.com等、六是其他。

然后，对于出现次数少于一定阈值的的并且是具有一定意义的term作为稀有term，定义包含此term的网页为稀有网页。有意义的term包括电话号码、邮箱、人名、地名、物名等等，哪些term是有价值的可以根据需求确定。出现次数较少的term多数是无意义的，比如一些小数、一些字母堆积成的字符串、以及错别字等等，所以需要对term做质量区分，区分term的质量难度较大，本实施例中是把term分类，根据用户的历史查询需求来定哪些类型的term是有价值的。

最后，对稀有网页进行去垃圾处理。稀有网页很多是质量较低的网页，需要过滤其中垃圾和重复的网页。对于稀有term泛滥的网页需要过滤，稀有term泛滥指的是稀有term数量在总的term的比例高于一定的阈值。另外需要去掉其中的采集、作弊等传统的垃圾。普通网页的去重处理一般会对网页做个签名(最长句子签名是其中的一种)，签名相同的则为相同的网页。稀有的网页去重在此基础上需要对稀有term做个签名，因为存在一些最长句子签名相同但是存在不同的稀有term的情况。网页签名相同，并且稀有term签名相同的则为同一个网页。同主域的相同网页保留质量较好的一个。

基于同一发明构思，本发明实施例还提供了一种互联网稀有资源的挖掘装置，用于支持上述任意一个优选实施例或其组合的互联网稀有资源的挖掘方法。图2提供了一种互联网稀有资源的挖掘装置的结构示意图。参见图2，该装置至少包括：

切词模块210，配置为对搜索引擎收录的网页进行切词处理，生成多个词term；

查找模块220，与切词模块210耦合，配置为在切记模块210生成的多个term查找出现次数少于次数阈值、且具备意义的稀有term，其中，具备意义是指term具备实词含义，能够示意事件内容；

查找模块220还配置为查找包括稀有term的网页，定义为稀有网页；

挖掘模块230，与查找模块220耦合，配置为对查找模块220定义的稀有网页进行处理，挖掘得到稀有网络资源。

在一个优选的实施例中，查找模块220还可以配置为：

计算多个term在网页中的出现频率；

在多个term中，将出现频率较高的N个term过滤掉；

在过滤剩下的term中查找出现次数少于次数阈值、且具备意义的稀有term。

在一个优选的实施例中，查找模块220还可以配置为：

对于剩下的每个term，

计算每个term的类型，以及包含此term的网页数量；

在一个优选的实施例中，出现频率较高的N个term的类型包括下列至少之一：

语气词；

连词；

助词；

具有类型性的名称。

在一个优选的实施例中，剩下的每个term的类型包括下列至少之一：

小数点型；

字符串型；

电话号码型；

汉字型；

邮箱型。

在一个优选的实施例中，挖掘模块230还可以配置为：对稀有网页进行去垃圾处理。

在一个优选的实施例中，挖掘模块230还可以配置为：对稀有网页进行去重处理。

在一个优选的实施例中，挖掘模块230还可以配置为：

为稀有网页进行网页签名，以及为稀有网页中的稀有term生成词签名；

对网页签名以及词签名均相同的多个网页，保留其中一个。

在一个优选的实施例中，具备意义的term包括下列任意之一：电话号码、邮箱、人名、地名、物名。

采用本发明实施例提供的互联网稀有资源的挖掘方法及装置，能够达到如下有效效果：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的互联网稀有资源的挖掘装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了可以实现根据本发明的互联网稀有资源的挖掘方法的计算设备。该计算设备传统上包括处理器310和以存储器320形式的计算机程序产品或者计算机可读介质。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有用于执行上述方法中的任何方法步骤的程序代码331的存储空间330。例如，用于程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码331。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图4所述的便携式或者固定存储单元。该存储单元可以具有与图3的计算设备中的存储器320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码331’，即可以由例如诸如310之类的处理器读取的代码，这些代码当由计算设备运行时，导致该计算设备执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

一种互联网稀有资源的挖掘方法，包括：

对搜索引擎收录的网页进行切词处理，生成多个词term；

在所述多个term查找出现次数少于次数阈值、且具备意义的稀有term，其中，所述具备意义是指term具备实词含义，能够示意事件内容；

查找包括稀有term的网页，定义为稀有网页；

对所述稀有网页进行处理，挖掘得到稀有网络资源。
根据权利要求1所述的方法，其中，在所述多个term查找出现次数少于次数阈值、且具备意义的稀有term，包括：

计算所述多个term在网页中的出现频率；

在所述多个term中，将出现频率较高的N个term过滤掉；

在过滤剩下的term中查找出现次数少于次数阈值、且具备意义的稀有term。
根据权利要求1或2所述的方法，其中，所述在过滤剩下的term中查找出现次数少于次数阈值、且具备意义的稀有term，包括：

对于剩下的每个term，

计算每个term的类型，以及包含此term的网页数量；

查找在网页中的出现次数少于阈值、且根据类型具备意义的term，即为稀有term。
根据权利要求1至3任一项所述的方法，其中，出现频率较高的N个term的类型包括下列至少之一：

语气词；

连词；

助词；

具有类型性的名称。
根据权利要求1至4任一项所述的方法，其中，所述term的类型包括下列至少之一：

小数点型；

字符串型；

电话号码型；

汉字型；

邮箱型。
根据权利要求1至5任一项所述的方法，其中，对所述稀有网页进行处理，包括：对所述稀有网页进行去垃圾处理。
根据权利要求1至6任一项所述的方法，其中，对所述稀有网页进行去垃圾处理，包括：对所述稀有网页进行去重处理。
根据权利要求1至7任一项所述的方法，其中，对所述稀有网页进行去重处理，包括：

为所述稀有网页进行网页签名，以及为所述稀有网页中的稀有term生成词签名；

对网页签名以及词签名均相同的多个网页，保留其中一个。
根据权利要求1至8任一项所述的方法，其中，所述具备意义的term包括下列任意之一：电话号码、邮箱、人名、地名、物名。
一种互联网稀有资源的挖掘装置，包括：

切词模块，配置为对搜索引擎收录的网页进行切词处理，生成多个词term；

查找模块，配置为在所述多个term查找出现次数少于次数阈值、且具备意义的稀有term，其中，所述具备意义是指term具备实词含义，能够示意事件内容；

所述查找模块还配置为查找包括稀有term的网页，定义为稀有网页；

挖掘模块，配置为对所述稀有网页进行处理，挖掘得到稀有网络资源。
根据权利要求10所述的装置，其中，所述查找模块还配置为：

计算所述多个term在网页中的出现频率；

在所述多个term中，将出现频率较高的N个term过滤掉；

在过滤剩下的term中查找出现次数少于次数阈值、且具备意义的稀有term。
根据权利要求10或11所述的装置，其中，所述查找模块还配置为：

对于剩下的每个term，

计算每个term的类型，以及包含此term的网页数量；

查找在网页中的出现次数少于阈值、且根据类型具备意义的term，即为稀有term。
根据权利要求10至12任一项所述的装置，其中，出现频率较高的N个term的类型包括下列至少之一：

语气词；

连词；

助词；

具有类型性的名称。
根据权利要求10至13任一项所述的装置，其中，所述term的类型包括下列至少之一：

小数点型；

字符串型；

电话号码型；

汉字型；

邮箱型。
根据权利要求10至14任一项所述的装置，其中，所述挖掘模块还配置为：对所述稀有网页进行去垃圾处理。
根据权利要求10至15任一项所述的装置，其中，所述挖掘模块还配置为：对所述稀有网页进行去重处理。
根据权利要求10至16任一项所述的装置，其中，所述挖掘模块还配置为：

为所述稀有网页进行网页签名，以及为所述稀有网页中的稀有term生成词签名；

对网页签名以及词签名均相同的多个网页，保留其中一个。
根据权利要求10至17任一项所述的装置，其中，所述具备意义的term包括下列任意之一：电话号码、邮箱、人名、地名、物名。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-9中的任一个所述的互联网稀有资源的挖掘方法。
一种计算机可读介质，其中存储了如权利要求19所述的计算机程序。