WO2015024522A1

WO2015024522A1 - 搜索方法、系统、搜索引擎和客户端

Info

Publication number: WO2015024522A1
Application number: PCT/CN2014/084940
Authority: WO
Inventors: 巫国忠; 刘洋
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2013-08-21
Filing date: 2014-08-21
Publication date: 2015-02-26
Also published as: EP3037985A1; CN103399957A; US20160203222A1; EP3037985A4

Abstract

本发明提出一种搜索方法、系统、搜索引擎和客户端。其中，搜索方法包括：搜索引擎获取客户端发送的搜索词；搜索引擎根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页；搜索引擎将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端，并通过客户端展现。本发明实施例的方法，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度。

Description

搜索方法、系统、搜索引擎和客户端

技术领域

本发明涉及搜索技术领域，尤其涉及一种搜索方法、系统、搜索引擎和客户端。背景技术

目前，搜索引擎返回的搜索结果页面中的多个搜索结果是经过了复杂的算法处理后排序所得，需综合考虑多种因素决定排序的优先级。目前存在的问题是：作为原版网页内容，由于其网站本身的搜索排名等综合因素可能不够好，导致原版网页无法在搜索结果的前几条中出现，反而一些转载的页面却排到了前面几条，同时现在很多的盗版和转载的网页并没有注明内容的原出处，原版网页的访问途径减少，被点击的概率低。发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种搜索方法。该方法提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度。

本发明的第二个目的在于提出一种搜索系统。

本发明的第三个目的在于提出一种搜索引擎。

本发明的第四个目的在于提出一种客户端。

本发明的第五个目的在于提出一种应用程序。

本发明的第六个目的在于提出一种存储介质。

为了实现上述目的，本发明第一方面实施例的搜索方法，包括以下步骤：搜索引擎获取客户端发送的搜索词；所述搜索引擎根据所述搜索词获取多个搜索结果，并分别获取所述多个搜索结果中至少部分搜索结果对应的原版网页；所述搜索引擎将所述多个搜索结果和所述至少部分搜索结果对应的原版网页提供至所述客户端，并通过所述客户端展现。

本发明实施例的搜索方法，搜索引擎向客户端提供搜索结果时，将搜索结果和其原版网页关联，对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

为了实现上述目的，本发明第二方面实施例的搜索系统，包括：客户端和搜索引擎，其中，所述客户端，用于向所述搜索引擎发送搜索词，并对所述搜索引擎返回的内容进行展示；所述搜索引擎，用于获取所述搜索词，并根据所述搜索词获取多个搜索结果，并分别获取所述多个搜索结果中至少部分搜索结果对应的原版网页，以及将所述多个搜索结果和所述至少部分搜索结果对应的原版网页提供至所述客户端。

本发明实施例的搜索系统，搜索引擎向客户端提供搜索结果时，将搜索结果和其原版网页关联，对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

为了实现上述目的，本发明第三方面实施例的搜索引擎，包括：搜索词获取模块，用于获取客户端发送的搜索词；搜索结果获取模块，用于根据所述搜索词获取多个搜索结果，并分别获取所述多个搜索结果中至少部分搜索结果对应的原版网页；搜索结果发送模块，用于将所述多个搜索结果和所述至少部分搜索结果对应的原版网页提供至所述客户端，以供所述客户端进行展现。

本发明实施例的搜索引擎，在向客户端提供搜索结果时，将搜索结果和其原版网页关联，使得客户端对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

为了实现上述目的，本发明第四方面实施例的客户端，包括：搜索词发送模块，用于向搜索引擎发送搜索词；搜索结果获取模块，用于获取所述搜索引擎根据所述搜索词发送的多个搜索结果和所述多个搜索结果中至少部分搜索结果对应的原版网页；以及搜索结果展现模块，用于展现所述多个搜索结果和所述至少部分搜索结果对应的原版网页。

本发明实施例的客户端，可获取搜索引擎发送的搜索结果和其原版网页，对搜索结果的原版网页进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

为了实现上述目的，本发明第五方面实施例的应用程序，用于在运行时执行本发明第一方面实施例的搜索方法。

本发明实施例的应用程序，在搜索引擎向客户端提供搜索结果时，将搜索结果和其原版网页关联，对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

为了实现上述实施例，本发明第六方面实施例的存储介质，用于存储应用程序，所述应用程序用于在运行时执行本发明第一方面实施例的搜索方法。

本发明实施例的存储介质，在搜索引擎向客户端提供搜索结果时，将搜索结果和其原版网页关联，对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明

本发明上述的和 /或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图 1是根据本发明一个实施例的搜索方法的流程图；

图 2 (a) 是根据本发明另一个实施例的搜索方法的流程图；

图 2 (b) 是根据本发明实施例的客户端展现搜索结果的一种示例性示意图；图 3是本发明实施例的获取网页与原版网页对应关系的流程图；

图 4是本发明另一实施例的获取网页与原版网页对应关系的流程图；

图 5是本发明又一实施例的获取网页与原版网页对应关系的流程图；

图 6是本发明又一个实施例的搜索方法的流程图；

图 7是根据本发明一个实施例的搜索系统的结构示意图；

图 8是根据本发明一个实施例的搜索引擎的结构示意图；

图 9是根据本发明另一个实施例的搜索引擎的结构示意图；

图 10是根据本发明又一个实施例的搜索引擎的结构示意图；

图 11是根据本发明一个实施例的客户端的结构示意图。具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语"第一"、 "第二"等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语 "相连"、 "连接 "应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明， "多个"的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

为了解决原版网页在搜索结果中的排序问题，也为了增加原版网页的访问途径、点击概率，同时为了方便用户查看原版内容，鼓励原版内容的创作，例如对原版博客内容的支持，帮助产生更多优质的互联网内容。为此，本发明提供了一种搜索方法、系统、搜索引擎和客户端，可在搜索结果中展现关联的原版网页，在不修改搜索结果排序的情况下，为用户提供了便捷的获取原版页面的途径，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持。

一种搜索方法，包括以下步骤：搜索引擎获取客户端发送的搜索词；搜索引擎根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页；搜索引擎将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端，并通过客户端展现。

图 1是根据本发明一个实施例的搜索方法的流程图。

如图 1所示，搜索方法包括以下步骤：

5101 , 搜索引擎获取客户端发送的搜索词。

在本发明的一个实施例中，客户端为 PC (personal computer, 个人计算机）或移动终端，其中，移动终端可以是智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。具体地，客户端可通过浏览器类应用程序访问搜索引擎网站并向搜索引擎发送搜索词，也可以通过其他快捷途径（例如搜索栏等）向搜索引擎发送搜索词，在此不做限定。

5102, 搜索引擎根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页。

具体地，搜索引擎获取搜索词之后，根据搜索词获取对应的多个搜索结果，再分别根据每个搜索结果获取对应的原版网页，还应当理解，未必每个搜索结果都有原版网页，如果搜索结果具有原版网页，则获取对应的原版网页，如果搜索结果没有原版网页，则有可能该搜索结果即为原版网页，或者搜索引擎无法获取到对应的原版网页。

其中，搜索引擎通过网络爬虫抓取网页之后，可根据预设算法计算网页与原版网页的对应关系，包括网页是否为原版网页等，并对计算结果进行永久保存，例如，可存储在数据库中或文件系统中，在此不对存储装置做限定，存储的方式也可多样化，例如，典型的存储格式为 [网页 A，原版网页 1，原版网页 2， ···]， [网页 B，原版网页 3，原版网页 4，…] 等，在此不对存储格式做限定。存储的好处是方便信息的快速、直接获取，搜索引擎获取多个搜索结果之后，可以直接读取对应的原版网页。根据预设算法计算网页与原版网页的对应关系将在后续实施例中详细说明。

还应当理解，理想情况下，如果搜索结果具有原版网页，则对应一个原版网页，但是在实际的计算过程中，可能存在一个以上的原版网页，这种情况出现的可能原因是，在计算网页内容相关性和原版网页匹配程度时出现多个符合算法定义的阀值范围的网页，因此匹配了多个原版网页。现实情况中，原版网页理论上只会有一个，出现这个情况说明转载或盗版手段做的比较精细，一定程度上干扰了搜索引擎的算法系统，但是这样的情况是允许发生的，就像存在 SEO ( Search Engine Optimization, 搜索引擎优化）方法来提高网页排名一样，是搜索引擎生态系统中的正常情况。

S 103 , 搜索引擎将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端，并通过客户端展现。

为了更好地展现原版网页，在客户端可具体地根据客户端配置设计不同的展现效果，下面简单介绍一种展现方式。

图 2 ( a) 是根据本发明另一个实施例的搜索方法的流程图。

如图 2 ( a) 所示，搜索方法包括以下步骤：

S201 , 搜索引擎获取客户端发送的搜索词。

S202, 搜索引擎根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页。

5203 , 搜索引擎将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端。

5204, 客户端接收多个搜索结果并展示给用户。

5205, 客户端分别在至少部分搜索结果处添加提示标识。

具体地，客户端获取搜索引擎发送的搜索结果之后，可以解析出哪些搜索结果具有原版网页，哪些不具有原版网页，客户端在具有原版网页的搜索结果（即至少部分搜索结果）的适当位置添加提示标志，例如，可以在其左侧、右侧、上方或下方。举例来说，图 2 (b ) 是根据本发明实施例的客户端展现搜索结果的一种示例性示意图，如图 2 (b ) 所示，对于具有原版网页的每个搜索结果，在其右侧通过一个图标 100 (还可以是其他的方式，例如，气泡等）提示用户具有原版网页。

5206, 当提示标识被触发时，客户端将被触发的提示标识对应的搜索结果的原版网页展示给用户。具体地，提示标志的触发方式多式多样，例如，使用鼠标点击或者在屏幕上进行手势点击，或者鼠标划过该提示标志或者手势划过该提示标志等。举例来说，如图 2 ( b)，用户将鼠标移动到图标上方即出现右侧的弹出式框 200，将原版网页的信息展现给用户，引导用户进行进一步的点击，用户可以点击进行浏览，用户将鼠标移开即可关闭弹出式框 200。另外，用户还可以参与到保护原版网页中，可以在弹出式框 200的原版网页中显示 "举报非原版" 的操作入口，通过用户的参与可以给搜索引擎提供更多的辅助信息，帮助将伪原版的网页找出来，搜索引擎还需根据策略来有效识别用户的举报是否真实可靠，挖掘出有效的信息，去除恶意攻击的信息等。

应当理解，展现给用户的原版网页可能包含多个，用户一般情况下其实是可以分辨出哪个才是真正的原版网页。

本发明实施例的搜索方法，将原版网页通过提示标识进行提示，方便用户阅读，进一步提升用户体验。

为了达到上述实施例所述的目的，本发明的最重要的部分在于获取网页与原版网页的对应关系。下面详细介绍网页与原版网页对应关系的获取过程。

搜索引擎抓取互联网中的网页之后，为了计算每个网页关联的原版网页，理想情况下，对于每个网页，根据其内容和其它所有网页的内容逐个进行比较，对于内容上几乎完全一致的网页，可以首先认为是相互的转载或盗版，并且将这些相同的网页都保存到一个列表中，然后对列表中的网页计算其被搜索引擎爬虫收录的时间，例如，一个简单的规则就是最早被收录的网页具有最高的概率是原版网页，因为理论上搜索引擎爬虫可以很快的抓取新出现的网页内容。

但是，这种理想情况下的算法计算量巨大，假设网页数量是 N，则每个网页计算其关联原版网页的计算次数就是 N*N，则将全部网页计算完一遍的计算次数就是 N*N*N，现在的搜索引擎普遍收集 500亿以上的网页数量，因此这个巨大的计算量很难完成，对资源和时间的消耗也非常巨大。

为了解决这个问题，使得技术方案具有可实现性，图 3是本发明实施例的获取网页与原版网页对应关系的流程图，具体地，如图 3所示，包括以下步骤：

5301 , 搜索引擎抓取多个网页。

例如，搜索引擎可通过网络爬虫获取互联网上的多个网页。

5302, 搜索引擎根据分类算法分别提取多个网页的特征值。

S303 , 搜索引擎根据多个网页的特征值对多个网页进行分类以建立多个分类集合。具体地，通过分类算法对所有网页分类后，产生分类集合的数量越大越好，同时每个分类集合中的网页数量越少越好。理想情况是，仅把网页内容非常相近的网页归为一个分类集合。

其中，分类算法可运用目前较成熟的机器学习算法，机器学习算法是一种通用算法，可有较多不同的变形算法，例如， KNN (k-Nearest Neighbor algorithm, K最邻近结点算法），该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的 Κ篇文本，根据这 Κ篇文本所属的类别判定新文本所属的类别；又如，支持向量机和神经网络算法在文本分类系统中应用得也较为广泛，此类算法一个基本的特点就是把对网页内容的计算结果向量化，然后从数学上比较两个向量的差异。

应当理解，对于网页内容来说，其往往包含丰富的各种信息，可能包括图片、视频等，因此比较网页之间内容相似度时需要综合考虑各种因素。

S304, 搜索引擎分别对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页。

由此，可极大地减少计算量，分类集合中的网页个数越少，计算量就越少。还需要说明的是， S304中的限定并不是说每个分类集合中一定存在原版网页，也有不存在原版网页的可能性存在。

图 4是本发明另一实施例的获取网页与原版网页对应关系的流程图。

如图 4所示，包括以下步骤：

5401 , 搜索引擎抓取多个网页。

5402, 搜索引擎根据分类算法分别提取多个网页的特征值。

5403, 搜索引擎根据多个网页的特征值对多个网页进行分类以建立多个分类集合。 S404, 搜索引擎分别获取每个分类集合中的网页的搜索引擎抓取时间。

S405, 搜索引擎根据搜索引擎抓取时间获取每个分类集合中的原版网页。

例如，通常将抓取时间最早的网页作为原版网页。

为了增加原版网页的可靠性，还需要增加可靠性信息。图 5是本发明又一实施例的获取网页与原版网页对应关系的流程图。

如图 5所示，包括以下步骤：

5501 , 搜索引擎抓取多个网页。

5502, 搜索引擎根据分类算法分别提取多个网页的特征值。

5503, 搜索引擎根据多个网页的特征值对多个网页进行分类以建立多个分类集合。

5504, 搜索引擎获取每个分类集合中的网页的搜索引擎抓取时间。

S505, 搜索引擎获取每个分类集合中的网页的可靠性信息。

其中， S505和 S504的执行不分先后顺序。

S506, 搜索引擎根据搜索引擎抓取时间和可靠性信息获取原版网页。在本发明的一个实施例中，可靠性信息包括网页的来源信息、网页的质量信息和反作弊判断信息中的一种或多种。具体地，获取原版网页时，还需要考虑网页的来源信息、网页的质量信息和反作弊判断信息等多种反映网页可靠性的信息，例如，通常正规网站的网页可靠性更高，质量高的网页可靠性更高，判断作弊的网页的可靠性低等，由此，综合考虑可靠性信息和抓取时间可增加原版网页的准确性。

在对网页进行分析并获取对应的原版网页之后，在本发明的一个实施例中，搜索引擎建立分类集合中网页与原版网页之间的关联关系，以根据至少部分搜索结果和关联关系获取至少部分搜索结果对应的原版网页。

图 6是本发明又一个实施例的搜索方法的流程图。

如图 6所示，搜索方法包括以下步骤：

5601 , 搜索引擎抓取多个网页。

5602, 搜索引擎根据分类算法分别提取多个网页的特征值。

5603 , 搜索引擎根据多个网页的特征值对多个网页进行分类以建立多个分类集合。

5604, 搜索引擎对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页。

5605, 搜索引擎建立每个分类集合中的网页与该分类集合中的原版网页之间的关联关系。

5606, 搜索引擎获取客户端发送的搜索词。

5607, 搜索引擎根据搜索词获取多个搜索结果，并分别根据多个搜索结果中至少部分搜索结果和关联关系获取至少部分搜索结果对应的原版网页。

5608, 搜索引擎将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端，并通过客户端展现。

本发明实施例的搜索方法，根据建立的关联关系获取搜索结果对应的原版网页，快捷、方便。

为了实现上述实施例，本发明的实施例还提出一种搜索系统。

一种搜索系统，包括：客户端和搜索引擎，其中，客户端，用于向搜索引擎发送搜索词；搜索引擎，用于获取搜索词，并根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页，以及将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端，其中，客户端对搜索引擎发送的内容进行展现。

图 7是根据本发明一个实施例的搜索系统的结构示意图。

如图 7所示，搜索系统包括：客户端 10和搜索引擎 20。

具体地，客户端 10用于向搜索引擎 20发送搜索词。在本发明的一个实施例中，客户端 10为 PC或移动终端，其中，移动终端可以是智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备，客户端 10可通过浏览器类应用程序访问搜索引擎 20 网站并向搜索引擎 20发送搜索词，也可以通过其他快捷途径（例如搜索栏等）向搜索引擎 20发送搜索词，在此不做限定。

搜索引擎 20用于获取搜索词，并根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页，以及将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端 10，其中，客户端 10对搜索引擎 20发送的内容进行展现。

更具体地，搜索引擎 20获取搜索词之后，根据搜索词获取对应的多个搜索结果，再分别根据每个搜索结果获取对应的原版网页，还应当理解，未必每个搜索结果都有原版网页，如果搜索结果具有原版网页，则获取对应的原版网页，如果搜索结果没有原版网页，则有可能该搜索结果即为原版网页，或者搜索引擎无法获取到对应的原版网页。

其中，搜索引擎 20通过网络爬虫抓取网页之后，可根据预设算法计算网页与原版网页的对应关系，包括网页是否为原版网页等，并对计算结果进行永久保存，例如，可存储在数据库中或文件系统中，在此不对存储装置做限定，存储的方式也可多样化，例如，典型的存储格式为 [网页 A，原版网页 1，原版网页 2， ···]， [网页 B，原版网页 3，原版网页 4， -] 等，在此不对存储格式做限定。存储的好处是方便信息的快速、直接获取，搜索引擎 20获取多个搜索结果之后，可以直接读取对应的原版网页。根据预设算法计算网页与原版网页的对应关系将在后续实施例中详细说明。

还应当理解，理想情况下，如果搜索结果具有原版网页，则对应一个原版网页，但是在实际的计算过程中，可能存在一个以上的原版网页，这种情况出现的可能原因是，在计算网页内容相关性和原版网页匹配程度时出现多个符合算法定义的阀值范围的网页，因此匹配了多个原版网页。现实情况中，原版网页理论上只会有一个，出现这个情况说明转载或盗版手段做的比较精细，一定程度上干扰了搜索引擎 20的算法系统，但是这样的情况是允许发生的。

本发明实施例的搜索系统，搜索引擎向客户端提供搜索结果时，将搜索结果和其原版网页关联，对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。为了更好地展现原版网页，在客户端 10可具体地根据客户端 10配置设计不同的展现效果，下面简单介绍一种展现方式。具体地，在本发明的一个实施例中，客户端 10还用于：接收多个搜索结果并展示给用户，并分别在至少部分搜索结果处添加提示标识，以及当提示标识被触发时，将被触发的提示标识对应的搜索结果的原版网页展示给用户。

更具体地，客户端 10获取搜索引擎 20发送的搜索结果之后，可以解析出哪些搜索结果具有原版网页，哪些不具有原版网页，客户端 10在具有原版网页的搜索结果（即至少部分搜索结果）的适当位置添加提示标志，例如，可以在其左侧、右侧、上方或下方。举例来说，图 2 (b) 是根据本发明实施例的客户端展现搜索结果的一种示例性示意图，如图 2 (b) 所示，对于具有原版网页的每个搜索结果，在其右侧通过一个图标 100 (还可以是其他的方式，例如，气泡等）提示用户具有原版网页。

同样地，提示标志的触发方式多式多样，例如，使用鼠标点击或者在屏幕上进行手势点击，或者鼠标划过该提示标志或者手势划过该提示标志等。举例来说，如图 2 (b)，用户将鼠标移动到图标上方即出现右侧的弹出式框 200，将原版网页的信息展现给用户，引导用户进行进一步的点击，用户可以点击进行浏览，用户将鼠标移开即可关闭弹出式框 200。另外，用户还可以参与到保护原版网页中，可以在弹出式框 200的原版网页中显示 "举报非原版" 的操作入口，通过用户的参与可以给搜索引擎提供更多的辅助信息。

本发明实施例的搜索系统，将原版网页通过提示标识进行提示，方便用户阅读，进一步提升用户体验。

为了达到上述实施例所述的目的，本发明的最重要的部分在于获取网页与原版网页的对应关系。在本发明的一个实施例中，搜索引擎 20还用于：抓取多个网页，并根据分类算法分别提取多个网页的特征值，以及根据多个网页的特征值对多个网页进行分类以建立多个分类集合，并分别对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页。

更具体地，通过分类算法对所有网页分类后，产生分类集合的数量越大越好，同时每个分类集合中的网页数量越少越好。理想情况是，仅把网页内容非常相近的网页归为一个分类集合。其中，分类算法可运用目前较成熟的机器学习算法，机器学习算法是一种通用算法，可有较多不同的变形算法，例如， KNN，该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的 K篇文本，根据这 K篇文本所属的类别判定新文本所属的类别；又如，支持向量机和神经网络算法在文本分类系统中应用得也较为广泛，此类算法一个基本的特点就是把对网页内容的计算结果向量化，然后从数学上比较两个向量的差异。

在本发明的一个实施例中，搜索引擎 20还用于：分别获取每个分类集合中网页的搜索引擎 20抓取时间，并根据搜索引擎 20抓取时间获取每个分类集合中的原版网页。例如，通常将抓取时间最早的网页作为原版网页。

为了增加原版网页的可靠性，还需要增加可靠性信息。在本发明的一个实施例中，搜索引擎 20还用于：获取每个分类集合中的网页的可靠性信息，以根据搜索引擎 20抓取时间和可靠性信息获取原版网页。在本发明的另一个实施例中，可靠性信息包括网页的来源信息、网页的质量信息和反作弊判断信息中的一种或多种。具体地，获取原版网页时，还需要考虑网页的来源信息、网页的质量信息和反作弊判断信息等多种反映网页可靠性的信息，例如，通常正规网站的网页可靠性更高，质量高的网页可靠性更高，判断作弊的网页的可靠性低等，由此，综合考虑可靠性信息和抓取时间可增加原版网页的准确性。

在本发明的一个实施例中，搜索引擎 20还用于：在获取多个分类集合中的原版网页之后，建立每个分类集合中的网页与该分类集合中的原版网页之间的关联关系，以根据至少部分搜索结果和关联关系获取至少部分搜索结果对应的原版网页。由此，根据建立的关联关系获取搜索结果对应的原版网页，快捷、方便。

为了实现上述实施例，本发明的实施例还提出一种搜索引擎。

一种搜索引擎，包括：搜索词获取模块，用于获取客户端发送的搜索词；搜索结果获取模块，用于根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页；搜索结果发送模块，用于将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端，并通过客户端展现。

图 8是根据本发明一个实施例的搜索引擎的结构示意图。

如图 8所示，搜索引擎包括：搜索词获取模块 210、搜索结果获取模块 220和搜索结果发送模块 230。

具体地，搜索词获取模块 210用于获取客户端发送的搜索词。

搜索结果获取模块 220用于根据搜索词获取多个搜索结果，并分别获取多个搜索结果中至少部分搜索结果对应的原版网页。更具体地，搜索词获取模块 210获取搜索词之后，搜索结果获取模块 220根据搜索词获取对应的多个搜索结果，再分别根据每个搜索结果获取对应的原版网页，如果搜索结果具有原版网页，则获取对应的原版网页，如果搜索结果没有原版网页，则有可能该搜索结果即为原版网页，或者搜索引擎无法获取到对应的原版网页。理想情况下，如果搜索结果具有原版网页，则对应一个原版网页，但是在实际的计算过程中，可能存在一个以上的原版网页，这种情况出现的可能原因是，在计算网页内容相关性和原版网页匹配程度时出现多个符合算法定义的阀值范围的网页，因此匹配了多个原版网页。现实情况中，原版网页理论上只会有一个，出现这个情况说明转载或盗版手段做的比较精细，一定程度上干扰了搜索引擎的算法系统，但是这样的情况是允许发生的。

搜索结果发送模块 230用于将多个搜索结果和至少部分搜索结果对应的原版网页提供至客户端，以供客户端进行展现。

图 9是根据本发明另一个实施例的搜索引擎的结构示意图。

如图 9所示，搜索引擎包括：搜索词获取模块 210、搜索结果获取模块 220、搜索结果发送模块 230、网页抓取模块 240、网页分类模块 250和原版网页分析模块 260。

具体地，网页抓取模块 240用于抓取多个网页，例如，可通过网络爬虫获取互联网上的多个网页。

网页分类模块 250用于根据分类算法分别提取多个网页的特征值，并根据多个网页的特征值对多个网页进行分类以建立多个分类集合。更具体地，通过分类算法对所有网页分类后，产生分类集合的数量越大越好，同时每个分类集合中的网页数量越少越好。理想情况是，仅把网页内容非常相近的网页归为一个分类集合。其中，分类算法可运用目前较成熟的机器学习算法，机器学习算法是一种通用算法，可有较多不同的变形算法，例如， KNN, 该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的 K篇文本，根据这 K篇文本所属的类别判定新文本所属的类别；又如，支持向量机和神经网络算法在文本分类系统中应用得也较为广泛，此类算法一个基本的特点就是把对网页内容的计算结果向量化，然后从数学上比较两个向量的差异。应当理解，对于网页内容来说，其往往包含丰富的各种信息，可能包括图片、视频等，因此比较网页之间内容相似度时需要综合考虑各种因素。

原版网页分析模块 260用于分别对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页。

在本发明的一个实施例中，原版网页分析 260模块还用于：分别获取每个分类集合中的网页的搜索引擎抓取时间，并根据搜索引擎抓取时间获取每个分类集合中的原版网页。例如，通常将抓取时间最早的网页作为原版网页。

在本发明的另一个实施例中，原版网页分析模块 260还用于：分别获取每个分类集合中的网页的可靠性信息，以根据搜索引擎抓取时间和可靠性信息获取每个分类集合中的原版网页。在本发明的一个实施例中，可靠性信息包括网页的来源信息、网页的质量信息和反作弊判断信息中的一种或多种。具体地，获取原版网页时，还需要考虑网页的来源信息、网页的质量信息和反作弊判断信息等多种反映网页可靠性的信息，例如，通常正规网站的网页可靠性更高，质量高的网页可靠性更高，判断作弊的网页的可靠性低等，由此，综合考虑可靠性信息和抓取时间可增加原版网页的准确性。

图 10是根据本发明又一个实施例的搜索引擎的结构示意图。

如图 10所示，搜索引擎包括：搜索词获取模块 210、搜索结果获取模块 220、搜索结果发送模块 230、网页抓取模块 240、网页分类模块 250、原版网页分析模块 260和关联关系建立模块 270。

具体地，关联关系建立模块 270用于在原版网页分析模块 260获取多个分类集合中的原版网页之后，建立每个分类集合中网页与该分类集合中的原版网页之间的关联关系，以根据至少部分搜索结果和关联关系获取至少部分搜索结果对应的原版网页。之后，并该关联关系进行永久保存，例如，可存储在数据库中或文件系统中，在此不对存储装置做限定，存储的方式也可多样化，例如，典型的存储格式为 [网页 A，原版网页 1，原版网页 2， …： |， [网页 B，原版网页 3，原版网页 4， …]等，在此不对存储格式做限定。存储的好处是方便信息的快速、直接获取，搜索引擎获取多个搜索结果之后，可以直接读取对应的原版网页。

为了实现上述实施例，本发明的实施例还提出一种客户端。

一种客户端，包括：搜索词发送模块，用于向搜索引擎发送搜索词；搜索结果获取模块，用于获取搜索引擎根据搜索词发送的多个搜索结果和多个搜索结果中至少部分搜索结果对应的原版网页；以及搜索结果展现模块，用于展现多个搜索结果和至少部分搜索结果对应的原版网页。

图 11是根据本发明一个实施例的客户端的结构示意图。

如图 11所示，客户端包括：搜索词发送模块 110、搜索结果获取模块 120和搜索结果展现模块 130。

在本发明的一个实施例中，客户端为 PC或移动终端，其中移动终端可是智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。具体地，搜索词发送模块 110用于向搜索引擎发送搜索词，更具体地，搜索词发送模块 110可通过浏览器类应用程序访问搜索引擎网站并向搜索引擎发送搜索词，也可以通过其他快捷途径（例如搜索栏等）向搜索引擎发送搜索词，在此不做限定。

搜索结果获取模块 120用于获取搜索引擎根据搜索词发送的多个搜索结果和多个搜索结果中至少部分搜索结果对应的原版网页。

搜索结果展现模块 130用于展现多个搜索结果和至少部分搜索结果对应的原版网页。本发明实施例的客户端，可获取搜索引擎发送的搜索结果和其原版网页，对搜索结果的原版网页进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

为了更好地展现原版网页，在客户端可具体地根据客户端配置设计不同的展现效果，在本发明的一个实施例中，搜索结果展现模块 130还用于：接收多个搜索结果并展示给用户，并分别在至少部分搜索结果处添加提示标识，以及当提示标识被触发时，将被触发的提示标识对应的搜索结果的原版网页展示给用户。

更具体地，搜索结果展现模块 130可以解析出哪些搜索结果具有原版网页，哪些不具有原版网页，在具有原版网页的搜索结果（即至少部分搜索结果）的适当位置添加提示标志，例如，可以在其左侧、右侧、上方或下方。举例来说，如图 2 (b ) 所示，对于具有原版网页的每个搜索结果，在其右侧通过一个图标 100提示用户具有原版网页。此外，提示标志的触发方式多式多样，例如，使用鼠标点击或者在屏幕上进行手势点击，或者鼠标划过该提示标志或者手势划过该提示标志等。举例来说，如图 2 (b)，用户将鼠标移动到图标上方即出现右侧的弹出式框 200，将原版网页的信息展现给用户，引导用户进行进一步的点击，用户可以点击进行浏览，用户将鼠标移开即可关闭弹出式框 200。另外，用户还可以参与到保护原版网页中，可以在弹出式框 200的原版网页中显示 "举报非原版" 的操作入口，通过用户的参与可以给搜索引擎提供更多的辅助信息，帮助将伪原版的网页找出来，搜索引擎还需根据策略来有效识别用户的举报是否真实可靠，挖掘出有效的信息，去除恶意攻击的信息等。

本发明实施例的客户端，将原版网页通过提示标识进行提示，方便用户阅读，进一步提升用户体验。为了实现上述实施例，本发明还提出一种应用程序。该应用程序用于在运行时执行如本发明实施例所述的搜索方法。

根据本发明实施例的应用程序，在搜索引擎向客户端提供搜索结果时，将搜索结果和其原版网页关联，对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

为了实现上述实施例，本发明还提出一种存储介质，用于存储应用程序，该应用程序用于在运行时执行如本发明实施例所述的搜索方法。

根据本发明实施例的存储介质，在搜索引擎向客户端提供搜索结果时，将搜索结果和其原版网页关联，对搜索结果的原版网页也进行展现，一方面如果搜索结果的排名靠前，在其具有原版网页时原版网页也可展现在排名靠前的位置，提供了一种更为便捷获得原版网页的方式，使得客户端可以轻松访问原版网页，增加了原版网页被点击的概率，提高了客户端用户对于原版网页的重视程度，在不修改整体搜索结果排序的情况下，即方便了用户又强调了搜索引擎对于原版网页的尊重和行动上的支持，另一方面用户阅读原版网页时往往可发现更多相关的内容和知识，例如，对于博客，原作者的博客站点中会包含更多领域相关的知识和文章，提升用户体验。

应理解，本发明的各部分可用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA)，现场可编程门阵列（FPGA) 等。

在本说明书的描述中，参考术语"一个实施例"、 "一些实施例"、 "示例"、 "具体示例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

权利要求书

1、一种搜索方法，其特征在于，包括以下步骤：

搜索引擎获取客户端发送的搜索词；

所述搜索引擎根据所述搜索词获取多个搜索结果，并分别获取所述多个搜索结果中至少部分搜索结果对应的原版网页；

所述搜索引擎将所述多个搜索结果和所述至少部分搜索结果对应的原版网页提供至所述客户端，并通过所述客户端展现。

2、如权利要求 1所述的方法，其特征在于，还包括：

所述搜索引擎抓取多个网页；

所述搜索引擎根据分类算法分别提取所述多个网页的特征值；

所述搜索引擎根据所述多个网页的特征值对所述多个网页进行分类以建立多个分类集合；以及

所述搜索引擎分别对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页。

3、如权利要求 2所述的方法，其特征在于，所述搜索引擎分别对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页，具体包括：

所述搜索引擎获取每个分类集合中的网页的搜索引擎抓取时间；以及

所述搜索引擎根据所述搜索引擎抓取时间获取每个分类集合中的原版网页。

4、如权利要求 3所述的方法，其特征在于，所述搜索引擎分别对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页，还包括：

所述搜索引擎获取每个分类集合中的网页的可靠性信息，以根据所述搜索引擎抓取时间和可靠性信息获取每个分类集合中的原版网页。

5、如权利要求 4所述的方法，其特征在于，所述可靠性信息包括网页的来源信息、网页的质量信息和反作弊判断信息中的一种或多种。

6、一种搜索系统，其特征在于，包括：客户端和搜索引擎，其中，

所述客户端，用于向所述搜索引擎发送搜索词，并对所述搜索引擎返回的内容进行展现；

所述搜索引擎，用于获取所述搜索词，并根据所述搜索词获取多个搜索结果，并分别获取所述多个搜索结果中至少部分搜索结果对应的原版网页，以及将所述多个搜索结果和所述至少部分搜索结果对应的原版网页提供至所述客户端。

7、如权利要求 6所述的系统，其特征在于，所述搜索引擎还用于：抓取多个网页，并根据分类算法分别提取所述多个网页的特征值，以及根据所述多个网页的特征值对所述多个网页进行分类以建立多个分类集合，并分别对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页。

8、如权利要求 7所述的系统，其特征在于，所述搜索引擎还用于：

获取每个分类集合中的网页的搜索引擎抓取时间，并根据所述搜索引擎抓取时间获取每个分类集合中的原版网页。

9、如权利要求 8所述的系统，其特征在于，所述搜索引擎还用于：

获取每个分类集合中的网页的可靠性信息，并根据所述搜索引擎抓取时间和可靠性信息获取每个分类集合中的原版网页。

10、如权利要求 9所述的系统，其特征在于，所述可靠性信息包括网页的来源信息、网页的质量信息和反作弊判断信息中的一种或多种。

1 1、如权利要求 6- 10任一项所述的系统，其特征在于，所述客户端还用于：接收所述多个搜索结果并展示给用户，并分别在所述至少部分搜索结果处添加提示标识，以及当所述提示标识被触发时，将被触发的提示标识对应的搜索结果的原版网页展示给所述用户。

12、一种搜索引擎，其特征在于，包括：

搜索词获取模块，用于获取客户端发送的搜索词；

搜索结果获取模块，用于根据所述搜索词获取多个搜索结果，并分别获取所述多个搜索结果中至少部分搜索结果对应的原版网页；

搜索结果发送模块，用于将所述多个搜索结果和所述至少部分搜索结果对应的原版网页提供至所述客户端，以供所述客户端进行展现。

13、如权利要求 12所述的搜索引擎，其特征在于，还包括：

网页抓取模块，用于抓取多个网页；

网页分类模块，用于根据分类算法分别提取所述多个网页的特征值，并根据所述多个网页的特征值对所述多个网页进行分类以建立多个分类集合；以及

原版网页分析模块，用于对每个分类集合中的网页进行分析，以获取每个分类集合中的原版网页。

14、如权利要求 13所述的搜索引擎，其特征在于，所述原版网页分析模块还用于：获取每个分类集合中的网页的搜索引擎抓取时间，并根据所述搜索引擎抓取时间获取每个分类集合中的原版网页。

15、如权利要求 14所述的搜索引擎，其特征在于，所述原版网页分析模块还用于：获取每个分类集合中的网页的可靠性信息，以根据所述搜索引擎抓取时间和可靠性信息获取每个分类集合中的原版网页。

16、如权利要求 15所述的搜索引擎，其特征在于，所述可靠性信息包括网页的来源信息、网页的质量信息和反作弊判断信息中的一种或多种。

17、一种客户端，其特征在于，还包括：

搜索词发送模块，用于向搜索引擎发送搜索词；

搜索结果获取模块，用于获取所述搜索引擎根据所述搜索词发送的多个搜索结果和所述多个搜索结果中至少部分搜索结果对应的原版网页；以及

搜索结果展现模块，用于展现所述多个搜索结果和所述至少部分搜索结果对应的原版网页。

18、如权利要求 17所述的客户端，其特征在于，所述搜索结果展现模块还用于：接收所述多个搜索结果并展示给用户，并分别在所述至少部分搜索结果处添加提示标识，以及当所述提示标识被触发时，将被触发的提示标识对应的搜索结果的原版网页展示给所述用户。

19、一种应用程序，其特征在于，用于在运行时执行如权利要求 1-5任一项所述的搜索方法。

20、一种存储介质，其特征在于，用于存储应用程序，所述应用程序用于在运行时执行如权利要求 1-5任一项所述的搜索方法。