WO2023284612A1

WO2023284612A1 - 主题网页数据抓取方法、装置、设备及存储介质

Info

Publication number: WO2023284612A1
Application number: PCT/CN2022/104188
Authority: WO
Inventors: 史延涛; 谢永恒; 火一莽
Original assignee: 北京锐安科技有限公司
Priority date: 2021-07-14
Filing date: 2022-07-06
Publication date: 2023-01-19
Also published as: CN113449168B; CN113449168A

Abstract

本申请实施例公开了主题网页数据抓取方法、装置、设备及存储介质，该方法包括：根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接；获取待抓取链接对应的网页内容；根据内容相关度和链接相关度从待抓取链接中筛选目标链接，并将目标链接作为搜索结果进行反馈。

Description

主题网页数据抓取方法、装置、设备及存储介质

本公开要求在2021年7月14日提交中国专利局、申请号为202110793519.X的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，例如涉及主题网页数据抓取方法、装置、设备及存储介质。

背景技术

互联网作为一个庞大的数据集合，网络信息资源数据呈指数增加，如何有效地根据用户的搜索查询将庞大的数据分为相关和不相关数据，并将相关的数据进行展示，是现在的研究方向。

当用户使用相关技术中的搜索引擎进行检索时，只能提供粗略的检索结果，且相关技术中的基于网页内容评价的搜索策略往往会忽略网页间链接的相关性，而基于链接分析的搜索策略忽略了网页正文内容，容易造成“主题漂移”现象。

相关技术中的的搜索策略存在自动搜索不精准，抓取网页数据速度较慢的问题。

发明内容

本申请实施例提供了主题网页数据抓取方法、装置、设备及存储介质，可以优化相关技术的主题网页数据抓取方案。

第一方面，本申请实施例提供了一种主题网页数据抓取方法，包括：根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接；获取所述待抓取链接对应的网页内容；根据内容相关度和链接相关度从所述待抓取链接中筛选目标链接，并将所述目标链接作为搜索结果进行反馈，其中，所述内容相关度根据所述网页内容和所述目标主题确定，所述链接相关度根据所述待抓取链接和所述目标主题确定。

第二方面，本申请实施例提供了一种主题网页数据抓取装置，包括：待抓取链接选取模块，被设置为根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接；网页内容获取模块，被设置为获取所述待抓取链接对应的网页内容；目标链接筛选模块，被设置为根据内容相关度和链接相关度从所述待抓取链接中筛选目标链接，并将所述目标链接作为搜索结果进行反馈，其中，所述内容相关度根据所述网页内容和所述目标主题确定，所述链接相关度根据所述待抓取链接和所述目标主题确定。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例提供的主题网页数据抓取方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例提供的主题网页数据抓取方法。

附图说明

图1为本申请实施例提供的一种主题网页数据抓取方法的流程示意图；

图2为本申请实施例提供的又一种主题网页数据抓取方法的流程示意图；

图3为本申请实施例提供的一种主题网页数据抓取装置的结构框图；

图4为本申请实施例提供的一种计算机设备的结构框图。

具体实施方式

下面结合附图并通过具体实施方式来说明本申请的技术方案。可以理解的是，此处所描述的实施例仅仅用于解释本申请。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等。

实施例一

图1为本申请实施例提供的一种主题网页数据抓取方法的流程示意图，该方法可以由主题网页数据抓取装置执行，其中该装置可由软件和硬件中至少之一实现，一般可集成在服务器等计算机设备中。如图1所示，该方法包括：

S110、根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接。

根据用户输入的搜索内容确定目标主题可以理解为，用户需要在搜索引擎上进行搜索时所输入的文字信息，并根据当前文字信息确定目标主题，可以将当前文字信息直接确定为目标主题，也可对当前文字信息进行语义分析后得到相应的目标主题。该目标主题可以为词语、句子或者一段文字等信息。

当用户在搜索引擎的输入框中输入搜索内容时，搜索引擎会展示出与目标主题相关的网页界面。需要知道的是，在服务器中存储有大量关于数据信息的网页链接(Uniform Resource Locator，URL)，且每一网页界面与网页链接一一对应。因此，在对与目标主题相关的网页界面展示之前，服务器需要判断将与目标主题相关的哪些网页界面进行展示。

在一实施例中，当使用搜索引擎进行搜索时，为便于对产生的大量关于数据信息的网页链接进行管理，可根据网页链接的状态进行分开管理。例如，若当前链接历史时间段内被成功抓取过，则存放入已抓取队列；若当前链接未被抓取过，则存放入待抓取队列；若当前链接历史时间段内被抓取过，但抓取失败，则存放入错误队列。

需要说明的是，判断上述链接抓取成功或者抓取失败的依据可以为，链接被抓取后是否成功展示对应的网页界面，若成功展示对应的网页界面，则认为当前链接被成功抓取；若在链接抓取时抓取超时，即在预设时间内没有展示对应的网页界面，或是返回结果为空，即对应的网页界面无内容，则认为当前链接抓取失败。

当用户进行目标主题的搜索时，基于预设搜索策略从待抓取链接队列中选取待抓取链接的方式可以为，当判断到网页链接对应的关键字或关键词的词条信息与目标主题相关时，均可作为待抓取链接。可选地，待抓取链接可以为一个或者多个。

示例性的，若目标主题为“天气预报”时，则预设搜索策略可以为待抓取链接中包含有与“天气”有关信息词条，则待抓取链接对应的网页界面可以为“A市一周天气预报”、“A市未来15天天气预报”以及“天气-百度百科”等。

S120、获取待抓取链接对应的网页内容。

通过对待抓取链接对应的网页界面进行解析，可获得对应的网页内容。可选地，获得网页内容的方式可以为：采用超文本标记语言(Hyper Text Markup Language，HTML)的方式对当前网页中的重要信息链接以及文本进行提取；还可在服务器内部设置相关计算机程序代码，可通过代码将目标主题解析为关键字或关键词信息，从而提取与关键字或关键词信息有关的网页内容。

S130、根据内容相关度和链接相关度从待抓取链接中筛选目标链接，并将目标链接作为搜索结果进行反馈。

可选地，可以对多个待抓取链接分别从内容相关度以及链接相关度两个维度分析，综合判断得到目标链接。其中，内容相关度根据网页内容和目标主题确定，链接相关度根据待抓取链接和目标主题确定。

在一实施例中，根据网页内容和目标主题确定内容相关度的方式可以为，通过提取网页内容中的关键字或关键词信息与目标主题的关键字或关键词进行比对，或者对待抓取链接对应的网页内容中的关键字或关键词信息进行统计，将统计数量由高到低进行依次排序，关键字或关键词越多的，相关度越高，从而筛选得到内容相关度较高的待抓取链接。

在筛选得到内容相关度较高的待抓取链接的基础上，可以通过待抓取链接和目标主题确定链接相关度，确定链接相关度的方式可以为通过链接地址携带的关键字或关键词信息与目标主题的关键字或关键词进行匹配比对，或通过类别关系及复杂关系计算等搜索策略，确定与主题的相关度高低，从而可在内容相关度较高的待抓取链接中得到链接相关度较高的待抓取链接，并将当前链接相关度较高顺序排位在顺位第一的待抓取链接当作目标链接。

从而将目标链接进行反馈后，可向用户展示与目标链接相关的网页界面。本申请实施例通过判断待抓取链接与目标主题的内容相关度和链接相关度，并通过结合基于内容评价算法和基于链接分析算法从页面内容和页面间的链接关系两个方面进行考虑，将网页文本内容和网页链接结合使用、取长补短，从而计算出页面内容与主题间的相关性，尽可能择优判断与筛选出与主题相关的页面，增强准确率。

本申请实施例中提供的主题网页数据抓取方法，首先根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接；然后根据待抓取链接获取对应的网页内容；最后根据内容相关度和链接相关度从待抓取链接中筛选目标链接，并将目标链接作为搜索结果进行反馈。采用上述技术方案，通过将网页内容和网页链接结合，判断内容相关度和链接相关度，进而从待抓取链接中筛选出目标链接，可以达到提高搜索精准度，提升搜索效率的技术效果。

实施例二

本申请实施例在上述实施例的基础上进行了改动，改动了获取待抓取链接对应的网页内容步骤，包括：模拟客户端向对应的服务端发送待抓取链接对应的访问请求，并根据接收到的访问响应下载待抓取链接对应的网页文件；对网页文件进行解析，以提取网页文件中的网页内容，其中，网页内容中包括链接信息和文本信息。这样设置的好处在于通过对待抓取链接对应的网页文件进行下载，可精准解析对应的网页内容。

本实施例中，还改动了根据内容相关度和链接相关度从待抓取链接中筛选目标链接步骤，包括：对于所有待抓取链接，根据网页内容中的文本信息和目标主题确定内容相关度，基于内容相关度不满足预设内容相关度要求的判断结果，将对应的待抓取链接存入已抓取队列；对于满足预设内容相关度要求的待抓取链接，根据网页内容中的链接信息和目标主题确定链接相关度，基于链接相关度不满足预设链接相关度要求的判断结果，将对应的待抓取链接存入已抓取队列；将满足预设链接相关度要求的待抓取链接按照内容相关度和链接相关度进行排序，根据排序结果筛选出目标链接。这样设置的好处在于通过筛选满足内容相关度以及链接相关度两个维度的待抓取链接作为目标链接，可提高获取目标链接的精准度。

图2为本申请实施例提供的又一种主题网页数据抓取方法的流程示意图，该方法以网页搜索作为应用场景为例进行说明，该方法包括如下步骤：

S210、根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接。

S220、模拟客户端向对应的服务端发送待抓取链接对应的访问请求，并根据接收到的访问响应下载待抓取链接对应的网页文件。

在获取网页内容之前，需要在服务器内部模拟客户端向对应的服务端发送待抓取链接对应的访问请求，该访问请求可包括对待抓取链接的访问请求方法、访问请求标识及当前服务器内的通信协议等。在服务器端接收到该访问请求并进行响应后，对应下载待抓取链接对应的网页文件，从而完成根据目标主题对待抓取链接对应网页文件的自动抓取工作。同时，为了确保对待抓取链接的正常工作和效率，防止抓取同一网页，在网页获取模块中设定超时机制，超过一定抓取时间的网页将被舍弃。

可选地，可针对每个待抓取链接依次进行模拟访问，分别下载待抓取链接对应的网页文件。为增快网页内容获取效率，还可针对当前所有的待抓取链接，进行统一模拟访问，则可下载获得多个待抓取链接对应的网页文件。

S230、对网页文件进行解析，以提取网页文件中的网页内容。

服务器分别对下载的每一网页文件进行解析，从而提取网页文件中的网页内容。其中，网页内容中包括链接信息和文本信息。

在一实施例中，链接信息可以为当前网页对应的网页链接或网页地址，也可以为待抓取链接对应的网页里的超链接。文本信息为当前网页中所包含的文本内容，可以为文本标题信息、一段文字信息或者网页内容中包含的全部文字信息等。

S240、对于所有待抓取链接，根据网页内容中的文本信息和目标主题确定内容相关度，基于内容相关度不满足预设内容相关度要求的判断结果，将对应的待抓取链接存入已抓取队列。

对于所有待抓取链接，提取对应的网页内容中的文本信息，并计算与目标主题的内容相关度，针对每一待抓取链接计算后，均可得到对应的网页内容中的文本信息与目标主题的相关度的相关数值。例如，当前待抓取链接与目标主题的内容相关度为20％、50％或80％等，也可将该相关度的相关数值划分为相关等级，例如将数值在10％以下的划分为不相关、数值在10％-40％划分为一般相关、 40％-70％划分为中度相关以及70％以上划分为重度相关等。

相应地，预设内容相关度要求可以为选取内容相关度数值在40％以上，或者相关度等级为中度相关以及重度相关的待抓取连接进行分析。由于对所有待抓取链接已进行内容相关度计算，则可认为所有待抓取链接均为已成功抓取的连接，则可将对应内容相关度数值在40％以下或者相关度等级为不相关以及一般相关的待抓取链接存入已抓取队列。

需要说明的是，本申请内容相关度的数值或者相关度等级的设定可以根据开发人员的实际需求而定。

可选地，根据网页内容中的文本信息和目标主题确定内容相关度，包括：对网页内容中的文本信息进行预处理，得到机器语言模型数据，根据机器语言模型数据和目标主题确定内容相关度，其中，预处理包括文本分词、去除停用词和词干化中的至少一个。

对网页内容中的文本信息进行预处理时，可使用文本分词、去除停用词和词干化中的至少一个算法进行预处理。文本分词算法是有利于文本的挖掘。可根据当前网页内容中的文本信息，将其成功的进行分词，可以达到识别语义的效果。去除停用词(Stop Words)在当前网页内容中的文本信息中，为节省对文本信息中关键字或关键词的识别效率，在对文本信息进行识别之前或之后会自动过滤掉某些字或词，例如，可以为限定词、量词或者介词等。词干化算法为对当前网页内容中的文本信息进行分词之后，将剩余词语的一些名词的复数去掉，动词的不同时态去掉等。

除可使用以上算法对网页内容中的文本信息进行预处理外，还可通过从网页内容中的文本信息中抽取关键词，计算所抽取的关键词与目标主题的语义相似度，针对抽取的关键词进行频率统计，根据频率统计结果和语义相似度确定内容相关度。

可选地，计算与目标主题的语义相似度可将关键词与目标主题使用匹配策略、类别关系策略和复杂关系计算等多种策略计算获得。例如，当用户输入的目标主题为“A省旅游攻略”时，则在进行语义相似度计算时，关于“A省-百度百科”、“A省自驾游攻略”以及“A省旅游必去景点”等均与目标主题相似，则可对应得到相似度数值。

在一实施例中，对当前网页内容中的文本信息抽取的关键词进行频率统计后，可针对当前统计数值进行依次排序，则频率统计数值越大，语义相似度越高的网页内容中的文本信息与目标主题内容相关度越高。

可选地，可选取内容相关度排序在顺序前几位(例如，前10位)的网页内容对应的待抓取链接进行下一维度关于链接相关度的判断，也可选取内容相关度大于一定数值(例如，大于百分之七十)的网页内容对应的待抓取链接进行下一维度关于链接相关度的判断。

S250、对于满足预设内容相关度要求的待抓取链接，根据网页内容中的链接信息和目标主题确定链接相关度，基于链接相关度不满足预设链接相关度要求的判断结果，将对应的待抓取链接存入已抓取队列。

在满足预设内容相关度要求的待抓取链接的基础上，可以根据网页内容中的链接信息和目标主题确定链接相关度。链接可以由：协议类型，主机名和路径及文件名等信息组成，则可通过链接中携带的关键字相关的词条信息进行相关度判断。

在一实施例中，链接相关度是否满足预设链接相关度要求的判断过程与判断是否满足内容相关度要求的过程相同，在此不再赘述。经过判断后，将再次筛选后不满足预设链接相关度要求的待抓取链接也存入已抓取队列中。

S260、将满足预设链接相关度要求的待抓取链接，按照内容相关度和链接相关度进行排序，根据排序结果筛选出目标链接。

根据S240判断得到符合内容相关度的第一数量的待抓取链接，根据S250在符合内容相关度的基础上得到符合链接相关度的第二数量的待抓取链接。可选地，第二数量小于第一数量，可以从满足第二数量的待抓取链接中筛选出目标连接。

一种可选方案，按照内容相关度和链接相关度进行排序，根据排序结果筛选出目标链接包括：根据内容相关度和链接相关度确定各链接对应的综合相关度；按照综合相关度由高至低的顺序进行排序，将综合相关度大于第一预设综合相关度阈值的链接或者综合相关度排序序号小于第一预设序号的链接确定为目标链接。

可选地，根据内容相关度和链接相关度确定各链接对应的综合相关度时，可根据当前链接分别得到的内容相关度的数值和链接相关度的数值进行加和得到，也可根据为当前内容相关度与链接相关度分配权重(例如，内容相关度占比60％，链接相关度占比40％)得到等。

从而，可将综合相关度大于第一预设综合相关度阈值的链接或者综合相关度排序序号小于第一预设序号的链接确定为目标链接。

相应地，也可直接将计算得到的综合相关度数值顺序排位第一的链接确定为目标链接。

另一种可选方案，在将通过上述方案得到的目标链接进行反馈后，用户在得到对应的网页内容不满意时，本申请实施例还提供一种可选方案，按照内容相关度和链接相关度进行排序，根据排序结果筛选出目标链接，还可以包括：将综合相关度小于或等于第一预设综合相关度阈值且大于第二预设综合相关度阈值的链接，或者，综合相关度排序序号大于或等于第一预设序号且小于第二预设序号的链接，确定为候选链接；根据用户输入的新的搜索内容确定新的目标主题；基于新的目标主题与目标主题相同的判断结果，从候选链接中筛选新的目标链接，并将新的目标链接作为本次的搜索结果进行反馈。

即在对待候选链接进行综合相关度排序后，可将满足综合相关度小于或等于第一预设综合相关度阈值且大于第二预设综合相关度阈值(例如70％)的链接，或者，综合相关度排序序号大于或等于第一预设序号且小于第二预设序号(例如10)的链接，确定为候选链接。重新根据当前目标主题，从候选链接中进行筛选，筛选出新的目标链接，并将新的目标链接作为本次的搜索结果进行反馈。

另一种可选方案，在将计算得到的综合相关度数值顺序排位第一的链接确定为目标链接进行反馈，若用户在得到对应的网页内容不满意时，也可将综合相关度顺序排位第二的链接作为新的目标链接进行反馈等。

S270、将目标链接作为搜索结果进行反馈。

当将目标链接作为搜索结果进行反馈后，则可将当前链接存入已抓取队列，并将目标链接对应的网页内容包含的信息通过文件或数据库的形式存储起来，从而为搜索引擎完成检索功能做好准备。

本申请实施例还提供了一种可选方案，基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接包括：基于预设搜索策略从目标主题对应的待抓取链接队列中选取候选待抓取链接；判断候选待抓取链接中是否包含目标候选待抓取链接，基于候选待抓取链接中包含目标候选待抓取链接的判断结果，将候选待抓取链接中包含的目标候选待抓取链接进行滤除，得到待抓取链接。其中，目标候选待抓取链接包括在最近的预设时长内被确定为待抓取链接的次数超过预设次数阈值的候选待抓取链接。

当用户基于与目标主题相似的内容再次进行检索时，在数据安全角度，为了确保自动搜索正常工作和工作效率，若多次抓取同一网页，会产生相应的预警机制，因此，需要对当前抓取次数已经超过预设次数阈值的目标候选待抓取链接进行过滤。

首先基于预设搜索策略从目标主题对应的待抓取链接队列中选取候选待抓取链接；然后判断候选待抓取链接中是否包含目标候选待抓取链接，其中，目标候选待抓取链接可以理解为曾经已被抓取过但其对应的网页内容用户不满意，或者当前抓取次数已经超过预设次数阈值的链接。因此，需要对候选待抓取链接中包含的目标候选待抓取链接进行滤除，将除过目标候选待抓取链接后，剩余的链接称为待抓取链接。

本申请实施例提供的主题网页数据抓取方法，通过优化与合理制定搜索策略，对网页内容中的文本信息进行预处理，将文本内容转换为机器语言模型，并通过对待抓取链接进行网页分析、筛选等，解决了目标链接与目标主题以及目标页面内容与目标主题相关性的判断，提高了搜索引擎根据目标主题搜索时的查准率、查全率及有效率。在搜索引擎抓取目标链接之前，通过判断待抓取链接与目标主题的内容相关度和链接相关度，使自动索引系统尽可能多地筛选出和主题相关的网页界面，减少无关网页建模，从而使目标主题进行自动索引时返回的结果具有较高的准确率。相比较相关技术中的搜索方法，能够精准地获取有效信息的特性。

实施例三

图3为本申请实施例提供的一种主题网页数据抓取装置的结构框图，该装置可由软件和硬件中至少之一实现，一般可集成在服务器等计算机设备中，可通过执行主题网页数据抓取方法来进行主题网页数据抓取。如图3所示，该装置包括：待抓取链接选取模块31、网页内容获取模块32和目标链接筛选模块33，其中：

待抓取链接选取模块31，被设置为根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接；

网页内容获取模块32，被设置为获取待抓取链接对应的网页内容；

目标链接筛选模块33，被设置为根据内容相关度和链接相关度从待抓取链接中筛选目标链接，并将目标链接作为搜索结果进行反馈，其中，内容相关度根据网页内容和目标主题确定，链接相关度根据待抓取链接和目标主题确定。

本申请实施例中提供的主题网页数据抓取装置，首先根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接；然后根据待抓取链接获取对应的网页内容；最后根据内容相关度和链接相关度从待抓取链接中筛选目标链接，并将目标链接作为搜索结果进行反馈。采用上述技术方案，通过将网页内容和网页链接结合，判断内容相关度和链接相关度，进而从待抓取链接中筛选出目标链接，可以达到提高搜索精准度，提升搜索效率的技术效果。

可选地，网页内容获取模块32包括：网页文件下载单元和网页内容提取单元；

网页文件下载单元，被设置为模拟客户端向对应的服务端发送待抓取链接对应的访问请求，并根据接收到的访问响应下载待抓取链接对应的网页文件。

网页内容提取单元，被设置为对网页文件进行解析，以提取网页文件中的网页内容，其中，网页内容中包括链接信息和文本信息。

可选地，目标链接筛选模块33包括：内容相关度确定单元、链接相关度确定单元、抓取链接存储单元和目标链接筛选单元；

内容相关度确定单元，被设置为对于所有待抓取链接，根据网页内容中的文本信息和目标主题确定内容相关度，基于内容相关度不满足预设内容相关度要求的判断结果，将对应的待抓取链接存入已抓取队列。

链接相关度确定单元，被设置为链接相关度确定单元，被设置为对于满足预设内容相关度要求的待抓取链接，根据网页内容中的链接信息和目标主题确定链接相关度，基于链接相关度不满足预设链接相关度要求的判断结果，将对应的待抓取链接存入已抓取队列。

目标链接筛选单元，被设置为将满足预设链接相关度要求的待抓取链接，按照内容相关度和链接相关度进行排序，根据排序结果筛选出目标链接。

可选地，链接相关度确定单元，还被设置为实现如下至少一个步骤：对网页内容中的文本信息进行预处理，得到机器语言模型数据，根据机器语言模型数据和目标主题确定内容相关度，其中，预处理包括文本分词、去除停用词和词干化中的至少一个；从网页内容中的文本信息中抽取关键词，计算所抽取的关键词与目标主题的语义相似度，针对抽取的关键词进行频率统计，根据频率统计结果和语义相似度确定内容相关度。

可选地，目标链接筛选单元包括：综合相关度确定子单元和目标链接确定子单元；

综合相关度确定单元，被设置为根据内容相关度和链接相关度确定各链接对应的综合相关度。

目标链接确定单元，被设置为按照综合相关度由高至低的顺序进行排序，将综合相关度大于第一预设综合相关度阈值的链接或者综合相关度排序序号小于第一预设序号的链接确定为目标链接。

可选地，目标链接筛选单元还包括：候选链接确定子单元、目标主题确定子单元和目标链接反馈子单元；

候选链接确定子单元，被设置为将综合相关度小于或等于第一预设综合相关度阈值且大于第二预设综合相关度阈值的链接，或者，综合相关度排序序号大于或等于第一预设序号且小于第二预设序号的链接，确定为候选链接。

目标主题确定子单元，被设置为根据用户输入的新的搜索内容确定新的目标主题。

目标链接反馈子单元，被设置为基于新的目标主题与目标主题相同的判断结果，从候选链接中筛选新的目标链接，并将新的目标链接作为本次的搜索结果进行反馈。

可选地，待抓取链接选取模块31包括：候选待抓取链接选取单元和目标候选待抓取链接滤除单元；

候选待抓取链接选取单元，被设置为基于预设搜索策略从目标主题对应的待抓取链接队列中选取候选待抓取链接。

目标候选待抓取链接滤除单元，被设置为判断候选待抓取链接中是否包含目标候选待抓取链接，基于候选待抓取链接中包含目标候选待抓取链接的判断结果，将候选待抓取链接中包含的目标候选待抓取链接进行滤除，得到待抓取链接；其中，目标候选待抓取链接包括在最近的预设时长内被确定为待抓取链接的次数超过预设次数阈值的候选待抓取链接。

本申请实施例提供的主题网页数据抓取装置，可执行本申请任意实施例所提供的主题网页数据抓取方法，具备执行该方法相应的功能模块和有益效果。

实施例四

本申请实施例提供了一种计算机设备，该计算机设备中可集成本申请实施例提供的主题网页数据抓取装置。图4为本申请实施例提供的一种计算机设备的结构框图。计算机设备40可以包括：存储器41，处理器42及存储在存储器41上并可在处理器42运行的计算机程序，所述处理器42执行所述计算机程序时实现如本申请实施例所述的主题网页数据抓取方法。

本申请实施例提供的计算机设备，可执行本申请任意实施例所提供的主题网页数据抓取方法，具备执行该方法相应的功能模块和有益效果。

实施例五

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行主题网页数据抓取方法，该方法包括：

根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接；

获取待抓取链接对应的网页内容；

根据内容相关度和链接相关度从待抓取链接中筛选目标链接，并将目标链接作为搜索结果进行反馈，其中，内容相关度根据网页内容和目标主题确定，链接相关度根据待抓取链接和目标主题确定。

存储介质是指任何的各种类型的存储器设备或存储设备。术语“存储介质”可以包括：安装介质，例如只读光盘(Compact Disc Read Only Memory，CD-ROM)、软盘或磁带装置；计算机系统存储器或随机存取存储器(Random Access Memory，RAM)，诸如动态RAM(Dynamic RAM，DRAM)、双倍数据速率RAM(Double Data Rate RAM，DDRRAM)、静态RAM(Static RAM，SRAM)、扩展数据输出RAM(Extended Data Out RAM，EDORAM)，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如可以实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的主题网页数据抓取操作，还可以执行本申请任意实施例所提供的主题网页数据抓取方法中的相关操作。

上述实施例中提供的主题网页数据抓取装置、设备及存储介质可执行本申请任意实施例所提供的主题网页数据抓取方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的主题网页数据抓取方法。

Claims

一种主题网页数据抓取方法，包括：

根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接；

获取所述待抓取链接对应的网页内容；

根据内容相关度和链接相关度从所述待抓取链接中筛选目标链接，并将所述目标链接作为搜索结果进行反馈，其中，所述内容相关度根据所述网页内容和所述目标主题确定，所述链接相关度根据所述待抓取链接和所述目标主题确定。
根据权利要求1所述的方法，其中，所述获取所述待抓取链接对应的网页内容，包括：

模拟客户端向对应的服务端发送所述待抓取链接对应的访问请求，并根据接收到的访问响应下载所述待抓取链接对应的网页文件；

对所述网页文件进行解析，以提取所述网页文件中的网页内容，其中，所述网页内容中包括链接信息和文本信息。
根据权利要求1所述的方法，其中，所述根据内容相关度和链接相关度从所述待抓取链接中筛选目标链接，包括：

对于所有所述待抓取链接，根据所述网页内容中的文本信息和所述目标主题确定内容相关度，基于所述内容相关度不满足预设内容相关度要求的判断结果，将对应的所述待抓取链接存入已抓取队列；

对于满足预设内容相关度要求的所述待抓取链接，根据所述网页内容中的链接信息和所述目标主题确定链接相关度，基于所述链接相关度不满足预设链接相关度要求的判断结果，将对应的所述待抓取链接存入已抓取队列；

将满足所述预设链接相关度要求的所述待抓取链接，按照所述内容相关度和所述链接相关度进行排序，根据排序结果筛选出目标链接。
根据权利要求3所述的方法，其中，所述根据所述网页内容中的文本信息和所述目标主题确定内容相关度，包括如下至少一个步骤：

对所述网页内容中的文本信息进行预处理，得到机器语言模型数据，根据所述机器语言模型数据和所述目标主题确定内容相关度，其中，所述预处理包括文本分词、去除停用词和词干化中的至少一个；

从所述网页内容中的文本信息中抽取关键词，计算所抽取的关键词与所述目标主题的语义相似度，针对所述抽取的关键词进行频率统计，根据频率统计结果和所述语义相似度确定内容相关度。
根据权利要求3所述的方法，其中，所述按照所述内容相关度和所述链接相关度进行排序，根据排序结果筛选出目标链接，包括：

根据所述内容相关度和所述链接相关度确定各链接对应的综合相关度；

按照所述综合相关度由高至低的顺序进行排序，将所述综合相关度大于第一预设综合相关度阈值的链接或者所述综合相关度排序序号小于第一预设序号的链接确定为目标链接。
根据权利要求5所述的方法，还包括：

将所述综合相关度小于或等于所述第一预设综合相关度阈值且大于第二预设综合相关度阈值的链接确定为候选链接；

根据用户输入的新的搜索内容确定新的目标主题；

基于所述新的目标主题与所述目标主题相同的判断结果，从所述候选链接中筛选新的目标链接，并将所述新的目标链接作为本次的搜索结果进行反馈。
根据权利要求5所述的方法，还包括：

将所述综合相关度排序序号大于或等于所述第一预设序号且小于第二预设序号的链接确定为候选链接；

根据用户输入的新的搜索内容确定新的目标主题；

基于所述新的目标主题与所述目标主题相同的判断结果，从所述候选链接中筛选新的目标链接，并将所述新的目标链接作为本次的搜索结果进行反馈。
根据权利要求1-7任一所述的方法，其中，所述基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接，包括：

基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取候选待抓取链接；

判断所述候选待抓取链接中是否包含目标候选待抓取链接，基于所述候选待抓取链接中包含目标候选待抓取链接的判断结果，将所述候选待抓取链接中包含的目标候选待抓取链接进行滤除，得到待抓取链接；其中，所述目标候选待抓取链接包括在最近的预设时长内被确定为待抓取链接的次数超过预设次数阈值的候选待抓取链接。
一种主题网页数据抓取装置，包括：

待抓取链接选取模块，被设置为根据用户输入的搜索内容确定目标主题，并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接；

网页内容获取模块，被设置为获取所述待抓取链接对应的网页内容；

目标链接筛选模块，被设置为根据内容相关度和链接相关度从所述待抓取链接中筛选目标链接，并将所述目标链接作为搜索结果进行反馈，其中，所述内容相关度根据所述网页内容和所述目标主题确定，所述链接相关度根据所述待抓取链接和所述目标主题确定。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8任一项所述的方法。