WO2021185147A1

WO2021185147A1 - 搜索意图识别

Info

Publication number: WO2021185147A1
Application number: PCT/CN2021/080240
Authority: WO
Inventors: 刘铭; 许鑫; 汪祖海; 王可; 吕梅; 于志安
Original assignee: 北京三快在线科技有限公司
Priority date: 2020-03-20
Filing date: 2021-03-11
Publication date: 2021-09-23
Also published as: CN111310008A

Abstract

本申请公开了一种方法。所述方法包括：响应于搜索请求，获取与所述搜索请求关联的搜索场景信息；根据所述搜索场景信息以及所述搜索请求，生成用于识别搜索意图的复合特征；将所述复合特征输入到搜索意图识别模型中，获取所述搜索意图识别模型输出的搜索意图识别结果。

Description

搜索意图识别

技术领域

本申请涉及搜索引擎领域，具体涉及搜索意图识别。

背景技术

准确预测用户的搜索意图，是搜索引擎至关重要的能力。其中，搜索意图通常指搜索行为背后体现的用户真实需求，例如，搜索“羽毛球”，可能是因为用户想购买羽毛球器械，也可能是寻找羽毛球场馆，亦可能是学习羽毛球规则，等等。在这个例子中，“购买器械”、“寻找场馆”以及“学习规则”就是与“羽毛球”这个搜索关键词相关的三类不同搜索意图。

对搜索意图进行识别，现有技术中有如下的几种常见方案：1)基于业务专家制定的规则，利用搜索关键词与规则的文本匹配确定搜索意图；2)基于文本分类或聚类进行搜索意图的预测；3)通过主题模型等方式，将关键词映射到高维度的语义向量空间，以表达搜索意图。

发明内容

本申请提供一种搜索意图识别方法、装置、电子设备和存储介质。

依据本申请的第一方面，提供了一种搜索意图识别方法，包括：响应于搜索请求，获取与所述搜索请求关联的搜索场景信息；根据所述搜索场景信息以及所述搜索请求，生成用于识别搜索意图的复合特征；将所述复合特征输入到搜索意图识别模型中，获取所述搜索意图识别模型输出的搜索意图识别结果。

可选地，所述根据所述搜索场景信息以及所述搜索请求，生成用于识别搜索意图的复合特征包括：将所述搜索场景信息编码为场景特征向量，以及对所述搜索请求进行编码得到与所述搜索请求对应的搜索请求特征向量；对所述场景特征向量和所述搜索请求特征向量进行融合得到融合特征向量，将所述融合特征向量作为所述复合特征，其中，搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。

可选地，所述将所述搜索场景信息编码为场景特征向量包括：对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量，所述场景维度包括如下的至少一种：位置维度，天气维度，用户行为维度，时间维度。

可选地，所述对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：对位置维度下的经纬度信息进行GeoHash处理，并对处理结果进行独热编码，得到经纬度特征向量。

可选地，所述对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：对天气维度下的连续值类信息进行分桶离散化处理，并对处理结果进行独热编码，得到天气特征向量。

可选地，所述对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：针对用户行为维度下的用户行为序列，在用户行为序列中的用户行为个数不大于指定数量的情况下，选定该用户行为序列中的全部用户行为；在用户行为序列中的用户行为个数大于指定数量的情况下，以时间倒序方式选定用户行为序列中指定数量个用户行为；获取各选定的用户行为所对应目标的搜索意图；对获取的搜索意图进行特征嵌入处理，得到用户行为特征向量。

可选地，所述指定数量是通过如下方式预先确定的：针对搜索日志中每条包含下单行为的用户行为序列，统计该包含下单行为的用户行为序列中，连续点击行为序列的长度，所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为；将各连续点击行为序列的长度均值作为所述指定数量。

可选地，所述搜索意图识别模型是通过如下方式训练得到的：根据搜索日志生成训练样本；根据训练样本生成复合特征；利用所述复合特征进行搜索意图识别模型的训练。

可选地，所述根据搜索日志生成训练样本包括：根据包含下单行为的搜索日志生成第一类正样本；根据包含点击行为的搜索日志生成第二类正样本，所述第一类正样本的权重大于所述第二类正样本的权重；根据仅包含浏览行为的搜索日志生成负样本。

可选地，所述搜索意图识别结果包括多个搜索意图的意图强度分布，该方法还包括：获取指定搜索意图及其意图位次；根据所述意图位次和所述意图强度分布，确定所述指定搜索意图的意图强度值；根据所述指定搜索意图的意图强度值和所述意图强度分布，生成包含所述指定搜索意图的意图强度分布。

可选地，所述获取指定搜索意图及其意图位次包括：获取与所述搜索请求匹配、且在生效状态的指定搜索意图，所述生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。

依据本申请的第二方面，提供了一种搜索意图识别装置，包括：响应单元，用于响应于搜索请求，获取与所述搜索请求关联的搜索场景信息；复合特征生成单元，用于根据所述搜索场景信息以及所述搜索请求，生成用于识别搜索意图的复合特征；搜索意图识别单元，用于将所述复合特征输入到搜索意图识别模型中，获取所述搜索意图识别模型输出的搜索意图识别结果。

可选地，所述复合特征生成单元，用于将所述搜索场景信息编码为场景特征向量，以及对所述搜索请求进行编码得到与所述搜索请求对应的搜索请求特征向量；对所述场景特征向量和所述搜索请求特征向量进行融合得到融合特征向量，将所述融合特征向量作为所述复合特征，其中，搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。

可选地，所述复合特征生成单元，用于对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量，所述场景维度包括如下的至少一种：位置维度，天气维度，用户行为维度，时间维度。

可选地，所述复合特征生成单元，用于对位置维度下的经纬度信息进行GeoHash处理，并对处理结果进行独热编码，得到经纬度特征向量。

可选地，所述复合特征生成单元，用于对天气维度下的连续值类信息进行分桶离散化处理，并对处理结果进行独热编码，得到天气特征向量。

可选地，所述复合特征生成单元，用于针对用户行为维度下的用户行为序列，在用户行为序列中的用户行为个数不大于指定数量的情况下，选定该用户行为序列中的全部用户行为；在用户行为序列中的用户行为个数大于指定数量的情况下，以时间倒序方式选定用户行为序列中指定数量个用户行为；获取各选定的用户行为所对应目标的搜索意图；对获取的搜索意图进行特征嵌入处理，得到用户行为特征向量。

可选地，所述搜索意图识别装置还包括：预处理单元，用于针对搜索日志中每条包含下单行为的用户行为序列，统计该包含下单行为的用户行为序列中，连续点击行为序列的长度，所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为；将各连续点击行为序列的长度均值作为所述指定数量。

可选地，所述搜索意图识别装置还包括：预处理单元，用于根据搜索日志生成训练样本，并根据训练样本生成复合特征；训练单元，用于利用所述复合特征进行搜索意图识别模型的训练。

可选地，所述预处理单元，用于根据包含下单行为的搜索日志生成第一类正样本；根据包含点击行为的搜索日志生成第二类正样本，所述第一类正样本的权重大于所述第二类正样本的权重；根据仅包含浏览行为的搜索日志生成负样本。

可选地，所述搜索意图识别结果包括多个搜索意图的意图强度分布，所述搜索意图识别装置还包括：意图调整单元，用于获取指定搜索意图及其意图位次；根据所述意图位次和所述意图强度分布，确定所述指定搜索意图的意图强度值；根据所述指定搜索意图的意图强度值和所述意图强度分布，生成包含所述指定搜索意图的意图强度分布。

可选地，所述意图调整单元，用于获取与所述搜索请求匹配、且在生效状态的指定搜索意图，所述生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。

依据本申请的第三方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行如上述任一所述的搜索意图识别方法。

依据本申请的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的搜索意图识别方法。

由上述可知，本申请的实施例，响应于搜索请求，获取搜索场景信息，根据搜索场景信息以及搜索请求，生成用于识别搜索意图的复合特征，将复合特征输入到搜索意图识别模型中，获取搜索意图识别模型输出的搜索意图识别结果。本申请实施例不仅关注搜索请求，还关注天气、位置、用户行为等搜索场景信息，利用基于复合建模实现的搜索意图识别模型，参考多方面因素对用户真实需求进行预测，改善了仅根据搜索请求无法精确识别出搜索意图的问题，特别适合于生活服务类、LBS(Location Based Services，基于位置的服务)类搜索场景。

上述说明仅是本申请实施例的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文一些实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出一些实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的搜索意图识别方法的流程示意图。

图2示出了根据本申请一个实施例的一种搜索意图识别模型的训练方法的流程示意图。

图3示出了根据本申请一个实施例的搜索意图识别模型的结构示意图。

图4示出了根据本申请一个实施例的一种搜索意图识别方法的流程示意图。

图5示出了根据本申请一个实施例的搜索意图识别装置的结构示意图。

图6示出了根据本申请一个实施例的电子设备的结构示意图。

图7示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

背景技术中所介绍的上述方案均存在着仅关注文本，缺少对其他因素关注的问题。除此之外，方案1)还需要人工进行标注和规则制定，泛化能力差，不能应对业务场景的迭代变化；方案3)则难以适应对精确度和一致性要求很高的场景。可见，现有技术并不能满足业务需求，还有很大的改进空间。

本申请提出了一种将用户行为、天气、位置等搜索场景信息纳入关注范围，结合搜索请求进行复合建模，实现对搜索意图更准确识别的方案。

图1示出了根据本申请一个实施例的搜索意图识别方法的流程示意图。如图1所示，搜索意图识别方法包括步骤S110-S130。

在步骤S110，响应于搜索请求，获取与搜索请求关联的搜索场景信息。

本申请的实施例可以应用于使用搜索引擎技术的各类场景，包括但不限于百度、谷歌(此处的商业名称仅作示例性说明)等通用搜索引擎，专利、商标等领域的专用搜索引擎，以及应用APP内的搜索引擎等。

用户可以通过文本、图像、语音等各类方式生成搜索请求(query)，例如文本可以是搜索关键词或者搜索语句的表述形式。

步骤S120，根据搜索场景信息以及搜索请求，生成用于识别搜索意图的复合特征。

如果说搜索请求是用户对其搜索意图给出的直接表达，那么搜索场景信息可以看作是用户对其搜索意图给出的间接表达，并且能够补充搜索请求所没有体现出的潜在搜索意图。举例来说，搜索场景信息可以覆盖多个场景维度，例如时间维度、位置维度、天气维度、用户行为维度等等。

例如，用户搜索“宫保鸡丁”，可能是因为想学习宫保鸡丁的做法，也可能是因为想点宫保鸡丁的外卖，也可能是希望前往售卖宫保鸡丁的餐馆就餐。但用户在搜索时，并不一定会以搜索请求清楚地表达出自己的搜索意图，这就需要用户在搜索中查找，或是进行二次检索，降低了用户体验。

但是，从搜索场景信息入手，就能够改善这一问题。例如，如果用户是在商场内搜索宫保鸡丁，那么就更有可能是希望前往售卖宫保鸡丁的餐馆就餐，而并非查找菜谱或点外卖。此时，环境的作用就体现了出来。而如果用户略过了多个售卖宫保鸡丁的实体餐馆，点击进入了多个外卖餐馆的页面，并在一家外卖餐馆下单，就能够确定用户是希望点外卖，而非其他意图。这就体现了用户行为的作用。

步骤S130，将复合特征输入到搜索意图识别模型中，获取搜索意图识别模型输出的搜索意图识别结果。这里的搜索意图识别模型是基于对搜索请求以及搜索场景信息的复合建模以及预训练实现的。

举例而言，搜索意图可以包括外卖、堂食、菜谱、点评、优惠等等，这些搜索意图能够反映出用户需求，具体可以由业务方或是领域专家等进行搜索意图的名称确定以及类别划分。换句话说，搜索意图可以理解为是概括出的用户需求。

具体到业务场景，搜索意图可以是和商品或者服务的类别相对应的，而商品和服务的类别可以根据业务需求进行定义，例如上面给出的外卖、堂食就是对服务提供方式的分类。

一个搜索结果可以对应一个或多个搜索意图，例如某餐馆既提供堂食售卖，也提供外卖服务，则该餐馆对应的搜索意图可以包括外卖和堂食；而另一餐馆只提供外卖服务，则该餐馆对应的搜索意图仅包括外卖。反过来，一个搜索意图也能够对应一个或多个搜索结果，并且一般是多个搜索结果，比如提供外卖服务的餐馆很多。搜索意图与用户的真实需求越匹配，展示给用户的搜索结果也就更容易达到用户的搜索目的。

可见，图1所示的搜索意图识别方法，不仅关注搜索请求，还关注天气、位置、用户行为等搜索场景信息，利用基于复合建模实现的搜索意图识别模型，参考多方面因素对用户真实需求进行预测，改善了仅根据搜索请求无法精确识别出搜索意图的问题，特别适合于生活服务类、LBS类搜索场景。

在本申请的一个实施例中，上述搜索意图识别方法中，根据搜索场景信息以及搜索请求，生成用于识别搜索意图的复合特征包括：将搜索场景信息编码为场景特征向量，以及对搜索请求进行编码得到与搜索请求对应的搜索请求特征向量；对场景特征向量和搜索请求特征向量进行融合得到融合特征向量，将融合特征向量作为复合特征，其中，搜索请求特征向量在融合特征向量中的维度占比不小于预设比值。

其中，特征向量是文本、图像等信息的数学表达，一般是高维向量。编码操作可以采用现有技术中的任一类或多类特征工程技术实现，只要能够得到向量化的数据即可。在一个具体实施例中，搜索请求特征向量和场景特征向量均为通过嵌入(Embedding)操作得到的连续向量。搜索请求特征向量的生成，可以是利用NLP(Natural Language Processing，自然语言处理)技术对文本形式的搜索请求内容进行编码，或者是利用图像处理技术对图像形式的搜索请求内容进行编码实现的，等等。

前面提到，搜索请求是能够直接反映用户搜索意图的信息，因此搜索请求特征向量就显得相对重要，在融合特征向量中的维度占比不能过低。具体的融合操作可以是连接(Concat)操作。

在本申请的一个实施例中，上述搜索意图识别方法中，将搜索场景信息编码为场景特征向量包括：对搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量，场景维度包括如下的至少一种：位置维度，天气维度，用户行为维度，时间维度。

其中，场景信息在位置维度下可以具体包括经纬度信息、城市信息、实体(兴趣点POI，例如商场、住宅区等)信息等；在天气维度下可以具体包括风力信息、温度信息等；在用户行为维度下可以具体包括点击信息、下单信息、浏览信息等；在时间维度下可以具体包括季节信息、节假日信息等。

各场景维度都可以生成相应的特征向量，这些特征向量均可以独立作为场景特征向量，也可以将这些特征向量中的全部或部分通过Concat操作进行融合并将融合后的特征向量作为场景特征向量。

在本申请的一个实施例中，上述搜索意图识别方法中，对搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：对位置维度下的经纬度信息进行GeoHash处理，并对处理结果进行独热编码，得到经纬度特征向量。

其中，GeoHash处理本质上是空间索引的一种方式，可以理解为将地表视为一个二维平面，将平面递归分解成更小的子块，每个子块在一定经纬度范围内拥有相同的编码。以GeoHash方式建立空间索引，可以提高经纬度检索的效率。在本申请中利用GeoHash将二维的经纬度信息一维化，便于搜索意图识别模型的训练以及运用。独热编码(one-hot)可以理解为用N位状态寄存器编码N个状态，每个状态都有独立的寄存器位，但这些寄存器位中只有一位有效。通过独热编码可以将离散的特征连续化。

在本申请的一个实施例中，上述搜索意图识别方法中，对搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：对天气维度下的连续值类信息进行分桶离散化处理，并对处理结果进行独热编码，得到天气特征向量。分桶离散化处理主要针对风力、温度等连续值，使得得到的天气特征向量高维稀疏，便于搜索意图识别模型的训练以及使用。

在本申请的一个实施例中，上述搜索意图识别方法中，对搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：针对用户行为维度下的用户行为序列，在用户行为序列中的用户行为个数不大于指定数量的情况下，选定该用户行为序列中的全部用户行为；在用户行为序列中的用户行为个数大于指定数量的情况下，以时间倒序方式选定用户行为序列中指定数量个用户行为；获取各选定的用户行为所对应目标的搜索意图；对获取的搜索意图进行特征嵌入处理，得到用户行为特征向量。

举例而言，日志可以记录各个用户行为的发生时间点，这些用户行为可以形成用户行为序列。用户行为信息如果包含多个用户行为，若作为搜索场景信息，则需要确保这些用户行为具有一定的关联性。因此，在本申请的实施例中提供了一种以时间倒序选择用户行为的方式，避免要纳入的用户行为数量过多，或者不具有关联性。

用户行为往往是与具体的搜索结果对应的，而这些搜索结果与业务相关，可以由业务方事先提供这些搜索结果的搜索意图，而这部分内容在实际场景下也通常不需要进行额外生成，因为业务方为了自身业务需要，通常都会先做好搜索意图的分类以及搜索结果与搜索意图的关联。

词嵌入编码(Word Embedding)是自然语言处理(Natural Language Processing，NLP)中的一项文本处理技术，在本申请的实施例中可以用其进行特征嵌入处理。当然，具体的特征嵌入方式并不限于该示例，例如还可以使用Transformer(谷歌提出的一类NLP模型，暂无中文名)、BERT(Bidirectional Encoder Representations from Transformers，基于Transformer的双向编码器表征)模型和GPT(Generative Pre-Training，生成式训练)模型进行特征嵌入处理。

在本申请的一个实施例中，上述搜索意图识别方法中，指定数量是通过如下方式预先确定的：针对搜索日志中每条包含下单行为的用户行为序列，统计该包含下单行为的用户行为序列中，连续点击行为序列的长度，连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为；将各连续点击行为序列的长度均值作为指定数量。

例如，对用户行为序列取当前行为前的不大于N(N为指定数量)次点击行为所对应的搜索意图，N的计算方法可以是：每次下单行为往前推30秒，如果有点击行为就计入，由此再往前推30秒……以此往复不断向前推，直至超过30秒没有点击行为或者发生下单行为便中断。这样就形成了连续点击行为序列。统计一个较长时间区间的连续行为序列的长度，求平均值即为N。对用户行为的建模即是以当前搜索请求前的最多N次点击偏好预测当前偏好，以确定搜索意图。

在本申请的一个实施例中，上述搜索意图识别方法中，搜索意图识别模型是通过如下方式训练得到的：根据搜索日志生成训练样本；根据训练样本生成复合特征；利用复合特征进行搜索意图识别模型的训练。

这里的搜索日志记录有搜索请求的具体内容，如查询文本或是查询图像，以及记录有搜索场景信息。具体训练时，可以分为多个阶段，在每个训练阶段后，对得到的搜索意图识别模型进行验证，验证通过则投入使用，如验证不通过，一方面可以对搜索意图识别模型的参数进行调整，也就是对搜索意图识别模型进行优化，另一方面也可以考虑对训练样本以及特征向量的生成方式或者融合方式进行调整。然后根据调整后的数据和流程重新进行训练，直至搜索意图识别模型验证通过。

例如一个可选方案中，搜索意图识别模型可以先进行预训练，根据预训练的反馈，可以对搜索请求特征向量进行微调(Fine-tuning)。

在本申请的一个实施例中，上述搜索意图识别方法中，根据搜索日志生成训练样本包括：根据包含下单行为的搜索日志生成第一类正样本；根据包含点击行为的搜索日志生成第二类正样本，第一类正样本的权重大于第二类正样本的权重；根据仅包含浏览行为的搜索日志生成负样本。

举例来说，搜索日志可以记录从用户发起一次搜索请求开始直到下单、重新进行搜索、或者离开搜索引擎的过程中的信息。例如，用户搜索了“宫保鸡丁”，搜索引擎通过页面展示了多个搜索结果。这些搜索结果有的仅被展示出来，有的被用户点击，用户最终还可能选择一些搜索结果进行下单。

对于浏览行为、点击行为和下单行为而言，下单行为最能够反映出用户真实的正向搜索意图，也就是“需要什么”；点击行为虽然也能够反映出用户的正向搜索意图，但也可能是通过误触产生；而如果仅有浏览行为，则能够反映出用户的负向搜索意图，也就是“不需要什么”。

因此，可以将包含点击行为的搜索日志作为第二类正样本，将包含下单行为的搜索日志作为第一类正样本，并以权重区分，例如，第二类正样本的权重与第一类正样本的权重比值可以是1:10。而负样本可以对应于用户在点击前浏览的搜索结果(业内称为“Skip above”，暂无中文名称)，而对于点击后展现的那些搜索结果则不作处理。

当然，具体的样本生成方式可以不限于上述示例，可以根据需求进行变更。

图2示出了根据本申请一个实施例的一种搜索意图识别模型的训练方法的流程示意图。参见图2，当用户输入搜索关键词，发起搜索请求后，搜索引擎会返回搜索结果并记录搜索日志。搜索日志经过清洗等处理后被存储。通过搜索日志记录的浏览行为、点击行为和下单行为可以生成正负训练样本及权重，并通过结合业务方给出的搜索意图类别进行样本标注。对训练样本进行特征处理，得到搜索请求特征向量、经纬度特征向量、天气特征向量、用户行为特征向量以及其他一些可根据需求生成的扩展特征向量。根据这些特征向量生成融合特征向量，输入搜索意图识别模型进行模型训练。如果模型验证通过则得到可用的搜索意图识别模型，如果模型验证不通过则进行参数优化等处理，重复训练直至搜索意图识别模型验证通过。

另外，当有新的搜索意图产生(这里的新的搜索意图产生，并不一定是指用户有了新需求，更可能是业务上有了新的定义)时，在收集到一定数量的搜索日志后，可以对搜索意图识别模型进行迭代更新。

在特征处理方面，可以参照图3示出的根据本申请一个实施例的搜索意图识别模型的结构示意图。其中，搜索关键词通过编码层处理后得到搜索请求特征向量，进入网络层；经纬度信息经过GeoHash处理后进入编码层，得到经纬度特征向量；天气信息经过分桶离散化处理后进入编码层，得到天气特征向量；用户行为序列通过编码层处理后得到用户行为特征向量，进入网络层；经纬度特征向量与天气特征向量通过Concat操作得到环境特征向量，进入网络层；上述各网络层的输出通过Concat操作得到融合特征向量，进入主干网络层，输出搜索意图识别结果，并计算损失。

在本申请的一个实施例中，上述搜索意图识别方法中，搜索意图识别结果包括多个搜索意图的意图强度分布，该方法还包括：获取指定搜索意图及其意图位次；根据意图位次和意图强度分布，确定指定搜索意图的意图强度值；根据指定搜索意图的意图强度值和意图强度分布，生成包含指定搜索意图的意图强度分布。

根据搜索日志来建模，最终得到搜索意图的方法虽然能够符合用户侧的需求，但是对于业务方而言也存在一定不足。原因在于，仅基于用户行为的建模，容易产生马太效应，即强者恒强，弱者恒弱，导致有些搜索意图容易被忽视，新的搜索意图较难被曝光。

并且，在冷启动(应用预设时间段内首次启动)场景下，由于用户行为信息的缺失，上述的搜索意图识别有时不能达到较好的业务效果。因此本申请设计了将其他搜索意图，如业务方推荐的搜索意图纳入的整合性方案，使得业务方在搜索意图识别过程中也有参与。

例如，根据用户输入的搜索关键词，搜索引擎识别出了A、B、C、D四个搜索意图，这四个搜索意图的意图强度逐次递减，分别为0.4，0.3，0.2和0.1，这样就形成了这四个搜索意图的意图强度分布，在展现时会优先展示A搜索意图对应的搜索结果。

但是业务方希望展示搜索意图E，并希望其能展示在第三位，也就是形成A、B、E、C、D的次序，此时就可以根据目前的意图强度分布，生成E的意图强度值，例如以B的意图强度值与C的意图强度值取算术平均值0.35。由于加入了E使得各意图强度值的总和超过1，可以利用softmax函数等进行归一化处理。

举例来说，每个搜索意图可以对应不同的搜索结果，用户可以在搜索结果页面中的各搜索意图间(例如每个搜索意图分别在各自的选项卡中展示其对应的搜索结果)进行切换。“外卖”是一个已有的搜索意图，而业务方在运营过程中，又推出了“精品外卖”这个新的搜索意图。则一个搜索结果可能既对应“外卖”，也对应“精品外卖”，而该搜索结果在“精品外卖”中的展示优先级更高。那么对于喜欢该搜索结果的用户来说，显然，“精品外卖”是更优的搜索意图。但由于该搜索意图是新产生的搜索意图，因此如果仅根据搜索意图识别模型输出的意图强度分布来进行搜索意图的展示，就使得“精品外卖”几乎不会被展示出来，不符合用户和业务方的需求。而如果根据上述方式对意图强度分布进行调整，就可以使“精品外卖”有较高的展示优先级，这样才能进一步根据搜索日志进行搜索意图识别模型的调整。

在本申请的一个实施例中，上述搜索意图识别方法中，获取指定搜索意图及其意图位次包括：获取与搜索请求匹配、且在生效状态的指定搜索意图，生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。

可以看到，指定搜索意图能够应用于冷启动场景，保障了一段时间或者展示次数内，指定搜索意图所处的位次，从而保证了对应搜索结果的展示，满足了对用户认知的培养。指定搜索意图失效时，搜索意图识别模型已积累了足够的搜索日志进行搜索意图识别。从而克服了用户行为建模场景常出现的马太效应问题，在贴近用户需求同时也满足了业务方需求。

图4示出了根据本申请一个实施例的一种搜索意图识别方法的流程示意图。如图4所示，当用户输入搜索关键词，发起搜索请求后，生成搜索请求特征向量、经纬度特征向量、天气特征向量、用户行为特征向量以及其他一些可根据需求生成的扩展特征向量。将这些特征向量融合后输入搜索意图识别模型，得到多个搜索意图的意图强度分布。如果业务方没有可用的指定搜索意图，那么就按照该意图强度分布来选择搜索结果进行展示；如果业务方有可用的指定搜索意图，那么就按照指定搜索意图重新计算意图强度分布，根据重新计算得到的意图强度分布来选择搜索结果进行展示。

业务方在提供指定搜索意图时，可选方案是按指定的数据格式来提供，例如，要求指定搜索意图与特定的搜索关键词关联，在特定时间、场景生效，并且有推荐曝光次数的限制，等等。例如，设定了生效时长后，自动地每天将时长天数减1，直至0；曝光次数也就是已展示次数，也随着每日搜索日志记录次数减少，直至0，按天更新。当某一搜索意图的生效时长和曝光次数都不为0时，将该搜索意图保障处在意图分布中的对应位次；反之，生效时长或者曝光次数任一为0，则不再考虑该指定搜索意图，此时完全由搜索意图识别模型来确定搜索意图。

图5示出了根据本申请一个实施例的一种搜索意图识别装置的结构示意图，如图5所示，搜索意图识别装置500包括响应单元510、复合特征生成单元520和搜索意图识别单元530。

响应单元510，用于响应于搜索请求，获取与搜索请求关联的搜索场景信息。

复合特征生成单元520，用于根据搜索场景信息以及搜索请求，生成用于识别搜索意图的复合特征。

搜索意图识别单元530，用于将复合特征输入到搜索意图识别模型中，获取搜索意图识别模型输出的搜索意图识别结果。这里的搜索意图识别模型是基于对搜索请求以及搜索场景信息的复合建模以及预训练实现的。

可见，图5所示的搜索意图识别装置，不仅关注搜索请求，还关注天气、位置、用户行为等搜索场景信息，利用基于复合建模实现的搜索意图识别模型，参考多方面因素对用户真实需求进行预测，改善了仅根据搜索请求无法精确识别出搜索意图的问题，特别适合于生活服务类、LBS类搜索场景。

在本申请的一个实施例中，搜索意图识别装置中，复合特征生成单元520，用于将搜索场景信息编码为场景特征向量，以及对搜索请求进行编码得到与搜索请求对应的搜索请求特征向量；对场景特征向量和搜索请求特征向量进行融合得到融合特征向量，将融合特征向量作为复合特征，其中，搜索请求特征向量在融合特征向量中的维度占比不小于预设比值。

在本申请的一个实施例中，搜索意图识别装置中，复合特征生成单元520，用于对搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量，场景维度包括如下的至少一种：位置维度，天气维度，用户行为维度，时间维度。

在本申请的一个实施例中，搜索意图识别装置中，复合特征生成单元520，用于对位置维度下的经纬度信息进行GeoHash处理，并对处理结果进行独热编码，得到经纬度特征向量。

在本申请的一个实施例中，搜索意图识别装置中，复合特征生成单元520，用于对天气维度下的连续值类信息进行分桶离散化处理，并对处理结果进行独热编码，得到天气特征向量。

在本申请的一个实施例中，搜索意图识别装置中，复合特征生成单元520，用于针对用户行为维度下的用户行为序列，在用户行为序列中的用户行为个数不大于指定数量的情况下，选定该用户行为序列中的全部用户行为；在用户行为序列中的用户行为个数大于指定数量的情况下，以时间倒序方式选定用户行为序列中指定数量个用户行为；获取各选定的用户行为所对应目标的搜索意图；对获取的搜索意图进行特征嵌入处理，得到用户行为特征向量。

在本申请的一个实施例中，搜索意图识别装置还包括：预处理单元，用于针对搜索日志中每条包含下单行为的用户行为序列，统计该包含下单行为的用户行为序列中，连续点击行为序列的长度，连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为；将各连续点击行为序列的长度均值作为指定数量。

在本申请的一个实施例中，搜索意图识别装置还包括：预处理单元，用于根据搜索日志生成训练样本，并根据训练样本生成复合特征；训练单元，用于利用复合特征进行搜索意图识别模型的训练。

在本申请的一个实施例中，搜索意图识别装置中，预处理单元，用于根据包含下单行为的搜索日志生成第一类正样本；根据包含点击行为的搜索日志生成第二类正样本，第一类正样本的权重大于第二类正样本的权重；根据仅包含浏览行为的搜索日志生成负样本。

在本申请的一个实施例中，搜索意图识别装置中，搜索意图识别结果包括多个搜索意图的意图强度分布，所述装置还包括：意图调整单元，用于获取指定搜索意图及其意图位次；根据意图位次和意图强度分布，确定指定搜索意图的意图强度值；根据指定搜索意图的意图强度值和意图强度分布，生成包含指定搜索意图的意图强度分布。

在本申请的一个实施例中，搜索意图识别装置中，意图调整单元，用于获取与搜索请求匹配、且在生效状态的指定搜索意图，生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本申请的实施例，不仅关注搜索请求，还关注天气、位置、用户行为等搜索场景信息，利用基于复合建模实现的搜索意图识别模型，参考多方面因素对用户真实需求进行预测，改善了仅根据搜索请求无法精确识别出搜索意图的问题，特别适合于生活服务类、LBS类搜索场景。对于冷启动、业务方存在指定搜索意图的场景，可以利用与搜索请求匹配、且在生效状态的指定搜索意图进行意图强度分布的调整，进一步提升了最终给出的搜索意图与用户需求的匹配度。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实施例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的搜索意图识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图6示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备600包括处理器610和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器620。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有存储用于执行上述搜索意图识别方法的计算机可读程序代码631的存储空间630。例如，用于存储计算机可读程序代码的存储空间630可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码631。计算机可读程序代码631可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘、紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图7所示的计算机可读存储介质。图7示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质700存储有用于执行上述搜索意图识别方法的计算机可读程序代码631，可以被电子设备600的处理器610读取，当计算机可读程序代码631由电子设备600运行时，导致该电子设备600执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码631可以执行上述任一实施例中示出的方法。计算机可读程序代码631可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

一种搜索意图识别方法，包括：

响应于搜索请求，获取与所述搜索请求关联的搜索场景信息；

根据所述搜索场景信息以及所述搜索请求，生成用于识别搜索意图的复合特征；

将所述复合特征输入到搜索意图识别模型中，获取所述搜索意图识别模型输出的搜索意图识别结果。
如权利要求1所述的搜索意图识别方法，其中，所述根据所述搜索场景信息以及所述搜索请求，生成用于识别搜索意图的复合特征包括：

将所述搜索场景信息编码为场景特征向量，以及对所述搜索请求进行编码得到与所述搜索请求对应的搜索请求特征向量；

对所述场景特征向量和所述搜索请求特征向量进行融合得到融合特征向量，将所述融合特征向量作为所述复合特征，其中，搜索请求特征向量在所述融合特征向量中的维度占比不小于预设比值。
如权利要求2所述的搜索意图识别方法，其中，所述将所述搜索场景信息编码为场景特征向量包括：

对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量，所述场景维度包括如下的至少一种：位置维度，天气维度，用户行为维度，时间维度。
如权利要求3所述的搜索意图识别方法，其中，所述对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：

对位置维度下的经纬度信息进行GeoHash处理和独热编码，得到经纬度特征向量。
如权利要求3所述的搜索意图识别方法，其中，所述对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：

对天气维度下的连续值类信息进行分桶离散化处理和独热编码，得到天气特征向量。
如权利要求3所述的搜索意图识别方法，其中，所述对所述搜索场景信息按场景维度分别进行编码，得到与各场景维度对应的特征向量包括：

针对用户行为维度下的用户行为序列，在用户行为序列中的用户行为个数不大于指定数量的情况下，选定该用户行为序列中的全部用户行为；在用户行为序列中的用户行为个数大于指定数量的情况下，以时间倒序方式选定用户行为序列中指定数量个用户行为；

获取各选定的用户行为所对应目标的搜索意图；

对获取的搜索意图进行特征嵌入处理，得到用户行为特征向量。
如权利要求6所述的搜索意图识别方法，其中，所述指定数量是通过如下方式预先确定的：

针对搜索日志中每条包含下单行为的用户行为序列，统计该包含下单行为的用户行为序列中，连续点击行为序列的长度，所述连续点击行为是指发生在两次下单行为之间、且发生间隔不大于预设时间阈值的点击行为；

将各连续点击行为序列的长度均值作为所述指定数量。
如权利要求1所述的搜索意图识别方法，其中，所述搜索意图识别模型是通过如下方式训练得到的：

根据搜索日志生成训练样本；

根据训练样本生成复合特征；

利用所述复合特征进行搜索意图识别模型的训练。
如权利要求8所述的搜索意图识别方法，其中，所述根据搜索日志生成训练样本包括：

根据包含下单行为的搜索日志生成第一类正样本；

根据包含点击行为的搜索日志生成第二类正样本，所述第一类正样本的权重大于所述第二类正样本的权重；

根据仅包含浏览行为的搜索日志生成负样本。
如权利要求1-9中任一项所述的搜索意图识别方法，其中，所述搜索意图识别结果包括多个搜索意图的意图强度分布，该方法还包括：

获取指定搜索意图及其意图位次；

根据所述意图位次和所述意图强度分布，确定所述指定搜索意图的意图强度值；

根据所述指定搜索意图的意图强度值和所述意图强度分布，生成包含所述指定搜索意图的意图强度分布。
如权利要求10所述的搜索意图识别方法，其中，所述获取指定搜索意图及其意图位次包括：

获取与所述搜索请求匹配、且在生效状态的指定搜索意图，

所述生效状态根据指定搜索意图的展示时间和/或指定搜索意图的已展示次数确定。
一种搜索意图识别装置，包括：

响应单元，用于响应于搜索请求，获取与所述搜索请求关联的搜索场景信息；

复合特征生成单元，用于根据所述搜索场景信息以及所述搜索请求，生成用于识别搜索意图的复合特征；

搜索意图识别单元，用于将所述复合特征输入到搜索意图识别模型中，获取所述搜索意图识别模型输出的搜索意图识别结果。
一种电子设备，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被执行时使所述处理器执行如权利要求1-11中任一项所述的搜索意图识别方法。
一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，其中，所述一个或多个程序当被处理器执行时，实现如权利要求1-11中任一项所述的搜索意图识别方法。