WO2019072098A1

WO2019072098A1 - 一种识别核心产品词的方法和系统

Info

Publication number: WO2019072098A1
Application number: PCT/CN2018/108230
Authority: WO
Inventors: 马超义
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2017-10-12
Filing date: 2018-09-28
Publication date: 2019-04-18
Also published as: US11741094B2; CN107832338A; US20200311071A1; CN107832338B

Abstract

本发明公开了一种识别核心产品词的方法和系统，涉及计算机技术领域。该方法的一具体实施方式包括：获取商品的展示图像，确定所述商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，多个产品图像集合中的各产品图像集合与多个候选产品词中的各候选产品词一一对应；对于所述多个产品图像集合中的每个产品图像集合，根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度；将所述多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。该实施方式将图像信息加入核心产品词的识别，使得更直观且精准的确定出商品标题的核心产品词。

Description

一种识别核心产品词的方法和系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别核心产品词的方法和系统。

背景技术

在电商领域中，准确的分析商品标题的成分，是用户意图识别、产品召回、个性化推荐等的基础。区别于一般自然语言分析，在电商场景中，需要区分商品标题中的品牌词、修饰词、产品词等成分。而且，在电商领域中，很多商品卖家为提高商品的点击量，会在商品标题中堆砌罗列产品词，甚至其中很多产品词并非是对应本商品。在卖家将商品上架之后，为了能将商品精准的提供给买家，需识别出商品标题中的核心产品词。其中，商品标题的核心产品词就是指标题描述的商品具体是什么产品。如：“韩版NY洋基队男女款鸭舌帽”的核心产品词是“鸭舌帽”。

由于商品标题具有语义不清晰、产品词堆砌等特点，所以，如何识别出商品标题中的核心产品词一直是一个难题。现有技术中，识别商品标题中的核心产品词的方法主要包括：基于词表的规则方法、基于条件随机场的序列标注方法和基于LSTM的深度学习方法。基于词表的规则方法是指维护一个映射的词表。例如：空调滤芯-空调，当标题中同时出现“空调”和“滤芯”时，则认为“滤芯”是核心产品词。基于条件随机场的序列标注方法和基于LSTM的深度学习方法都是利用机器学习模型，通过大量语料进行训练，用学到的模型对新的标题中的产品词是否为核心产品词进行预测。

但是，现有技术中识别商品标题中的核心产品词的方法都只利用了文本信息。具体的，词表的方法不具备泛化能力，即无法处理不包含在词表中的新样本，而商品标题种类繁多，不可能将所有情况都包含进词表。在电商场景下，标题中产品词堆砌现象严重且难以利用句法信息解析，所以机器学习的方法也不能非常有效地识别出商品标题中的核心产品词。并且，商家多种多样不规范的标题书写形式，使得单纯利用文本信息，难以判断标题中的核心产品词。

发明内容

有鉴于此，本发明实施例提供一种识别核心产品词的方法和系统，能够更有效直观、精准的确定出商品标题的核心产品词。进而，可提高用户返回结果的质量，改进用户体验、提高转化。

为实现上述目的，根据本发明实施例的一个方面，提供了一种识别核心产品词的方法。

本发明实施例的识别核心产品词的方法包括：获取商品的展示图像，确定所述商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应；对于所述多个产品图像集合中的每个产品图像集合，根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度；将所述多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。

可选地，所述确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度的步骤包括：基于训练数据训练Siamese网络，以得到训练后的Siamese网络；对于所述多个产品图像集合中的每个产品图像集合，通过训练后的Siamese网络根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度。

可选地，在基于训练数据训练Siamese网络，以得到训练后的Siamese网络之前，还包括：选取预定数量的训练产品词；对于每个训练产品词，根据商品搜索日志选取两个以上包含该训练产品词的搜索词；对于每个搜索词，根据该搜索词下商品的点击量以及点击率，选取相同数量的商品以及该商品的展示图像；对于每个训练产品词，将该训练产品词下属于同一搜索词的商品的展示图像组成一对正例对，将该训练产品词下属于不同搜索词的商品的展示图像组成一对负例对。

可选地，所述基于训练数据训练Siamese网络的步骤包括：对于训练数据中每个训练产品词的展示图像，通过聚类算法对训练产品词的展示图像进行聚类处理，以获得一个以上的类别中心；将所述一个以上的类别中心作为该训练产品词的产品图像集合；并且，将每个训练产品词的产品图像集合保存至图像特征库；所述确定多个产品图像集合的步骤包括：根据所述图像特征库确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应。

可选地，利用条件随机场确定所述商品的标题中包含的多个候选产品词。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种识别核心产品词的系统。

本发明实施例的识别核心产品词的系统包括：获取模块，用于获取商品的展示图像，确定所述商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应；相似度确定模块，用于对于所述多个产品图像集合中的每个产品图像集合，根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度；比较模块，用于将所述相似度确定模块得到的多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。

可选地，所述相似度确定模块包括：模型训练单元，用于基于训练数据训练Siamese网络，以得到训练后的Siamese网络；计算单元，用于通过训练后的Siamese网络确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度。

可选地，所述相似度确定模块还包括训练数据获取单元，用于选取预定数量的训练产品词；对于每个训练产品词，根据商品搜索日志选取两个以上包含该训练产品词的搜索词；对于每个搜索词，根据该搜索词下商品的点击量以及点击率，选取相同数量的商品以及该商品的展示图像；对于每个训练产品词，将该训练产品词下属于同一搜索词的商品的展示图像组成一对正例对，将该训练产品词下属于不同搜索词的商品的展示图像组成一对负例对。

可选地，模型训练单元还用于对于训练数据中每个训练产品词的展示图像，通过聚类算法对训练产品词的展示图像进行聚类处理，以获得一个以上的类别中心；将所述一个以上的类别中心作为该训练产品词的产品图像集合；以及，将每个训练产品词的产品图像集合保存至图像特征库；所述获取模块根据所述图像特征库确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应。

可选地，所述获取模块利用条件随机场确定所述商品的标题中包含的多个候选产品词。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种识别核心产品词的电子设备。

本发明实施例的识别核心产品词的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述识别核心产品词的方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述识别核心产品词的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为将商品的图像信息加入核心产品词的判断，所以克服了现有技术中单纯利用文本信息导致的难以准确判断商品标题中的核心产品词的问题，进而达到借助商品图像的信息，提高商品核心产品词识别准确率的技术效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的识别核心产品词的方法的主要流程的示意图；

图2是Siamese网络的结构示意图；

图3是根据本发明实施例的识别核心产品词的系统的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的识别核心产品词的方法的主要流程的示意图，如图1所示，本发明实施例的识别核心产品词的方法主要包括：

步骤S101：获取商品的展示图像，确定商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，多个产品图像集合中的各产品图像集合与多个候选产品词中的各候选产品词一一对应。其中，商品的展示图像是指在搜索该商品时，展示在搜索页面的图像，该展示图像是由卖家提供并设置的，可充分体现该商品，因此根据商品的展示图像能更精准、快速的识别出标题中的核心产品词。在步骤S101中，可利用条件随机场(CRF)确定商品的标题中包含的多个候选产品词。CRF是一种序列标注模型，可以有效准确的对分词、词性进行标注以及进行命名实体识别等。

每个候选产品词对应一个产品图像集合，该产品图像集合中的图像可反映出该候选产品词。并且，对于每一个候选产品词的产品图像集合，该产品图像集合中包含有一个以上的图像，根据该产品图像集合中的图像，可确定出该候选产品词对应的商品。因此，在步骤S102确定相似度时，可通过将该产品图像集合中的图像与商品的展示图像进行对比，确定出该产品图像集合对应的候选产品词与商品相似的相似度，本发明实施例中的商品即为待识别核心产品词的商品。

步骤S102：对于多个产品图像集合中的每个产品图像集合，根据展示图像和该产品图像集合中的各个图像，确定展示图像中的商品与产品图像集合对应的候选产品词的相似度，从而得到多个相似度。本步骤中确定出的展示图像中的商品与产品图像集合对应的候选产品词的相似度，可体现出待识别核心产品词的商品与候选产品词所代表的产品的相似程度。

在确定展示图像中的商品与产品图像集合对应的候选产品词的相似度的过程中，由于一个产品图像集合中会存在很多图像，因此，该产品集合中的每一个图像与待识别核心产品词的商品的展示图像进行比较，都会得出一个相似度。但是，对于某一个候选产品词的产品图像集合而言，将该产品图像集合中所有图像与待识别核心产品词的商品的展示图像进行比较后得出的最大相似度，作为该候选产品词与待识别核心产品词的商品的相似度。例如，针对待识别核心产品词的商品A，其商品标题为“时尚休闲商用动感单车皮带商用动感健身车车”，确定出的候选产品词“皮带”、“单车”、“健身车”之后，分别获取候选产品词“皮带”的产品图像集合、候选产品词“单车”的产品图像集合、候选产品词“健身车”的产品图像集合。候选产品词“皮带”的产品图像集合中包括5个图像，将这5个图像分别与商品A的展示图像进行对比，得出合的相似度为0.2、0.5、0.3、0.1、0.4，进而该产品图像集合对应的候选产品词“皮带”与商品A的相似度为0.5。同样，确定出商品A与候选产品词“单车”的相似度为0.9，商品A与候选产品词“健身车”的相似度为0.85。所以，经过上述过程之后，得出三个相似度，分别为0.5、0.9和0.85。

为使得本发明实施例的识别核心产品词的方法在实际操作中更易于实施和便于操作，步骤S102的过程可通过训练后的模型进行。所以，本发明实施例的识别核心产品词的方法还包括：基于训练数据训练Siamese网络，以得到训练后的Siamese网络。其中，Siamese网络是一个多分支参数共享的网络结构，是一种相似性度量方法。这个网络的原理利用神经网络提取描述算子，得到特征向量，然后利用两个图片的特征向量判断相似度，其优势是可以去区分那些新的没有经过训练的类别的样本。因为Siamese网络从数据中去学习一个相似性度量(两个事物越接近，它们的相似性度量也就越大，而两个事物越疏远，它们的相似性度量也就越小)，用这个学习出来的度量去比较和匹配新的未知类别的样本。

本发明实施例的识别核心产品词的方法还包括获取训练数据。在获取训练数据的过程中，选取预定数量的训练产品词；基于商品搜索日志，为每个训练产品词选取两个以上包含该训练产品词的搜索词；根据搜索词下商品的点击量以及点击率，为每个搜索词选取相同数量的商品以及该商品的展示图像；对于每个训练产品词，将该训练产品词下属于同一搜索词的商品的展示图像组成一对正例对，将该产品词下属于不同搜索词的商品的展示图像组成一对负例对。对于每个训练产品词，都可获取到一对正例对和一对负例对，所有产品词的正例对和负例对构成了训练数据。因此，基于获取的正例对和负例对训练Siamese网络。基于以下假设对Siamese网络进行训练：同样的产品词下商品相似，不同产品词下商品不相似。虽然不同产品词下的商品可能相同，但是在训练过程中大相似度的情况下还是不相似，比如选定6000个训练产品词，“制冷机”和不同的产品词“空调”相似的商品如果有5个，那有可能的误差也只有5/6000，进而假设同样的产品词下商品相似，不同产品词下商品不相似是可行的。例如，选定6000个训练产品词；对于每个训练产品词，选取两个包含该训练产品词的搜索词，共12000个；每个搜索词下选取点击量及点击率最高20个商品，并对应地获取该商品的展示图像，共24万张图像。对于每个训练产品词下的某一个商品的展示图像，可选取同一搜索词下的另外一个商品的展示图像组成一对正例对，选取其它搜索词下的商品的展示图像组成一对负例对，最终得到48万对训练数据。

基于上述获取的训练数据，对Siamese网络进行训练得到训练后的Siamese网络。可将该训练后的Siamese网络应用于商品库中的所有商品的展示图片，并且每个商品的核心产品词是确定的。进而，可得到一个以上的产品图像集合，每一个产品图像集合对应一个产品词，并且该产品集合中包含着一个以上的图像或者该一个以上图像的图像特征。

本发明实施例在对Siamese网络进行训练的过程中，可能会针对多义产品词(产品词有多个理解)，可通过聚类算法(DBSACN)对所有产品词的展示图像进行处理，获得一个以上的类别中心，并将一个以上的类别中心作为该产品词的产品图像集合。其中，DBSACN是一种基于密度的聚类算法，将高密度区间划分为簇，并可在噪声的空间数据库中发现任意形状。在将一个以上的类别中心作为该产品词的产品图像集合之后，将每个产品词的产品图像集合保存至图像特征库。所以在确定每个候选产品词对应的产品图像集合时，可根据该图像特征库确定出多个产品图像集合。

而且，对于多个产品图像集合中的每个产品图像集合，通过训练后的Siamese网络根据展示图像和该产品图像集合中的各个图像，可确定出展示图像中的商品与产品图像集合对应的候选产品词的相似度，从而得到多个相似度。

步骤S103：将多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。通过步骤S102得到的相似度为展示图像中的商品与产品图像集合对应的候选产品词的相似度，对于每一个相似度，其都与确定该相似度的候选产品词相对应。因此，在得出多个相似度后，每个相似度对应着一个候选产品词。并且，每个相似度体现着一个候选产品词代表的商品与待识别核心产品词的商品的相似程度。在得出对应着每个候选产品词的相似度后，可根据预设阈值将一个或多个候选产品词确定为核心产品词。例如，针对商品标题“时尚休闲商用动感单车皮带商用动感健身车车”，候选产品词为“皮带”、“单车”、“健身车”，通过商品的展示图片以及候选产品词的产品图像集合，得到该商品分别与候选产品词“皮带”、“单车”、“健身车”的相似度为0.5、0.9和0.85，则0.5对应候选产品词“皮带”，0.9对应候选产品词“单车”，0.85对应候选产品词“健身车”。如果预设阈值为0.8，则选取“单车”、“健身车”作为该商品的核心产品词。

图2是Siamese网络的结构示意图。由图2可知，Siamese网络的前五层为Alexnet，Alexnet的每层包括一个卷积函数和一个池化函数，Siamese网络的后三层为全连接层，最后损失函数选用对比损失函数。其中，Alexnet为图像领域的一种经典网络结构，包含多层卷积结构。

获取到训练数据之后，对Siamese网络进行训练。并且，将训练后的Siamese网络应用于商品库以进行图像特征提取，可得到每个图像的降维表示。降维表示就是用低维的向量去表示高维向量，如果直接存储原始图像，会因为占用资源太多影响性能。获取到商品库中每个商品的展示图像后，将展示图像维度转化为220*220*3后放入训练后的Siamese网络进行图像特征提取。该过程中的图像特征提取就是将原始图片输入训练后的Siamese网络，逐层计算，最终得到一个20维的向量作为其降维表示，原始图片维度为220*220*3＝145200。该训练后Siamese网络可对全量亿级商品提取特征，并且可每天对增量的百万级数据进行特征提取。

通过训练后Siamese网络得到商品库中每个商品的图像特征后，该训练后Siamese网络需要将商品图像特征进行汇总，以得到商品库中包含的所有产品词的特征表示，该过程一般包括产品词下高置信商品获取和多义产品词聚类两步。

对于产品词下高置信商品获取，由于商品库中某一产品词的商品很多，所以需要获取确实与产品词一致的高置信商品来进行聚合。在该过程中，可利用用户反馈数据(搜索日志)，聚合反馈数据中过去九个月的点击日志，抽取点击量充分且点击率高的商品，例如在产品词下点击量位于前200，且点击率在前50的商品。

对于多义产品词聚类，是因为每个产品词可能有多种义项，如“苹果”即可以是一种手机，也可以是一种水果。每种义项可能有一种图片形式，如“内衣”这一产品词，图片可能为一件衣服，也可能为一个盒装内衣。针对产品词有多种义项的情况，可对产品词下图像进行聚类，对每个类别取类别中心(该类别内的向量加权平均，权重可为商品的点击率)。聚类方法为DBSCAN(Density-Based Spatial Clustering of Applications with Noise)，向量间距离采用欧氏距离，类间最小距离设为0.3，每类最少样本数为4。聚类之后，每个义项可得到一个类别中心，将每个类别中心作为该产品词的图像特征表示。对于每个产品词，保留多个类别中心作为其最终的图像特征表示，保留的类别中心的个数可进行设置。

对Siamese网络训练，以及利用训练后的Siamese网络获取商品库中包含的产品词和每个产品词的图像特征表示(产品图像集合)后，在对待识别核心产品词的商品进行核心产品词进行确认时，通过CRF确定该商品标题中包含的候选产品词后，利用训练后的Siamese网络可获取每个候选产品词的图像特征表示。以及，通过训练后的Siamese网络提取待识别核心产品词的商品的展示图像的图像特征表示，训练后的Siamese网络将每个候选产品词的图像特征表示与待识别核心产品词的商品的展示图像的图像特征表示进行比对，确定出待识别核心产品词的商品与每个候选产品词代表的商品的相似度，即展示图像中的商品与产品图像集合对应的候选产品词的相似度，该相似度是通过计算待识别核心产品词的商品展示图像向量和候选产品词向量的内积得出的。

所以，基于训练数据对Siamese网络训练完成后，只要将待识别核心产品词的商品的展示图像与每个候选产品词的产品图像集合输入该训练后的Siamese网络，该训练后的Siamese网络即可输出待识别核心产品词的商品与每个候选产品词代表的商品的相似度。进一步，将相似度大于预设阈值的候选产品词确定为核心产品词。因此，对Siamese网络进行训练，使得本发明实施例的识别核心产品词的方法更便于实施，也可使得更加快速的识别出商品标题中的核心产品词。

对于搜索而言，首要任务就是识别出搜索用户的意图，并返回准确的结果。如果不考虑产品词(商品所卖的是什么产品)只考虑文本的召回方式将给搜索用户带来大量的错误结果，错误的产品词识别结果也将直接导致正确商品不能被召回或者把错误结果返回给搜索用户。对于本发明实施例的识别核心产品词的方法，可将图像信息加入核心产品词的判断，该方式不仅直观而且有效。在一些情况下，如果单纯利用文本信息来区分核心产品词，对人来说都是很困难的，而图像识别往往更直观。将图像应用于核心产品词识别对提高返回结果的质量，改进用户体验、提高转化有重要作用。

图3是根据本发明实施例的识别核心产品词的系统的主要模块的示意图，如图3所示，本发明实施例的识别核心产品词的系统300主要包括：

获取模块301，用于获取商品的展示图像，确定商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，多个产品图像集合中的各产品图像集合与多个候选产品词中的各候选产品词一一对应。获取模块301利用条件随机场确定商品的标题中包含的多个候选产品词，可准确快速的将商品的标题中包含的多个候选产品词确定出。

相似度确定模块302，用于对于多个产品图像集合中的每个产品图像集合，根据展示图像和该产品图像集合中的各个图像，确定展示图像中的商品与产品图像集合对应的候选产品词的相似度，从而得到多个相似度。相似度确定模块302包括模型训练单元和计算单元，该模型训练单元用于基于训练数据训练Siamese网络，以得到训练后的 Siamese网络；计算单元用于通过训练后的Siamese网络确定展示图像中的商品与产品图像集合对应的候选产品词的相似度。相似度确定模块302还包括用于获取训练数据的训练数据获取单元。训练数据获取单元获取训练数据的步骤包括：选取预定数量的训练产品词；对于每个训练产品词，根据商品搜索日志选取两个以上包含该训练产品词的搜索词；对于每个搜索词，根据该搜索词下商品的点击量以及点击率，选取相同数量的商品以及该商品的展示图像；对于每个训练产品词，将该训练产品词下属于同一搜索词的商品的展示图像组成一对正例对，将该训练产品词下属于不同搜索词的商品的展示图像组成一对负例对。进而，对于每个训练产品词，都可获取到一对正例对和一对负例对，所有产品词的正例对和负例对构成了训练数据。

模型训练单元还用于对于训练数据中每个训练产品词的展示图像，通过聚类算法对训练产品词的展示图像进行聚类处理，以获得一个以上的类别中心；将一个以上的类别中心作为该训练产品词的产品图像集合；以及，将每个训练产品词的产品图像集合保存至图像特征库。进而，获取模块根据该图像特征库确定多个产品图像集合，其中，多个产品图像集合中的各产品图像集合与多个候选产品词中的各候选产品词一一对应。

比较模块303，用于将相似度确定模块得到的多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。

本发明实施例的识别核心产品词的系统通过相似度确定模块的模型训练单元对Siamese网络进行训练，以得到训练后的Siamese网络。在获取模块获取到待识别核心产品词的商品的展示图片，确定出待识别核心产品词的商品的中包含的多个候选产品词，以及确定出每个候选产品词对应的产品图像集合后，相似度确定模块的计算单元通过训练后的Siamese网络确定待识别核心产品词的商品与每个候选产品词的相似度。比较模块将多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。本发明实施例的识别核心产品词的系统将商品的图像信息加入核心产品词的判断，克服了现有技术中单纯利用文本信息导致的难以准确判断标题中的核心产品词的问题，进而达到借助商品图像的信息，提高商品核心产品词识别准确率的技术效果。

图4示出了可以应用本发明实施例的识别核心产品词的方法或识别核心产品词的系统的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的识别核心产品词的方法一般由服务器405执行，相应地，识别核心产品词的系统一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、相似度确定模块和比较模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，比较模块还可以被描述为“将相似度大于预设阈值的候选产品词确定为核心产品词的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取商品的展示图像，确定商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，多个产品图像集合中的各产品图像集合与多个候选产品词中的各候选产品词一一对应；对于多个产品图像集合中的每个产品图像集合，根据展示图像和该产品图像集合中的各个图像，确定展示图像中的商品与产品图像集合对应的候选产品词的相似度，从而得到多个相似度；将多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。

根据本发明实施例的技术方案，可将图像信息加入核心产品词的判断，该方式不仅直观而且有效。将图像应用于核心产品词识别对提高返回结果的质量、改进用户体验以及提高转化都有重要作用。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

一种识别核心产品词的方法，其特征在于，包括：

获取商品的展示图像，确定所述商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应；

对于所述多个产品图像集合中的每个产品图像集合，根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度；

将所述多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。
根据权利要求1所述的方法，其特征在于，所述确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度的步骤包括：

基于训练数据训练Siamese网络，以得到训练后的Siamese网络；

对于所述多个产品图像集合中的每个产品图像集合，通过训练后的Siamese网络根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度。
根据权利要求2所述的方法，其特征在于，在基于训练数据训练Siamese网络，以得到训练后的Siamese网络之前，还包括：

选取预定数量的训练产品词；

对于每个训练产品词，根据商品搜索日志选取两个以上包含该训练产品词的搜索词；

对于每个搜索词，根据该搜索词下商品的点击量以及点击率，选取相同数量的商品以及该商品的展示图像；

对于每个训练产品词，将该训练产品词下属于同一搜索词的商品的展示图像组成一对正例对，将该训练产品词下属于不同搜索词的商品的展示图像组成一对负例对。
根据权利要求2所述的方法，其特征在于，

所述基于训练数据训练Siamese网络的步骤包括：对于训练数据中每个训练产品词的展示图像，通过聚类算法对训练产品词的展示图像进行聚类处理，以获得一个以上的类别中心；将所述一个以上的类别中心作为该训练产品词的产品图像集合；并且，将每个训练产品词的产品图像集合保存至图像特征库；

所述确定多个产品图像集合的步骤包括：根据所述图像特征库确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应。
根据权利要求1所述的方法，其特征在于，利用条件随机场确定所述商品的标题中包含的多个候选产品词。
一种识别核心产品词的系统，其特征在于，包括：

获取模块，用于获取商品的展示图像，确定所述商品的标题中包含的多个候选产品词，以及确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应；

相似度确定模块，用于对于所述多个产品图像集合中的每个产品图像集合，根据所述展示图像和该产品图像集合中的各个图像，确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度，从而得到多个相似度；

比较模块，用于将所述相似度确定模块得到的多个相似度中大于预设阈值的相似度所对应的候选产品词确定为核心产品词。
根据权利要求6所述的系统，其特征在于，所述相似度确定模块包括：

模型训练单元，用于基于训练数据训练Siamese网络，以得到训练后的Siamese网络；

计算单元，用于通过训练后的Siamese网络确定所述展示图像中的商品与所述产品图像集合对应的候选产品词的相似度。
根据权利要求7所述的系统，其特征在于，所述相似度确定模块还包括训练数据获取单元，用于选取预定数量的训练产品词；对于每个训练产品词，根据商品搜索日志选取两个以上包含该训练产品词的搜索词；对于每个搜索词，根据该搜索词下商品的点击量以及点击率，选取相同数量的商品以及该商品的展示图像；对于每个训练产品词，将该训练产品词下属于同一搜索词的商品的展示图像组成一对正例对，将该训练产品词下属于不同搜索词的商品的展示图像组成一对负例对。
根据权利要求7所述的系统，其特征在于，模型训练单元还用于对于训练数据中每个训练产品词的展示图像，通过聚类算法对训练产品词的展示图像进行聚类处理，以获得一个以上的类别中心；将所述一个以上的类别中心作为该训练产品词的产品图像集合；以及，将每个训练产品词的产品图像集合保存至图像特征库；

所述获取模块根据所述图像特征库确定多个产品图像集合，所述多个产品图像集合中的各产品图像集合与所述多个候选产品词中的各候选产品词一一对应。
根据权利要求6所述的系统，其特征在于，所述获取模块利用条件随机场确定所述商品的标题中包含的多个候选产品词。
一种识别核心产品词的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。