WO2017157090A1

WO2017157090A1 - 相似度挖掘方法及装置

Info

Publication number: WO2017157090A1
Application number: PCT/CN2017/070225
Authority: WO
Inventors: 黄运杜; 陈海勇
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2016-03-15
Filing date: 2017-01-05
Publication date: 2017-09-21
Also published as: RU2700191C1; US11017043B2; US20200301982A1; AU2017232659A1; CN107193832A

Abstract

一种相似度挖掘方法及装置，该方法包括：获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据（S01）；根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词（S02）；根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库（S03）；将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量（S04）；根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度（S05）。该方法可以自动计算品牌间的相似度，降低人员成本，增加品牌召回率，提高推荐品牌转化率。

Description

相似度挖掘方法及装置

技术领域

本发明属于信息处理技术领域，更具体地，涉及一种相似度挖掘方法和装置。

背景技术

在这个经济快速发展的时代，人们对物质的需求也极大的提高了。由于品牌下的产品比较稳定的风格、功能、效果、口味等，人们往往会使用自己熟悉的品牌。这使得推荐系统中推荐其他品牌给用户的话，会造成一定的阻力；也使得新品牌公司难以推广本品牌的产品。所以发明一种自动化低成本的挖掘品牌相似度的方法，对于推荐系统中推荐类似风格、功能、效果、口味等品牌给用户，让用户更容易接受推荐的品牌；对于构建市场的品牌生态结构，让公司更有针对性的制定战略方案，都具有重大的意义。

现有的品牌相似度挖掘方法有各方打分人工评估法和舆论热点聚类法。其中，如图1所示，各方打分人工评估法一般由人工收集品牌词；让各方，如社会人士、教育人士、政界人士、普通群众、企业精英等对各个品牌之间相似度打分；统筹各界人士打分，使用公式计算品牌相似度，给出排名。然而该方法需要大量的问卷调查，人力成本高；无论是纸质问卷还是网络问卷调查，被调查人往往会有敷衍了事的态度应对，导致结果不准确，计算结果比较主观；人工处理实时性较低，会有延迟反应。

如图2所示，舆论热点聚类法一般是在社交网络上爬取包含品牌关键词的评论观点数据，使用聚类法，如LDA主题聚类法，再加入公式来计算品牌网络热度。该方法在搜索引擎上或者微博等社交网络上爬取用户对品牌的评论数据，其中涉及到如何快速高效的爬取并且以方便读取的形式存储的技术；对用户评论的非结构化数据进行数据清洗，剔除垃圾数据、无用数据和干扰数据。再提纯后，以结构化的形式另外存储一份；读取需要的结构化数据，用LDA主题聚类法聚类，得到每个品牌词的概率矩阵。使用公式计算品牌之间的相似度。但是，根据舆论计算网络热度比较容易因热点事件引起波动，只能代表一定的网络热度,并不能很好的代表相对稳定的品牌相似度。

发明内容

本发明的目的在于提供一种相似度挖掘方法及装置。

根据本发明的一方面，提供一种相似度挖掘方法，包括：获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据；根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词；根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库；将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量；根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。

优选地，所述相似度挖掘方法还包括：在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。

优选地，在根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库中，通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。

优选地，在将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量中，采用word2vec作为词向量工具，并采用HS-CBOW模型建立语料重要词汇库的词向量。

优选地，所述相似度挖掘方法还包括：根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。

根据本发明的另一方面，提供一种相似度挖掘装置，包括：数据获取模块，用于获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据；搜索品牌词挖掘模块，用于根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词；词汇库构建模块，用于根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库；训练模块，用于将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量；相似度计算模块，用于根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。

优选地，所述相似度挖掘装置还包括：数据补充模块，用于根据所述搜索品牌词之间的距离获取所述搜索品牌词之间的相似度。

优选地，所述词汇库构建模块通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。

优选地，所述训练模块采用word2vec作为词向量工具，并采用HS-CBOW模型建立语料重要词汇库的词向量。

优选地，所述相似度挖掘装置还包括：展示模块，用于根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。

本发明提供的相似度挖掘方法及装置根据用户的搜索词数据以及用户购买后的评论数据，使用聚类算法(如word2vector)计算品牌词的相似度，可以自动计算品牌间的相似度，降低人员成本，增加品牌召回率，提高推荐品牌转化率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示出了现有技术中各方打分人工评估法的流程图；

图2示出了现有技术中舆论热点聚类法的流程图；

图3示出了根据本发明实施例的相似度挖掘方法的流程图；

图4示出了根据本发明实施例的相似度挖掘装置的结构示意图；

[根据细则26改正10.02.2017]　
图5示出了根据本发明实施例的不同类别的品牌相关性图；

[根据细则91更正 10.02.2017]　
图６示出了根据本发明实施例的母婴品牌中奶粉的市场结构的示意图。

具体实施方式

以下将参照附图更详细地描述本发明的各种实施例。在各个附图中，相同的元件采用相同或类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。

本发明可以各种形式呈现，以下将描述其中一些示例。

图3示出了根据本发明实施例的相似度挖掘方法的流程图。如图3所示，所述相似度挖掘方法包括以下步骤。

在步骤S01中，获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据。

在本实施例中，通过hive查询语句从数据仓库获取用户购物后的评论文本数据、用户搜索词数据以及品牌词数据。通过观察大量的数据，了解数据后，制定过滤规则，过滤掉无效的垃圾数据。对用户购物后的评论文本数据分词与词性标注，建立专有词库提升分词与词性标注效果。

在步骤S02中，根据所述用户搜索词数据以及所述品牌词数据获取搜索品牌词。

在本实施例中，对用户搜索词数据进行过滤，过滤掉与品牌不相关的搜索词，得到与品牌相关的搜索词。根据品牌词数据从与品牌相关的搜索词中提取品牌词得到搜索品牌词。

具体地，对用户行为数据过滤得到用户搜索词数据，其中，所述用户搜索词数据包含品牌词，以其中的一条用户搜索词数据为例，用户搜索词数据为：波司登、羽绒服、轻、薄，根据品牌词数据从该用户搜索词数据中获取其中的品牌词即搜索品牌词。我们可以得到搜索品牌词为：波司登。

在步骤S03中，根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库。

在本实施例中，通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。

在步骤S04中，将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量。

在本实施例中，在词向量模型训练中，借助word2vec工具实现。所训练的语料重要词汇库中包含搜索品牌词的用户评论数据，每条数据包括搜索品牌词以及描述搜索品牌词的文字。为了减少造成数据对训练词向量的影响，首先对数据进行过滤及合并处理，经数据清洗处理后，得到有效的数据。另外，考虑训练速度和实现推荐的复杂度，选用训练较快且工程上相对容易实现的HS-CBOW模型来建立语料重要词汇库的词向量。

进一步地，在词向量维度的选择上，一般而言维度越高、文本窗口越大，词向量的特征表示效果相对会较好，但同时词向量训练耗时越长，训练结果存储占用空间越大。面对较大的数据集，维度设定为100维、文本窗口选为5能保持较快的计算效率，通过训练最后获得一定量词汇的词向量。

word2vec是由Google发布的神经网络工具包，主要采用的模型有CBOW(Contiuous Bag-of-Words)和Skip-Gram两种。可以将输入中的文本词汇转化为一系列词向量，这个工具集已经开始应用在自然语言处理的许多应用中。一种典型的word2vec算法实现是用训练文本数据构建词汇库，再通过学习得到词汇的向量表示。

在S05中，根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。

在本实施例中，通过词向量的数量积计算品牌a和b之间的距离，再根据公式sim(a,b)＝cosine(word2vec(a),word2vec(b))计算a和b之间的相似度。a和b之间的距离越大，a和b之间的相似度越高。

在一个优选的实施方式中，所述相似度挖掘方法还包括步骤S06。

在步骤S06中，在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。

由于用户评论纷繁复杂、数量庞大，我们不能一次性使用全部的评论数据来训练，而且并不是所有评论都对我们需要的搜索品牌词计算词向量有贡献。有贡献的数据的不充足很有可能导致我们的某个搜索品牌词找不到其相关的品牌。在此，我们根据计算出来的相似度来判断搜索品牌词是否找到相关的品牌，即当其中的一个搜索品牌词语其他搜索品牌词之间的相似度都小于预设阈值，表明该搜索品牌词未找到相关的品牌，根据未找到相似度的搜索品牌词，提取该搜索品牌词下的用户评论数据，重新从步骤S01开始，计算该搜索品牌词的词向量。该过程迭代多次，直到迭代次数大于设定的次数阈值时停止，以此来极大的提高品牌相似度距离的召回率。如下表1，举例几个品牌的相似度,更直观感受品牌相似度的度量。

表1：品牌相似度

品牌1	品牌2	相似度
GXG	杰克琼斯	80％
恒源祥	南极人	85％
恒源祥	杰克琼斯	75％
恒源祥	麦当劳	30％

在一个优选的实施方式中，所述相似度挖掘方法还包括步骤S07。

在步骤S07中，根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。

在本实施例，根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，当搜索品牌词之间的相似度大于一定的阈值时，将它们归为一类，形成不同类别的结构，并展示各个类别的品牌相关性图。图5a-图5b展示了服装品牌中内衣的市场结构，如图6a-6b展示了母婴品牌中奶粉的市场结构，可以根据各个类别的品牌相关性图向用户推荐相似度高的品牌，优化品牌定位的策略。

本发明提供的相似度挖掘方法根据用户的搜索词数据以及用户购买后的评论数据，使用聚类算法(如word2vector)计算品牌词的相似度，可以自动计算品牌间的相似度，降低人员成本，增加品牌召回率，提高推荐品牌转化率。

图4示出了根据本发明实施例的相似度挖掘装置的结构示意图。如图4所示，所述相似度挖掘装置包括数据获取模块101、搜索品牌词挖掘模块102、词汇库构建模块103、训练模块104和相似度计算模块105。

数据获取模块101用于获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据。

在本实施例中，数据获取模块101通过hive查询语句从数据仓库获取用户购物后的评论文本数据、用户搜索词数据以及品牌词数据。通过观察大量的数据，了解数据后，制定过滤规则，过滤掉无效的垃圾数据。对用户购物后的评论文本数据分词与词性标注，建立专有词库提升分词与词性标注效果。

搜索品牌词挖掘模块102用于根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词。

在本实施例中，搜索品牌词挖掘模块102对用户搜索词数据进行过滤，过滤掉与品牌不相关的搜索词，得到与品牌相关的搜索词。根据品牌词数据从与品牌相关的搜索词中提取品牌词得到搜索品牌词。

具体地，搜索品牌词挖掘模块102对用户行为数据过滤得到用户搜索词数据，其中，所述用户搜索词数据包含品牌词，以其中的一条用户搜索词数据为例，用户搜索词数据为：波司登、羽绒服、轻、薄，根据品牌词数据从该用户搜索词数据中获取其中的品牌词即搜索品牌词。我们可以得到搜索品牌词为：波司登。

词汇库构建模块103用于根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库。

在本实施例中，所述词汇库构建模块103通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。

训练模块104用于将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量。

在本实施例中，所述训练模块104借助word2vec工具实现。所训练的语料重要词汇库中包含搜索品牌词的用户评论数据，每条数据包括搜索品牌词以及描述搜索品牌词的文字。为了减少造成数据对训练词向量的影响，首先对数据进行过滤及合并处理，经数据清洗处理后，得到有效的数据。另外，考虑训练速度和实现推荐的复杂度，选用训练较快且工程上相对容易实现的HS-CBOW模型来建立语料重要词汇库的词向量。采用word2vec作为词向量工具，并采用HS-CBOW模型建立语料重要词汇库的词向量。所述词向量维度设定为100维，文本窗口设定为5。

相似度计算模块105用于根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。

在本实施例中，相似度计算模块105通过词向量的数量积计算品牌a和b之间的距离，再根据公式sim(a,b)＝cosine(word2vec(a),word2vec(b))计算a和b之间的相似度。a和b之间的距离越大，a和b之间的相似度越高。

在一个优选的实施例中，所述相似度挖掘装置还包括数据补充模块106，用于在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。

由于用户评论纷繁复杂、数量庞大，我们不能一次性使用全部的评论数据来训练，而且并不是所有评论都对我们需要的搜索品牌词计算词向量有贡献。有贡献的数据的不充足很有可能导致我们的某个搜索品牌词找不到其相关的品牌。在此，我们根据计算出来的相似度来判断搜索品牌词是否找到相关的品牌，即当其中的一个搜索品牌词语其他搜索品牌词之间的相似度都小于预设阈值，表明该搜索品牌词未找到相关的品牌，根据未找到相似度的搜索品牌词，提取该搜索品牌词下的用户评论数据，重新从步骤S01开始，计算该搜索品牌词的词向量。该过程迭代多次，直到迭代次数大于设定的次数阈值时停止，以此来极大的提高品牌相似度距离的召回率。

在一个优选的实施例中，所述相似度挖掘装置还包括展示模块107，用于根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。

本发明提供的相似度挖掘装置根据用户的搜索词数据以及用户购买后的评论数据，使用聚类算法(如word2vector)计算品牌词的相似度，可以自动计算品牌间的相似度，降低人员成本，增加品牌召回率，提高推荐品牌转化率。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。显然，根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

一种相似度挖掘方法，包括：

获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据；

根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词；

根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库；

将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量；

根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。
根据权利要求1所述的方法，其中，还包括：

在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。
根据权利要求1所述的方法，其中，在根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库中，通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。
根据权利要求1所述的方法，其中，在将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量中，采用word2vec作为词向量工具，并采用HS-CBOW模型建立语料重要词汇库的词向量。
根据权利要求1所述的方法，其中，还包括：

根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。
一种相似度挖掘装置，包括：

数据获取模块，用于获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据；

搜索品牌词挖掘模块，用于根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词；

词汇库构建模块，用于根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库；

训练模块，用于将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量；

相似度计算模块，用于根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。
根据权利要求6所述的装置，其中，还包括：

数据补充模块，用于在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。
根据权利要求6所述的装置，其中，所述词汇库构建模块通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。
根据权利要求6所述的装置，其中，所述训练模块采用word2vec作为词向量工具，并采用HS-CBOW模型建立语料重要词汇库的词向量。
根据权利要求6所述的装置，其中，还包括：

展示模块，用于根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。