WO2019041521A1

WO2019041521A1 - 用户关键词提取装置、方法及计算机可读存储介质

Info

Publication number: WO2019041521A1
Application number: PCT/CN2017/108797
Authority: WO
Inventors: 吴振宇; 刘睿恺; 王建明; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-08-29
Filing date: 2017-10-31
Publication date: 2019-03-07
Also published as: EP3477495A4; KR102170929B1; AU2017408801B2; KR20190038751A; CN107704503A; AU2017408801A1; EP3477495A1; JP2019533205A; US20210097238A1

Abstract

本申请公开了一种基于社交网络的用户关键词提取方法，包括：获取目标用户在预设时间区间内发表过的博文，并进行分词处理，获取每条博文的单词列表；将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练获取词向量模型；基于关键词提取算法提取博文对应的关键词构成目标用户的候选关键词集合，并基于词向量模型计算候选关键词集合中每个关键词的词向量，并构建语义相似图；在语义相似图上运行Pagerank算法为关键词打分以获取用户的兴趣关键词。本申请还提出一种基于社交网络的用户关键词提取装置以及一种计算机可读存储介质。本申请解决了现有技术中难以根据用户的博文提取出能够有效代表用户的兴趣的关键词的技术问题。

Description

用户关键词提取装置、方法及计算机可读存储介质

优先权申明

本申请基于巴黎公约申明享有2017年08月29日递交的申请号为201710754314.4、名称为“用户关键词提取装置、方法及计算机可读存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于社交网络的用户关键词提取装置、方法及计算机可读存储介质。

背景技术

目前，随着社交网络的普及，基于微博等社交网络的各种应用也越来越多，例如，针对用户的博文进行个性化的推荐，目前的推荐方式主要是基于相同标签信息的好友推荐、基于共同关注的好友推荐、基于话题热度的微博话题推荐等，但是这种推荐方式局限性大，难以根据用户的兴趣爱好有针对性地进行推荐。所以，如何从海量博文数据中，提取出能够有效代表用户的兴趣的关键词，分析确定用户的真正兴趣是急需解决的问题。

发明内容

本申请提供一种基于社交网络的用户关键词提取装置、方法及计算机可读存储介质，其主要目的在于解决现有技术中难以根据用户的博文提取出能够有效代表用户的兴趣的关键词的技术问题。

为实现上述目的，本申请提供一种基于社交网络的用户关键词提取装置，该装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的用户关键词提取程序，所述用户关键词提取程序被所述处理器执行时实现如下步骤：

获取目标用户在预设时间区间内发表过的博文，使用预设的分词工具对获取的博文进行分词处理，分别获取每条博文对应的单词列表；

将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练，以获取词向量模型；

基于关键词提取算法从博文的单词列表中提取该博文对应的关键词，将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合，并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量；

根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图；

在所述语义相似图上运行Pagerank算法为每一个关键词打分，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。

可选地，所述根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图的步骤包括：

将所述候选关键词集合中的关键词作为单词节点，其中，一个关键词对应一个单词节点；

遍历全部单词节点，根据对应的词向量计算每两个单词节点之间的上下文相似度，每当两个单词节点之间的上下文相似度大于预设阈值时，在所述两个单词节点之间建立一条边；

由全部单词节点以及建立的边构成所述语义相似图。

可选地，所述根据对应的词向量计算每两个单词节点之间的上下文相似度的步骤包括：

获取两个单词节点的词向量，并计算这两个词向量之间的余弦相似度，将所述余弦相似度作为所述两个单词节点之间的上下文相似度。

可选地，当所述博文包含的字数大于或者等于预设字数时，所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：

分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；

将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。

可选地，所述将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤包括：

将得分大于预设分数的关键词作为所述目标用户的兴趣关键词；

或者，将得分大于预设分数的关键词作为所述目标用户的兴趣关键词，其中，在得分大于预设分数的关键词的数量大于第一预设个数时，将所述第一预设个数个关键词中的第二预设个数个关键词作为所述目标用户的兴趣关键词，所述第一预设个数大于所述第二预设个数。

此外，为实现上述目的，本申请还提供一种基于社交网络的用户关键词提取方法，该方法包括：

由全部单词节点以及建立的边构成所述语义相似图。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用户关键词提取程序，所述用户关键词提取程序可被至少一个处理器执行，以实现如下步骤：

本申请提出的基于社交网络的用户关键词提取装置、方法及计算机可读存储介质，对目标用户在预设时间区间内发表过的每个博文进行分词处理，以获取每条博文对应的单词列表，输入到Word2Vec模型中进行训练，以获取词向量模型，基于关键词提取算法从博文的单词列表中提取对应的关键词构成一个候选关键词集合，基于上述词向量模型计算集合中的各个关键词的词向量，根据关键词集合中的关键词以及词向量构建语义相似图，在语义相似图上运行Pagerank算法为关键词打分，将得分满足预设条件的关键词作为该用户的兴趣关键词，本申请通过上述方式综合用户发表的过的博文进行分词处理的方式，提取出能够有效代表用户的兴趣的关键词。

附图说明

图1为本申请基于社交网络的用户关键词提取装置较佳实施例的示意图；

图2为本申请基于社交网络的用户关键词提取装置一实施例中用户关键词提取程序的程序模块示意图；

图3为本申请基于社交网络的用户关键词提取方法较佳实施例的流程图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种基于社交网络的用户关键词提取装置。参照图1所示，为本申请基于社交网络的用户关键词提取装置较佳实施例的示意图。

在本实施例中，基于社交网络的用户关键词提取装置可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。

该基于社交网络的用户关键词提取装置包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于社交网络的用户关键词提取装置的内部存储单元，例如该基于社交网络的用户关键词提取装置的硬盘。存储器11在另一些实施例中也可以是基于社交网络的用户关键词提取装置的外部存储设备，例如基于社交网络的用户关键词提取装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于社交网络的用户关键词提取装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于社交网络的用户关键词提取装置的应用软件及各类数据，例如用户关键词提取程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行用户关键词提取程序等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置与其他电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及用户关键词提取程序的基于社交网络的用户关键词提取装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该装置还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于社交网络的用户关键词提取装置中处理的信息以及用于显示可视化的用户界面。

在图1所示的装置实施例中，存储器11中存储有用户关键词提取程序；处理器12执行存储器11中存储的用户关键词提取程序时实现如下步骤：

A、获取目标用户在预设时间区间内发表过的博文，使用预设的分词工具对获取的博文进行分词处理，分别获取每条博文对应的单词列表；

B、将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练，以获取词向量模型；

C、基于关键词提取算法从博文的单词列表中提取该博文对应的关键词，将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合，并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量。

本实施例中，以微博为例对本申请的方案进行解释。当需要根据目标用户发表过的微博内容来获取能够有效体现该用户的兴趣爱好的关键词时，获取用户发表过的博文进行分词处理。可以理解的是，由于随着时间的推移，用户的兴趣爱好可能会发生变化，因此，为了提高关键词提取的准确性，在时间维度上对发表过的博文进行过滤，设置预设时间区间，只对该时间段的发表的博文进行分析，例如，只分析近一年发表过的博文。当然，在其他的实施例中，当用户在预设时间区间内发表过的博文的数量较少时，也可以对该用户过去曾发表过的全部博文进行分析。

在获取到目标用户的博文后，使用分词工具逐个对获取到的每一个博文进行分词处理，例如使用Stanford汉语分词工具、jieba分词等分词工具进行分词处理。例如，对这一博文内容“昨天晚上去看了电影”进行分词，会得到如下结果“昨天|晚上|去|看|了|电影”。分词处理后保留分词结果，进一步地，为了进一步提高关键词的有效性，只保留分词结果中的动词和/或名词，去掉副词、形容词等无法体现用户兴趣的词，例如上述例子中，可以只保留“电影”这个词。可以理解的是，经过分词处理后的结果为空，则过滤掉对应的博文，而对于每一个分词结果不为空的博文都能得到一个对应的单词列表，将上述时间区间内的所有博文对应的单词列表输入到Word2Vec模型中进行训练，得到词向量模型，该词向量模型用于将关键词转化为一个词向量。Word2Vec模型是一个用于词向量计算的工具，关于对该模型进行训练并使用它来计算单词的词向量已经有成熟的计算方法，在此不再赘述。

接下来，使用关键词提取算法对每一个博文进行关键词提取，例如，使用TF-IDF(Term Frequency-Inverse Document Frequency，词项频率-逆向文本频率)算法、LSA(Latent Semantic Analysis，隐性语义分析)算法或者PLSA(Probabilisitic Latent Semantic Analysis，概率隐性语义分析)算法等关键词提取算法中的任意一种算法对每一个博文的单词列表进行计算，将得分最高的一个或者多个单词作为该博文对应的关键词，使用上述词向量模型将每一个关键词转换为一个对应的词向量。或者，作为一种实施方式，结合多个关键词提取算法进行关键词的提取，具体地，基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。例如，分别按照上述TF-IDF算法、LSA算法或者PLSA算法进行一次关键词的提取，然后取重合部分的关键词作为该博文对应的关键词。

由于博文的内容一般比较短小，在应用上述关键词提取算法对博文进行关键词提取时，一般提取到的关键词噪声大，并且过于宽泛，难以准确地反映用户的兴趣，因此，本实施例中，针对大量的博文，应用上述关键词提取算法提取到关键词并作为候选关键词，建立候选关键词集合，再根据后续的算法对该关键词集合进行处理，从中获取能够反映用户兴趣的关键词。

D、根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图。

将目标用户在上述预设时间区间内发表过的每一个博文对应的关键词构成该目标用户的候选关键词集合，并使用上述词向量模型计算集合中每一个关键词的词向量。根据上述候选关键词集合以及词向量构建一个语义相似图。

根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图的步骤可以包括如下细化步骤：将所述候选关键词集合中的关键词作为单词节点，其中，一个关键词对应一个单词节点；遍历全部单词节点，根据对应的词向量计算每两个单词节点之间的上下文相似度，每当两个单词节点之间的上下文相似度大于预设阈值时，在所述两个单词节点之间建立一条边；由全部单词节点以及建立的边构成所述语义相似图。

其中，在计算上下文相似度时，获取两个单词节点的词向量，并计算这两个词向量之间的余弦相似度，将所述余弦相似度作为所述两个单词节点之间的上下文相似度。其中，在单词节点之间建立的边可以是有向边，也可以是无向边，其中，有向边的方向可以是有出现的早的单词节点指向出现的晚的单词节点。它们具有不同的优点，有向边的特点是运行Pagerank算法时需要进行迭代计算，计算量稍大，其优点是去噪效果良好；例如，对一个用户进行分析后，得到的关键词有：C罗，皇马，西甲，足球，抽奖，前四个词在语义相似图中无论谁指向谁，都会在Pagerank算法的打分中形成相互促进的作用，那么就算有一些词，例如零食，和其它词建立了有向边，但是在迭代中形成不了促进，这样对于“抽奖”这个词的打分就比较低，就可以排除掉这个词。而对于无向边，运行Pagerank算法时的计算速度快，不需要进行迭代计算，但是去噪的效果不是很好，例如在上述例子中，有可能不会排除掉“抽奖”这个词。在其他实施例中，也可以采用其他的方式计算两个单词之间的语义相似度，例如，通过基于大规模语料库计算语义相似度的方法等，基于大规模语料库计算语义相似度的方法是一种较为成熟的词语之间相似度的计算方法，其具体原理在此不再赘述。

E、在所述语义相似图上运行Pagerank算法为每一个关键词打分，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。

在语义相似图上运行Pagerank算法对每个单词节点进行打分，单词节点的Pagerank值越大，说明在图上指向该单词节点的其他单词节点(针对有向边的情况)或者与该单词节点建立连接的其他单词节点(针对无向边的情况)越多，进而说明在图上有越多的其他单词节点与该单词节点的相似度比较高，则该单词节点对应的关键词越能够体现用户的兴趣，因此，将得分较高的关键词作为目标用户的兴趣关键词。具体地，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤可以包括：

可以理解的是，上述各实施例中涉及到的预设阈值、预设字数、第一预设个数以及第二预设个数等需要预先设置的参数，可以用户根据实际情况进行设置。

上述实施例提出的基于社交网络的用户关键词提取装置，对目标用户在预设时间区间内发表过的每个博文进行分词处理，以获取每条博文对应的单词列表，输入到Word2Vec模型中进行训练，以获取词向量模型，基于关键词提取算法从博文的单词列表中提取对应的关键词构成一个候选关键词集合，基于上述词向量模型计算集合中的各个关键词的词向量，根据关键词集合中的关键词以及词向量构建语义相似图，在语义相似图上运行Pagerank算法为关键词打分，将得分满足预设条件的关键词作为该用户的兴趣关键词，本申请通过上述方式综合用户发表的过的博文进行分词处理的方式，提取出能够有效代表用户的兴趣的关键词。

可选地，在其他的实施例中，用户关键词提取程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行，以完成本申请，本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如，参照图2所示，为本申请基于社交网络的用户关键词提取装置一实施例中的用户关键词提取程序的程序模块示意图，该实施例中，用户关键词提取程序可以被分割为获取模块10、训练模块20、提取模块30、建图模块40以及打分模块50，示例性地：

获取模块10用于获取目标用户在预设时间区间内发表过的博文，使用预设的分词工具对获取的博文进行分词处理，分别获取每条博文对应的单词列表；

训练模块20用于将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练，以获取词向量模型；

提取模块30用于基于关键词提取算法从博文的单词列表中提取该博文对应的关键词，将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合，并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量；

建图模块40用于根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图；

打分模块50用于在所述语义相似图上运行Pagerank算法为每一个关键词打分，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。

上述获取模块10、训练模块20、提取模块30、建图模块40以及打分模块50被执行所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本申请还提供一种基于社交网络的用户关键词提取方法。参照图3所示，为本申请基于社交网络的用户关键词提取方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于社交网络的用户关键词提取方法包括：

步骤S10，获取目标用户在预设时间区间内发表过的博文，使用预设的分词工具对获取的博文进行分词处理，分别获取每条博文对应的单词列表；

步骤S20，将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练，以获取词向量模型；

步骤S30，基于关键词提取算法从博文的单词列表中提取该博文对应的关键词，将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合，并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量。本实施例中，以微博为例对方案进行解释说明。当需要根据目标用户发表过的微博内容来获取能够有效体现该用户的兴趣爱好的关键词时，获取用户发表过的博文进行分词处理。可以理解的是，由于随着时间的推移，用户的兴趣爱好可能会发生变化，因此，为了提高关键词提取的准确性，在时间维度上对发表过的博文进行过滤，设置预设时间区间，只对该时间段的发表的博文进行分析，例如，只分析近一年发表过的博文。当然，在其他的实施例中，当用户在预设时间区间内发表过的博文的数量较少时，也可以对该用户过去曾发表过的全部博文进行分析。

步骤S40，根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图。

步骤S50，在所述语义相似图上运行Pagerank算法为每一个关键词打分，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。

上述实施例提出的基于社交网络的用户关键词提取方法，对目标用户在预设时间区间内发表过的每个博文进行分词处理，以获取每条博文对应的单词列表，输入到Word2Vec模型中进行训练，以获取词向量模型，基于关键词提取算法从博文的单词列表中提取对应的关键词构成一个候选关键词集合，基于上述词向量模型计算集合中的各个关键词的词向量，根据关键词集合中的关键词以及词向量构建语义相似图，在语义相似图上运行Pagerank算法为关键词打分，将得分满足预设条件的关键词作为该用户的兴趣关键词，本申请通过上述方式综合用户发表的过的博文进行分词处理的方式，提取出能够有效代表用户的兴趣的关键词。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有用户关键词提取程序，所述用户关键词提取程序可被一个或多个处理器执行，以实现如下操作：

进一步地，所述用户关键词提取程序被处理器执行时还实现如下操作：

由全部单词节点以及建立的边构成所述语义相似图。

本申请计算机可读存储介质具体实施方式与上述基于社交网络的用户关键词提取装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于社交网络的用户关键词提取装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的用户关键词提取程序，所述用户关键词提取程序被所述处理器执行时实现如下步骤：

获取目标用户在预设时间区间内发表过的博文，使用预设的分词工具对获取的博文进行分词处理，分别获取每条博文对应的单词列表；

将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练，以获取词向量模型；

基于关键词提取算法从博文的单词列表中提取该博文对应的关键词，将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合，并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量；

根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图；

在所述语义相似图上运行Pagerank算法为每一个关键词打分，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。
根据权利要求1所述的基于社交网络的用户关键词提取装置，其特征在于，所述根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图的步骤包括：

将所述候选关键词集合中的关键词作为单词节点，其中，一个关键词对应一个单词节点；

遍历全部单词节点，根据对应的词向量计算每两个单词节点之间的上下文相似度，每当两个单词节点之间的上下文相似度大于预设阈值时，在所述两个单词节点之间建立一条边；

由全部单词节点以及建立的边构成所述语义相似图。
根据权利要求2所述的基于社交网络的用户关键词提取装置，其特征在于，所述根据对应的词向量计算每两个单词节点之间的上下文相似度的步骤包括：

获取两个单词节点的词向量，并计算这两个词向量之间的余弦相似度，将所述余弦相似度作为所述两个单词节点之间的上下文相似度。
根据权利要求1所述的基于社交网络的用户关键词提取装置，其特征在于，当所述博文包含的字数大于或者等于预设字数时，所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：

分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；

将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。
根据权利要求2所述的基于社交网络的用户关键词提取装置，其特征在于，当所述博文包含的字数大于或者等于预设字数时，所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：

分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；

将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。
根据权利要求1所述的基于社交网络的用户关键词提取装置，其特征在于，所述将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤包括：

将得分大于预设分数的关键词作为所述目标用户的兴趣关键词；

或者，将得分大于预设分数的关键词作为所述目标用户的兴趣关键词，其中，在得分大于预设分数的关键词的数量大于第一预设个数时，将所述第一预设个数个关键词中的第二预设个数个关键词作为所述目标用户的兴趣关键词，所述第一预设个数大于所述第二预设个数。
根据权利要求2所述的基于社交网络的用户关键词提取装置，其特征在于，所述将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤包括：

将得分大于预设分数的关键词作为所述目标用户的兴趣关键词；

或者，将得分大于预设分数的关键词作为所述目标用户的兴趣关键词，其中，在得分大于预设分数的关键词的数量大于第一预设个数时，将所述第一预设个数个关键词中的第二预设个数个关键词作为所述目标用户的兴趣关键词，所述第一预设个数大于所述第二预设个数。
一种基于社交网络的用户关键词提取方法，其特征在于，所述方法包括：

获取目标用户在预设时间区间内发表过的博文，使用预设的分词工具对获取的博文进行分词处理，分别获取每条博文对应的单词列表；

将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练，以获取词向量模型；

基于关键词提取算法从博文的单词列表中提取该博文对应的关键词，将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合，并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量；

根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图；

在所述语义相似图上运行Pagerank算法为每一个关键词打分，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。
根据权利要求8所述的基于社交网络的用户关键词提取方法，其特征在于，所述根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图的步骤包括：

将所述候选关键词集合中的关键词作为单词节点，其中，一个关键词对应一个单词节点；

遍历全部单词节点，根据对应的词向量计算每两个单词节点之间的上下文相似度，每当两个单词节点之间的上下文相似度大于预设阈值时，在所述两个单词节点之间建立一条边；

由全部单词节点以及建立的边构成所述语义相似图。
根据权利要求9所述的基于社交网络的用户关键词提取方法，其特征在于，所述根据对应的词向量计算每两个单词节点之间的上下文相似度的步骤包括：

获取两个单词节点的词向量，并计算这两个词向量之间的余弦相似度，将所述余弦相似度作为所述两个单词节点之间的上下文相似度。
根据权利要求8所述的基于社交网络的用户关键词提取方法，其特征在于，当所述博文包含的字数大于或者等于预设字数时，所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：

分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；

将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。
根据权利要求9所述的基于社交网络的用户关键词提取方法，其特征在于，当所述博文包含的字数大于或者等于预设字数时，所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：

分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；

将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。
根据权利要求8所述的基于社交网络的用户关键词提取装置，其特征在于，所述将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤包括：

将得分大于预设分数的关键词作为所述目标用户的兴趣关键词；

或者，将得分大于预设分数的关键词作为所述目标用户的兴趣关键词，其中，在得分大于预设分数的关键词的数量大于第一预设个数时，将所述第一预设个数个关键词中的第二预设个数个关键词作为所述目标用户的兴趣关键词，所述第一预设个数大于所述第二预设个数。
根据权利要求9所述的基于社交网络的用户关键词提取装置，其特征在于，所述将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤包括：

将得分大于预设分数的关键词作为所述目标用户的兴趣关键词；

或者，将得分大于预设分数的关键词作为所述目标用户的兴趣关键词，其中，在得分大于预设分数的关键词的数量大于第一预设个数时，将所述第一预设个数个关键词中的第二预设个数个关键词作为所述目标用户的兴趣关键词，所述第一预设个数大于所述第二预设个数。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有用户关键词提取程序，所述用户关键词提取程序可被至少一个处理器执行，以实现如下步骤：

获取目标用户在预设时间区间内发表过的博文，使用预设的分词工具对获取的博文进行分词处理，分别获取每条博文对应的单词列表；

将获取的每个博文对应的单词列表输入到Word2Vec模型中进行训练，以获取词向量模型；

基于关键词提取算法从博文的单词列表中提取该博文对应的关键词，将所述目标用户在所述预设时间区间内发表过的博文累计的关键词构成所述目标用户的候选关键词集合，并基于所述词向量模型计算所述候选关键词集合中每一个关键词的词向量；

根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图；

在所述语义相似图上运行Pagerank算法为每一个关键词打分，将得分满足预设条件的关键词作为所述目标用户的兴趣关键词。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述根据所述候选关键词集合以及所述候选关键词集合中每一个关键词对应的词向量，构建语义相似图的步骤包括：

将所述候选关键词集合中的关键词作为单词节点，其中，一个关键词对应一个单词节点；

遍历全部单词节点，根据对应的词向量计算每两个单词节点之间的上下文相似度，每当两个单词节点之间的上下文相似度大于预设阈值时，在所述两个单词节点之间建立一条边；

由全部单词节点以及建立的边构成所述语义相似图。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述根据对应的词向量计算每两个单词节点之间的上下文相似度的步骤包括：

获取两个单词节点的词向量，并计算这两个词向量之间的余弦相似度，将所述余弦相似度作为所述两个单词节点之间的上下文相似度。
根据权利要求15所述的计算机可读存储介质，其特征在于，当所述博文包含的字数大于或者等于预设字数时，所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：

分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；

将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。
根据权利要求16所述的计算机可读存储介质，其特征在于，当所述博文包含的字数大于或者等于预设字数时，所述基于关键词提取算法从博文的单词列表中提取该博文对应的关键词的步骤包括：

分别按照预设的多个关键词提取算法从博文的单词列表中提取关键词；

将所述多个关键词提取算法提取的关键词中重复的关键词作为该博文对应的关键词。
根据权利要求15所述的计算机可读存储介质，其特征在于，所述将得分满足预设条件的关键词作为所述目标用户的兴趣关键词的步骤包括：

将得分大于预设分数的关键词作为所述目标用户的兴趣关键词；

或者，将得分大于预设分数的关键词作为所述目标用户的兴趣关键词，其中，在得分大于预设分数的关键词的数量大于第一预设个数时，将所述第一预设个数个关键词中的第二预设个数个关键词作为所述目标用户的兴趣关键词，所述第一预设个数大于所述第二预设个数。