WO2014108004A1

WO2014108004A1 - 一种微博用户身份识别方法及系统

Info

Publication number: WO2014108004A1
Application number: PCT/CN2013/088616
Authority: WO
Inventors: 赵立永; 于晓明; 杨建武; 郑妍
Original assignee: 北大方正集团有限公司; 北京大学; 北京北大方正电子有限公司
Priority date: 2013-01-09
Filing date: 2013-12-05
Publication date: 2014-07-17
Also published as: US20150356091A1; CN103914494A; CN103914494B

Abstract

本发明提供一种微博用户身份识别方法及系统，所述方法包括：获取待识别用户行为数据以及用户行为的特征库信息；预处理所述获取的待识别用户行为数据；将所述预处理后的用户行为数据，进行语义单元重构；获取所述语义单元的属性信息以及其对应的权重；根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征；将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较；当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值，则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微博用户身份识别的准确性及实时性。

Description

一种微博用户身份识别方法及系统技术领域

本发明涉及计算机信息处理技术领域，尤其涉及一种微博用户身份识别方法及系统。

背景技术

随着 web技术的和微博的出现，越来越多的用户加入到互联网中，成为虚拟社会中的一员，促进了信息传播方式的变革，提高了信息传播的效率。然而，微博用户身份的识别作为微博后台维护的重要組成部分，其识别过程主要通过微博用户在网络注册、存储的数据信息进行用户身 ^只别。例如：从网站获只别用户访问网站的日志、临时信息及注册信息来实现用户身份识别；或者，通过中文文本分类方法进行微博用户身份识别。

但是，在现有的微博用户身 ^只别 ½中，发明现技术至少存在如下问题：

在现有技术中通过网站获取待识别用户访问网站的日志、临时信息及注册信息来实现用户身份识别的过程，由于用户身份识别过程所依据的数据主 H^ 靠从网站获取用户注册信息以及该用户的日志及临时信息，从而使得数据获取较为困难，且准确性不高。

现有技术中采用中文 L^分类的方法虽然可以实现微博用户身份识别，但是，无法满足当前微博用户身份识别的准确性及实时性。发明内容

针对现有技术中存在的缺陷，本发明的目的是提出一种准确性高，实时性强的微博用户身份识别方法及系统。

本发明提供一种微博用户身份识别方法，包括：

获只别用户行为数据以及用户行为的特征库信息；

预处理所述获取的待识别用户行为数据；

将所述预处理后的用户行为数据，进行语义单元重构；

获取所述语义单元的属性信息以及其对应的权重；

根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征；

将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较；

当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值，则所述待识别用户身份确定。

本发明还提供一种微博用户身^只别系统，包括：

信息获取单元，用于获只别用户行为数据以及用户行为的特征库信息；预处理单元，用于预处理所述获取的待识别用户行为数据；

语义单元重构单元，用于将所述预处理后的用户行为数据，进行语义单元重构；

属性及权重信息获取单元，用于获取所述语义单元的属性信息以及其对应的权重；

行为特征抽取单元，用于根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征;

比较单元，用于将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较；

身份确定单元，用于当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值，确定所述待识别用户身份。

通过本发明提供的微博用户身份识别方法及系统，获只别用户行为数据以及用户行为的特征库信息；预处理所述获取的待识别用户行为数据；将所述预处理后的用户行为数据，进行语义单元重构；获取所述语义单元的属性信息以及其对应的权重；根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征；将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较；当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似 >¾ 过预设阈值，则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微博用户身份识别的准确性及实时性。附图说明

图 1为本发明实施例提供的一种微博用户身份识别方法的流程图；图 2为本发明提供的一种微博用户身份识别方法中用户行为的特征库的构建的流程图；

图 3为本发明提供的一种微博用户身份识别方法中更新用户行为的特征库的¾½图；

图 4为本发明实施例提供的一种微博用户身份识别系统结构示意图；图 5为本发明实施例提供的另一种微博用户身份识别系统结构示意图；图 6为本发明实施例提供的一种微博用户身^只别方法中语义单元属性信息数据结构示意图。

具体实施方式

下面结合附图对本发明实施例提供的一种微博用户身^只别方法及系统进行伴细描述。

图 1示出了为本发明实施例提供的一种微博用户身份识别方法，该方法包括：

步骤 101: 获只别用户行为数据以及用户行为的特征库信息；步骤 102:预处理所述获取的待识别用户行为数据；所述预处理主要包括行为数据筛选、拼写纠正、分词和词性标注。

步骤 103: 将所述预处理后的用户行为数据，进行语义单元重构；所述语义单元重构是在预处理的基础上应用词性信息进行词粘连的方法，通过合并特定的词，来构建包含更丰富语义的语义单元（词串）。

步骤 104: 获取所述语义单元的属性信息以及其对应的权重；其中，所述语义单元的属性信息是指统计每个语义单元的词频和文档频率；所述语义单元的权重则采用 TFIDF函数来实现用户行为特征的权值计算，实现用户行为特征的数值化。

步骤 105:根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征；所述待识别用户行为特征是指所抽取的最能代表用户行为的特征，并且特征项（即语义单元）具有很好的区分度，对于单个待识别用户主要采用词权重、词频、词性相结合的方法，根据词权重和词频进行关键词排序；根据停用词表过滤掉停用词或非停用词（满足词长大于最大长度或小于最小长度 )；选取词性为" a，，， "cw，，， "v，，， "j，，， "ns，，，"nr，，，"nf，，"nz，，或者包含 "不，，的词。

步骤 106:将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;所述比较的过程包括进行用户分类，主要可以采用 KNN算法， K值选取方法采用概率分布的方法，即相似的特征向量和特征向量空间之比。

分类思路为：比较待识别用户和用户行为特征库信息中每个用户类别的相似度 sim(u,C)，比较用户和每个类别中包含用户的相似度 sim(u，Cui)，如果 sim(u，C)大于经验阈值，或者多数 sim(u，Cui)大于经验阈值，则认为用户和该类别存在相关性，选取相似度最大的用户类别来确定用户身份。

采用调整余弦相似度的测量方法计算特征向量之间的相似度，具体步骤如下：

( 1 )对于特征向量库中每一个特征向量，计算与该用户特征向量的相似度;

( 2 )进行向量对齐操作，对于向量 vl和 v2，求其所有特征项的并集 C(vl， v2)，然后将 vl和 v2映射到 C上，得到新的向量 vl，和 v2，；

(3)采用调整余弦相似度计算公式计算 vl，和 v2，的相似度。

步骤 107:当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似 L¾过预设阈值，则所述待识别用户身份确定。

在上述的根据本发明实施例的微博用户身份识别方法的一个实施方式中，在如上所述的获取待识别用户行为数据以及用户行为的特征库信息的步骤 101 之前，该方法还可以包括构建用户行为的特征库的过程。图 2示出了为本发明实施例提供的一种在微博用户身份识别方法中构建用户行为的特征库的流程，该构建方法包括：

步骤 201:获取已知用户行为数据；具体的讲，就是获取已知用户行为数据，即训练数据；该训练数据用于构建用户行为的特征库。

步骤 202:预处理所述获取的已知用户行为数据；具体的讲，就是按照已知用户的不同身份，对训练数据（即已知用户数据）进行标注，对相同身份的每个用户的微博消息进行过滤，过滤的方法是比较消息的长度和观测值 e (通过对大量微博消息统计分析， 10个字符以内的微博消息包含较少或没有语义信息，因此本系统中 θ=10 )之间的大小关系，如果长度小于观测值，则将微 ^为噪声过滤掉。拼写检查主要根据拼写常见错误对照表进行拼写错误校正。利用分词和词性标注工具进行分词及词性标注，处理后每个词都包含词字符串信息和词性，分词和词性标注的工具均来自已知技术，此处不再赘述。

步骤 203: 将所述预处理后的用户行为数据，进行语义单元重构；所述语义单元重构为：由于长词串相对于短词串包含更多语义信息，具有更强的表达能力，所以语义单元重构就是在步骤 201处理结果的基础上，通过特定的规则对相邻的特定词进行词粘连，进而产生更长的语义串。该步骤要处理的相邻词包括 "ns，，地名， "nr，，人名， "nf，机构名， "nz，，专有名词和" j，，简称等，处理的规则是組合第一次出现该类型词和最后一次出现该类型词之间的所有词。标注粘连后的词串词性为" cw"，在特征选择和权值计算时，该类词更重要。

步骤 204: 获取所述语义单元的属性信息以及其对应的权重；

其中，所述获取语义单元的属性信息， ^^于步骤 201和步骤 202，为所述语义单元进行统一编号，建立微博-语义单元索引向量，按用户统计语义单元的属性信息，包括词频和文档频率，为单个用户行为特征提取做准备，按照相同身份用户进行词频和文档频率统计，为相同身份类别的类别行为特征提取做准备，处理结果信息到如图 6所示的数据结构中。

所取所述语义单元的权重的为：

首先，根据自然语言处理领域中常用的停用词表过滤掉停用词，并过滤掉词频小于经验阈值且词性为非包含 "n"、 "cw"的语义单元。其次，采用基于

TF-IDF权值计算方法，计算每个语义单元的权值，对于特定类型的语义单元赋予更高的权值，具体方法为，对于词性为" nr"人名，如下式（2 )所示，加权系数^= 2 ，对于词性为 "_cw，，粘连词，如下式（3 )所示，加权系数为 = 1-S ，权值计^^式为：

weightl= TF|log₂IDF (1)

weight2= 2.0|TF|log₂IDF (2)

weight3= 1.5|TF|log₂IDF (3)

步骤 205:根据所述语义单元的属性信息以及其对应的权重，获取所述已知用户行为特征；获取 i½为：

对于所述获取的已知用户身份的训练数据主要采用卡方统计、词性、词频相结合的方法；首先计算每个语义单元相当于用户类别的卡方值，按照卡方值对语义单元进行排序；过滤掉长度等于 1，且词性为非 nr的词；根据停用词表过滤掉停用词或非停用词（满足词长大于最大长度或小于最小长度 )；选取词性为" a，，， "CW，，， "V，，， "j，，， "118，，，"111"，，，"1^，，，"112，，或者包含"不，，的词；上述信息均不能区分时，选择词频较大的语义单元。

为了控制分类过程中特征的维数，设定选取语义单元的上限值 = 2 。步骤 206:将所述获取的所述已知用户行为特征，按照类别存储在所述用户行为的特征库中。

在如图 1所示的根据本发明实施例的微博用户身份识别方法的一个实施方式中，在如上所述的确定所述待识别用户身份的步骤 107之后，该方法还可以包括更新用户行为的特征库的 i½。图 3示出了为本发明实施例提供的一种在微博用户身份识别方法中更新用户行为的特征库的流程，该流程包括：

步骤 301:获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息；

步骤 302:比较所述语义单元与所述用户身份的用户类型信息，给出所述各个语义单元与所述用户身份的用户类型信息的相似度；该步骤可以采用卡方统计方法，计算语义单元与用户类别的卡方值，通过所述获取的卡方值来评价相关性。

步骤 303: 按照所目似度由大到小的顺序，对所述语义单元进行排序；步骤 304: 获取相似度前 top-n个语义单元作为该类型用户的行为特征；步骤 305:将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。

需要说明的是，以上所述的实施例中所述行为特征至少包括一个语义单元；如图 6所示，所述语义单元属性信息至少包括：索引值，字符信息，词性，词频和文档频率；所述语义单元至少包括一个词；所述词的属性信息包括：词的索引，词频，文档频率， IDF值，权值。

所述预处理步骤主要包括：行为数据筛选、拼写纠正、分词和词性标注。图 4示出了为本发明实施例提供的一种微博用户身份识别系统，该系统包括：

信息获取单元 401，用于获只别用户行为数据以及用户行为的特征库信息；

预处理单元 402，用于预处理所述泉取的待识别用户行为数据；

语义单元重构单元 403，用于将所述预处理后的用户行为数据，进行语义单元重构；

属性及权重信息获取单元 404，用于获取所述语义单元的属性信息以及其对应的权重；

行为特征抽取单元 405，用于根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征；

比较单元 406，用于将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较；

身份确定单元 407，用于当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值，确定所述待识别用户身份。

需要说明的是，如图 5所示，该系统还包括：用户行为的特征库构建单元 501和 /或信息反馈单元 502。

所述用户行为的特征库构建单元 501用于获取已知用户行为数据；预处理所述获取的已知用户行为数据；将所述预处理后的已知用户行为数据，进行语义单元重构；获取所述语义单元的属性信息以及其对应的权重；根据所述语义单元的属性信息以及其对应的权重，获取所述已知用户行为特征；将所述获取的所述已知用户行为特征，按照类别存储在所述用户行为的特征库中。

所述信息反馈单元 502用于获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息；比较所述语义单元与所述用户身份的用户类型信息，给出所述各个语义单元与所述用户身份的用户类型信息的相似度；按照所目似度由大到小的顺序，对所述语义单元进行排序；获取相似度前 top-n个语义单元作为该类型用户的行为特征;将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。

以上所述行为特征至少包括一个语义单元；所述语义单元属性信息至少包括：索引值，字符信息，词性，词频和文档频率；所述语义单元至少包括一个词；所述词的属性信息包括：词的索引，词频，文档频率， IDF值，权值。

上述预处理操作主要包括：行为数据筛选、拼写纠正、分词和词性标注。通过本发明提供的微博用户身份识别方法及系统，获只别用户行为数据以及用户行为的特征库信息；预处理所述获取的待识别用户行为数据；将所述预处理后的用户行为数据，进行语义单元重构；获取所述语义单元的属性信息以及其对应的权重；根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征；将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较；当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似 >¾ 过预设阈值，则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微博用户身份识别的准确性及实时性。

开还提供一种或多种具有计算机可执行指令的计算机可读介廣，所述指令在由计算机执行时，执行微博用户身份识别方法，所述方法包括：获取待识别用户行为数据以及用户行为的特征库信息；预处理所述获取的待识别用户行为数据；将所述预处理后的用户行为数据，进行语义单元重构；获取所述语义单元的属性信息以及其对应的权重；根据所述语义单元的属性信息以及其对应的权重，获取所述待识别用户行为特征；将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较；当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值，则所述待识别用户身份确定。

开还提供一台包括带有计算机可执行指令的一个或多个计算机可读介质的计算机，所述指令在由计算机执行时执行上述微博用户身份识别方法。示例性操作环境

诸如此处所描述的计算机或计算 i殳备具有硬件，包括一个或多个处理器或处理单元、系统存储器和某种形式的计算机可读介廣。作为示例而非限制，计算机可读介廣包括计算机存储介廣和通信介廣。计算机存储介廣包括以用于存如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性与非易失性、可移动与不可移动介廣。通信介廣一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介廣。以上的任一种的組合也包括在计算机可读介廣的范围之内。

计算机可使用至一个或多个远程计算机，如远程计算机的逻辑连接在网络化环境中操作。尽管结合示例性计算系统环境进行了描述，但本发明的各实施例可用于众多其它通用或专用计算系统环境或配置。计算系统环境并非旨在对本发明的任何方面的使用范围或功能提出任何限制。此外，计算机环境也不应被解释成对于示例性操作环境中所示出的任一組件或其組合有任何依赖或要求。适用于本发明的各方面的公知的计算系统、环境和 /或配置的示例包括，但不仅限于：个人计算机、服务器计算机、手持式或膝上型 i殳备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、移动电话、网络 PC、小型计算机、大型计算机、包括上面的系统或设备的中的任何一种的分布式计算环境等等。

可以在由一台或多台计算机或其他设^ I行的诸如程序模块之类的计算机可执行的指令的一般上下文中来描发明的各实施例。计算机可执行指令可作为软件被組织成一个或多个计算机可执行組件或模块。一般而言，程序模块包括，但不限于，执行特定任务或实现特定抽象数据类型的例程、程序、对象、組件，以及数据结构。可以利用任何数量的这样的組件或模块及其組织来实现本发明的各方面。例如，本发明的各方面不仅限于附图中所示出并且在此处所描述的特定计算机可执行指令或特定組件或模块。本发明的其他实施例可以包或組件。本发明的各方面也可以在其中任务由通过通信网络链接的远程处理设行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存备在内的和计算储介廣中。可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何組合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介廣中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还^^存储用于执行根据本发明的方法的程序的记录介廣。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读 M储介廣中，该程序在被执行时可以实现上面讨论的微博用户身份识别方法的步骤，所述的存储介廣例如为： ROM/RAM、磁碟、光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种微博用户身份识别方法，其特征在于，包括：

获只别用户行为数据以及用户行为的特征库信息；

预处理所述获取的待识别用户行为数据；

将所述预处理后的用户行为数据，进行语义单元重构；

获取所述语义单元的属性信息以及其对应的权重；

2.根据权利要求 1所述的微博用户身份识别方法，其特征在于，在获取待识别用户行为数据以及用户行为的特征库信息的步骤之前，该方法还包括：获取已知用户行为数据；

预处理所述获取的已知用户行为数据；

将所述预处理后的已知用户行为数据，进行语义单元重构；

获取所述语义单元的属性信息以及其对应的权重；

根据所述语义单元的属性信息以及其对应的权重，获取所述已知用户行为特征；

将所述获取的所述已知用户行为特征，按照类别存储在所述用户行为的特征库中。

3.根据权利要求 1或 2所述的微博用户身份识别方法，其特征在于，在所述待识别用户身份确定之后，该方法还包括：

获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息；

比较所述语义单元与所述用户身份的用户类型信息，给出所述各个语义单元与所述用户身份的用户类型信息的相似度；按照所目似度由大到小的顺序，对所述语义单元进行排序；获取相似度前 top-n个语义单元作为该类型用户的行为特征；

将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。

4.根据权利要求 3所述的微博用户身份识别方法，其特征在于，所述行为特征至少包括一个语义单元；所述语义单元属性信息至少包括：索引值，字符信息，词性，词频和文档频率；所述语义单元至少包括一个词；所述词的属性信息包括：词的索引，词频，文档频率， IDF值，权值。

5.根据权利要求 4所述的微博用户身^只别方法，其特征在于，所述预处理步骤包括：行为数据筛选、拼写纠正、分词和词性标注。

6.—种微博用户身^只别系统，其特征在于，包括：

7.根据权利要求 6所述的微博用户身^只别系统，其特征在于，该系统还包括：用户行为的特征库构建单元，用于获取已知用户行为数据；预处理所述获取的已知用户行为数据；将所述预处理后的已知用户行为数据，进行语义单元重构；获取所述语义单元的属性信息以及其对应的权重；根据所述语义单元的属性信息以及其对应的权重，获取所述已知用户行为特征；将所述获取的所述已知用户行为特征，按照类别存储在所述用户行为的特征库中。

8.根据权利要求 6或 7所述的微博用户身^只别系统，其特征在于，该系统还包括：信息反馈单元，用于获取所述确定用户身份的待识别用户的至少一个语义单元以及对应所述用户身份的用户类型信息；比较所述语义单元与所述用户身份的用户类型信息，给出所述各个语义单元与所述用户身份的用户类型信息的相似度；按照所目似度由大到小的顺序，对所述语义单元进行排序；获取相似度前 top-n个语义单元作为该类型用户的行为特征;将所述用户的行为特征添加到所述用户行为的特征库的对应类别中。

9.根据权利要求 8所述的微博用户身份识别系统，其特征在于，所述行为特征至少包括一个语义单元；所述语义单元属性信息至少包括：索引值，字符信息，词性，词频和文档频率；所述语义单元至少包括一个词；所述词的属性信息包括：词的索引，词频，文档频率， IDF值，权值。

10.根据权利要求 9所述的微博用户身^只别系统，其特^于，所述预处理包括：行为数据筛选、拼写纠正、分词和词性标注。