WO2013075275A1

WO2013075275A1 - 用户信息采集方法和系统

Info

Publication number: WO2013075275A1
Application number: PCT/CN2011/082530
Authority: WO
Inventors: 贾江涛; 顾翀; 董晓艺
Original assignee: 华为技术有限公司
Priority date: 2011-11-21
Filing date: 2011-11-21
Publication date: 2013-05-30
Also published as: CN103502978A

Abstract

本发明提供一种用户信息采集方法和系统。获取目标用户的第一原始ID，根据所述目标用户的第一原始ID查询用户ID库，获取目标用户的至少一个第一扩展ID，根据第一原始ID和每个所述第一扩展ID分别搜索对应的数据源，获取至少一个数据源中的用户信息并存储到信息库。采用本发明提供的用户信息采集方法和系统，能够采集到目标用户在多个数据源中的用户信息，提高用户信息采集效率。

Description

用户信息釆集方法和系统

技术领域本发明实施例涉及通信技术，尤其涉及一种用户信息采集方法和系统。背景技术

目前，国际互联网的发展为用户提供了多种信息服务，例如：博客、论坛、网络社区、社交网络、即时通讯、视频分享等服务，用户可以通过上述多种信息服务，在国际互联网上发表信息。

由于提供上述信息服务的网站都是相对封闭的，因而现有的用户信息采集方法只能在一个网站内进行采集。采用现有的用户信息采集方法，对一个网站站内内容建立索引，采用站内搜索的方式，根据指定的内容关键词、用户 ID或日期进行搜索，查找到用户在该网站内的活动情况和发表的信息。

对于同一个用户来说，在使用上述多种信息服务时，在各种不同的网站上以不同注册名参与活动。例如，对于同一个用户，在 Facebook网站上使用 gmail 电子邮件作为注册名参与活动，在亚马逊（简称 Amazon ) 网站上以 hotmail电子邮件作为注册名参与活动，在腾讯网站上以 QQ号码参与活动等等。采用现有的用户信息采集方法，每次只能在一个网站内进行采集，获得单一网站站内的用户信息，因此，对于多个网站，只能对各个网站逐一进行用户信息采集，用户信息采集的效率低。发明内容

本发明实施例提供一种用户信息采集方法，用以解决现有技术中的缺陷，提高用户信息采集效率。

本发明实施例还提供一种用户信息采集系统，用以解决现有技术中的缺陷，提高用户信息采集效率。

本发明实施例提供一种用户信息采集方法，包括：

获取目标用户的第一原始身份标识 ID; 根据所述目标用户的第一原始 ID查询用户 ID库，获取所述目标用户的至少一个第一扩展 ID;

根据所述第一原始 ID和每个所述第一扩展 ID分别搜索对应的数据源，获取至少一个数据源中的用户信息并存储到信息库。

本发明实施例还提供一种用户信息采集系统，包括：

用户原始身份标识 ID获取单元，用于获取目标用户的第一原始 ID; 查询单元，用于根据所述目标用户的第一原始 ID查询用户 ID库，获取所述目标用户的至少一个第一扩展 ID;

用户信息获取单元，用于根据所述第一原始 ID和每个所述第一扩展 ID 分别搜索对应的数据源，获取至少一个数据源中的用户信息并存储到信息库；用户 ID库，用于存储所述用户的第一原始 ID和第一扩展 ID;

信息库，用于存储所述用户信息。由上述技术方案可知，本发明实施例在根据目标用户的第一原始 ID对该目标用户进行用户信息采集时，首先根据该第一原始 ID获取该目标用户的多个第一扩展 ID,根据第一原始 ID搜索其对应的数据源并根据每个第一扩展 ID搜索各自对应的数据源，从而能够采集到多个数据源中该目标用户的用户信息，因此能够提高用户信息采集效率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例一的用户信息采集方法的流程图；

图 2为本发明实施例二的用户信息采集方法的流程图；

图 3为本发明实施例三的用户信息采集方法的流程图；

图 4为本发明实施例四的用户信息采集系统的结构示意图。具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1为本发明实施例一的用户信息采集方法的流程图。如图 1所示，该方法包括如下过程。

步骤 101 : 获取目标用户的第一原始身份标识（Identity, 简称 ID ) 。步骤 102: 根据目标用户的第一原始 ID查询用户 ID库，获取目标用户的至少一个第一扩展 ID。

步骤 103:根据第一原始 ID和每个第一扩展 ID,分别搜索对应的数据源，获取至少一个数据源中的用户信息并存储到信息库。

在本步骤中，数据源可以采用如下数据源中的任意一种或多种的组合，包括：社会性网络服务（Social Networking Services, 简称 SNS ) 、网站、网络数据库（Web Database, 简称 WDB ) 、深网（Deep Web, 简称 DW ) 、搜索引擎、领域垂直引擎等。用户信息可以包括用户的注册信息以及该用户在该数据源中的发言记录，例如：用户在网站发布的博客文章、网络论坛中用户发布的文章、回帖等。

在本发明实施例一中 ,在根据目标用户的第一原始 ID对该目标用户进行用户信息采集时，首先根据该第一原始 ID获取该目标用户的多个第一扩展 ID, 根据第一原始 ID搜索其对应的数据源并根据每个第一扩展 ID搜索各自对应的数据源，从而能够采集到多个数据源中该目标用户的用户信息，因此能够提高用户信息采集效率。

图 2为本发明实施例二的用户信息采集方法的流程图。如图 2所示，该方法包括如下过程。

步骤 201 : 获取目标用户的第一原始 ID。

在本发明实施例中，每个用户在不同的网站中有可能具有不同的 ID, 其中，在某一个具体的网站中， ID与用户——对应。从而每个用户可以具有多个在不同网站使用的 ID, 例如，每个用户的 ID可以包括以下任意一种或几种的组合，包括：用户名、社会保险号码、移动电话号码、固网电话号码、电子邮件账号、网络论坛账号、即时通讯工具账号等等，其中，电子邮件账号例如： Gmail账号等；网络论坛账号例如： facebook账号等；即时通讯工具账号例如： MSN账号、 QQ号码等。在本步骤中，选定某一个用户作为目标用户，以该目标用户的上述 ID中的一个作为第一原始 ID。例如，在本发明实施例二中，以第一原始 ID为移动电话号码为例，对预先获知目标用户的移动电话号码，根据该移动电话号码采集该用户的其它信息的过程予以说明。

步骤 202: 根据目标用户的第一原始 ID查询用户 ID库，获取目标用户的至少一个第一扩展 ID。

在本步骤中，在目标用户的多个 ID中，除第一原始 ID以外的其它 ID均为该目标用户的扩展 ID。用户 ID库用户存储各个用户的 ID, 包括第一原始 ID和扩展 ID。在本发明实施例二中，以用户 ID库中存储了目标用户的如下 ID为例：移动电话号码、 MSN号码、 QQ号码。在本步骤中，根据该目标用户的移动电话号码查询 ID库，获取到该目标用户的 MSN号码和 QQ号码。用户 ID库中存储的各个用户的 ID可以通过以下来源存储到用户 ID库中，包括：将搜索时输入的 ID添加到用户 ID库；将信息采集过程中对内容进行分析获取的 ID添加到用户 ID库；向用户 ID库中导入 ID; 从 SNS中获取已知 ID的好友的 ID并添加到用户 ID库；从融合地址簿（ Converged Address Book, 简称 CAB )中获取 ID添加到用户 ID库；从用户本地通讯录和 /或网络通讯录中记载的联系人 ID, 获取用户 ID添加到用户 ID库。

步骤 203: 根据第一原始 ID和每个第一扩展 ID分别搜索对应的数据源。在本步骤中，数据源可以采用如下数据源中的任意一种或多种的组合，包括： SNS、网站、网络数据库、深网、搜索引擎、领域垂直引擎等。

在本步骤中，根据第一原始 ID和每个第一扩展 ID分别搜索对应的数据源。仍以上述步骤中的具体实例为例，在本步骤中，根据该目标用户的移动电话号码、 MSN号码和 QQ号码分别搜索对应的数据源，具体地，移动电话号码可以对应网络购物类网站等； MSN号码可以对应 MSN网站和各种论坛网站等； QQ号码可以对应 QQ网站和各种论坛网站等。

在本步骤中，根据第一原始 ID和每个第一扩展 ID分别搜索对应的数据源，通过该搜索操作，获取至少一个数据源中的用户信息并存储到信息库。具体地，其中获取至少一个数据源中的用户信息并存储到信息库的过程可以包括以下步骤 204至步骤 207。

步骤 204: 获取第一原始 ID和每个第一扩展 ID在至少一个数据源中的搜索结果文本。

在本步骤中，每个数据源中存储用户信息，具体包括用户的注册信息以及该用户在该数据源中的发言记录等，例如：用户在网站发布的博客文章、网络论坛中用户发布的文章、回帖等。根据第一原始 ID和每个第一扩展 ID 在数据源中进行搜索，获取到该数据源中该 ID对应的注册信息和发言记录，保存为搜索结果文本。仍以上述步骤中的具体实例为例，在本步骤中，根据该目标用户的移动电话号码、 MSN号码和 QQ号码分别搜索对应的数据源，具体地，移动电话号码可以对应网络购物类网站等； MSN号码可以对应 MSN 网站和各种论坛网站等； QQ号码可以对应 QQ网站和各种论坛网站等。

步骤 205: 从搜索结果文本中抽取目标用户的新增 ID并存储到用户 ID 库。

步骤 205为可选步骤，在步骤 204之后，可以依次执行步骤 205和步骤 206; 也可以跳过步骤 205, 直接执行步骤 206。

在步骤 205中，从搜索结果文本中抽取目标用户的新增 ID具体可以包括如下过程。

首先，根据 HTML标签，将搜索结果文本划分为至少一个记录块。

然后，从每个记录块中抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第一扩展 ID。仍以上述步骤中的具体实例为例，在本步骤中，以从某一个记录块中抽取出该记录块中的未知 ID包括： Gmail 邮箱为例，并且，以从该记录块中还抽取到移动电话号码为例。

最后，根据预设的 ID比较方法，判断未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户。如果是，获取该未知 ID为目标用户的新增 ID。

根据预设的 ID比较方法，判断未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户的步骤包括：首先，确定可能属于同一个用户的 ID。具体地，对搜索结果文本进行记录块划分，根据用户 ID规则库识别用户 ID信息，抽取出该记录块中的 ID。例如，该搜索结果文本为一个网页。首先根据万维网联盟（World wide Web Consortium, 简称 W3C )文本标记语言 ( Hypertext Markup Language, 简称 HTML )规范对网页记录块划分，该规范定义了 93个标签，其中 "TABLE" 、 "PDIV" 、 "SPAN" 等标签用于将网页进行布局、划分为语义上的结构，根据这些标签来划分记录块。然后，根据用户 ID规则库知识，抽取出记录块内所有的 ID , 具体可以采用现有技术中的任意 ID抽取方法。

然后，选出属于同一用户的概率较大的 ID。

具体地，判断方法可以概括为：对于同时出现在一篇文档或文章中记录块内的 ID, 属于同一个用户的概率较大。其中，同一个记录块内的 ID属于同一用户的概率比一篇文档中出现的 ID属于同一个用户的概率大。

最后，根据预设的 ID比较方法，判断上述选出的属于同一用户的概率大的 ID是否属于同一个用户。

具体地，根据文中有关联的其它实体信息和工作单位、其它 ID信息、年龄、地点、领域等基本信息，判断是否同属一个人所有。

其中，预设的 ID比较方法可以采用如下方法中的任意一种。

方法一：对同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID进行共指消解和指代消解。

具体地，共指消解是将现实世界中同一实体的不同描述合并到一起的过程；指代消解用于确定代词指向哪个名词短语。通过指代消解能够发现用户的 ID。例如，在搜索结果文本中出现： "小明是项目经理，项目需要增加人力，他的电话是 0755-88687863 , 。通过指代消解方法，可以确定用户的 ID标识 "小明" 和用户 ID标识 "0755-88687863" 为同一个用户。

方法二：比较同一个记录块中的未知 ID与目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID的基本信息。

具体地，根据从搜索结果文本中抽取出来的基本信息，来确定第一原始 ID和未知 ID是否属于同一个用户所有，例如，比较第一原始 ID和未知 ID 对应的基本信息中的工作单位、地址、发表文章等信息是否一致，如果一致，则确定为属于同一个用户所有。

方法三：对同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的用户信息进行聚类分析。

具体地，当判断第一原始 ID和未知 ID是否属同一个用户所有时，根据系统中所收集的第一原始 ID和未知 ID分别对应的网络活动信息的内容，对该内容进行聚类分析，如果在聚类结果方向第一原始 ID和未知 ID对应的网络活动所在的空间接近或距离在阈值范围内，则确定上述两个 ID同属一个用户所有；否则，确定上述两个 ID为不同的用户所用。

在上述三种方法的基础上，还可以通过用户的其它 ID判断第一原始 ID 和未知 ID是否属于同一用户，例如，已知一个 ID1与第一原始 ID属于同一个用户所有，如果通过上述三种判断方法中的任意一种判断未知 ID与上述 ID1为同一个用户所有，则可确定未知 ID与第一原始 ID为同一个用户所有。

仍以上述步骤中的具体实例为例，在本步骤中，采用上述三种方法中的任意一种，判断 Gmail邮箱与同一个记录块中的移动号码是否属于同一用户，在本实施例中，以判断为是为例，则获取到 Gmail邮箱为目标用户的新增 ID, 将目标用户的 Gmail邮箱存储到用户 ID库。

步骤 206: 从搜索结果文本中抽取用户信息并进行结构化处理。

在本步骤中，搜索结果中的内容为用户信息，对该用户信息进行结构化处理，得到所需要采集的用户信息。

步骤 207: 对结构化处理后的用户信息与对应的第一原始 ID或第一扩展 ID进行关联并存储到信息库。

在本步骤中，将上述结构化处理后的用户信息存储到信息库中，在存储时，将该用户信息与第一原始 ID和 /或第一扩展 ID进行关联，从而在后续的读取过程中，可以根据第一原始 ID和 /或第一扩展 ID读取到该用户信息。进一步地，如果前述过程中执行了步骤 205, 获取到该目标用户的新增 ID, 则在步骤 207中，在存储时，将该用户信息与第一原始 ID和 /或第一扩展 ID进行关联的同时，还可以将用户信息与该目标用户的新增 ID进行关联。仍以上述步骤中的具体实例为例，在本步骤中，将用户信息与该目标用户的移动电话号码、 MSN号码、 QQ号码以及 Gmail邮箱均进行关联，然后存储到信息库。

在上述步骤 201至步骤 207中，实现了根据目标用户的第一原始 ID从多种数据源中采集用户信息并存储到信息库的过程，则采集并存储的过程完成之后，当需要获取该目标用户的用户信息时，就可以通过搜索该信息库，直接从该信息库获取所需的用户信息。具体地，从信息库获取用户信息的过程包括如下步骤 208至步骤 210。在上述步骤 201中，从第一信息交互对象获取第一原始 ID, 在下述步骤 208中，从第二信息交互对象获取第二原始 ID, 第一信息交互对象与第二信息交互对象可以为同一对象，也可以分别为不同的对象。

步骤 208: 获取目标用户的第二原始 ID。

仍以上述步骤中的具体实例为例，在本步骤中，以目标用户的第二原始 ID为该目标用户的 Gmail邮箱为例。

步骤 209: 根据目标用户的第二原始 ID查询用户 ID库，获取目标用户的至少一个第二扩展 ID。

仍以上述步骤中的具体实例为例，在本步骤中，根据目标用户的 Gmail 邮箱，查询用户 ID库。经过上述步骤 205中的更新，用户 ID中已经保存了该目标用户的如下 ID:移动电话号码、 MSN号码、 QQ号码以及 Gmail邮箱。在本步骤中， Gmail邮箱为该目标用户的第二原始 ID, 根据 Gmail邮箱从用户 ID库中查询，可以获取到该目标用户的移动电话号码、 MSN号码、 QQ号码中的任意一项或多项，其中每一项作为一个第二扩展 ID。在本具体实施例中，仅以获取目标用户的第二扩展 ID为移动电话号码为例。

步骤 210: 根据第二原始 ID和每个第二扩展 ID搜索信息库，获取第二原始 ID和每个第二扩展 ID对应的用户信息。

仍以上述步骤中的具体实例为例，在本步骤中，根据目标用户的 Gmail 邮箱和移动电话号码搜索信息库，根据步骤 207中更新的信息库，通过该搜索过程，能够获取该目标用户的 Gmail邮箱和移动电话号码对应的用户信息。

在本发明实施例二中 ,在根据目标用户的第一原始 ID对该目标用户进行用户信息采集时，首先根据该第一原始 ID获取该目标用户的多个第一扩展 ID, 根据第一原始 ID搜索其对应的数据源并根据每个第一扩展 ID搜索各自对应的数据源，从而能够采集到多个数据源中该目标用户的用户信息，因此能够提高用户信息采集效率。并且，在根据第一原始 ID和第一扩展 ID进行信息采集的过程中，还可以根据用户信息以及上述第一原始 ID和第一扩展 ID 获取用户的新增 ID, 并更新用户 ID库，则在下一次获取用户的第一扩展 ID 时，能够获取到该新增 ID, 提高了获取用户 ID的准确度和扩展性，在后续采集过程中，针对同一用户能够根据更多的 ID进行搜索，从而更加高效地采集用户信息。进一步地，在完成上述采集用户信息并存储到信息库之后，当需要获取目标用户的用户信息时，可以直接从该信息库中搜索获取，从而能够更加简便地获取到用户信息。

在上述步骤 205中，从搜索结果文本中抽取目标用户的新增 ID的具体方法可以采用现有技术中的任意抽取方法，本发明实施例对其具体方法不做限制。以下仅以一种较佳的实现方式为例，对上述从搜索结果文本中抽取新增 ID的过程进行说明。

首先，参考词典对搜索结果文本进行分词处理并进行词性标注。然后，根据用户 ID规则库中的规则知识进行用户 ID识别，从搜索结果文本中获取用户 ID信息作为新增 ID。

其具体处理过程如下。

第一步，运用词典对搜索结果文本进行分词处理。

分词处理的具体方法为：先进行原子切分，然后再进行最短路径切分。原子切分是将原始字符串切分为分词原子序列。分词原子指的是分词的最小处理单元。分词原子可以组合成词，但内部不能做进一步拆分。它包括单个汉字、标点以及由单字节、字符、数字等组成的非汉字串。在原子切分的基础上，最短路径切分将产生最终切分结果。最短路径切分的过程为：根据词典找出字串中所有可能的词，构造词语切分有向无环图。每个词对应图中的一条有向边，并赋给相应的边长，该边长对应该词的权值。最后针对该切分图，在起点到终点的所有路径中，求出长度值最短的路径。

第二步，对分词处理后的词进行词性标注处理。

词性标注的主要任务是消除词性歧义。词性歧义是指自然语言中一个词语的词性多于一个的歧义现象。

第三步，根据用户 ID规则库的知识，进行用户 ID识别。

在本发明实施例中，用户 ID可以包括但不限于：用户名、身份证、社会保险号、移动电话号码、固网电话号码、电子邮件（例如 Gmail邮箱）、 MSN 号码、 QQ号码、论坛账号、 facebook账号等。根据不同种类的用户 ID的特征，构造不同的规则。例如，根据电子邮件（Email )的特点，构造的规则为：包含 "@" 符号。对于 Gmail邮箱，构造的规则可以为：包括 "@gmail" 符号。不同种类的用户 ID标识，规则的规则不同，识别的方法也不同。

第四步，根据用户 ID识别结果，获取新增 ID。

以下分别以新增 ID为用户名和电子邮件为例，对从搜索结果文本中抽取新增 ID的过程进行详细说明。

新增 ID为用户名的情况下，抽取方法如下：

以用户名为人名为例，人名识别主要包括三个过程：角色信息获取、角色标注和人名识别。表 1为角色信息对照表。根据表 1中角色与其含义的对应关系，实现角色信息获取。角色标注的过程类似于词性标注，即在所有可能的角色标注中寻找到概率最大的角色序列作为最终标注结果。现有的 Viterbi算法能够解决这类问题。

在人名识别之前，对表 1所示的角色 U (上文和姓氏成词）和角色 V (名字和下文成词）进行分裂处理，相应地分裂为 FB和 CG。识别模式集为： {BBC,BBCC,BBY,BC,BCC,BX,BXC,BY,CC,X,XC,Y}。只要符合其中一个模式，就把对应的标记（简称 Token )组成一个人名。

例如，例句为： "馆 /内 /陈列周 /恩 /来 /和 /邓 /颖 /超生 /前 /使用 /过 /的 /物品 /。，' 对应的标注为 "AAFBCCGBCVAAAAAA"。对角色 V分裂处理后，最终的角色序列为" AAFBCCGBCCGAAAAAA"。模式最大匹配后，识别出人名： "周恩来"和"邓颖超"。表 1. 角色信息对照表

新增 ID为电子邮件（简称 Email ) 的情况下，抽取方法如下：一个通用的方法是，搜索结果文本中在 Email的前面一般会有类似 "电子邮箱" 或 "Email:" 这样字样的文本片段。利用三个初始关系特征： "前一个，， (即 "previous" )、 "后一个，， (即 "next" )和 "当前，， (即 "current" ) , 将一个 token映射到另外一个或同一个 token。

假设在网页文本中， token 1 在 token2 前面，那么

previous(token2)=token 1

next(token 1 )=token2

current(token 1 )=token 1

^口果 token 1为第 1个 token, 贝 J pre vious(token 1 )=null；如果 token2 为最后一个 token, 贝¹ J next(token2)=null。

在抽取时使用基于规则学习的关系抽取算法，其中，较佳地，可以采用校验序列规则（ Sequence Rules with Validation, 简称 SRV )算法。 SRV考虑的是单个 token 的形式特征，不涉及词性、语义等，是一个基于 FOIL的关系抽取算法。

SRV的五种规则描述形式是：

( 1 ) length(Relop,N)

该规则描述形式限制目标域长度大于、小于或等于预设数值。其中， Relop 的取值有" <"、 "="、 ">", N是一个整数。这种文字限制目标域的长度。比如 Length(<，4)表示目标域的长度小于 4。

( 2 ) some(Var,Path,Feat, Value)

该规则描述形式限制目标域内部或上下文中存在预设特征。其中， Var 是一个变量名， Path的取值为关系特征集合， Feat包括 token特征和结构特征的集合， Value为 Feat的值， some能够同时表达目标域内部和上下文的特征。比如： some (？ A,[],Captialized,true)表示在目标域内部，存在一个 token是 Capitialized的； some (？ B,next,Captialized,true)表示目标域中存在一个 token, 它的后继 token (不论是否在目标域中)是 Captialized的。在 SRV的规则中，不同的变量绑定到不同的 token。

( 3 ) every(Feat, Value)

该规则描述形式限制目标域内每个标记的特征。其中， every文字对片段中的每 1个 token进行测试。比如： every(single— digit,false)表示片段中的每个 token 不能是 single— digit的。

( 4 ) position(Var,From,Relop,N)

该规则描述形式限制目标域内每个标记的特征。其中， position对片段中特定 token的位置进行限制， From的取值有 fromfirst,fromlast两种，分别表示从比较的基准是片段头部还是尾部。比如： position (？ A,fromfirst,<，2)。

( 5 ) relpos(Varl ,Var2,Relop,N)

该规则描述形式限制目标域内两个具有预设特征的标记的距离。其中， relpos对片段内部的两个特定 token之间的距离进行限制。比如：

relpos (？ A,?B,=2)表示 A所绑定的 token在 B所绑定的 token前面，且距离为 2。

例如， Email规则描述表示为：描述 some (？ A,next,word, "@" )和描述 some (？ A,previous, word," ：" ；)。在寻找这样的文字时，必须先将变量 A绑定到 fragment中的某个 token上，然后根据该 token的特征对变量 A进一步确定 Email地址。

图 3为本发明实施例三的用户信息采集方法的流程图。在本发明实施例三中，以已经完成了对信息库内容的存储为例，对后续过程中获取目标用户的用户信息的方法予以说明。如图 3所示，在完成信息库内容的存储之后，该方法包括如下过程。

步骤 301 : 获取目标用户的原始 ID。

在本发明实施例中，以目标用户的原始 ID为该目标用户的 Gmail邮箱为例。

步骤 302: 根据目标用户的原始 ID查询用户 ID库，获取目标用户的至少一个扩展 ID。

仍以步骤 301中的具体实例为例，在本步骤中，根据目标用户的 Gmail 邮箱，查询用户 ID库，以获取到该目标用户的移动电话号码为例，该移动电话号码作为扩展 ID。

步骤 303: 根据原始 ID和每个扩展 ID搜索信息库，获取原始 ID和每个扩展 ID对应的用户信息。

仍以上述步骤中的具体实例为例，在本步骤中，根据目标用户的 Gmail 邮箱和移动电话号码搜索信息库，通过该搜索过程，获取该目标用户的 Gmail 邮箱和移动电话号码对应的用户信息。用户信息可以包括用户在数据源中的注册信息以及该用户在数据源中的发言记录，例如：用户在网站发布的博客文章、网络论坛中用户发布的文章、回帖等。

在本发明实施例三中，在根据目标用户的原始 ID对该目标用户进行用户信息采集时，首先根据该原始 ID获取该目标用户的多个扩展 ID, 然后根据原始 ID和扩展 ID搜索信息库，因为信息库中预先存储了该用户在多个数据源中的用户信息，因此可以通过一次检索获取到多个数据源中该目标用户的用户信息，提高用户信息采集效率，并且由于可以直接从信息库中进行检索，节省了访问多个数据源的操作和时间，因此更加简便、易于实施。

图 4为本发明实施例四的用户信息采集系统的结构示意图。如图 4所示，该系统至少包括：用户原始 ID获取单元 41、查询单元 42、用户信息获取单元 43、用户 ID库 401和信息库 402。

其中，用户原始身份标识 ID获取单元用于获取目标用户的第一原始 ID。查询单元 42用于根据目标用户的第一原始 ID查询用户 ID库 401 , 获取目标用户的至少一个第一扩展 ID。用户信息获取单元 43用于根据第一原始 ID和每个第一扩展 ID分别搜索对应的数据源，获取至少一个数据源中的用户信息并存储到信息库 402。用户 ID库 401用于存储用户的第一原始 ID和第一扩展 ID。信息库 402用于存储用户信息。

在上述技术方案的基础上，具体地，用户信息获取单元 43具体用于获取第一原始 ID和每个第一扩展 ID在至少一个数据源中的搜索结果文本，从搜索结果文本中抽取用户信息并进行结构化处理，对结构化处理后的用户信息与对应的第一原始 ID或第一扩展 ID进行关联并存储到信息库 402。

在上述技术方案的基础上，进一步地，该系统中还可以包括：用户新增 ID获取单元 44。用户新增 ID获取单元 44用于从搜索结果文本中抽取目标用户的新增 ID并存储到用户 ID库 401。

在上述技术方案的基础上，具体地，用户新增 ID获取单元 44具体用于根据 HTML标签，将搜索结果文本划分为至少一个记录块，从每个记录块中抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第一扩展 ID, 根据预设的 ID比较方法，判断未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户，如果是，获取未知 ID为目标用户的新增 ID。

在上述技术方案的基础上，具体地，用户新增 ID获取单元 44具体用于对同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID进行共指消解和指代消解，判断未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户。或者，用户新增 ID获取单元 44具体用于比较同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的基本信息，判断未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户。或者，用户新增 ID获取单元 44具体用于对同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的用户信息进行聚类分析，判断未知 ID与同一个记录块中的目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID是否属于同一用户。

在上述技术方案的基础上，进一步地，用户原始 ID获取单元 41还用于获取目标用户的第二原始 ID。查询单元 42还用于根据目标用户的第二原始 ID查询用户 ID库 401 , 获取目标用户的至少一个第二扩展 ID。用户信息获取单元 43还用于根据第二原始 ID和每个第二扩展 ID搜索信息库 402, 获取第二原始 ID和每个第二扩展 ID对应的用户信息。

在本发明实施例四中，在根据目标用户的第一原始 ID对该目标用户进行用户信息采集时，用户原始 ID获取单元获取目标用户的第一原始 ID, 查询单元根据该第一原始 ID获取该目标用户的多个第一扩展 ID, 用户信息获取单元根据第一原始 ID搜索其对应的数据源并根据每个第一扩展 ID搜索各自对应的数据源，从而能够采集到多个数据源中该目标用户的用户信息，因此能够提高用户信息采集效率。

并且，在根据第一原始 ID和第一扩展 ID进行信息采集的过程中，用户新增 ID获取单元还可以根据用户信息以及上述第一原始 ID和第一扩展 ID获取用户的新增 ID,并更新用户 ID库，则在下一次获取用户的第一扩展 ID时，能够获取到该新增 ID, 提高了获取用户 ID的准确度和扩展性，在后续采集过程中，针对同一用户能够根据更多的 ID进行搜索，从而更加高效地采集用户信息。进一步地，在完成上述采集用户信息并存储到信息库之后，当需要根据第二原始 ID获取目标用户的用户信息时，用户信息获取单元还可以根据第二原始 ID和每个第二扩展 ID直接搜索信息库，获取第二原始 ID和每个第二扩展 ID对应的用户信息，从而能够直接从信息库中搜索获取所需的用户信息，能够更加简便地获取到用户信息。

以下分别介绍本发明实施例的上述用户信息采集方法的用户信息采集系统的两种具体应用，即，该系统与 SNS结合的应用以及该系统与 CAB结合的应用。在此应用情景下，用户 ID库可以包括 SNS或 SAB的本地通讯录和 /或网络通讯录，从而能够根据本地通讯录和 /或网络通讯录中记载的用户 ID, 获取用户 ID对应的其它 ID。

用户信息采集系统的应用的具体实施例一：本发明实施例的用户信息采集系统与 SNS结合的应用。

用户信息采集系统与 SNS结合时，该系统与 SNS的社交网关进行信息交互。社交网关提供一个统一的应用程序编程接口（ Application Programming Interface, 简称 API ) , 该 API连接至少一个 SNS, 能够为多个外部 SNS服务。在本应用的实施例中，用户信息采集系统通过社交网关的 API获取用户的 ID, 用户信息采集系统通过收集用户的网络活动信息，向社交网关对应的用户 ID中补充该用户对应的新增 ID和网络活动信息，从而丰富社交网关中用户相关的信息。

首先，用户信息采集系统向社交网关发送获取用户 ID的请求消息。该请求消息中包括：获取用户 ID的条件。例如，获取用户 ID的条件为：指定用户的所有联系人 ID; 或者，获取用户 ID的条件为：同属指定组织的用户 ID 等等。

然后，社交网关根据接收到的上述获取用户 ID的条件，向用户信息采集系统发送满足上述条件的用户 ID。

然后，用户信息采集系统根据获得的用户 ID, 采用本发明实施例一或实施例二的用户信息采集方法，采集该用户 ID相关的用户信息和同属该用户的其它 ID。其中，上述该用户 ID相关的用户信息中记载着该用户的网络活动信息。

然后，用户信息采集系统向社交网络发送该用户 ID相关的用户信息和同属该用户的其它 ID, 以使社交网关向自身存储的用户信息中补充用户 ID的网络活动内容和同属该用户的其它 ID。最后，社交网关向用户信息采集系统返回处理结果信息，以向用户信息采集系统告知当前处理状态。

通过上述过程，社交网关通过与本发明实施例的用户信息采集系统交互，获取到某一个用户 ID的网络活动信息以及该用户对应的其它新增 ID, 从而可以根据上述信息和 ID更新社交网关中的用户相关的信息。

用户信息采集系统的应用的具体实施例二：本发明实施例的用户信息采集系统与 CAB结合的应用。

CAB是一种在网络上为用户提供联系人信息服务的装置，通过用户信息采集系统与 CAB进行结合，从 CAB的给定用户的联系人中获取用户 ID, 用户信息采集系统通过用户 ID收集相应的网络活动信息和其它 ID标识，并把相关的信息补充到 CAB中，从而丰富 CAB中联系人的信息。

首先，用户信息采集系统向 CAB系统发送获取联系人信息的请求消息。该请求消息中可以包括：获取联系人信息的条件、指定的 CAB用户信息、授权信息或群组信息。例如，获取联系人信息的条件为：指定用户 CAB的所有联系人 ID; 或者，获取联系人信息的条件为指定用户 CAB同属指定组织的用户 ID; 或者，获取联系人信息的条件为公共群组中的群组 ID等等。

然后， CAB系统根据接收到的获取联系人信息的条件，向用户信息采集系统发送满足条件的用户 ID。

然后，用户信息采集系统向 CAB系统发送该用户 ID相关的用户信息和同属该用户的其它 ID, 例如，该其它 ID可以包括同属该用户的 Email账号、 MSN账号、 QQ号码、电话号码等，以使 CAB系统向自身存储的联系人信息中补充用户 ID的网络动内容和同属该用户的其它 ID。

最后， CAB系统向用户信息采集系统返回处理结果信息到，以向用户信息采集系统告知当前处理状态。

通过上述过程， CAB系统通过与本发明实施例的用户信息采集系统交互，获取到某一个联系人的网络活动信息以及该联系人对应的其它新增 ID, 从而可以根据上述信息和 ID更新社交网关中的联系人相关的信息。

需要说明的是：对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求书

1、一种用户信息采集方法，其特征在于，包括：

获取目标用户的第一原始身份标识 ID;

根据所述目标用户的第一原始 ID查询用户 ID库，获取所述目标用户的至少一个第一扩展 ID;

2、根据权利要求 1所述的方法，其特征在于，所述获取至少一个数据源中的用户信息并存储到信息库包括：

获取所述第一原始 ID和每个所述第一扩展 ID在至少一个数据源中的搜索结果文本；

从所述搜索结果文本中抽取用户信息并进行结构化处理；

对结构化处理后的用户信息与对应的第一原始 ID或第一扩展 ID进行关联并存储到信息库。

3、根据权利要求 2所述的方法，其特征在于，所述获取所述第一原始 ID 和每个所述第一扩展 ID在至少一个数据源中的搜索结果文本之后，还包括：从所述搜索结果文本中抽取目标用户的新增 ID并存储到用户 ID库。

4、根据权利要求 3所述的方法，其特征在于，所述从所述搜索结果文本中抽取目标用户的新增 ID包括：

根据 HTML标签，将所述搜索结果文本划分为至少一个记录块；从每个所述记录块中抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第一扩展 ID;

根据预设的 ID比较方法，判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户；

如果是，获取所述未知 ID为所述目标用户的新增 ID。

5、根据权利要求 4所述的方法，其特征在于，所述从每个所述记录块中抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第一扩展 ID包括：

根据所述记录块中的带有 "电子邮箱" 字样的文本片段，利用前一个、后一个或当前关系特征语句进行标记映射，使用基于规则学习的关系抽取算法，抽取出所述记录块中的电子邮箱信息。

6、根据权利要求 5所述的方法，其特征在于，所述基于规则学习的关系抽取算法包括：校验序列规则 SRV算法；

所述 SRV算法的规则描述形式包括：

限制目标域长度大于、小于或等于预设数值；

和 /或，限制目标域内部或上下文中存在预设特征的标记；

和 /或，限制目标域内每个标记的特征；

和 /或，限制目标域内两个具有预设特征的标记的距离。

7、根据权利要求 4所述的方法，其特征在于，所述根据预设的 ID比较方法，判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户包括：

选出同时出现在同一个记录块内的 ID, 作为属于同一用户的概率大的 ID, 所述同时出现在同一个记录块内的 ID包括所述目标用户的第一原始 ID 和 /或目标用户的第一扩展 ID和所述未知 ID;

根据预设的 ID比较方法，判断上述选出的属于同一用户的概率大的 ID 是否属于同一个用户。

8、根据权利要求 4至 7中任意一项所述的方法，其特征在于，所述预设的 ID比较方法包括：

对同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID进行共指消解和指代消解；

或，比较同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID的基本信息；

或，对同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的用户信息进行聚类分析。

9、根据权利要求 1至 7中任意一项所述的方法，其特征在于，还包括：获取目标用户的第二原始 ID;

根据所述目标用户的第二原始 ID查询用户 ID库，获取所述目标用户的至少一个第二扩展 ID;

根据所述第二原始 ID和每个所述第二扩展 ID搜索信息库，获取所述第二原始 ID和每个所述第二扩展 ID对应的用户信息。

10、根据权利要求 9所述的方法，其特征在于，还包括：

所述获取目标用户的第一原始身份标识 ID包括：从社交网关的应用程序编程接口 API获取目标用户的第一原始 ID,所述社交网关的 API连接至少一个社会性网络服务 SNS;

所述获取目标用户的第二原始 ID包括：从所述社交网关的所述 API获取目标用户的第二 ID ,所述社交网关的 API连接至少一个社会性网络服务 SNS。

11、一种用户信息采集系统，其特征在于，包括：

信息库，用于存储所述用户信息。

12、根据权利要求 11所述的系统，其特征在于，

所述用户信息获取单元具体用于获取所述第一原始 ID和每个所述第一扩展 ID在至少一个数据源中的搜索结果文本，从所述搜索结果文本中抽取用户信息并进行结构化处理，对结构化处理后的用户信息与对应的第一原始 ID 或第一扩展 ID进行关联并存储到信息库。

13、根据权利要求 12所述的系统，其特征在于，还包括：

用户新增 ID获取单元，用于从所述搜索结果文本中抽取目标用户的新增 ID并存储到用户 ID库。

14、根据权利要求 12所述的系统，其特征在于，

所述用户新增 ID获取单元具体用于根据 HTML标签，将所述搜索结果文本划分为至少一个记录块，从每个所述记录块中抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第一扩展 ID, 根据预设的 ID比较方法，判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID 和 /或目标用户的第一扩展 ID是否属于同一用户，如果是，获取所述未知 ID 为所述目标用户的新增 ID。

15、根据权利要求 14所述的系统，其特征在于，所述用户新增 ID获取单元具体用于根据所述记录块中的带有 "电子邮箱" 字样的文本片段，利用前一个、后一个或当前关系特征语句进行标记映射，使用基于规则学习的关系抽取算法，抽取出所述记录块中的电子邮箱信自

16、根据权利要求 14所述的系统，其特征在于，

所述用户新增 ID获取单元具体用于选出同时出现在同一个记录块内的 ID,作为属于同一用户的概率大的 ID,所述同时出现在同一个记录块内的 ID 包括所述目标用户的第一原始 ID和 /或目标用户的第一扩展 ID和所述未知 ID, 根据预设的 ID比较方法，判断上述选出的属于同一用户的概率大的 ID 是否属于同一个用户

17、根据权利要求 14至 16中任意一项所述的系统，其特征在于，所述用户新增 ID获取单元具体用于对同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID进行共指消解和指代消解，判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户；

或者，所述用户新增 ID获取单元具体用于比较同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的基本信息，判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户；

或者，所述用户新增 ID获取单元具体用于对同一个记录块中的所述未知

ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的用户信息进行聚类分析，判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID是否属于同一用户。

18、根据权利要求 11至 16中任意一项所述的系统，其特征在于，所述用户原始 ID获取单元还用于获取目标用户的第二原始 ID;

所述查询单元还用于根据所述目标用户的第二原始 ID查询用户 ID库，获取所述目标用户的至少一个第二扩展 ID;

所述用户信息获取单元还用于根据所述第二原始 ID和每个所述第二扩展 ID搜索信息库，获取所述第二原始 ID和每个所述第二扩展 ID对应的用户信息。

19、根据权利要求 18所述的系统，其特征在于，

用户原始身份标识 ID获取单元连接社交网关的应用程序编程接口 API, 具体用于从所述社交网关的 API获取目标用户的第一原始 ID和 /或所述目标用户的第二 ID, 所述社交网关的 API连接至少一个社会性网络服务 SNS。