WO2016112782A1

WO2016112782A1 - 一种用户的生活圈提取方法及系统

Info

Publication number: WO2016112782A1
Application number: PCT/CN2015/099766
Authority: WO
Inventors: 邵佳帅; 牟川; 邢志峰
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2015-01-13
Filing date: 2015-12-30
Publication date: 2016-07-21
Also published as: CN104598573A; CN104598573B

Abstract

一种用户的生活圈提取方法及系统，方法包括：获取多个用于进行训练的切分训练地址，采用条件随机场模型进行训练，得到地址切分训练模型；获取多个用于进行训练的标识训练地址，采用条件随机场模型进行训练，得到地址标识训练模型；获取至少一个所述用户的实际地址，将所述实际地址进行切分得到实际最小切分结果，输入所述地址切分训练模型，得到实际成词类型标注，将所述实际最小切分结果重新组合为生活圈名称；从所述实际最小切分结果中选取实际敏感词，输入所述地址标识训练模型，得到实际生活圈类型标识；每个所述实际地址生成包括所述生活圈名称及实际生活圈类型标识的生活圈。该方法准确地识别出用户的地址的生活圈的名称和类型。

Description

一种用户的生活圈提取方法及系统

技术领域

本发明涉及电子商务相关技术领域，特别是一种用户的生活圈提取方法及系统。

背景技术

在电子商务网站进行购物的用户所填写的收货地址中蕴含着丰富的信息，识别出用户地址中的小区名字、写字楼名字或办公地点名字等对电子商务公司来说是很重要的工作。

现有提取地址的“生活圈”关键词，一般都是利用自组织词库进行分词查找。

然而，通过自组织词库，无法精确的从收货地址中将“生活圈”的名字和类型提取出来。

发明内容

基于此，有必要针对现有技术无法精确的从收货地址中将“生活圈”的名字和类型提取出来的技术问题，提供一种用户的生活圈提取方法及系统。

一种用户的生活圈提取方法，包括：

地址切分训练步骤，包括：获取多个用于进行训练的切分训练地址，对所述切分训练地址进行切分得到切分最小训练结果，获取切分训练地址集，所述切分训练地址集包括所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注，获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征，将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训练，得到地址切分训练模型；

地址标识训练步骤，包括：获取多个用于进行训练的标识训练地址，对所述标识训练地址进行切分得到标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，获取标识训练地址集，所述标识训练地址集包括训练敏感词以及用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识，获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征，将所述标识训练地址集和所述标识特征模板采用条件随机场模型进行训练，得到地址标识训练模型；

实际地址获取步骤，包括：获取至少一个所述用户的实际地址，将所述实际地址进行切分得到实际最小切分结果；

实际地址切分步骤，包括：将所述实际最小切分结果输入所述地址切分训练模型，得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注，根据所述实际最小切分结果的实际成词类型标注，将所述实际最小切分结果重新组合为生活圈名称；

实际地址标识步骤，包括：从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，将所述实际敏感词输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识；

生活圈提取步骤，包括：对每个所述实际地址生成包括所述生活圈名称及对相应的实际敏感词的实际生活圈类型标识的生活圈。

一种用户的生活圈提取系统，包括：

地址切分训练模块，用于：获取多个用于进行训练的切分训练地址，对所述切分训练地址进行切分得到切分最小训练结果，获取切分训练地址集，所述切分训练地址集包括所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注，获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征，将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训练，得到地址切分训练模型；

地址标识训练模块，用于：获取多个用于进行训练的标识训练地址，对所述标识训练地址进行切分得到标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，获取标识训练地址集，所述标识训练地址集包括训练敏感词以及用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识，获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征，将所述标识训练地址集和所述标识特征模板采用条件随机场模型进行训练，得到地址标识训练模型；

实际地址获取模块，用于：获取至少一个所述用户的实际地址，将所述实际地址进行切分得到实际最小切分结果；

实际地址切分模块，用于：将所述实际最小切分结果输入所述地址切分训练模型，得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注，根据所述实际最小切分结果的实际成词类型标注，将所述实际最小切分结果重新组合为生活圈名称；

实际地址标识模块，用于：从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，将所述实际敏感词输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识；

生活圈类型模块，用于：对每个所述实际地址生成包括所述生活圈名称及对相应的实际敏感词的实际生活圈类型标识的生活圈。

本发明通过训练地址，训练出地址切分训练模型和地址标识训练模型，并将实际地址通过地址切分训练模型和地址标识训练模型分别提取出相应的生活圈名称及实际生活圈类型标识，从而准确地识别出用户的地址的生活圈的名称和类型。

附图说明

图1为本发明一种用户的生活圈提取方法的工作流程图；

图2为切分训练地址集的例子示意图；

图3为切分特征模板的例子示意图；

图4为标识训练地址集的例子示意图；

图5为标识特征模板的例子示意图；

图6为切分标识的例子示意图；

图7为本发明一种用户的生活圈提取系统的结构模块图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图1所示为本发明一种用户的生活圈提取方法的工作流程图，包括：

步骤S101，包括：获取多个用于进行训练的切分训练地址，对所述切分训练地址进行切分得到切分最小训练结果，获取切分训练地址集，所述切分训练地址集包括所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注，获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征，将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训练，得到地址切分训练模型；

步骤S102，包括：获取多个用于进行训练的标识训练地址，对所述标识训练地址进行切分得到标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，获取标识训练地址集，所述标识训练地址集包括训练敏感词以及用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识，获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征，将所述标识训练地址集和所述标识特征模板采用条件随机场模型进行训练，得到地址标识训练模型；

步骤S103，包括：获取至少一个所述用户的实际地址，将所述实际地址进行切分得到实际最小切分结果；

步骤S104，包括：将所述实际最小切分结果输入所述地址切分训练模型，得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注，根据所述实际最小切分结果的实际成词类型标注，将所述实际最小切分结果重新组合为生活圈名称；

步骤S105，包括：从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，将所述实际敏感词输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识；

步骤S106，包括：对每个所述实际地址生成包括所述生活圈名称及对相应的实际敏感词的实际生活圈类型标识的生活圈。

其中，步骤S101获取多个用于进行训练的切分训练地址，对所述切分训练地址进行切分得到切分最小训练结果，并采用条件随机场模型进行训练。对所述切分训练地址进行切分得到切分最小训练结果可以采用现有的自动切分方法实现，例如采用现有名称为snailseg的分词工具，其为开源的最小切分软件，在github上面可以下载到源码。切分最小训练结果指的是将训练地址进行最小切分，例如：“北辰世纪中心”的最小切分结果为：“北”、“辰”、“世纪”、“中心”。

将切分最小训练结果添加用于描述所述切分最小训练结果的成词类型的训练成词类型标注，得到切分训练地址集。训练成词类型标注可以采用人工对所有的切分最小训练结果进行标注，成词类型标注指的是该最小训练结果在成词时的类型的标注。优选地，成词类型包括词开头、词中间或结尾、以及单独成词。例如“利泽中二路”的最小切分结果为“利泽”、“中二”、“路”，则“利泽”为词开头，“中二”和“路”为词中间或结尾，而“北三环东路北京化工大学”的最小切分结果为“北三环”、“东路”、“北京化工大学”，其中“北三环”为词开头，“东路”为词中间或结尾，而“北京化工大学”为单独成词。

在处理地址时，会遇到很多规则解决不了的难题。

(1)地址切分中会遇到切分歧义和新地址的难题，切分歧义如：中关村北大街、中关村/北大街，用规则很难解决到底该在哪里切分；而每当新地址出现的时候，也要不断的添加新的规则，这也是一项无止境的工作。

(2)地址标注会遇到标注歧义的问题。下面就标注歧义来说明。

例如“XX中心”这么一个地址单元，可能是一个“写字楼”，也可能是一家“公司”或是一家“机构”。例如：“北辰世纪中心”就是一个写字楼，而“寿山福海养老中心”就是一个机构。如果通过人工指定规则的话，就会比较繁琐，而且也不一定能解决好。

条件随机场(CRF)理论可以用于序列标记、数据分割、组块分析等自然语言处理任务中。在中文分词、中文人名识别、歧义消解等汉语自然语言处理任务中都有应用，表现很好。

对于一个给定的条件随机场，输入序列x为训练的数据，输出序列y为标记的结果，通过计算条件概率P(Y_i＝y_i|x)，P(Y_i-1＝y_i-1，Y_i＝y_i|x)相应的数学期望，选择其中期望值最大的y_i作为x_i的结果。

目前基于CRF的主要工具实现有CRF，FlexCRF，CRF++，和CRFsuite，本发明优选使用CRFsuite。

对于上述地址切分和标注问题基于条件随机场(CRF)的模型是怎么解决呢？其实，地址单元之间是有关联的，例如，“北辰世纪中心”后面有“12层”这么一个“楼层”的类型，因此“北辰世纪中心”是一个“写字楼”的概率要大于一个“机构”。条件随机场模型在训练的时候，得到很多这样的信息。在后续标注时，就给出准确的答案。CRF 就是这样利用词的前后关系进行处理的。

切分特征模板对所述切分训练地址集进行特征描述，对于条件随机场模型来说，训练时需要训练数据及特征模板，这样训练模型就会根据事先写好的特征模板训练出每个特征的权重。特征函数是状态特征函数和转移特征函数的统一形式表示。特征函数通常是二值函数，取值要么为1要么为0。条件随机场模型采用如下特征函数：

上面的公式为条件随机场模型设定的一个特征函数，来训练特征模板描述的是否有真实意义。在预先编写的特征模板中，描述了一些词与词之间的关系，然后根据训练数据去训练，如果训练数据的特征符合编写的特征模板的其中一个特征，那么对于特征模板的这一个特征来说，公式1的结果就是1，如果不符合，结果就是0。也就是说，公式1的结果，是由训练数据加上特征模板一起训练出的结果。

训练数据在步骤S101中即切分训练地址集，而特征模板在步骤S101中即切分特征模板。同样地，在步骤S102中标识训练地址集为条件随机场模型的训练数据，而标识特征模板为条件随机场模型的特征模板。

条件随机场模型通过对特征函数的计算，从而获得特征模板的每个特征的权重，在步骤S104中，当向切分训练模型中输入实际最小切分结果后，通过特征模板的每个特征的权重进行计算，得到实际最小切分结果的多个可能的成词类型的概率，选择其中期望值最大的成词类型的标注作为实际成词类型标注。同样地，在步骤S105中，则选择其中期望值最大的生活圈类型的标识作为实际生活圈类型标识。

对于步骤S104，则根据每个实际最小切分结果的实际成词类型标注，将一个或多个实际最小切分结果重新组合，其结果则为生活圈名称。

上述的标注或标识指的是通过字母、符号、文字或者数值表示成词类型或者生活圈类型。

在其中一个实施例中：

所述步骤S101，具体包括：

将多个用于进行训练的切分训练地址采用自动机规则进行切分，每个所述切分训练地址切分后得到至少一个切分最小训练结果，生成包括多个切分训练地址组的训练地址集，每个所述切分训练地址组包括至少一个切分训练单元，每个所述切分训练单元包括一个所述切分最小训练结果，且同一切分训练地址组所包括的切分训练单元的切分最小训练结果由同一切分训练地址切分后得到；

获取切分训练地址集，所述切分训练地址集对每个所述切分训练单元添加用于描述所述切分最小训练结果在同一切分训练地址组内的成词类型的训练成词类型标注；

获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征；

对所述切分训练地址集和所述切分特征模板，采用条件随机场模型进行训练，得到地址切分训练模型；

所述步骤S103，具体包括：获取至少一个所述用户的实际地址，将所述实际地址采用自动机规则进行切分得到实际最小切分结果，每个所述实际地址切分后得到至少一个实际最小切分结果；

所述步骤S104，具体包括：

生成包括多个实际切分地址组的实际切分地址集，每个所述实际切分地址组包括至少一个实际切分单元，每个所述实际切分单元包括一个所述实际最小切分结果，且同一实际切分地址组所包括的实际切分单元的实际最小切分结果由同一实际地址切分后得到；

将所述实际切分地址集输入所述地址切分训练模型，得到用于描述所述实际最小切分结果在同一实际切分地址组内的成词类型的实际成词类型标注，根据每个所述实际最小切分结果对应的实际成词类型标注，将同一实际切分地址组内的实际最小切分结果重新组合为生活圈名称。

优选地：

所述切分训练单元还包括：切分最小训练结果是否为敏感词的敏感词标识、切分最小训练结果的长度；

所述实际切分单元还包括：实际最小切分结果是否为敏感词的敏感词标识、实际最小切分结果的长度；

所述切分特征包括：

由相对位移为第一预设数值的第一切分训练单元包括的切分最小训练结果定义的最小结果单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的敏感词标识定义的敏感词单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的长度定义的长度单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的切分最小训练结果与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第一联合特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的敏感词标识与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第二联合特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的长度与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第三联合特征。

在其中一个实施例中：

所述步骤S102，具体包括：

将多个用于进行训练的标识训练地址采用自动机规则进行切分，每个所述标识训练地址切分后得到至少一个标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，生成包括多个标识训练地址组的训练地址集，每个所述标识训练地址组包括至少一个标识训练单元，每个所述标识训练单元包括一个所述训练敏感词，且同一标识训练地址组所包括的标识训练单元的训练敏感词由同一标识训练地址切分后得到；

获取标识训练地址集，所述标识训练地址集对每个所述标识训练单元添加用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识；

获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征；

对所述标识训练地址集和所述标识特征模板，采用条件随机场模型进行训练，得到地址标识训练模型；

步骤S105，具体包括：

从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，生成包括多个实际标识地址组的实际标识地址集，每个所述实际标识地址组包括至少一个实际标识单元，每个所述实际标识单元包括一个所述实际敏感词，且同一实际标识地址组所包括的实际标识单元的实际敏感词由同一实际地址切分后得到；

将所述实际标识地址集输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识。

优选地：

所述标识特征包括：

由相对位移为第一预设数值的第一标识训练单元包括的训练敏感词定义的敏感词单个特征；或者

由相对位移为第一预设数值的第一标识训练单元包括的训练敏感词与至少一个相对位移为第二预设数值的第二标识训练单元包括的训练敏感词共同定义的敏感词联合特征。

作为本发明的一个最佳实施例，采用CRFSuite实现条件随机场模型，如图2所示为切分训练地址集的例子，图3所示为切分特征模板的例子，图4所示为标识训练地址集的例子，图5所示为标识特征模板的例子。

用户填写的地址很杂乱，如一些大小写混乱、全角半角问题，需要对这些地址进行预处理，包括：

1)字符归一化

小写转大写

中文的xx层等转数字

阿拉伯的xx环等转中文

全角转半角

繁体转成简体

2)去除无用字符

去除首尾无用字符

空格或者\t字符的解决

移除标点符号以及特殊符号

等等

3)去除无用信息

移除电话号码

移除email

等等

同时，地址的结尾会有具体到门牌号的一些信息，对生活圈提取来说是干扰信息，需要去掉。例如：将“北京市朝阳区北辰西路8号北辰世纪中心A座16层京东商城1609室营销数据专家组”去掉干扰信息后为“朝阳区北辰西路8号北辰世纪中心A座16层”。

地址经过字符串预处理和去除干扰信息后会有大量重复的情况，为了避免后续的随机抽样产生数据过于单一，需要对地址进行去掉重复的操作。

从全部经过上面三步处理后的地址中随机抽取出5000条作为训练集，随机抽取5000条作为测试集。将上述训练集的地址应用于地址切分训练模型时，则为切分训练地址，将上述训练集的地址应用于地址标识训练模型时，则为标识训练地址。

如图2所示，切分训练地址集的每一行为一个切分训练单元，一个或多个切分训练单元组成一个切分训练地址组，两个相邻的切分训练地址组之间采用空行隔开。每个切分训练单元一共有四列：第一列是最小切分后的词即切分最小训练结果；第二列为敏感词标识，有两种符号“+”、“-”，如果切分最小训练结果是以一个敏感的地址词语结尾的，如路，大学，那么为“+”，否则为“-”；第三列描述的是切分最小训练结果的长度，如“利泽”的长度为2；第四列是训练成词类型标注，有三种符号“B”、“I”、“O”，如果切分最小训练结果是一个词的开头，则用“B”表示，如果切分最小训练结果是一个词的中间或者结尾，用“I”表示，如果切分最小训练结果是单独成词，用“O”表示。

实际切分地址集与切分训练地址集类似，其唯一的区别为每个实际切分单元为三列，第一列为实际最小切分结果；第二列为敏感词标识；第三列为实际最小切分结果的长度。切分训练模型在接收到实际切分地址集后，通过计算并填写每个实际切分单元的第四列，即为实际最小切分结果添加实际成词类型标注。这样通过识别“B”、“I”、“O”的组合就可以还原出词了。

如图3所示，切分特征模板中的每一行代表一条切分特征，当采用不同软件实现条件随机场时，切分特征模板的表现形式会有所不同，然而其所实现的效果是相同的。对于采用CRFSuite实现条件随机场模型时，切分特征模板的形式如图3所示，其中：

w、pos、m分别代表切分最小训练结果、切分最小训练结果的敏感词标识、切分最小训练结果的长度。切分特征的第二个数字描述的是相对位移，相对位移指的是相对于当前切分训练单元相差预设数值的其他切分训练单元。比如：(‘w’，0)代表的就是相对位移为0的切分最小训练结果，即当前切分训练单元的切分最小训练结果，而(‘w’，1)代表的是当前切分训练单元的下一行切分训练单元的切分最小训练结果。

条件随机场模型在训练时会对每一个切分特征计算在不同的训练成词类型标注下的概率，例如对于(w’，0)的特征，则统计每个切分训练单元的切分最小训练结果所对应的训练成词类型标注为B的概率、训练成词类型标注为I的概率和训练成词类型标注为O的概率。

每一个切分特征表示的是一个或多个切分训练单元之间具有相关的可能。比如，如果发现了一个切分训练单元的切分最小训练结果与下一个最小训练切分单元的切分最小训练结果有一定的组成关系，则可以用特征模板这样描述((′w′，0)，(′w′，1))。例如，当观测出“望京”和“科技园”有一定的组成关系(这里就是能组成一个词)，则特征模型就可以写成((′w′，0)，(′w′，1))。

对于((′w′，0)，(′w′，1))，条件随机场模型中训练时则分别计算特征(′w′，0)在不同的训练成词类型标注下的概率以及特征(′w′，1)在不同的训练成词类型标注下的概率，然后再计算两者的联合概率。

切分特征并不代表每两个词都一定会有关系，其仅表示两者之间具有一定的可能性，然后训练的过程中，通过切分特征模板描述关系，CRF会自动生成一个特征函数，可以训练出这两个切分最小训练结果之间到底有没有关系。再举个例子，m代表的是每个词的长度，如果观测出，经常有2个字后面接着3个字会成词，则特征模型就可以写成((′m′，0)，(′m′，1))，这样，CRF也会自动生成一个特征函数去训练两个切分最小训练结果的长度之间到底有没有这样的特征。再比如：如果想描述图2中第14行的“天”与13行的“新月”和15行的“宾馆”有成词的可能，那么就在切分特征模板中编写((‘w’，-1)，(‘w’，0)，(‘w’，1))。这样CRF会自动构建出特征函数去训练这三个词的联合概率。

特征模板可以为手工编写的，根据观察者大量的观察，总结出的一些词与词之间的关系，用特征模板表达出来，然后CRF会根据特征模板自动生成一些特征函数去训练词与词之间是否有这样的关系。

上述的“成词”表示组成具有实际地址意义的词，即作为生活圈名称。

具体训练的方式如下：

执行命令

cat train.txt|python chunking.py＞train.crfsuite.txt，

就可以把train.txt切分训练地址集根据预先编写的切分特征模板chunking.py自动生成CRF训练所需要的数据文件。

使用训练命令进行模型训练：

crfsuite learn-m word.model train.crfsuite.txt

其中word.model是训练得到的地址切分训练模型的模型数据。

对测试集的5000条地址按照上述步骤生成同样的格式生成一份实际切分地址集，然后使用地址切分训练模型对实际切分地址集进行测试，测试命令为：

crfsuite tag-r-m word.model test.crfsuite.txt＞check.txt

其中，test.crfsuite.txt是实际切分地址集，check.txt是结果文件，里面储存着地址切分训练模型计算后的结果。即对test.cffsuite.txt实际切分地址集中的每条实际切分单元根据特征模板中的每个特征进行计算，选择其中概率最大的实际成词类型标注，并添加到对应的实际切分单元中。将其与预先通过人工标注的结果进行比较，可以得出该地址切分训练模型的准确率。

在第一次测试中，测试集中的5000条地址，通过模型共识别出4566个“生活圈”，其中正确识别的个数是4060个。经过多次训练和测试后的结果计算，模型的正确率在82％～89％之间；模型的召回率在90％～95％之间。其中：

正确率＝提取出的正确信息条数/提取出的信息条数；

召回率＝提取出的正确信息条数/样本中的信息条数。

因此，可以通过获取实际的用户的地址，并运行：

crfsuite tag-r-m word.model real.crfsuite.txt＞real.txt。

其中，real.crfsuite.txt为实际切分地址集，而real.txt为实际结果。

最后根据实际结果得到的实际最小切分结果的实际成词类型标注，，将所述实际最小切分结果重新组合，组合的结果即为生活圈名称。

对于地址标识也是采用上述类似的方式。

标识训练地址集所包括的是训练敏感词，训练敏感词是从标识最小训练结果中抽取出来的，当采用同样的训练集时，标识最小训练结果与切分最小训练结果可以相同。训练敏感词是标识最小训练结果的一部分，例如如图4所示的标识训练地址集，其每一行为一个标识训练单元，一个或多个标识训练单元组成一个标识训练地址组，两个相邻的标识训练地址组之间采用空行隔开。每个标识训练单元一共有两列：第一列是训练敏感词，例如“路”、“村”、“号院”。训练敏感词可以在进行自动机规则切分时，通过预设规则进行选定，其中对于501，12-01这样的门牌号做了统一处理，都置为num。标识训练单元的第二列为训练生活圈类型标识，采用数字代替其类型，每一个数字只代表一种类型。

标识特征模板与切分特征模板类似，如图5所示是观察者根据观察得到的地址单元之间的关系编写的标识特征模板，当采用不同软件实现条件随机场时，切分特征模板的表现形式会有所不同，然而其所实现的效果是相同的。对于采用CRFSuite实现条件随机场模型时，切分特征模板的形式如图5所示。由于标识训练地址集只有两列，因此标识特征模板只需采用w即可。

随后，利用条件随机场就可以根据特征模板描述的关系来计算每两个特征之间的转移概率。从而得到训练后的模型。

通过训练得到标识训练模型，命令如下：

crfsuite learn-m new_word.model train.crfsuite.txt

得到模型word.model，然后将实际地址也采用上述方式生成实际标识地址集。实际标识地址集与标识训练地址集的区别在于，实际标识地址集的每个实际标识单元仅包括实际敏感词，并不包括生活圈类型标识。

将实际标识地址集通过得到的标识训练模型进行标注，命令如下：

crfsuite tag-r-m word.model test.crfsuite.txt＞check.txt

则标识训练模型会为每个实际敏感词添加实际生活圈类型标识。

最后把实际生活圈类型标识翻译为对应的生活圈类型，则能将每个实际地址与对应的生活圈类型关联。

如图6所示，“北京市朝阳区北辰西路8号北辰世纪中心16层京东商城”通过执行步骤S104会切分为“北京市”、“朝阳区”、“北辰西路”、“8号”、“北辰世纪中心”、“16层”、“京东商城”。而执行步骤S105，则“北京市”的生活圈类型标注为“市”、“朝阳区”的生活圈类型标注为“区”、“北辰西路”的生活圈类型标注为“路”、“8号”的生活圈类型标注为“号”、“北辰世纪中心”的生活圈类型标注为“写字楼”、“16层”的生活圈类型标注为“楼层”、“京东商城”的生活圈类型标注为“单位”。从而得到以下生活圈：“北京市生活圈”、“朝阳区生活圈”、“北辰西路生活圈”、“8号生活圈”、“北辰世纪中心写字楼生活圈”、“16层楼层生活圈”和“京东商城单位生活圈”。

如图7所示为本发明一种用户的生活圈提取系统的结构模块图，包括：

地址切分训练模块701，用于：获取多个用于进行训练的切分训练地址，对所述切分训练地址进行切分得到切分最小训练结果，获取切分训练地址集，所述切分训练地址集包括所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注，获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征，将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训练，得到地址切分训练模型；

地址标识训练模块702，用于：获取多个用于进行训练的标识训练地址，对所述标识训练地址进行切分得到标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，获取标识训练地址集，所述标识训练地址集包括训练敏感词以及用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识，获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征，将所述标识训练地址集和所述标识特征模板采用条件随机场模型进行训练，得到地址标识训练模型；

实际地址获取模块703，用于：获取至少一个所述用户的实际地址，将所述实际地址进行切分得到实际最小切分结果；

实际地址切分模块704，用于：将所述实际最小切分结果输入所述地址切分训练模型，得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注，根据所述实际最小切分结果的实际成词类型标注，将所述实际最小切分结果重新组合为生活圈名称；

实际地址标识模块705，用于：从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，将所述实际敏感词输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识；

生活圈类型模块706，用于：对每个所述实际地址生成包括所述生活圈名称及对相应的实际敏感词的实际生活圈类型标识的生活圈。

在其中一个实施例中：

所述地址切分训练模块，具体用于：

所述实际地址获取模块，具体用于：获取至少一个所述用户的实际地址，将所述实际地址采用自动机规则进行切分得到实际最小切分结果，每个所述实际地址切分后得到至少一个实际最小切分结果；

所述实际地址切分模块，具体用于：

在其中一个实施例中：

所述切分特征包括：

在其中一个实施例中；

所述地址标识训练模块，具体用于：

实际地址标识模块，具体用于：

在其中一个实施例中：

所述标识特征包括：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种用户的生活圈提取方法，其特征在于，包括：

地址切分训练步骤，包括：获取多个用于进行训练的切分训练地址，对所述切分训练地址进行切分得到切分最小训练结果，获取切分训练地址集，所述切分训练地址集包括所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注，获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征，将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训练，得到地址切分训练模型；

地址标识训练步骤，包括：获取多个用于进行训练的标识训练地址，对所述标识训练地址进行切分得到标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，获取标识训练地址集，所述标识训练地址集包括训练敏感词以及用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识，获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征，将所述标识训练地址集和所述标识特征模板采用条件随机场模型进行训练，得到地址标识训练模型；

实际地址获取步骤，包括：获取至少一个所述用户的实际地址，将所述实际地址进行切分得到实际最小切分结果；

实际地址切分步骤，包括：将所述实际最小切分结果输入所述地址切分训练模型，得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注，根据所述实际最小切分结果的实际成词类型标注，将所述实际最小切分结果重新组合为生活圈名称；

实际地址标识步骤，包括：从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，将所述实际敏感词输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识；

生活圈提取步骤，包括：对每个所述实际地址生成包括所述生活圈名称及对相应的实际敏感词的实际生活圈类型标识的生活圈。
根据权利要求1所述的用户的生活圈提取方法，其特征在于：

所述地址切分训练步骤，具体包括：

将多个用于进行训练的切分训练地址采用自动机规则进行切分，每个所述切分训练地址切分后得到至少一个切分最小训练结果，生成包括多个切分训练地址组的训练地址集，每个所述切分训练地址组包括至少一个切分训练单元，每个所述切分训练单元包括一个所述切分最小训练结果，且同一切分训练地址组所包括的切分训练单元的切分最小训练结果由同一切分训练地址切分后得到；

获取切分训练地址集，所述切分训练地址集对每个所述切分训练单元添加用于描述所述切分最小训练结果在同一切分训练地址组内的成词类型的训练成词类型标注；

获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征；

对所述切分训练地址集和所述切分特征模板，采用条件随机场模型进行训练，得到地址切分训练模型；

所述实际地址获取步骤，具体包括：获取至少一个所述用户的实际地址，将所述实际地址采用自动机规则进行切分得到实际最小切分结果，每个所述实际地址切分后得到至少一个实际最小切分结果；

所述实际地址切分步骤，具体包括：

生成包括多个实际切分地址组的实际切分地址集，每个所述实际切分地址组包括至少一个实际切分单元，每个所述实际切分单元包括一个所述实际最小切分结果，且同一实际切分地址组所包括的实际切分单元的实际最小切分结果由同一实际地址切分后得到；

将所述实际切分地址集输入所述地址切分训练模型，得到用于描述所述实际最小切分结果在同一实际切分地址组内的成词类型的实际成词类型标注，根据每个所述实际最小切分结果对应的实际成词类型标注，将同一实际切分地址组内的实际最小切分结果重新组合为生活圈名称。
根据权利要求2所述的用户的生活圈提取方法，其特征在于：

所述切分训练单元还包括：切分最小训练结果是否为敏感词的敏感词标识、切分最小训练结果的长度；

所述实际切分单元还包括：实际最小切分结果是否为敏感词的敏感词标识、实际最小切分结果的长度；

所述切分特征包括：

由相对位移为第一预设数值的第一切分训练单元包括的切分最小训练结果定义的最小结果单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的敏感词标识定义的敏感词单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的长度定义的长度单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的切分最小训练结果与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第一联合特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的敏感词标识与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第二联合特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的长度与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第三联合特征。
根据权利要求1所述的用户的生活圈提取方法，其特征在于：

所述地址标识训练步骤，具体包括：

将多个用于进行训练的标识训练地址采用自动机规则进行切分，每个所述标识训练地址切分后得到至少一个标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，生成包括多个标识训练地址组的训练地址集，每个所述标识训练地址组包括至少一个标识训练单元，每个所述标识训练单元包括一个所述训练敏感词，且同一标识训练地址组所包括的标识训练单元的训练敏感词由同一标识训练地址切分后得到；

获取标识训练地址集，所述标识训练地址集对每个所述标识训练单元添加用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识；

获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征；

对所述标识训练地址集和所述标识特征模板，采用条件随机场模型进行训练，得到地址标识训练模型；

所述实际地址获取步骤，具体包括：获取至少一个所述用户的实际地址，将所述实际地址采用自动机规则进行切分得到实际最小切分结果，每个所述实际地址切分后得到至少一个实际最小切分结果；

实际地址标识步骤，具体包括：

从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，生成包括多个实际标识地址组的实际标识地址集，每个所述实际标识地址组包括至少一个实际标识单元，每个所述实际标识单元包括一个所述实际敏感词，且同一实际标识地址组所包括的实际标识单元的实际敏感词由同一实际地址切分后得到；

将所述实际标识地址集输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识。
根据权利要求4所述的用户的生活圈提取方法，其特征在于：

所述标识特征包括：

由相对位移为第一预设数值的第一标识训练单元包括的训练敏感词定义的敏感词单个特征；或者

由相对位移为第一预设数值的第一标识训练单元包括的训练敏感词与至少一个相对位移为第二预设数值的第二标识训练单元包括的训练敏感词共同定义的敏感词联合特征。
一种用户的生活圈提取系统，其特征在于，包括：

地址切分训练模块，用于：获取多个用于进行训练的切分训练地址，对所述切分训练地址进行切分得到切分最小训练结果，获取切分训练地址集，所述切分训练地址集包括所述切分最小训练结果以及用于描述所述切分最小训练结果的成词类型的训练成词类型标注，获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征，将所述切分训练地址集和所述切分特征模板采用条件随机场模型进行训练，得到地址切分训练模型；

地址标识训练模块，用于：获取多个用于进行训练的标识训练地址，对所述标识训练地址进行切分得到标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，获取标识训练地址集，所述标识训练地址集包括训练敏感词以及用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识，获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征，将所述标识训练地址集和所述标识特征模板采用条件随机场模型进行训练，得到地址标识训练模型；

实际地址获取模块，用于：获取至少一个所述用户的实际地址，将所述实际地址进行切分得到实际最小切分结果；

实际地址切分模块，用于：将所述实际最小切分结果输入所述地址切分训练模型，得到用于描述所述实际最小切分结果的成词类型的实际成词类型标注，根据所述实际最小切分结果的实际成词类型标注，将所述实际最小切分结果重新组合为生活圈名称；

实际地址标识模块，用于：从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，将所述实际敏感词输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识；

生活圈类型模块，用于：对每个所述实际地址生成包括所述生活圈名称及对相应的实际敏感词的实际生活圈类型标识的生活圈。
根据权利要求6所述的用户的生活圈提取系统，其特征在于：

所述地址切分训练模块，具体用于：

将多个用于进行训练的切分训练地址采用自动机规则进行切分，每个所述切分训练地址切分后得到至少一个切分最小训练结果，生成包括多个切分训练地址组的训练地址集，每个所述切分训练地址组包括至少一个切分训练单元，每个所述切分训练单元包括一个所述切分最小训练结果，且同一切分训练地址组所包括的切分训练单元的切分最小训练结果由同一切分训练地址切分后得到；

获取切分训练地址集，所述切分训练地址集对每个所述切分训练单元添加用于描述所述切分最小训练结果在同一切分训练地址组内的成词类型的训练成词类型标注；

获取切分特征模板，所述切分特征模板包括至少一条用于对所述切分训练地址集进行特征描述的切分特征；

对所述切分训练地址集和所述切分特征模板，采用条件随机场模型进行训练，得到地址切分训练模型；

所述实际地址获取模块，具体用于：获取至少一个所述用户的实际地址，将所述实际地址采用自动机规则进行切分得到实际最小切分结果，每个所述实际地址切分后得到至少一个实际最小切分结果；

所述实际地址切分模块，具体用于：

生成包括多个实际切分地址组的实际切分地址集，每个所述实际切分地址组包括至少一个实际切分单元，每个所述实际切分单元包括一个所述实际最小切分结果，且同一实际切分地址组所包括的实际切分单元的实际最小切分结果由同一实际地址切分后得到；

将所述实际切分地址集输入所述地址切分训练模型，得到用于描述所述实际最小切分结果在同一实际切分地址组内的成词类型的实际成词类型标注，根据每个所述实际最小切分结果对应的实际成词类型标注，将同一实际切分地址组内的实际最小切分结果重新组合为生活圈名称。
根据权利要求7所述的用户的生活圈提取系统，其特征在于：

所述切分训练单元还包括：切分最小训练结果是否为敏感词的敏感词标识、切分最小训练结果的长度；

所述实际切分单元还包括：实际最小切分结果是否为敏感词的敏感词标识、实际最小切分结果的长度；

所述切分特征包括：

由相对位移为第一预设数值的第一切分训练单元包括的切分最小训练结果定义的最小结果单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的敏感词标识定义的敏感词单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的长度定义的长度单个特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的切分最小训练结果与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第一联合特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的敏感词标识与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第二联合特征；或者

由相对位移为第一预设数值的第一切分训练单元包括的长度与至少一个相对位移为第二预设数值的第二切分训练单元包括的切分最小训练结果、敏感词标识或长度共同定义的第三联合特征。
根据权利要求6所述的用户的生活圈提取系统，其特征在于：

所述地址标识训练模块，具体用于：

将多个用于进行训练的标识训练地址采用自动机规则进行切分，每个所述标识训练地址切分后得到至少一个标识最小训练结果，从所述标识最小训练结果中选取与生活圈类型相关的训练敏感词，生成包括多个标识训练地址组的训练地址集，每个所述标识训练地址组包括至少一个标识训练单元，每个所述标识训练单元包括一个所述训练敏感词，且同一标识训练地址组所包括的标识训练单元的训练敏感词由同一标识训练地址切分后得到；

获取标识训练地址集，所述标识训练地址集对每个所述标识训练单元添加用于描述所述训练敏感词的生活圈类型的训练生活圈类型标识；

获取标识特征模板，所述标识特征模板包括至少一条对所述标识训练地址集进行特征描述的标识特征；

对所述标识训练地址集和所述标识特征模板，采用条件随机场模型进行训练，得到地址标识训练模型；

所述实际地址获取模块，具体用于：获取至少一个所述用户的实际地址，将所述实际地址采用自动机规则进行切分得到实际最小切分结果，每个所述实际地址切分后得到至少一个实际最小切分结果；

实际地址标识模块，具体用于：

从所述实际最小切分结果中选取与生活圈类型相关的实际敏感词，生成包括多个实际标识地址组的实际标识地址集，每个所述实际标识地址组包括至少一个实际标识单元，每个所述实际标识单元包括一个所述实际敏感词，且同一实际标识地址组所包括的实际标识单元的实际敏感词由同一实际地址切分后得到；

将所述实际标识地址集输入所述地址标识训练模型，得到用于描述所述实际敏感词的生活圈类型的实际生活圈类型标识。
根据权利要求9所述的用户的生活圈提取系统，其特征在于：

所述标识特征包括：

由相对位移为第一预设数值的第一标识训练单元包括的训练敏感词定义的敏感词单个特征；或者

由相对位移为第一预设数值的第一标识训练单元包括的训练敏感词与至少一个相对位移为第二预设数值的第二标识训练单元包括的训练敏感词共同定义的敏感词联合特征。