WO2016179988A1

WO2016179988A1 - 中文地址分词标注方法

Info

Publication number: WO2016179988A1
Application number: PCT/CN2015/094375
Authority: WO
Inventors: 王明兴; 贾西贝
Original assignee: 深圳市华傲数据技术有限公司
Priority date: 2015-05-12
Filing date: 2015-11-12
Publication date: 2016-11-17
Also published as: CN104933023B; CN104933023A

Abstract

提供一种中文地址分词标注方法。该方法包括：步骤11、人工分词标注挑选出的地址数据作为训练数据；步骤12、对出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以指定的单个阿拉伯数字字符或英文字母字符替换；步骤13、训练数据转换成CRF++工具需要的格式；步骤14、定义特征模板；步骤15、使用CRF++工具分别建立分词模型和标注模型；步骤16、地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以该指定的单个阿拉伯数字字符或英文字母字符替换；步骤17、用CRF++工具分词标注；步骤18、还原替换前的阿拉伯数字字符或英文字母字符。本发明的中文地址分词标注方法的准确率高。

Description

技术领域

[0001] 本发明涉及数据处理技术领域，尤其涉及一种中文地址分词标注方法。

[0002] 背景技术

[0003] 人们在填写收件人地址、办公地址、家庭住址等地址信息吋一般都是将省、市、区、门牌号、住宅小区、房间号等信息写在一起组成地址信息，如"广东深圳南山区高新中一道 9号科技园软件大厦 713"，这种写法适合人工识别，而当通过机器识别地址的结构化细节信息吋首先要做的处理就是分词与标注，将输入的长文本切分成一个一个的词，并对词的属性进行标注，如上例地址信息的分词标注结果可能为： "广东 /省深圳 /市南山区 /区高新中一道 /道路 9号 /路号科技园 / 片区软件大厦 /楼栋 713/房间"。中文地址分词标注是地址信息处理的一项基础性工作，其准确程度将直接影响到后续处理的正确性。

[0004] 现有分词标注技术中应用的比较成熟的是基于统计的方法，例如，隐马尔可夫模型 (HMM)的分词标注技术就是一种典型的基于统计模型的分词标注方法。但是，应用通用的分词标注或实体识别技术来进行中文地址分词标注的结果准确率不太高，只有 80%左右。因此，亟需一种高准确率的中文地址分词标注方法。

[0005] 发明内容

[0006] 本发明的目的在于提供一种中文地址分词标注方法，提高中文地址分词标注的准确率。

[0007] 为实现上述目的，本发明提供一种中文地址分词标注方法，包括：

[0008] 步骤 11、对挑选出的地址数据进行人工分词标注，以作为训练数据；

[0009] 步骤 12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换；

[0010] 步骤 13、采用分词标签和标注标签分别将该训练数据转换成 CRF++工具所需要的格式； [0011] 步骤 14、定义特征模板；

[0012] 步骤 15、使用 CRF++工具分别建立分词模型和标注模型；

[0013] 步骤 16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换，同吋保存替换前的阿拉伯数字字符或英文字母字符；

[0014] 步骤 17、然后使用 CRF++工具对欲分词标注的地址进行分词标注；

[0015] 步骤 18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。

[0016] 其中，所述分词标签包括表示字在词首的标签，表示字在词中的标签，表示字在词尾的标签，以及表示单个字成词的标签。

[0017] 其中，所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。

[0018] 其中，步骤 17包括用该分词模型和标注模型分别获取每个字的分词标签和标注标签以及解析每个字的分词标签和标注标签。

[0019] 其中，解析每个字的分词标签和标注标签的过程包括：

[0020] a)首先建立一个字的缓存区，初始为空，并从头幵始按顺序处理输入地址的每个字.

[0021] b)将字存入缓存区，然后判断该字的分词标签；

[0022] c)如果该字的分词标签表示字在词首或词中且非最后一个字，则继续处理下一个字.

[0023] d)否则取出缓存区所有的字并组成一个词，且该词的标注属性为缓存区中字的标注标签，将结果输出，清空缓存区。

[0024] 其中，所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为 1。

[0025] 其中，所述步骤 15中使用 CRF++工具提供的 criLlearn命令训练分词模型和标注模型。

[0026] 其中，训练分词模型和标注模型的过程迭代 100步。

[0027] 综上所述，本发明的中文地址分词标注方法的准确率高。

[0028] 附图说明 [0029] 图 1为本发明中文地址分词标注方法一较佳实施例的流程图。

[0030] 具体实施方式

[0031] 下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

[0032] 本发明采用基于条件随机场模型的分词框架，条件随机场相关技术采用幵源的

CRF++工具。 CRF++是著名的条件随机场幵源工具，也是目前综合性能最佳的 C

RF工具。

[0033] 对应于地址的标注标签，本发明定义地址如下概念：

[0034] 省：由"国家地名地址数据规范"规定的一级行政区域，包含：省、直辖市、自治区、特别行政区；

[0035] 市：由"国家地名地址数据规范"规定的二级行政区域，包含：地级市、地区、自治州、盟；

[0036] 区：由"国家地名地址数据规范"规定的三级行政区域，包含：市辖区、县级市

、县、旗、特区、林区；

[0037] 街道：由"国家地名地址数据规范"规定的四级行政区域，包含：区公所、镇、乡、苏木、街道；

[0038] 社区：由"国家地名地址数据规范"规定的五级行政区域，包含：社区、居委会、行政村；

[0039] 道路：道路、街、巷；

[0040] 路号：门牌号；

[0041] 片区：区域性质的地址名，通常该名称所代表的地址区域内容有数栋建筑，如科技园、深南花园、下沙村等；

[0042] 楼栋：建筑物名称，通指一栋建筑，如软件大厦、 1栋、 2号楼、 A座等；

[0043] 房间：楼栋内的房间编号，如 713;

[0044] 其他：其他内容。

[0045] 参见图 1，其为本发明中文地址分词标注方法一较佳实施例的流程图。该方法主要包括：

[0046] 步骤 11、对挑选出的地址数据进行人工分词标注，以作为训练数据。 [0047] 挑选一批地址数据，可以是数千至数万条，数据来源应符合多样性，尽量保证地址常见的写法都涵盖，人工对其进行分词并标注，作为模型的训练数据。

[0048] 训练数据可整理成如下格式，即每个词之间用空格隔幵，标注信息添加在每个词后面，以斜线 "/" (或其他特殊符号）作为分隔符，如：

[0049] 广东 /省深圳 /市南山区 /区高新中一道 /道路 9号 /路号科技园 /片区软件大厦 /楼栋 713/房间；

[0050] 广东省 /省深圳市 /市南山区 /区沙河街道 /街道沙河街社区 /社区上白石 /片区五坊 /片区 15号 /楼栋；

[0051] 广东省 /省深圳市 /市福田区 /区梅林街道 /街道新阁社区 /社区林园东路 /道路 32 号 /门牌号华天公寓 /楼栋；

[0052] 福田 /区莲花路 /道路与 /其他香梅路 /道路交汇处 /其他康欣园 /片区。

[0053] 步骤 12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换。

[0054] 由于数字、字母在中文地址中绝大部分是作为整体出现的，很少存在把在数字、字母切分幵的情况，如上面例子中 "713/房间"中的 713,以及" 15号 /楼栋"中的 15 ，都是作为整体出现。针对这个情况，本发明将地址中所有连续的字母数字统一用一个字符替换，任一数字或字母都可以，比如用 1替换。如存在其它数字、字母形式，如： 2A123 , 也可以替换成 1。

[0055] 原训练数据：

[0056] "广东 /省深圳 /市南山区 /区高新中一道 /道路 9号 /路号科技园 /片区软件大厦 / 楼栋 713/房间"。

[0057] 处理后变为：

[0058] "广东 /省深圳 /市南山区 /区高新中一道 /道路 1号 /路号科技园 /片区软件大厦 / 楼栋 1/房间"。

[0059] 这样处理的好处有 2点： 1是保证数字字母不会被错误的拆分幵； 2是减少了训练数据中的特征数量，可节约模型的训练吋间，同吋提升地址分词与标注的速度。替换操作可以选择对训练数据进行，也可以选择在对挑选出的地址数据进行人工分词标注操作前进行。

[0060] 步骤 13、采用分词标签和标注标签分别将该训练数据转换成 CRF++工具所需要的格式。

[0061] 上述训练数据的格式方便人的阅读与处理，但并不是 CRF++工具所需要的格式，因此需要转换一下。 CRF++工具要求的格式为每行内容为一个字及其标签，中间用空格或制表符隔幵。

[0062] 本发明采用分词模型和标注模型 2个 CRF模型同步来解决地址的分词与标注 2个问题，每个模型使用不同的训练数据和不同的标签。对于分词问题，本发明采用分词标签 B、 I、 E、 S来表示每个字的状态，含义分别为 B:代表词首； I：词中； E: 词尾； S:单个字成词。对于标注问题，标注标签用于表示此词的标注属性，如省、市、楼栋等。分词和标注 2份示例数据如下：

[0063] 分词用数据标注用数据

[0064] 深 B 深市

[0065] 圳 I 圳市

[0066] 市 E 市市

[0067] 福 B 福区

[0068] 田 I 田区

[0069] 区 E 区区

[0070] 福 B 福道路

[0071] 强 I 强道路

[0072] 路 E 路道路。

[0073] 再如：

[0074] 分词用数据：深 /B il市 /E福 /B田 /1区 /E福 /B田 /1村 /E牛 /B巷 /1坊 /E 1/B 号 /E 1/S；

[0075] 标注用数据：深 /市圳 /市市 /市福 /区田 /区区 /区福 /片区田 /片区村 /片区牛 /片区巷 /片区坊 /片区 1/楼栋号 /楼栋 1/房间；

[0076] 分词标注结果：深圳市 /市福田区 /区福田村 /片区牛巷坊 /片区 89号 /楼栋 402/ 房间。 [0077] 训练数据到分词模型用的 CRF++格式数据转换方法如下：

[0078] 1) 对每行训练数据，用空格进行拆分得到地址单元信息组，如： {"广东 /省" , " 深圳 /市", "南山区 /区", "高新中一道 /道路", "9号 /路号", "科技园 /片区", "软件大厦 / 楼栋"，"713/房间 "} ;

[0079] 2) 对每个地址单元信息（如"软件大厦 /楼栋"），用斜线 "进行拆分，获得一个二元组，其中第一个为地址单元的名称（软件大厦），第二个为标注信息（楼栋）；

[0080] 3) 对于地址名称（如"软件大厦"）的每个字符 x，按顺序输出一行：

[0081] a)如果该名称只有一个字，则输出 "X S";

[0082] b)否则如果该字符是名称的最后一个字，输出 "X E"，如"厦 E";

[0083] c)否则如果是名称的第一个字，输出 "X B"，如"软 E";

[0084] d)否则输出 "X 1"，如"软 Γ;

[0085] 4) 该行训练数据的所有地址单元信息处理完毕后输出一个空行。

[0086] 训练数据到标注模型 CRF++格式数据转换方法如下：

[0087] 1) 对每行训练数据，用空格进行拆分得到地址单元信息组，如： {"广东 /省" , " 深圳 /市", "南山区 /区", "高新中一道 /道路", "9号 /路号", "科技园 /片区", "软件大厦 / 楼栋"，"713/房间 "} ;

[0088] 2) 对每个地址单元信息（如"软件大厦 /楼栋"），用斜线 "进行拆分，获得一个二元组，其中第一个为地址单元的名称（软件大厦），第二个为标注信息（楼栋）；

[0089] 3) 对于地址名称（如"软件大厦"）的每个字符 x，按顺序输出一行: "X标注"，如"软楼栋"；

[0090] 4) 该行训练数据的所有地址单元信息处理完毕后输出一个空行。

[0091] 步骤 14、定义特征模板。

[0092] 针对不同的问题， CRF++工具需要提供合理特征模板以便高效、合理的解决对应的问题。本发明中采用如下模板：

[0093] # Unigram

[0094] U00:%x[-2,0] [0095] U01:%x[-1,0]

[0096] U02:%x[0,0]

[0097] U03:%x[l,0]

[0098] U04:%x[2,0]

[0099] U05:%x[-2,0]/%x[-l,0]/%x[0,0]

[0100] U06:%x [- 1 ,0]/%x[0,0]/%x[ 1 ,0]

[0101] U07: %x[0,0]/%x[ 1 ,0]/%x[2,0]

[0102] U08:%x[-l,0]/%x[0,0]

[0103] U09:%x[0,0]/%x[l,0]

[0104]

[0105] # Bigram

[0106] B步骤 15、使用 CRF++工具分别建立分词模型和标注模型。

[0107] 使用 CRF++工具提供的 criLlearn命令分别训练两个模型，训练命令格式如下：

[0108] crf_learn -m num template—file train—file model_file。

[0109] 其中 template_file为特征模板文件， train_file为训练数据文件， model_file为获得的模型文件，供以后使用； -m num参数可指定训练过程最大迭代步数，如可设置为 -m 100，即最多迭代 100步。 criLlearn还有其他数个参数用于控制训练效果、训练吋间，具体可参看工具的帮助文档。到此，分词标注的 2个模型建立完毕，接下来就可使用该模型解决具体的地址分词、标注问题。使用分词标签 B、 I 、 E、 S虽然降低了速度，但是可以提升分词标注结果的准确度。分成分词和标注 2个模型可以最终加快中文地址分词标注的处理速度。

[0110] 步骤 16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换，同吋保存替换前的阿拉伯数字字符或英文字母字符。

[0111] 由于建立模型吋对数字字母进行了特殊处理，相应的模型使用吋也需要对字母数据进行处理，即将所有连续的字母数字用 1替换，同吋将替换了的原数字字母按顺序保存起来，以便后续还原。如输入： [0112] 深圳市福田区福田村牛巷坊 89号 4层 02室；

[0113] 处理后为：

[0114] 深圳市福田区福田村牛巷坊 1号 1层 1室；

[0115] 同吋保存替换的 3个字母数字组： {"89""4""02"}。

[0116] 步骤 17、然后使用 CRF++工具对欲分词标注的地址进行分词标注。

[0117] 地址经上一步处理后可用 CRF++工具进行分析，用分词模型和标注模型分别获取每个字的分词标签和标注标签，如下：

[0118] 分词标签：

[0119] 深 /B il市 /E福 /B田 /1区 /E福 /B田 /1村 /E牛 /B巷 /1坊 /E 1/B号 /E 1/B层 /1 1/1 室 /E；

[0120] 标注标签：

[0121] 深 /市圳 /市市 /市福 /区田 /区区 /区福 /片区田 /片区村 /片区牛 /片区巷 /片区坊 / 片区 1/楼栋号 /楼栋 1/房间层 /房间 1/房间室 /房间。

[0122] 解析每个字的分词标签和标注标签，过程如下：

[0123] a)首先建立一个字的缓存区，初始为空，并从头幵始按顺序处理输入地址的每个字.

[0124] b)将字存入缓存区，然后判断该字的分词标签；

[0125] c)如果该字的分词标签表示字在词首或词中且非最后一个字，则继续处理下一个字.

[0126] d)否则取出缓存区所有的字并组成一个词，且该词的标注属性为缓存区中字的标注标签，将结果输出，清空缓存区。

[0127] 按顺序处理完输入地址的每个字后，可得中文地址的分词与标注结果，对于示例输入，其解析结果如下：

[0128] 深圳市 /市福田区 /区福田村 /片区牛巷坊 /片区 1号 /楼栋 1层 1室 /房间。

[0129] 步骤 18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。

[0130] 获得分词标注结果后，需将替换了的字母数字按顺序还原，还原后结果如下： [0131] 深圳市 /市福田区 /区福田村 /片区牛巷坊 /片区 89号 /楼栋 4层 02室 /房间。

[0132] 至此得到了中文地址的最终分词标注结果。实验证明，本发明分词标注的准确率可达 95%，远高于其他方法。

[0133] 综上所述，本发明的中文地址分词标注方法的准确率高。

[0134] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

技术问题

问题的解决方案

发明的有益效果

Claims

权利要求书

一种中文地址分词标注方法，其特征在于，包括：

步骤 11、对挑选出的地址数据进行人工分词标注，以作为训练数据；步骤 12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符

，以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换；步骤 13、采用分词标签和标注标签分别将该训练数据转换成 CRF++工具所需要的格式；

步骤 14、定义特征模板；

步骤 15、使用 CRF++工具分别建立分词模型和标注模型；

步骤 16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符，以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换，同吋保存替换前的阿拉伯数字字符或英文字母字符；

步骤 17、然后使用 CRF++工具对欲分词标注的地址进行分词标注；步骤 18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。

根据权利要求 1所述的中文地址分词标注方法，其特征在于，所述分词标签包括表示字在词首的标签，表示字在词中的标签，表示字在词尾的标签，以及表示单个字成词的标签。

根据权利要求 1所述的中文地址分词标注方法，其特征在于，所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。

根据权利要求 1所述的中文地址分词标注方法，其特征在于，步骤 17 包括用该分词模型和标注模型分别获取每个字的分词标签和标注标签以及解析每个字的分词标签和标注标签。

根据权利要求 4所述的中文地址分词标注方法，其特征在于，解析每个字的分词标签和标注标签的过程包括： a)首先建立一个字的缓存区，初始为空，并从头幵始按顺序处理输入地址的每个字；

b)将字存入缓存区，然后判断该字的分词标签； c)如果该字的分词标签表示字在词首或词中且非最后一个字，则继续处理下一个字；

d)否则取出缓存区所有的字并组成一个词，且该词的标注属性为缓存区中字的标注标签，将结果输出，清空缓存区。

[权利要求 6] 根据权利要求 1所述的中文地址分词标注方法，其特征在于，所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为 1。

[权利要求 7] 根据权利要求 1所述的中文地址分词标注方法，其特征在于，所述步骤 15中使用 CRF++工具提供的 criLlearn命令训练分词模型和标注模型

[权利要求 8] 根据权利要求 7所述的中文地址分词标注方法，其特征在于，训练分词模型和标注模型的过程迭代 100步。