WO2015027836A1

WO2015027836A1 - 一种地名实体识别的方法及系统

Info

Publication number: WO2015027836A1
Application number: PCT/CN2014/084609
Authority: WO
Inventors: 王国印; 贾西贝
Original assignee: 深圳市华傲数据技术有限公司
Priority date: 2013-08-27
Filing date: 2014-08-18
Publication date: 2015-03-05
Also published as: CN103440311A

Abstract

本发明提供一种地名实体识别的方法，该方法包括：地址文本输入并进行预处理；根据词典元数据对地址文本进行地址切分；对切分结果进行地址标注，并获得最优的地址等级标注序列；根据上下文校正标注序列，并输出最优标注结果。本发明根据词典元数据对地址文本进行地址切分，然后根据地名类别定义表格将切分结果分别标注对应的地名类别，再通过Viterbi算法对标注序列进行最优化，并根据上下文校正标注序列，获得最终的标注结果，使得地名实体识别结果精确，实用性强。另外，本发明还提供一种地名实体识别的系统。

Description

一种地名实体识别的方法及系统技术领域

本发明涉及地理信息领域，尤其涉及一种地名实体识别的方法及系统。

背景技术

随着地理信息系统 GIS、遥感系统 RS、全球卫星定位系统 GPS的发展，尤其是移动互联 LBS的广泛应用，基于地理信息的应用越来越成为人们生活的一部分。基于地理信息的应用特别是通讯地址中较重要的一部分就是地名实体识别，当前很多自然语言处理平台中涉及命名实体识别的部分中对地名实体的识别率都不够高，主要体现在：第一、地名实体类别属性单一，仅仅以地名来标识所有地名，不对地名的等级（省级、地级、县级、乡级、社区 /村委会、道路、村庄、建筑物等）作更细的划分；第二、对于乡级及乡级以下的地名识别率较低；第三、处理不了不同地名拥有相同简称的情况，如吉林，可以是吉林市，也可以是吉林省；第四、对同一个名字的不同描述（地名别名）识别较差。所以，需要有一种识别率较高的地名实体识别方法来解决上述这些问题。

发明内容

为此，本发明为了解决上述缺陷之一。因而，本发明提供一种地名实体识别的方法及系统，根据词典元数据对地址文本进行地址切分，然后根据地名类别定义表格将切分结果分别标注对应的地名类别，通过 Viterbi算法对标注序列进行最优化，并根据上下文校正标注序列，获得最终的标注结果，使得地名实体识别结果精确，实用性强。所以，本发明一个实施例提供一种地名实体识别的方法，该方法包括以下步骤：地址文本输入并进行预处理；根据词典元数据对地址文本进行地址切分；对切分结果进行地址标注，并获得最优的地址等级标注序列；根据上下文校正标注序列，并输出最优标注结果。优选地，所述方法采用词典模式进行，其中，所述词典采用双数组的 Trie树结构来存储。

优选地，所述方法预先建立基于 Trie树的地址元数据库；所述方法将地址元数据地名划分为 12个等级；根据所述地址元数据库建立对应的地名类别定义表格。

在本发明一个实施例中，所述地址切分采用 Trie树的逆向最大匹配算法从右到左扫描输入的地址文本进行地址切分。

在本发明一个实施例中，所述地址标注包括：根据地名类别定义表格将切分结果分别标注对应的地名类别；并将在地址元数据中无法找到的切分结果的地址等级标注为 0级。

优选地，所述地址标注通过 Viterbi算法的获得最优的地址等级标注序列。

本发明另一个实施例提供一种地名实体识别的系统，该系统包括：地址文本输入系统，用以获取地址文本的输入信息，并进行预处理；地址切分系统，用以根据地址元数据对地址本地输入系统中获取的地址文本进行切分；地址标注系统，用以通过 Viterbi算法的获得最优的地址等级标注序列；地址校正系统，用以根据上下文进行校正标注序列，并获得最优标注结果。

在本发明另一个实施例中，所述地址文本系统对地址文本进行预处理至少包含：删除多余的空格和将数字或字母的全角字符转换为半角字符。

在本发明另一个实施例中，所述地址切分系统根据预先建立基于 Trie树的地址元数据库进行地址文本的切分；所述地址切分系统采用基于 Trie树的逆向最大匹配算法进行地址切分。

在本发明另一个实施例中，所述地址标注系统根据地址元数据中地名的属性将切分结果分别标注对应的地名类别；另外，所述地址标注系统将在地址元数据中无法找到的切分结果的地址等级标注为 0级；所述地址标注系统再通过 Viterbi算法获得最优的地址等级标注序列。本发明根据词典元数据对地址文本进行地址切分，然后根据地名类别定义表格将切分结果分别标注对应的地名类别，通过 Viterbi算法对标注序列进行最优化，并根据上下文校正标注序列，获得最终的标注结果，使得地名实体识别结果精确，实用性强。

附图说明

图 1 是本发明实施例实现的一种地名实体识别的方法的流程示意图。

图 2是本发明实施例采用的 Trie树的工作原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明提供的一种地名实体识别的方法及系统，根据词典元数据对地址文本进行地址切分，然后根据地名类别定义表格将切分结果分别标注对应的地名类别，通过 Viterbi算法对标注序列进行最优化，并根据上下文校正标注序列，获得最终的标注结果，使得地名实体识别结果精确，实用性强。

如图 1 是本发明实施例实现的一种地名实体识别的方法的流程示意图，该方法具体包括以下步骤：

步骤 S 110: 地址文本输入并进行预处理。基于中文地名的特点，本发明实施例中地址切分和地址地名实体识别都是基于词典的模式。基于词典的分词通常有正向（从左向右）匹配和逆向（从右向左）匹配。通常情况下逆向匹配比正向匹配切分错误率低一半，对于解决交叉歧义有优势，交叉歧义定义为： ABC三个连续汉字， AB和 BC均可以成为词；一般情况下汉语中 BC组成词的概率更大些。本发明实施例中地址切分是基于地址元数据词典采用逆向最大匹配算法从右到左扫描用户输入的地址文本，来实现地址的切分。为了提高切分的速度，词典采用基于双数组（Double Array) 的 Trie树数据结构。

在本步骤中，需要预先建立基于 Trie树的地址元数据库，地址元数据词典主要包含各种地名数据，如省级行政区、地级行政区、县级行政区、乡级行政区、社区 /村委会、道路、建筑物、小区、村庄、机构等，有关行政区划的地名数据可以直接从自维基百科和国家统计局网站上有关中国行政区划的地址数据中获得，其他的数据可以通过人工收集，以及通过地址切分和识别技术从完整的通信地址中抽取。地名元数据包含的数据主要有：省级行政区名（包括省、自治区、直辖市和特别行政区）、地级行政区名（地级市、自治州、地区、盟）、县级行政区名（包含市辖区、县级市、县、自治县、旗、自治旗、特区和林区）、乡级行政区名（包括乡、镇、街道、苏木、区公所），其他地址数据（包括道路名、村庄名、小区名、建筑物名和广场名、机构名称）等。当前使用的通讯地址使用模式主要有两种：模式一：以道路为中心定位的地址，常见的地址构造规则如下：省级行政区 +地级行政区 +县级行政区 +道路 +门牌号 +建筑物名 +房间号。如：广东省深圳市南山区高新南环路 29号留学生创业大厦 2208室。此种地址描述模式常见于电子地图中，如百度地图，谷歌地图等。模式二：以行政区划为中心地位的地址，常见的地址构造规则如下：省级行政区 +地级行政区 +县级行政区 +乡 /镇 /街道 +居（村）委会 +小区 /自然村。如：广东省深圳市宝安区西乡街道流塘居委会宝民花园。此种地址描述模式常见于政府部门，如民政局。本发明实施例中为了兼容上述两种地址描述模式，将按照地名的特点将地址中的地名划分为 12级，如下表 1所示。

层级行政区域行政区域举例

广东省、内蒙古自治区、广西壮族

第一级省、自治区、直辖市

自治区、北京市、重庆市等

深圳市、广州市、武汉市、温州市、

地级市、自治州、地延边朝鲜族自治州、日喀则地区、

第二级

区、盟和田地区、吐鲁番地区、锡林郭勒地级市所辖区县、直福田区、南山区、浦东新区、崇明

第三级辖市所辖区县、省直县、海淀区、文昌市、定安县、清

辖县、自治县、县级原满族自治县、从化市、科尔沁右市、旗翼前旗等

关集镇、乌镇、三官庙乡、粵海街

乡镇、街道、苏木、

第四级道、巴彦胡舒苏木、许家桥回族维

民族乡、区公所

吾尔族乡等

第五级社区、村委会流塘社区、史庄村委会等

深南大道、科苑南路、西直门外大

第六级道路

街等

紧跟道路后的编号，如：福中路 208

第七级门牌号

号、延平路 223弄等

小区、村庄（自然

第八级海怡东方花园、流塘村等

村）、工业区

村中路、巷、小径，该字段存放的是村中路或小巷、小

第九级小区中住宅楼的编路、小径等。特征主要有：单元、

等胡同、巷、街坊、坊、栋、幢等

第十级建筑物名称软件大厦、留学生创业大厦等

第十一

房间号如 2208室、 22楼（层、 F) 08室等

级

第十二除上述之外的其他

机构名、公司名称、非地名等

级名称

表 1 : 十二级地址等级分级模型定义。地址元数据词典不仅包含地名词汇，而且还要包含地名词汇对应的属性，即地名类别，其词典格式定义为：地址元数据词典由多行构成，每一行成为一个词条

( Term) , 每一个 Term包含地名和地名对应的地址类别集（Categories) , 其中地名为 key，地址等级为 key的属性集或 Categories。地址元数据词典每一个 Term包含 2项，即地名和地名对应的地址类别集（Categories) , 他们之间用半角的分号 "；" 隔开，有的地名包含多个地名类别（比如一些标准版地址的别名也是其他标准版地址的别名），不同的地级等级之间用半角的逗号 " , " 隔开。根据地名的特点和使用习惯，以官方全名为某一地名的标准名字，其他的名字为其别名，如， "粵" 和 "广东" 为 "广东省" 的别名，别名从字面特征上分为两种，一种是标准名字的连续子串，称之为缩写名字又称简称，如 "广东 "之于 "广东省"，另外一种别名在字面特征上完全看不出有任何关联或者非子串，如 "粵" 之于 "广东省"。为了兼顾此种类型的区别，对于第一种的情况的类别定义为标准名字类别后面加上" _ABBR"，同理第二种情况为标准名字类别后面加上" _ALIAS "。因此地名的类别定义如下表 2所示。

地名类别定义表格。步骤 S 120根据词典元数据对地址文本进行地址切分。

本发明实施例中词典采用基于双数组（Double Array) 的 Trie树数据结构，为了便于理解，不妨以正向最大匹配为例 Trie树的原理如图 2所示。

由图 2所示的原理图可知 Trie树是一个确定的有限状态自动机（DFA)，每个节点代表自动机的一个状态，根据变量的不同，进行状态转移，并在转移的时候做一次状态转移路径的校验，当到达结束状态或者无法转移的时候，完成査询。 Trie树的査询过程主要分为两步：在当前状态下，根据当前输入的字符做出状态转移，获取其直接后继状态的位置；校验当前状态的前驱，确定当前状态是由哪一状态转移而来，是否是指向其直接前驱。

由此可以看出在构造 Trie树中，一定要存储当前状态的直接前驱信息。当前网络上流行的 Trie树的实现版本一般都是基于双数组的，两个数组的名字分别为 ba_Se[] 和 check[]，数组中的每一个元素下标 i相当于 Trie树的一个结点编号或在双数组中的存储位置，又称状态编号。

base[i] _: 存放的是当前状态 i到所有后继状态最小无冲突的偏移量；

check[i] _: 存放的是当前状态 i的直接前驱信息，即存储当前状态是由哪一个状态转移而来；

base和 check是成对的， base[i]和 check[i]代表同一个状态的属性。

假如当前状态为 3，输入的字符为 C，下一状态为 t (非叶子节点），则査询过程的约束条件为：

check[base[s]+c]=s (公式 1

base[s]+c=t (公式 2 ) ;

每个状态的 base[s]值唯一。

若当前状态 s可以转移到叶子结点 t中，则其约束条件为：

base[s]=t (公式 3 ) ;

t=check[t] (公式 4) ; base[t]<0 且 base[t]的值为 DFA的初始结点 0到当前叶子结点经过的字符组成的词条在所有按词典顺序排序的词条集中位置的相反数。

基于 Trie树结构实现的査询效率就比较高，用 Trie树做一次査询的时间和词典的规模没有关系，仅与査询文本字符串的长度有关，因此査询一次最快为 0(1)，即文本字符串第一个字符在 Trie 的第一层检索不到；査询一次最差的时间复杂度为 0(n), 其中 n仅和 Trie树的深度和査询文本的长度有关，其中树的深度取决于词典中最长的词条长度。

为了实现的方便，本发明实施例将 check和 base放到一个数组内，即 base数组放在偶数位， check数组放在奇数位， BP base[i] -> array[2*i]， check[i] - > array[2*i + 1] ; 若当前状态为 s，输入的字符为 c，下一状态为 t (非叶子节点）的条件下，其本方法的査询过程的约束条件修改为：

array [2^Hs(array[2*s] + c) + 1] = array [2*s] (公式 5 )；

array [2*s]+c=t (公式 6)；

array数组中有效偶数位的值是互不相等，即值唯一。

若当前状态 s可以转移到叶子结点 t中，则其约束条件为：

array [2*s]=t (公式 7 ) ;

t= array[2*t+l] (公式 8 ) ;

array [2*t]<0 且 array [2*t]的值为 DFA的初始结点 0到当前叶子结点经过的字符组成的词条在所有按词典顺序排序的词条集中位置的相反数。

步骤 S 130 : 对切分结果进行地址标注，并获得最优的地址等级标注序列。

经过步骤 S 120中地址文本通过基于 Trie树的逆向最大匹配算法切分之后，接下来对切分出来的地址元数据标注上对应的地名类别，地名类别可以从地址元数据词典中每一个地名的属性中获得，若被切分的出来的地址在词典中不存，则说明此地址是未被识别的地址，其地址等级标注为 0 级，然后对上述地址标注通过 Viterbi 算法的获得最优的地址等级标注序列。举例来说明上述步骤的实现。依据先验知识构建 Viterbi算法的概率模型， Pi和 A可取以下初始值：

Pi={0.05 , 0.45， 0.25 , 0.15， 0.1 }；

A = { {0.05, 0.45, 0.25, 0.15, 0.10}，

{0.05, 0.23, 0.45, 0.17, 0.10}，

{0.05, 0.18, 0.25, 0.30, 0.22} ,

{0.05, 0.35, 0.05, 0.05, 0.50}，

{0.05, 0.30, 0.15, 0.05, 0.45} }；

如输入的地址为： "广东深圳宝安西乡"，经过所述的地址切、地址标注处理之后可得到以下四种标注结果序列："广东（1) 深圳 (2) 宝安 (3) 西乡 (4) "、"广东（1) 深圳 (2) 宝安 (3) 西乡 (2) "、 "广东（1) 深圳 (4) 宝安 (3) 西乡 (4)"、 "广东（1) 深圳 (4) 宝安 (3) 西乡 (2) "。根据维特比（Viterbi) 算法，我们可得知四种标注状态的权值：广东（1) 深圳 (2) 宝安 (3) 西乡 (4); P = 0.030375；

广东（1) 深圳 (2) 宝安 (3) 西乡 (2); P = 0.0030375；

广东（1) 深圳 (4) 宝安 (3) 西乡 (4); P = 0.001125 ;

广东（1) 深圳 (4) 宝安 (3) 西乡 (2); P = 1.125E-4;

概率最大的标注序列为第一种标注状况，因此动态规划算法输出的结果也是第一种标注状态 "广东（1) 深圳 (2) 宝安 (3) 西乡 (4) "。

步骤 S 140根据上下文校正标注序列，并输出最优标注结果。

在步骤 S130 中解决不了一个地级市辖区的别名和县或县级市的别名相同的情况，例如 "太和县" （隶属安徽省阜阳市）和 "太和区" （隶属辽宁省锦州市），它们的别名都为 "太和"，但是他们属于不同的地址等级级别。当出现 "阜阳（市）太和"和 "锦州（市）太和" 时，依据算法和概率模型此时的 "太和"标注在第三极地址级别上概率最大，解决此类问题要根据其上文的地址名称判断其地址级别是 "2 " 或 " 3 "，诸如此类作为特殊情况进行标注序列的校正。举例如下：输入的地址为： "河北石家庄平山古月"。

标注的地址序列为： "河北（1,2,4) 石家庄 (2,4) 平山 (2,3,4) 古月（4) "，此标注序列中每一个地址的标注等级解释为： "河北" 可以是 "河北省" 的别名，也可以是天津市的 "河北区" 的别名，也可以是 "河北乡" 的别名； "石家庄" 可以是 "石家庄市" 和 "石家庄镇" 的别名； "平山" 可以是 "平山县" 或 "平山区" 或 "平山镇" 的别名。

最优的标注序列为： "河北（1) 石家庄 (2) 平山 (3) 古月（4)"。

根据上下文校正之后的标注序列为： "河北 (1) 石家庄 (2) 平山 (2) 古月（4)"，因为此时的 "平山" 是 "平山县"。

由此可以看出当一个地级市辖区的别名和县或者县级市别名相同的时候，被标注为三级地址的所属地级市是否它的直接前驱地址，如果不是进行校正。为了方便上下文的规则采用上述相反规则的方式存储，即记录别名为县或县级市所属地级市的别名为上下文，例如（太和一阜阳）。因此当满足此上下文时，修改标注的等级，不满足时不做任何修改。

与此同时还存在二级地址和四级地址同名的情况，主要出现在县级市或县的别名和乡镇的别名同名情况，由于四级地址可以在一个完整的地址中连续出现多次，因此有时候会把二级地址标注在四级上。此时也要根据上下文进行判别，来修订标注的序列。

如输入的地址为： "黑龙江黑河五大连池新发乡和民村"；

最优的标注序列为： "黑龙江 (1) 黑河 (2) 五大连池 (4) 新发乡 (4) 和民村 (0)"，此时的 "五大连池"被标注在第四级地址级别上，实际上它是一个县级市，根据上下文校正之后的标注序列为： "黑龙江（1) 黑河 (2) 五大连池 (2) 新发乡 (4) 和民村 (。)"。

和区县拥有相同别名的解决方案类似，对于乡镇和县同名的情况，系统保留的规则是别名为县或县级市所属地级市的别名为上下文，例如（五大连池一黑河），因此当满足此上下文时，修改标注的等级，不满足时不做任何修改。

因此对于一些特殊情况，同时提供一个机制对最佳标注序列根据上下文进行校正，处理的方法是根据地址上下文消除因别名带来的歧义（一个别名对应多个地址等级）。这样得出的结果更准确一些。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1. 一种地名实体识别的方法，其特征在于，所述方法包括以下步骤：地址文本输入并进行预处理；

根据词典元数据对地址文本进行地址切分；

对切分结果进行地址标注，并获得最优的地址等级标注序列；

根据上下文校正标注序列，并输出最优标注结果。

2. 根据权利要求 1所述的方法，其特征在于，所述方法采用词典模式进行；其中，所述词典采用双数组的 Trie树结构来存储。

3. 根据权利要求 1或 2所述的方法，其特征在于，所述方法包括：

所述方法预先建立基于 Trie树的地址元数据库；

所述方法将地址元数据地名划分为 12个等级；

根据所述地址元数据库建立对应的地名类别定义表格。

4. 根据权利要求 1所述的方法，其特征在于，所述地址切分包括：所述地址切分采用 Trie树的逆向最大匹配算法从右到左扫描输入的地址文本进行地址分。

5. 根据权利要求 1所述的方法，其特征在于，所述地址标注包括：

根据地名类别定义表格将切分结果分别标注对应的地名类别；

并将在地址元数据中无法找到的切分结果的地址等级标注为 0级。

6. 根据权利要求 1或 5所述的方法，其特征在于，所述地址标注包括：所述地址标注通过 Viterbi算法的获得最优的地址等级标注序列。

7. 一种地名实体识别的系统，其特征在于，所述系统包括：

地址文本输入系统，用以获取地址文本的输入信息，并进行预处理；

地址切分系统，用以根据地址元数据对地址本地输入系统中获取的地址文本进行切分；

地址标注系统，用以通过 Viterbi算法的获得最优的地址等级标注序列；地址校正系统，用以根据上下文进行校正标注序列，并获得最优标注结果。

8. 根据权利要求 7所述的系统，其特征在于，所述系统包括：所述地址文本系统对地址文本进行预处理至少包含：删除多余的空格和将数字或字母的全角字符转换为半角字符。

9. 根据权利要求 7所述的系统，其特征在于，所述系统包括：所述地址切分系统根据预先建立基于 Trie树的地址元数据库进行地址文本的切分；所述地址切分系统采用基于 Trie树的逆向最大匹配算法进行地址切分。

10. 根据权利要求 7所述的系统，其特征在于，所述系统包括：

所述地址标注系统根据地址元数据中地名的属性将切分结果分别标注对应的地名类别；

另外，所述地址标注系统将在地址元数据中无法找到的切分结果的地址等级标注为 0级；

所述地址标注系统再通过 Viterbi算法获得最优的地址等级标注序列。