WO2021017679A1

WO2021017679A1 - 地址信息解析方法、装置、系统及数据获取方法

Info

Publication number: WO2021017679A1
Application number: PCT/CN2020/096989
Authority: WO
Inventors: 李男一; 徐亮
Original assignee: 苏宁易购集团股份有限公司; 苏宁云计算有限公司
Priority date: 2019-07-26
Filing date: 2020-06-19
Publication date: 2021-02-04
Also published as: CA3145918A1; CN110569322A

Abstract

一种地址信息解析方法、装置、系统及数据获取方法。其中地址信息解析方法包括：获取原始数据中的待解析地址信息；将所述待解析地址信息利用自然语言处理技术提取特征并对提取出的特征进行选择，将选择的特征向量化得到特征向量；将所述特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组：对所述标准数组进行编码得到地理编码结果。基于模型对地址信息的地理实体和行政区划进行识别，无需构建规则库，占用资源少。预测模型经过特征选择算法优化，提高了预测的准确度和计算速率。

Description

地址信息解析方法、装置、系统及数据获取方法

技术领域

本申请涉及地址解析领域，特别是涉及地址信息解析方法、装置、系统及数据获取方法。

背景技术

现代零售企业每天都会产生海量的销售数据，零售企业都会对销售数据进行解析，作为企业决策或辅助决策的依据。尤其是销售数据中的地址数据，它是智慧零售分析与决策的基础数据。比如小店选址决策、物流资源配置、地理维度的销售数据分析等都依赖于销售数据中地址数据的解析，所以地址数据解析的高效与准确非常重要。

目前将海量地址数据解析为标准地理编码都采用的规则清洗技术，具体来说就是先把所有标准行政地理数据构建成一个包含规则的字典库，然后采用正则表达式的方式提出原始数据中的地理数据，再将提取出的地理数据与字典库进行匹配，然后获得标准形式的地理数据，最后在本地将地理数据转换成地理编码，提供给上层各种零售决策应用使用。

但上述方式中需要把所有标准行政地理数据构建成一个包含规则的字典库，这需要消耗大量硬件资源。同时因销售数据的数据量巨大，解析起来耗时较长。

另外销售数据中的地址信息多为用户手动填写，存在很多不规范的情况，使得有部分数据无法转换成编码，解析得到的结果准确性较低。

上述问题也同样出现在其他业务领域的地址数据解析中。

发明内容

本申请提供了一种地址信息解析方法、装置、系统及数据获取方法，已解决现有技术中地址解析占用资源多，解析时间长的问题。

本申请提供了如下方案：

一方面提供了一种地址信息解析方法，所述方法包括：

获取原始数据中的待解析地址信息；

将所述待解析地址信息利用自然语言处理技术提取特征并对提取出的特征进行选择，将选择的特征向量化得到待识别特征向量；

将所述待识别特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；

按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组；

对所述标准数组进行编码得到地理编码结果。

优选的，在将所述待解析地址信息利用自然语言处理技术进行特征提取前，所述方法还包括：

根据预存的历史地址信息解析记录，判断所述待解析地址信息是否被解析过；所述历史地址信息解析记录包括历史地址信息及对应的历史地理编码数据；

若被解析过，则获取对应的历史地理编码数据作为地理编码结果；

将所述待解析地址信息利用自然语言处理技术提取特征包括：若未被解析过，则将所述待解析地址信息利用自然语言处理技术进行特征提取。

优选的，对所述标准数组进行编码得到地理编码结果前，所述方法还包括：

将所述标准数组与预存的地理位置树形字典进行匹配，判断所述标准数组是否有缺失；所述地理位置树形字典按照行政区域逐级划分形成；

若有缺失，则根据所述地理位置树形字典对所述标准数组补全；

所述对所述标准数组进行编码得到地理编码结果包括对补全后的所述标准数组进行编码得到地理编码结果。

优选的，所述对所述标准数组进行编码得到地理编码结果包括：

调用外部服务器的编码接口，对所述标准数组进行编码得到地理编码结果。

优选的，所述方法还包括预先构建所述预设模型的步骤：

对样本集合中的地址数据进行语料标注，获得标注了样本地理实体和样本地理实体对应的行政区划的样本数组；

利用自然语言处理技术提取所述样本集合中的地址数据的初级特征并将符合一定条件的初级特征确定为目标特征，对所述目标特征进行向量化得到样本特征向量；

将所述样本特征向量作为输入，将对应的样本数组作为输出，使用神经网络与条件随机算法料进行训练获得所述预设模型。

优选的，所述利用自然语言处理技术提取所述样本集合中的地址数据的初级特征并将符合一定条件的初级特征确定为目标特征，对所述目标特征进行向量化得到样本特征向量包括：

计算提取的每一初级特征在地址文本中出现的频率；

根据所述频率计算所述每一初级特征与每个行政区划级别的相关度作为特征权重；

选择所述相关度和/或所述频率满足预设条件的所述初级特征作为所述目标特征；

计算选择出的每个目标特征与所述每个政区划级别的相关度并将每个目标特征的相关度平均值作为每个目标特征的权值并根据所述权值构建加权矩阵；

根据所述加权矩阵对所述目标特征进行向量化得到样本特征向量。

优选的，所述方法还包括：将所述地理编码结果与所述原始数据进行关联存储。

优选的，所述预测模型设于spark计算引擎，所述地理编码结果与所述原始数据关联存储在elasticsearch搜索引擎。

本申请另一方面还提供一种数据获取方法，所述方法包括

接收候选地址信息；

对所述候选地址信息按照如上述的方法进行解析获得解析后的候选地理编码数据；

根据所述候选地理编码数据和预设地理范围，在预存的地理编码结果与原始数据的关联表中进行计算，获取预设地理范围内的地理编码结果和对应的原始数据。

本申请再一方面还提供一种地址信息解析装置，所述装置包括：

待解析地址信息获取单元，用于获取原始数据中的待解析地址信息；

特征提取单元，用于将所述待解析地址信息利用自然语言处理技术提取特征并对提取出的特征进行选择，将选择的特征向量化得到特征向量；

模型预测单元，用于将所述特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；所述预设模型基于循环神经网络与条件随机场算法相结合训练得到；

排序单元，用于按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组；

地理编码单元，用于对所述标准数组进行编码得到地理编码结果。

本申请还一方面提供一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

获取原始数据中的待解析地址信息；

将所述待解析地址信息利用自然语言处理技术进行特征提取并对提取出的特征进行选择，将选择的特征向量化，得到待识别特征向量；

对所述标准数组进行编码得到地理编码结果

根据本申请提供的具体实施例，本申请公开了以下技术效果：

本申请的技术方案，通过自然语言处理技术对地址信息进行特征提取选择并向量化得到待识别特征向量，进而利用待识别特征向量作为模型输入，预测得到包括地理实体和对应行政区划级别的初始数组；之后进行排序去重后进行地理编码得到解析结果。这一过程无需构建包含规则的全量字典库，减少硬件资源的占用，对部署环境要求更低。通过模型预测的方式对海量地址信息进行标准地理数据提取，不受地址信息录入格式的影响，自适应各种数据变化，无需人力维护，同时提升了地理数据的提取效率。进一步的，利用本方案的特征选择算法优化的预测模型，由于摒弃了与行政区划级别相关度低的杂乱特征，因此提取地理信息的正确率高于传统规则匹配且提高了模型计算速度，提取的地理数据更加正确。

更进一步的，地址信息编码功能可以封装为批量解析接口放在外部独立的服务器，不占用地理数据分析提取的计算资源，提高编码效率，让数据处理更实时。另外，该方案还可以对地址信息的缺失行政地理信息进行补全，让解析结果更加准确。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统结构图；

图2是本申请实施例提供的具体地址信息解析流程图；

图3是本申请实施例提供的地址解析方法流程图；

图4是本申请实施例提供的装置结构图；

图5是本申请实施例提供的计算机系统架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请旨在提供一种地址信息解析方法，通过自然语言处理技术对地址信息进行特征提取并选择相关度大的特征进行向量化得到特征向量，利用预先构建的模型和特征向量预测得到地理实体和对应的行政区划级别，并进一步排序去重得到标准形式的地理数据，进而进行地理编码得到坐标从而完成地址信息的解析。由于对地址信息进行了特征提取选择和向量化处理，提取了与行政区划级别具有较高相关度的特征，因此加快了后续模型的预测速度，提高了预测的准确度。同时利用模型预测无需构建包含规则的全量字典库，减少了硬件资源的占用。

实施例一

如图1所示，为本申请的系统架构图，其包括在硬件上可互相独立存在的原始数据系统、地址信息处理系统和编码系统。其中原始数据系统用于提供原始数据的原始数据系统，如外部系统或者OMS(订单管理)系统等。地址信息处理系统用于从原始数据系统获得原始数据如订单信息，并对原始数据的地址信息进行一系列处理以得到标准形式的地理数据。编码系统用于对所述标准形式的地理数据进行编码得到地理编码结果(通常为坐标)。其中编码系统中封装有批量解析接口，地址信息处理系统可以通过调用编码系统的批量解析接口完成对标准形式的地理数据的编码。

其中地址信息处理系统还可以将从编码系统获取的地理编码结果与该地理编码结果对应的原始数据进行关联并存储在Elasticsearch搜索引擎，用于后续对相关数据的搜索。

如图1所示，地址信息处理系统还可以将已经解析过的地址信息及对应的地理编码结果关联后作为历史解析记录存储在地址解析历史表。当地址信息处理系统获取到地址信息时先在地址解析历史表中进行匹配，如果匹配到相同的地址信息，则直接获取对应的地理编码结果即可，无需执行后续处理，且该次的解析结果无需再次存入地址解析历史表。如果匹配不到相同的地址信息，则认为该地址信息为首次解析，则地址信息处理系统将按照正常的处理流程，联合编码系统实现对该地址信息的解析编码，并将此次地理编码结果存入地址解析历史表中。

在另一实施例的系统结构中，原始数据系统可以与地址信息处理系统共用同一服务器。并且编码系统也可以与地址信息处理系统共用同一服务器。但相比较而言，采用编码系统置于独立的服务器，并通过封装批量解析接口的方式完成编码任务，由于不占用地址信息系统对地址信息分析提取的计算资源，因此提高了编码效率，让数据处理更实时。

本申请以下实施例将以编码系统与地址信息处理系统分置于不同服务器，原始数据为订单数据为例进行描述。

在订单数据中，存在用以表示信息不同属性的字段，如订单人、价格、地址等，通过这些字段可以快速的定位到地址信息。由于原始数据中的地址信息多数由人手动填写，存在各种错误和不规范，为此地址信息处理系统需要首先将这些地址信息转换为标准形式的地理数据。如地址信息为“天津新港二号路18号滨海新区李先生”，该地址信息中存在非地理数据，那么就需要将其转换为标准形式的地理数据即“天津市|滨海新区|塘沽街道|新港二号路18号”。

为将未经处理的地址信息转换为标准形式的地理数据，本申请首先提取地址信息中的地理实体以及地理实体对应的行政区划级别。地理实体即天津、滨海、塘沽等，行政区划级别即国家、省份、市区、县等级别。如现有技术中所讲，都是利用正则表达式将符合一定规则的字符串提取出地理实体及对应的行政区划级别，这样不仅需要构建规则库，还需要表征地址的字符串符合一定的规则。对于不符合规则的字符串则无法完成提取。为解决此问题，本申请特提供一种通过特征选择算法优化的行政地理实体关系识别模型，利用自然语言处理技术(NLP)对地址信息进行特征选择，并计算得到特征向量。以特征向量为输入，利用训练好的行政地理实体关系识别模型得到预测结果即由地理实体和对应的行政区划级别组成的一个二元地理实体关系数组political relation。如下式：

political relation＝[(e1，t1)，(e2，t2)，...(en，tn)]

这里e1…en代表识别出地理实体，t1…tn代表行政级别，级别分类见表1，二元数组中的行政级别可以用表1中的标志词代替。如市可以用CI表示。对于一些非地理实体和非行政区划级别的信息，我们归为冗余信息。当然重复的地理信息我们也会归为冗余信息。

表1

如图2所示，以地址信息为“天津新港二号路18号滨海新区李先生谢谢合作”为例，经此模型预测步骤会得到：

[(‘天津’，‘CI’)，(‘新港二号路18号’，‘RO’)，(‘滨海新区’，‘AR’)，(‘李先生’，‘OT’)，(‘谢谢’，‘OT’)，(‘合作’，‘OT’)]

显然的，上述得到的二元数组还存在几个问题：

1、缺少部分地理实体。如滨海新区与新港二号路之间缺少街道信息。

2、存在很多冗余信息。需要说明的是，如果上述地址中出现多次相同的地理信息，则只会保留一个，其余重复的也应当归于冗余信息。

为解决上述2个问题，我们按照行政区划级别的顺序，将每一行政区划级别以及该级别的每一地理实体作为一个节点，将国家行政级别地理信息编辑为树形字典。

对上述模型预测的二元数组进行排序去重，剔除冗余并按照行政区划级别进行排序后得到新的二元数组即一个标准地址。具体参照行政级别标准CO＞PR＞CI＞AR＞ST＞RO＞BU，进行类别编码，按照编码升序排列，无对应任何行政区划级别的信息以及重复的地理信息作为冗余信息被剔除。如上述二元数组排序去重后如图2所示会得到如下数组：

[(‘天津’，‘CI’)，(‘滨海新区’，‘AR’)，(‘新港二号路18号’，‘RO’)]

之后将该排序去重后的二元数组与树形字典进行匹配，以确定二元数组中是否有地理信息缺失。具体可采用递归方法进行查缺补全。比如上述二元数组中的滨海新区与新港二号路之间缺少塘沽街道这一地理信息。

如有地理信息缺失，则按照树形字典将二元数组的地理信息补全。之后获得标准形式的地理数据，如图2所示：

[(‘天津’，‘CI’)，(‘滨海新区’，‘AR’)，(‘塘沽街道’，‘ST’)，(‘新港二号路18号’，‘RO’)]

获得标准形式的地理数据之后即可采用前述的编码技术对地理数据编码，得到地理编码结果。

上述提及本申请提供一种通过特征选择算法优化的行政地理实体关系识别模型，接下来将对该模型的构建训练过程进行描述：

首先是利用自然语言处理技术(NLP)对样本地址信息进行特征提取和选择，并计算得到样本特征向量。具体步骤如下：

1、构建地址信息语料的样本集合，地址信息语料可以从图1中的原始数据系统获得。为进一步提高准确度，本申请可以将从原始数据系统获得的原始地址信息语料分为坐标解析程序无法获得坐标编码的数据，获取坐标不正确的数据，以及能够正确获取坐标的数据。然后每个分类等份从原始地址信息语料中筛选出来，作为基础语料。之后对筛选出来的语料进行分词并标注出每个分词的样本地理实体和样本地理实体对应的行政区划(行政地理标识)。随机选取一定比例的标注数据进行模型训练，并预留一定比例的标注数据进行模型验证。

2、特征提取和选择：

2.1对上述用于模型训练的标注的地址数据进行特征提取，之后对每一个地理行政区划级别，将提取的特征进行重算特征频率FC，Nik表示特征在地址信息文本中出现的次数，如式(1)，Ni表示地址信息中出现的特征总数。

2.2计算每一特征pw和每一地理行政区划级别t相关度，获得特征权重W如式(2)：

其中，EX _ik为在除了地理行政区划级别t的其他级别中特征pw出现的文本数；UN _ik为在地理行政区划级别t中特征pw未出现的文本数；S为所有行政实体分类中的地理实体文本数的总和。

2.3计算权重平均值W _avg和特征频率平均值FC _avg，(3)和(4)中FN表示特征类型总数，当特征的权重满足W＞W _avg或者(W＜W _avg且FC＞FC _avg)，即为选定的目标特征

3、计算目标特征的样本特征向量：

3.1有x个地理行政区划级别，那么选择出的每个目标特征将得到x个相关度，取这x个相关度的平均值作为每个词的权值。根据特征权值获得加权矩阵A _rc：

A _rc＝(W _ija _ij) _r*c (5)

3.2特征向量计算，设Y∈R ^n*n有n个无关的特征向量，主特征值m ₁满足|m ₁|＞|m ₂|≥...≥|m _n|，则对任意行政地理实体特征向量v ₀＝c ₀，按下述方法构造的向量序列{c _k}，{v _k}：

则有：

lim _k→∞μ _k＝m ₁ (7)

由式(2)(5)(6)(7)(8)构建获得加权归一化样本特征向量如式(9)所表示：

之后将获得的样本特征向量v作为模型训练的向量化入参，通过神经网络与条件随机场算法如RNN循环神经网络与CRF条件随机场算法对向量化的训练语料进行训练，获得行政地理实体关系识别模型。模型最终输出的是一个二元地理实体关系组如下：

political relation＝[(e1，t1)，(e2，t2)，...(en，tn)]

上述模型的构建中，选择的目标特征与行政区划级别的相关度大，摒弃了一些与行政区划级别相关度低的杂乱特征，减少了这些杂乱特征对结果的不利影响，而且减少了模型输入的数据量。利用前述的特征选择进行了算法优化，使得输入模型的参数不是杂乱的地址信息，而是经过选择优化后的特征向量，提高了输入的参数与地理实体以及对应行政区划的相关度，因此加快了模型的计算速度，提高了识别结果的准确度。

基于正则规则的地址数据解析，要将全量的标准地理信息与地址规则读入内存构建词典树，以一台服务器为例，全量的规则词典树需要4GB内存，使用本申请方案，以行政区地理实体识别模型代替全量地理信息规则词典树，该模型只需要200MB内存空间，对比现有技术，本申请对内存方使用只需要现有技术的4.88％，降低了使用成本。

另外该方法相对现有技术解决了地理数据质量不高的问题，增加了地址解析的有效解析量，为上层决策提供更加准确的数据依据：

构建标准地理字典库结合正则提取的地址解析技术方案在对地址数据处理时有比较多的局限性，对于地址信息因人为因素存在比较多的脏数据场景，用这种普遍的技术方案的基本无法获得正确的地理信息。这里结合地址解析场景定义评价指标：正确率、解析率、有效解析率。

如下，R表示地址解析获取到了正确坐标的记录集合，G(wr) _i表示某种类型的解析错误结果集i，主要错误类型是解析坐标有偏差，T表示需要解析地址的总数量，S表示地址成功解析获取到了坐标的记录集合，E表示地址解析后没有获得坐标的失败记录集合，最终地址解析的正确率如式(10)，解析率如式(11)，有效解析率如式(12)。

解析正确结果集：R 解析错误结果集：

总样本数：T 解析成功结果集：S＝T-E 解析失败结果集：E

以10000条地址数据测试结果进行对比评估，基于字典与正则匹配技术的解析正确率为86.41％，其中13.59％解析结果不正确是由于地址信息中存在冗余信息、词序混乱等数据质量问题，同时数据质量问题还导致了部分数据解析失败获取不到坐标，使用该技术的解析率只有81％。而本申请方案在同样本下，解析率达到了98％，对比现有技术提升了17％，有效解析率从70％提升到了93％，如表2所示。

表2技术指标提升量

而利用特征选择算法对行政地理实体关系识别模型进行优化，提取地理信息的正确率高于传统规则匹配，提取的地理数据更加正确。

以下为本申请实施例一的一种具体实现：

构建底层数据同步任务，将原始数据系统中的原始录入的地址信息存储到解析任务集群的HDFS中。解析任务集群基于spark技术，用java开发数据处理任务，实现任务调度分配。在解析任务集群中部署预先训练好的行政地理实体关系识别模型，对低质量的地址信息进行行政区划级别和地理实体关系的识别，提取有效信息。其中核心的行政地理实体关系识别模型采用python语言实现，基于RNN循环神经网络与CRF条件随机场算法进行模型训练，嵌入行政地理实体特征优化算法，对人为干扰信息进行降噪。然后采用行政分级排序算法对行政地理实体进行排序重组，利用前述构建的树形字典对数据进行检查补漏，获得标准的地理数据，为后续编码提供提高质量地址信息。

地理编码功能，可以在spark任务集群进行并发调度，采用java开发的基于RESTful风格的http解析地址批量解析接口，对模型提取后补全的地址信息进行编码解析，获取标准地理编码信息。为了提升解析效率，可以采用任务并发调度的同时，运用了单次用批量提交的方式，对数据进行批量解析编码，在不增加集群压力情况下，提升解析编码吞吐量。

由于采用独立的批量编码解析服务，不会与提取计算抢占资源，解析时间明显缩短，在结合行政地理实体关系模型嵌入spark计算引擎内，原1千万数据需要15天解析完，采用专利方案后只需10个小时，速度提升了36倍。

实施例二

基于上述描述，本申请实施例二提供一种地址信息解析方法，如图3所示，所述方法包括：

S31获取原始数据中的待解析地址信息；

S32将所述待解析地址信息利用自然语言处理技术进行特征提取选择并对选择的特征向量化得到待识别特征向量；具体的方式可以参考模型训练中的特征提取选择以及向量化的步骤。

S33将所述待识别特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；

S34按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组；

S35对所述标准数组进行编码得到地理编码结果。具体的，可以调用外部服务器的编码接口，对所述标准数组进行编码得到地理编码结果。

若未被解析过，则将所述待解析地址信息利用自然语言处理技术进行特征提取。

为避免数组中的信息不完整，在对所述标准数组进行编码得到地理编码结果前，所述方法还包括：

本申请方法还包括预先构建所述预设模型的步骤：

计算提取的每一初级特征在地址文本中出现的频率；

上述预先构建所述预设模型的更具体步骤可以参见上述模型训练的过程。

上述地理编码结果可以结合其他数据一起为后续应用决策提供数据基础，为此，本申请中可将上述地理编码结果与该结果对应的原始数据进行关联存储。

以原始数据为销售数据为例，在将一原始数据的地址信息解析得到准确的地理编码结果后，可将该地理编码结果与对应的原始数据关联存储，就可以获得某一地理位置的商品销售情况。为方便后续检索，该关联信息可以存储在elasticsearch搜索引擎中。

实施例三

以上述关联存储为基础，以请求获得某一地域范围内的相关数据为例，本申请提供实施例三提供一种数据获取方法，包括：

接收候选地址信息；

对所述候选地址信息按照上述的地址解析方法进行解析获得解析后的候选地理编码数据；

通过上述方法即可以利用地理编码结果获得一定地理范围内的原始数据，为后续进行销售、推广等决策提供数据基础。

实施例四

对应上述实施例二的方法，本发明实施例四提供一种地址信息解析装置，如图4所示，该装置包括：

待解析地址信息获取单元41，用于获取原始数据中的待解析地址信息；

第一特征向量化单元42，用于将所述待解析地址信息利用自然语言处理技术进行特征提取选择并向量化，得到特征向量；

模型预测单元43，用于将所述特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；所述预设模型基于循环神经网络与条件随机场算法相结合训练得到；

排序单元44，用于按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组；

地理编码单元45，用于对所述标准数组进行编码得到地理编码结果。

优选的，所述装置还包括：

解析记录判断单元46，与待解析地址信息获取单元41相连，用于根据预存的历史地址信息解析记录，判断所述待解析地址信息是否被解析过；所述历史地址信息解析记录包括历史地址信息及对应的历史地理编码数据；

解析记录获取单元47，与解析记录判断单元46相连，用于在判断到待解析地址信息被解析时，获取对应的历史地理编码数据作为地理编码结果。

所述第一特征向量化单元42，具体用于在判断到待解析地址信息未被解析过时，将所述待解析地址信息利用自然语言处理技术进行特征提取。

为避免数组中的信息不完整，所述装置还包括

在对所述标准数组进行编码得到地理编码结果前，所述方法还包括：

补全单元48，用于将排序单元44排序得到的所述标准数组与预存的地理位置树形字典进行匹配，判断所述标准数组是否有缺失并在有缺失时根据所述地理位置树形字典对所述标准数组补全；所述地理位置树形字典按照行政区域逐级划分形成；

地理编码单元45具体用于对补全后的所述标准数组进行编码得到地理编码结果。

本申请装置还包括预先构建所述预设模型的单元，具体包括

第二特征向量化单元，用于对样本集合中的地址数据利用自然语言处理技术提取特征并进行特征选择，对选择的特征进行向量化得到样本特征向量；该步骤的具体过程可以参见实施例一中的相关描述。其中第二特征向量化单元与第一特征向量化单元可以相同或不同。

样本行政实体关系单元，用于对样本集合中的地址数据进行语料标注，得到包括样本地理实体和样本地理实体对应的样本行政区划级别构成的样本数组；

模型训练单元，用于以所述样本特征向量做输入，以所述样本数组做输出，通过RNN 循环神经网络与CRF条件随机场算法进行训练，构建所述预设模型。

上述地理编码结果可以结合其他数据一起为后续应用决策提供数据基础，为此，本申请上述装置还包括关联存储单元，用于将上述地理编码结果与该结果对应的原始数据进行关联存储。

实施例五

对应上述方法和装置，本申请实施例五提供一种计算机系统，包括：

一个或多个处理器；以及

获取原始数据中的待解析地址信息；

将所述待解析地址信息利用自然语言处理技术进行特征提取选择，并将选择的特征向量化，得到特征向量；

将所述特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；

对所述标准数组进行编码得到地理编码结果。

其中，图5示例性的展示出了计算机系统的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的数据处理方法、装置及设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种地址信息解析方法，其特征在于，所述方法包括：

获取原始数据中的待解析地址信息；

将所述待解析地址信息利用自然语言处理技术提取特征并对提取出的特征进行选择，将选择的特征向量化得到待识别特征向量；

将所述待识别特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；

按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组；

对所述标准数组进行编码得到地理编码结果。
如权利要求1所述的地址信息解析方法，其特征在于，在将所述待解析地址信息利用自然语言处理技术进行特征提取前，所述方法还包括：

根据预存的历史地址信息解析记录，判断所述待解析地址信息是否被解析过；所述历史地址信息解析记录包括历史地址信息及对应的历史地理编码数据；

若被解析过，则获取对应的历史地理编码数据作为地理编码结果；

所述将所述待解析地址信息利用自然语言处理技术提取特征包括：若未被解析过，则将所述待解析地址信息利用自然语言处理技术进行特征提取。
如权利要求1所述的地址信息解析方法，其特征在于，在对所述标准数组进行编码得到地理编码结果前，所述方法还包括：

将所述标准数组与预存的地理位置树形字典进行匹配，判断所述标准数组是否有缺失；所述地理位置树形字典按照行政区域逐级划分形成；

若有缺失，则根据所述地理位置树形字典对所述标准数组补全；

所述对所述标准数组进行编码得到地理编码结果包括对补全后的所述标准数组进行编码得到地理编码结果。
如权利要求1所述的地址信息解析方法，其特征在于，所述对所述标准数组进行编码得到地理编码结果包括：

调用外部服务器的编码接口，对所述标准数组进行编码得到地理编码结果。
如权利要求1-4任一项所述的地址信息解析方法，其特征在于，所述方法还包括预先构建所述预设模型的步骤：

对样本集合中的地址数据进行语料标注，获得标注了样本地理实体和样本地理实体对应的行政区划的样本数组；

利用自然语言处理技术提取所述样本集合中的地址数据的初级特征并将符合一定条件的初级特征确定为目标特征，对所述目标特征进行向量化得到样本特征向量；

将所述样本特征向量作为输入，将对应的样本数组作为输出，使用神经网络与条件随机算法料进行训练获得所述预设模型。
如权利要求5所述的地址信息解析方法，其特征在于，所述利用自然语言处理技术提取所述样本集合中的地址数据的初级特征并将符合一定条件的初级特征确定为目标特征，对所述目标特征进行向量化得到样本特征向量包括：

计算提取的每一初级特征在地址文本中出现的频率；

根据所述频率计算所述每一初级特征与每个行政区划级别的相关度作为特征权重；

选择所述相关度和/或所述频率满足预设条件的所述初级特征作为所述目标特征；

计算选择出的每个目标特征与所述每个政区划级别的相关度并将每个目标特征的相关度平均值作为每个目标特征的权值并根据所述权值构建加权矩阵；

根据所述加权矩阵对所述目标特征进行向量化得到样本特征向量。
如权利要求1-4任一项所述的地址信息解析方法，其特征在于，所述方法还包括：

所述预测模型设于spark计算引擎，所述地理编码结果与原始数据关联存储在elasticsearch搜索引擎。
一种数据获取方法，其特征在于，所述方法包括

接收候选地址信息；

对所述候选地址信息按照如权利要求7所述的方法进行解析获得解析后的候选地理编码数据；

根据所述候选地理编码数据和预设地理范围，在预存的地理编码结果与原始数据的关联表中进行计算，获取预设地理范围内的地理编码结果和对应的原始数据。
一种地址信息解析装置，其特征在于，所述装置包括：

待解析地址信息获取单元，用于获取原始数据中的待解析地址信息；

特征提取单元，用于将所述待解析地址信息利用自然语言处理技术提取特征并对提取出的特征进行选择，将选择的特征向量化得到待识别特征向量；

模型预测单元，用于将所述待识别特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；所述预设模型基于循环神经网络与条件随机场算法相结合训练得到；

排序单元，用于按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组；

地理编码单元，用于对所述标准数组进行编码得到地理编码结果。
一种计算机系统，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

获取原始数据中的待解析地址信息；

将所述待解析地址信息利用自然语言处理技术进行特征提取并对提取出的特征进行选择，将选择的特征向量化，得到待识别特征向量；

将所述待识别特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组；

按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组；

对所述标准数组进行编码得到地理编码结果。