WO2021000362A1

WO2021000362A1 - 一种基于深度神经网络模型的地址信息特征抽取方法

Info

Publication number: WO2021000362A1
Application number: PCT/CN2019/097375
Authority: WO
Inventors: 张丰; 毛瑞琛; 杜震洪; 徐流畅; 叶华鑫
Original assignee: 浙江大学
Priority date: 2019-07-04
Filing date: 2019-07-23
Publication date: 2021-01-07
Also published as: JP2021532432A; JP7041281B2; US20210012199A1; CN110377686A; US11941522B2; CN110377686B

Abstract

一种基于深度神经网络模型的地址信息特征抽取方法。利用深度神经网络架构，将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元，设计语言模型将其向量化表达，再将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性，提出地址语义-空间的特征融合方案，设计加权聚类方法与特征融合模型，从自然语言的地址文本中抽取出融合有语义特征和空间特征的融合向量。可实现地址信息的特征内容提取，其结构具备高拓展性，能够统一地址信息任务的解决思路，对于城市建设具有重要意义。

Description

一种基于深度神经网络模型的地址信息特征抽取方法

技术领域

本发明涉及GIS(地理信息系统)的地址信息挖掘领域，具体涉及一种基于深度神经网络模型的地址信息特征抽取方法。

背景技术

随着GIS认知与应用能力的不断提升，地址信息逐步成为智慧城市时代的核心资源，其内容中所承载的语义和空间内涵，更是构建智慧城市中地理本体与时空语义框架的基础支撑。让计算机从理解地址文本的角度出发，深度提炼地名地址综合特征并形成数值形式的量化表达，对于融合和理解城市语义与空间内容具有重要的理论价值和实践意义。然而当前以非结构化文本管理或地址编码为核心的理论研究，由于无法深入挖掘文本的特征内涵，导致其在任务处理时面临信息孤岛、附加数据依赖、泛化性弱等突出问题，限制了地址数据在智慧城市领域内的使用。

以深度神经网络为代表的深度学习方法，能充分利用计算机处理性能，具有对非线性问题超强的参数计算和拟合能力。在自然语言领域的研究中，神经网络语言模型以深度神经网络为基础，能够以高维向量的形式去表达字符、词语、语句甚至文章的语义特征。而地名地址作为一种特异化的自然语言，能够很好地与当前语言模型结合，构造出一种符合地名地址语法规则与意义的地名地址语言模型，是实现地址文本语义特征表达的有效途径。

地名地址在城市范围内具有数据量大、空间分布稠密等特点，同时地址文本的语义特征向量维度很高。改进的K-means算法是一种无监督聚类方法，具有逻辑简单、运行效率高、收敛速度快、算法可解释性强、调参数目少、适合大数据和高维度的聚类等特点，聚类数量可参考范围内的功能区分布进行设定，使结果更符合人类逻辑，适合于地址文本的语义-空间融合聚类应用。

随着迁移学习在自然语言领域的深入应用，当前的神经网络语言模型已从神经网络结构设计着手开始支持微调任务的开展，方便使用者基于其通用模型实例进行下游任务的神经网络改造，核心是将已训练好的模型中的神经网络节点迁移到一个新的网络结构中去。相比于传统重新训练模型的方式，该方法在数据要求、训练时间和实践效果等方面都具有显著的优势，使模型输出的结果信息包含微调目标的融合权重，并实现目标任务的求解。

发明内容

本发明的目的是克服现有技术存在的问题，提供一种地址信息特征抽取的深度神经网络模型。

本发明的目的是通过以下技术方案来实现的：

一种基于深度神经网络模型的地址信息特征抽取方法，它包括如下步骤：

S1：构建位置顺序加权的词嵌入模块，用于通过位置编码算法与内置矩阵变量，将输入的地址文本中每个地址字符以唯一值的向量形式表达，实现地址信息从文本到编码的转换；

S2：构建字符编码的特征提取模块，通过多头自注意力机制的语义提取方法，获得字符要素在不同语义空间下的综合语义输出；

S3：构建基于上下文预测未知字符的目标任务模块，在满足地址字符与上下文表征映射关系的条件下，输出训练任务所需的预测字符条件概率分布；

S4：将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接，形成地名地址语言模型，并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练，使模型能够输出得到地址文本中每个字符的语义特征向量；

S5：综合地址文本中所有字符的语义特征向量，通过地址语义特征的池化方法得到句向量，并结合空间位置信息进行高维加权，通过K-Means聚类方法得到语义-空间融合的聚类结果；

S6：将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植，构成编码器；基于神经网络微调理论重构目标任务模块形成解码器，用于将S5中的聚类结果作为地址文本标签，对编码器中的神经网络参数变量赋予语义-空间的融合权重；

S7：结合所述的编码器和解码器，构建地址语义-空间融合模型，并对地址语义-空间融合模型进行训练，使模型能够针对地址文本输出语义与空间特征的融合向量表达。

基于上述方案，各步骤可具体采用以下具体方式实现。

优选的，所述的步骤S1中，词嵌入模块中具体的执行流程包括：

S11：创建字典-向量转换矩阵C；

S12：获得输入的地址文本中每个地址字符位于字典中的索引char_index；

S13：根据索引获得每个字符的one-hot向量，向量长度为字典的大小；

S14：将one-hot向量与Lookup Table相乘，得到每个字符的词嵌入值embedding ₀；

S15：获得每个字符在地址文本中的位置position；

S16：根据位置编码算法，获得每个字符的位置权重向量；每个字符的位置权重向量PW由所有维度的位置权重值组成；

偶数维度的位置权重值为：

奇数维度的位置权重值为：

其中d _model表示词嵌入embedding ₀的维度，i表示计算的第i个维度；

S17：将每个字符的位置权重向量与词嵌入值相加，得到每个字符经过位置顺序加权的字符向量化表达内容：

embedding＝embedding ₀+PW。

优选的，所述的步骤S2中，特征提取模块中具体的执行流程包括：

S21：将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器子模块串联形成的神经网络中；在每层自转换器子模块中，输入数据首先代入自注意力神经网络，其输出经过残差和归一化计算后，再代入前馈网络层，再经过残差和归一化计算后，作为该自转换器子模块的输出；

S22：除第一层自转换器子模块之外的其余自转换器子模块中，上一层的自转换器子模块的输出作下一层自转换器子模块的输入，层层传递，直至得到最后一层自转换器子模块的输出SA ^N。

优选的，所述的步骤S3中，目标任务模块中具体的执行流程包括：

S31：将S2中特征提取模块的输出作为前馈网络层的输入，通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding，非线性变换公式为：

prob_embedding＝g(W×SA+b)

式中：g()表示ReLu函数，W表示权重矩阵，b表示线性偏置；

S32：将prob_embedding进行线性变换，得到其概率分布得分：

logits＝C ^T×prob_embedding+b′

其中权重矩阵C ^T为字典-向量转换矩阵C的转置，b′表示线性变换的偏置；

S33：将概率分布得分logits代入到softmax激活函数，最终得到每个字符是字典中各个字的条件概率分布。

prob＝softmax(logits)

优选的，所述的步骤S4的具体实现流程包括：

S41：将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接，形成地名地址语言模型；

S42：构建地名地址语言模型训练框架，训练框架中首先定义基于随机屏蔽策略的自然语言训练方案，然后构造字典以及训练数据的模型输入，再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化；

S43：基于所述训练框架对地名地址语言模型进行训练，使模型能够输出地址文本中每个字符的语义特征向量表达。

进一步的，所述的步骤S42中：

所述的基于随机屏蔽策略的自然语言训练方案具体为：随机屏蔽输入的地址文本句子中部分字符，以屏蔽符号表示；然后将地址文本句子中的部分屏蔽符号替换成真实字符，再将地址文本句子中的部分屏蔽符号替换成错误字符，剩余的屏蔽符号不变；在地名地址语言模型训练过程中，只针对这3种被屏蔽符号替换的字符执行目标任务模块；

所述神经网络优化器中采用学习率衰减、全局梯度裁剪和自适应矩估计算法三种梯度更新优化策略。

优选的，所述的步骤S5的具体实现流程包括：

S51：获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SA ^N、SA ^N-1、SA ^N-2、SA ^N-3，分别对SA ^N、SA ^N-1、SA ^N-2、SA ^N-3进行平均值池化与最大值池化，然后并将池化结果全部相加，获得地址文本的最终语义特征表达sentEmbed ₀；

S52：分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range；

对每个地址文本的语义特征向量sentEmbed ₀和空间特征向量coorEmbed ₀进行去量纲操作，并通过设置权值λ对去量纲后的特征向量进行权重分配，得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed：

coorEmbed＝coorEmbed ₀*(1-λ)

将两种处理后的特征向量直接拼接，最终形成融合特征向量：

concatEmbed＝{sentEmbed,coorEmbed} _；

S53：通过K-Means聚类算法，结合Elkan距离计算优化算法、Mini-Batch K-means策略和K-means++聚类中心初始化方案，对所有融合特征向量进行聚类，得到语义-空间融合的聚类结果。

优选的，所述的步骤6的具体实现流程包括：

S61：将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植，两者连接构成编码器；

S62：重新构建用于对地址文本进行分类的目标任务模块作为解码器，用于通过神经网络对所述编码器的输出生成概率分布；在解码器中，首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SA ^N做平均值池化，池化结果作为地址句语义特征；然后通过前馈网络层对地址句语义特征进行非线性变换，将语义特征转换为分类问题的概率分布特征，激活函数使用tanh；最后将得到的概率分布特征通过全连接层转换为地址文本的概率得分分布，由softmax函数求得地址文本属于S5中得到的每一个聚类的预测概率分布。

优选的，所述的步骤S7的具体实现流程包括：

S71：将所述的编码器和解码器连接得到地址语义-空间融合模型；

S72：构建地址语义-空间融合模型的训练框架，并基于该训练框架对地址语义-空间融合模型进行训练，使模型能够针对地址文本输出语义与空间特征的融合向量表达。

本发明的另一目的在于提供一种地址文本的地理位置预测方法，其步骤如下：

首先，构建地址空间坐标预测模型；所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层，按照权利要求1～9所述方法训练得到地址语义-空间融合模型，并将其中特征提取模块的最后一层自转换器子模块的输出SA ^N经过池化层池化后，依次输入三层连续的全连接层以及一层线性变换层中，输出地址文本所描述的空间实体所在的预测坐标；

然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中，得到该地址文本所描述的空间实体所在的预测坐标。

本发明与现有技术相比具有有益效果：

(1)本发明利用现代人工智能方法优越的拟合与计算能力，将地址文本的特征表达任务转换为深度神经网络的结构设计与训练问题，革新了地址信息的研究方法，为地名地址数据的处理和应用提供新的思路。而现有技术尚未有关于地址文本特征提取的相关研究。

(2)本发明结合多头自注意力机制、位置加权算法、未知字符预测任务设计了地名地址语言模型ALM。模型结构与训练框架完善且具有自调整能力，可实现模型参数变量的精准拟合与高效计算，对地名地址语义特征进行高效提取。

(3)本发明复用ALM结构及相关神经网络输出，设计地址文本句向量表达，引入K-Means聚类理论，提出了地址信息的高维聚类融合方法，改进传统空间聚类无法概括地址语义的弊端，实现语义-空间加权的地址元素分割；同时参考深度神经网络模型微调理论，设计地址语义-空间融合模型GSAM，以聚类结果为导向开展模型的目标任务实现，使其具备两者特征的综合概括能力。

附图说明

图1为本发明的基于深度神经网络模型的地址信息特征抽取方法流程图；

图2为特征提取模块的结构图；

图3为本发明地名地址语言模型(ALM)结构图；

图4为本发明地址语义-空间融合模型(GSAM)结构图；

图5为本发明地址元素语义-空间加权聚类结果(语义权重0.4/空间权重0.6)；

图6为地址空间坐标预测模型结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

地址文本及其对应的空间位置是城市建设的基础，对地址信息进行统一建模并以数值结果输出，有助于下游任务的统一化开展，降低业务的复杂性。然而地址文本是一种特异化的自然语言文本，其无法直接被计算机所理解，需要利用语言模型抽取出其中有用的特征信息。语言模型的本质是衡量一个句子出现的可能性，核心思想是根据句子里前面的一系列前导单词预测后面跟上哪个单词的概率分布。针对现有地名地址研究中存在的信息特征表达不充分、数据建设工作不深入、应用场景局限的困境，本发明的构思是：综合利用人工智能方法的深度神经网络架构，将文本特征提取、地址规范化建设和语义空间融合等任务转化为可量化的深度神经网络模型构建与训练优化问题。以地址中的字符为基本输入单元，设计语言模型将其向量化表达。在此基础上，将地名地址规范化建设的关键技术通过神经网络目标任务加以实现。同时考虑到地名地址空间表达特性，提出地址语义-空间的特征融合方案，设计加权聚类方法与特征融合模型，该模型的目的是从自然语言的地址文本中抽取出融合有语义特征和空间特征的融合向量。下面本发明对技术方案进行具体描述。

如图1所示，一种基于深度神经网络模型的地址信息特征抽取方法，包括以下步骤：

S4：将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接，形成地名地址语言模型(ALM)，并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练，使模型能够输出得到地址文本中每个字符的语义特征向量；

S7：结合所述的编码器和解码器，构建地址语义-空间融合模型(GSAM)，并对地址语义-空间融合模型进行训练，使模型能够针对地址文本输出语义与空间特征的融合向量表达。

下面对于前述步骤在本发明中的具体实现过程进行详细阐述。

字符向量化表达是模型的基础，字符初始化表达所涵盖的信息决定了后续网络开展的效果，传统的词嵌入没有位置信息的权重，会导致在语义特征提取时每个字对目标字符的影响与位置无关的结果，这与人脑对于文本的理解并不符合，因此需要嵌入位置信息。本发明通过步骤S1的词嵌入模块来实现，下面具体展开描述在步骤S1中词嵌入模块中具体的执行流程如下：

S11：创建字典-向量转换矩阵(Lookup Table)C。

S12：获得输入的地址文本中每个地址字符位于字典中的索引char_index。

S13：根据索引获得每个字符的one-hot向量，向量长度为字典的大小：

S14：将one-hot向量与Lookup Table相乘，得到每个字符的词嵌入值embedding ₀：

embedding ₀＝C×one_hot

S15：获得每个字符在地址文本中的位置position；position代表了该字符在地址文本中的字符序数。

S16：根据位置编码算法，获得每个字符的位置权重向量；每个字符的位置权重向量PW由所有维度的位置权重值组成，因此需要计算每一个维度的权重值后组合形成PW。奇数维度与偶数维度的计算公式不同，分别如下：

偶数维度的位置权重值为：

奇数维度的位置权重值为：

其中d _model表示词嵌入embedding ₀的维度，i表示计算的第i个维度。每个字符的PW的维度与embedding ₀维度保持一致。

embedding＝embedding ₀+PW。

由此可见，在步骤S1中构建的词嵌入模块，不仅可以实现字符位置顺序的加权，还考虑了字符之间的相对位置，更有利于后续的网络展开。词嵌入模块提取的字符向量化表达信息需要在S2的特征提取模块进行特征向量提取。特征提取模块能够深入挖掘字符所处语言环境，实现字符语义的提炼，将语义特征以数值向量形式输出。本发明中，特征提取模块基于多头自注意力机制来构建语言模型的语义特征深度神经网络结构，以实现地址文本语义化精确表述。

在步骤S2中，特征提取模块中具体的执行流程如下：

S21：将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器(Self-Transformer)子模块串联形成的神经网络中。在每层自转换器子模块中，输入数据首先代入自注意力神经网络，其输出经过残差和归一化计算后，再代入前馈网络层，再经过残差和归一化计算后，作为该自转换器子模块的输出。

由此可见，在特征提取模块中核心是自转换器子模块。为了更清楚解释每个自转换器子模块的实现，下面对其具体的结构进行详细描述。根据前述的描述，每个自转换器子模块中实际封装有多头自注意力神经网络框架层、残差网络-批归一化层、前馈网络层、残差网络-批归一化层，下面逐个进行阐述。

(1)构建文本自注意力(self-attention)神经网络框架。

自注意力的本质来源于人类视觉观察文本的注意力机制，以文本中的特定字符为例，人类理解它的语义需要参考它与其他字符的相互联系，因此自注意力机制的具体实现思路可以表示为：将句中所有字符对于该字的影响赋予权重，通过权重与字符本身内容结合，来综合确定该字的语义特征。

地址文本的本质是一个描述地址的句子，句子中每个字符表示为3个特征向量，分别为Query(Q)，Key(K)，Value(V)，他们由字符的词嵌入向量X乘以三个权重矩阵W ^Q,W ^K,W ^V算得，权重矩阵则通过神经网络训练得到。字符l的attention内容的计算流程如下：

首先，由步骤S1中词嵌入模块可以获得输入句子的所有字符词嵌入向量，计算得到每个字符的Q,K,V向量q,k,v。

计算l与所有字符的得分。

score ¹＝q ^l·k ¹,score ²＝q ^l·k ²,...,score ⁿ＝q ^l·k ⁿ

为了训练时梯度的稳定，将得分值进行归一化，其中d ^k是表示向量k的维度：

对所有得分值进行softmax归一化输出：

score＝softmax(score)

将每个得分值点乘对应的v向量，得到每个字符对于该字的加权评价：

eva＝score·v

将所有字符对于该字的加权评价相加，得到该字的语义特征表达：

在实际过程中，上述计算过程均由矩阵操作完成，可表达为：

Q＝W ^Q×embedding

K＝W ^K×embedding

V＝W ^V×embedding

然而该方法只能获得一种语义空间的信息，在此基础之上发展而来的多头自注意力机制(Mutli-head self-attention)则是将原本只映射一次的特征向量进行了多次映射，得到多个语义子空间下的Q，K，V，再分别对其进行注意力取值操作，并将结果进行拼接，最终得到字符综合语义空间下的self-attention表达。

将上述多头自注意力方法封装成单个神经网络层，称之为多头自注意力神经网络框架层(MSA layer)，为了更好地提升语义特征提取效果，本发明采用多个MSA layer以层层叠加的形式进行地址语义的提取。

(2)残差网络-批归一化层

由于输出的语义SA的实际意义是全文字符对于每个字符的影响，其计算过程难免存在语义提取的误差，若单以此表达字符语义，则随着网络层数的增加，低层特征传到高层时会发生信息丢失的情况，误差也会随之逐级递增，出现语义表达的退化(degradation)现象。为避免MSA layer之间信息传递的语义退化，引入残差网络层神经网络结构，MSA layer的输出需要在残差网络-批归一化层中经过残差和归一化计算。以第l层的多头注意力层的输出为例，核心思想表示为如下公式：

SA ^l＝SA ^l-1+F(SA ^l-1)

SA ⁰＝X

SA ^l-1表示上一层的输出，F函数表示多头注意力的处理方法，其中SA ⁰为初始传入的词嵌入信息。在每一个MSA layer输出后对上一层信息相加，融合自注意力语义和文本嵌入信息，同时对结果进行批归一化(Batch Normailize，BN)操作，方便结果信息传递后的下一步计算，避免训练时的梯度消失(多步反向传播导致误差梯度趋于0的情况)。

(3)前馈网络层

同时由于输出结果是自注意力头计算得到的向量拼接结果，会存在数据空间无序的问题，因此需通过一个前馈网络层(全连接神经网络)并辅以激活函数ReLU对该结果进行非线性变换，使语义以顺序且有意义的形式输出。随后将输出结果再输入残差网络-批归一化层进行一次残差与归一化操作。

因此，在本发明中由MSA layer-残差网络-批归一化层-前馈网络层-残差网络-批归一化层组合成自转换器子模块(Self-Transformer Moudule)。最终神经网络结构由多个Self-Transformer Moudule顺序叠加而成，其整体结构如图2所示。

目标任务模块(Target Module)紧接在语义特征提取模块之后，在本发明中可以理解为，该模块的输入即为Self-Transformer Module叠加后的输出，已知该输入包含了句子中每一字符的语义特征信息。

基于以上条件，本发明中提出了基于上下文预测未知字符的目标任务，其具体内容为：

假设句子中的某一字符未知，其他上下文可知。

W＝{w ₁,w ₂,...,w _i-1,w _i(unknow),w _i+1,...,w _n}

式中：w _j表示地址文本的句子中第j个字符(j≠i)，w _i(unknow)表示地址文本的句子中第i个字符为未知字符。

通过已知上下文，预测该未知字符的出现概率，写为如下条件概率表达：

P(x _i|x ₁,x ₂,...x _i-1,x _i+1,...,x _n)

将地址文本内容代入至前述的词嵌入模块和特征提取模块中，得到最终字符上下文语义特征信息：

SA＝{sa ₁,sa ₂,...,sa _i-1,sa _i,sa _i+1,...sa _n}

sa _i表达的是上下文作用于字符x _i的权重，此处可用sa _i表达全文对该字符的影响，则可将条件概率表达式作如下近似：

P(x _i|x ₁,x ₂,...x _i-1,x _i+1,...,x _n)≈P(x _i|sa _i)

基于该目标任务，本发明设计了基于上下文预测字符的目标任务神经网络结构。步骤S3中，目标任务模块中具体的执行流程如下：

S31：将S2中特征提取模块的输出作为前馈网络层(Feed Forward)的输入，通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding，为之后基于Lookup Table计算字符概率做准备。非线性变换公式为：

prob_embedding＝g(W×SA+b)

式中：g()表示ReLu函数，W表示权重矩阵，b表示线性偏置；

S32：构建全连接层，将prob_embedding进行线性变换，实现“修正词嵌入”到概率分布得分的线性变换，得到其概率分布得分：

logits＝C ^T×prob_embedding+b′

prob＝softmax(logits)

该目标任务模块的优点在于兼顾了字符的上下文语义，且符合语义特征提取模块实现的单词-上下文表征的映射关系。

完成上述三个模块的构建后，即可进行地名地址语言模型(Address Language Model，ALM)的构建和训练。在本发明中，步骤S4的具体实现流程包括：

S41：将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接，形成地名地址语言模型ALM的完整结构，如图3所示。

S42：构建地名地址语言模型训练框架，训练框架中首先定义基于随机屏蔽策略的自然语言训练方案，然后构造字典以及训练数据的模型输入，再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化。神经网络的训练框架可以根据实际需要进行调整，现有技术中也存在大量的可实现方式，为了便于理解，本发明中对其具体的实现方式进行示例性展开。

(1)定义随机屏蔽策略的自然语言训练方案

基于随机屏蔽策略的自然语言训练方案设计为：随机屏蔽输入的地址文本句子中部分字符，以屏蔽符号表示。屏蔽符号是指不会正常出现在地名地址文本中的字符，可根据需要进行选择。然后将地址文本句子中的部分屏蔽符号替换成真实字符，再将地址文本句子中的部分屏蔽符号替换成错误字符，剩余的屏蔽符号不变。然而屏蔽符号字符会对其他字符产生影响，若屏蔽太多字符，在语义特征提取时屏蔽符号的作用会造成其他内容的注意力计算偏差；而若每句文本只屏蔽一个字符，则会使模型训练所需步数急剧增加，造成严重的时间浪费。因此，屏蔽符号的具体数量需要根据实际进行调整优化。

为了方便操作且避免计算时的无用开销，训练时语言模型目标任务模块并不会对语义特征提取模块输出的所有信息进行计算，而只提取需要进行条件概率计算的字符位置处的神经元输出。因此，在地名地址语言模型训练过程中，只针对这3种被屏蔽符号替换的字符(包括依然是屏蔽符号的字符，以及被替换成屏蔽符号后由以其他字符替换的字符)执行目标任务模块。

为了便于理解，此处以“浙江省杭州市上城区复兴南街清怡花苑6幢3单元402室”这一地址文本为例，说明具体实现过程。

首先，随机屏蔽输入句子中15％的字符，以“mask”单词表示，由于该单词不会正常出现在地名地址文本中，所以不会对真实字符产生干扰，可以理解为完形填空中的“空格”表达，替换位置以下划线表示，如：

浙江 mask杭州市上城区 mask兴南街清怡 mask苑6幢3单元402室

浙 mask省杭州市上城区望 mask家园东苑18栋3单 mask601室

此外，考虑到后续任务的开展及模型的鲁棒性，对屏蔽字符中10％的mask替换成真实的字符，10％的mask内容替换成错误字符，如：

80％：浙江省杭州市上 mask区复兴南街清怡花苑6幢3单元402室

10％：浙江省杭州市上城区复兴南街清怡花苑6幢3单元402室

10％：浙江省杭州市上清区复兴南街清怡花苑6幢3单元402室

在ALM的实际训练过程中，不对所有的字符自注意力语义信息SA进行目标任务的概率统计计算，只针对上述3种被替换的字符执行目标任务操作。

(2)构造模型输入

模型输入分为字典构造和输入数据构造。

字典为模型涉及到的所有字符提供查找依据，其结构为<索引序号(key)>到<字符(value)>的键值对序列，可通过遍历所有地址的文本内容得到。此外，需新构造两个键值对，其value分别为mask和OOV(out of vocabulary)，用以表示文本中的空格和字典外的字符。

本发明中需预先收集地址文本数据集作为构建训练数据的基础。训练数据是原始地名地址文本经过处理后，能够被训练框架识别的输入。在构造训练数据时，直接将字符转化为对应的字典索引号，将句子以整型向量的形式表示，其形状可表示为：

inputData(batch_size,setence_size,embedding_size)

其中batch_size表示每次训练时，执行小批量梯度下降的样本大小；sentence_size为句子长度，embedding_size为词嵌入向量的长度。为保证句子长度一致，采用后位补齐(padding)方法，首先求得数据中的最大句子长度，若构造训练样本的句子小于该最大长度，则在后面补上索引号0。

此外，被屏蔽字符的位置信息、被屏蔽字符内容和所有字符顺序，也通过上述方法构造向量，一并作为训练时的输入数据传入。

(3)定义损失函数

根据ALM输出，获得mask位置上下文语义的预测字符的条件概率分布P(X|SA _i)，训练目标是使其对应字符字典索引序号处的条件概率趋近于1，即为P(x _i|SA _i)→1，该函数仅针对单个mask进行表达，在实际模型训练过程中的输出是矩阵形式，其形状为 prob(batch_size,max_mask_size,voc_size)，同时模型训练的输入也包含了相应句子中mask对应的正确信息true_ids(batch_size,max_mask_size)，通过的gather切片操作，以true_ids的值作为prob的索引进行内容查找，获得预测正确字符的条件概率矩阵true_prob：

true_prob(batch_size,max_mask_size)＝gather(prob,true_ids)

若true_ids中包含0元素，则其对应true_prob元素的值也设置为0。

将true_prob转换为对数概率，取值区间为(-∞,0]：

true_prob＝log(true_prob)

训练框架下的目标函数，即将true_prob中的所有非零元素相加后取平均值，使得结果尽可能趋近于0：

将true_prob中所有非零元素相加后取平均值的负数，得到损失函数定义：

(4)超参数确定

本实施例中，超参数包括训练样本大小batch_size、学习率η、训练轮数epoch、字典大小voc_size、最大句子长度max_sentence_size、最大屏蔽字数量max_mask_size、词嵌入长度embedding_size、语义特征提取模块数量num_self_transformer_module、自注意力头数量attention_head_size等等。需要根据数据内容、体量、硬件资源，综合确定模型训练时的超参数取值。

(5)构造神经网络优化器(Optimizer)

神经网络优化器是对梯度下降方法和梯度更新操作的具体实现，用来更新模型内部的神经网络参数变量，使其逼近或达到最优值，从而使损失函数结果最小。本实施例中可引入学习率衰减(learning rate decay)、全局梯度裁剪(clip by global norm)和自适应矩估计算法(adaptive moment estimation，Adam)三种梯度更新优化策略。

S43：构建完上述训练框架后，即可基于该框架和相应的训练数据，对地名地址语言模型进行训练，使模型能够输出地址文本中每个字符的语义特征向量表达。

(6)ALM模型语义输出

模型经过训练后所有内部参数变量均已实现对目标函数的拟合，从前述ALM的特征提取模块构建可知，特征提取模块的输出是每个字符的语义特征向量，即为本发明所要获得的地名地址语义特征表达。

通过训练后的ALM模型能够获得任意地址数据的每一个字符的语义向量。在此基础上，句子语义向量作为整句话语义特征的综合表达，本发明对其进行如下定义：在涉及到模型参数变量调整的优化任务中，地址句语义特征是地址文本中所有字符的语义向量的总和取平均。地址句语义特征可表示为如下公式：

式中：n为地址本文中的字符总数。

人脑对于地址文本存在空间特征联想，即在回答地址相关的问题时，会对该地址的坐落区域产生大致印象，这与传统自然语言的思考方式有本质区别。前述的ALM语义特征输出，能够捕获地址文本中的字符语义关系并以向量形式输出，但尚未融合空间语义特征，因此需要进一步设计符合人类思维的地址空间区域为目标，对地址语义和空间的加权聚类方法。

在本发明中，地址语义和空间的加权聚类通过步骤S5来实现，其具体实现流程如下：

S51：获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SA ^N、SA ^N-1、SA ^N-2、SA ^N-3，分别对SA ^N、SA ^N-1、SA ^N-2、SA ^N-3进行平均值池化(average pooling)与最大值池化(max pooling)。对整句文本求值，假设句子的长度为L，字符语义特征数量为S，字符内容以L×S的二维数组存储charEmbed[L,S]：

avg_sentEmbed[i]＝avg(charEmbed[0:L][i])

max_sentEmbed[i]＝max(charEmbed[0:L][i])

where:i∈[0,S-1]

平均值池化照顾到了句子包含的所有字符信息，而最大值池化则重点照顾句子中的关键字符及显著表征，为了兼顾以上优点，本发明融合了这两种池化方法，分别将平均值池化和最大值池化所得的地址文本表征相加，最终得到与字向量长度相同的句向量表达：

sentEmbed＝avg_sentEmbed+max_sentEmbed

同时ALM结构中包含多个Self-Transformer Module，每一层输出求得的句向量均包含不同侧重方向的语义信息，通过与ALM结构相似的BERT语言模型相关研究发现，其encoder(BERT语言模型中的语义提取模块)的输出在命名实体识别任务中具有如下表现：最后四层的向量连接>最后四层向量相加>其他，然而在本发明中连接操作会造成维度灾难。因此采用最后四层Self-Transformer Module池化结果sentEmbed相加的方式获得最终地址文本的向量表达，也就是说本发明中将最后四层输出的两种池化结果(共8个结果)全部相加，获得地址文本的最终语义特征表达sentEmbed ₀。

S52：将每个地址文本的语义句向量和空间作为特征信息，对两者进行融合：

为了统一标准，采用欧氏距离作为地址信息中语义与空间特征的差异度量单位。分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range。假设文本语义特征数量为S，地址数据集合为D，可表达为如下等式：

将两者极差值相除，即可近似求得其数量级之间的比值，实现两者特征的去量纲操作，且为了突出地址信息的某种特征，可对去量纲后的特征向量进行权重分配(此处λ表示权重)，得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed：

coorEmbed＝coorEmbed*(1-λ)

将两种特征向量直接拼接，最终形成一个S+2长度的融合特征向量是：

concatEmbed＝{sentEmbed,coorEmbed}

语义特征和空间特征之间的权重λ，会改变最终融合向量的应用效果。总的来说，语义特征和空间特征存在相互制约的关系：语义权重设置过大会导致空间距离很远的地址元素仍具有同样的类别，造成聚类的空间离散，进而会降低后续GSAM模型的空间精确性；而空间权重过大则会丢失地址的语义信息，使聚类丧失了对城市功能区块的划分能力，从而造成不符合人类认知的结果，进而降低了GSAM模型对于地址文本的语义理解能力。

S53：通过K-Means聚类算法，对所有地址文本的融合特征向量进行聚类，得到语义-空间融合的聚类结果。为了提高聚类的性能，本发明采用了Elkan的距离计算优化算法，该算法以聚类中心之间的距离作为三角形的一条边，通过三角不等式来简化聚类的计算流程，以减少不必要的距离计算。同时，还使用了K-Means的变体Mini-Batch K-Means来提高聚类速度。Mini-Batch K-Means采用随机抽取小批量数据子集的方式以减小计算时间，相比于传统K-Means需要对所有元素进行计算后才更新聚类中心，其在每次迭代操作时，只随机选取指定样本大小的元素集合，再根据集合中的元素来更新聚类中心。除此之外，由于K-Means目标函数存在局部极小值点，算法容易陷入局部最优解，为了使聚类结果尽量接近全局最优解，聚类中心的初始化显得尤为关键。本发明使用了Arthur and Vassilvitskii(2007)提出的K-Means++聚类中心初始化方案，进行聚类结果的误差改善。该算法的核心思想是在初始化聚类中心时，让聚类中心之间的距离尽可能远。

在得到地址文本语义与空间融合的聚类结果后，将每条地名地址文本W _i赋予聚类结果标签B _i，分别得到地址文本与分类标签数据集W{W ₁,W ₂,W ₃,…},B{B ₁,B ₂,B ₃,…}，在此基础上可以后续定义新的神经网络结构目标任务，即对每条地址文本的聚类结果进行正确预测，并以W和B作为实验数据，进行迁移学习模型和训练框架的设计，构建具有融合特征提取能力的地址语义-空间融合模型(Geospatial-Semantic Address Model，GSAM)。

下面以实现ALM的语义-空间融合为目标，从神经网络语言模型的微调理论出发，在步骤S6中构建GSAM模型，具体的执行流程如下：

S61：将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植(复用ALM结构)，两者连接构成编码器。移植过程中，神经网络参数变量均保持不变。

因此在该GSAM模型的编码器中，词嵌入模块和特征提取模块是与ALM模型一致的，其特征提取模块的每一层自转换器子模块均可输出对应的语义特征变量。但原来的目标任务模块无法实现地址文本分类的目标，因此需要通过下述步骤重新构建地址文本分类器。

S62：重新构建用于对地址文本进行分类的目标任务模块作为解码器，用于通过神经网络对所述编码器的输出生成概率分布。在解码器中具体的执行流程为：

首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SA ^N做平均值池化，池化结果作为地址句语义特征。

然后通过前馈网络层对地址句语义特征进行非线性变换，将语义特征转换为分类问题的概率分布特征，并保留输入的语义特征数量S，输出的概率分布特征数量仍为S，激活函数使用tanh。该函数的输出梯度区间为(-1,1)，相比于ReLU中会把负梯度置零的缺点，它可以尽可能地保留神经元的激活状态，虽然收敛效果不如ReLU，但此处由于目标任务的网络结构较为简单，且该层已靠近模型的最终输出层，因此以此为激活函数具有更好的效果。

随后将得到的概率分布特征通过全连接层将其转换为地址文本的概率得分分布。其中神经元的权值矩阵与偏置均为训练参数变量，以随机的方式进行初始化赋值。

最后将概率得分分布得分代入softmax函数，得到地址文本属于每一个聚类(聚类类别在S5中得到)的预测概率分布P(B|W)。

利用上述编码器和解码器，即可构建地址语义-空间融合模型(其结构如图4所示)，并结合其目标任务制定地址文本分类的模型训练框架。其具体通过步骤S7实现，具体的执行流程如下：

S71：将上述编码器和解码器连接，得到地址语义-空间融合模型GSAM的完整结构。

地址语义-空间融合模型的训练框架如下：

(1)模型输入与超参数构造

训练数据输入包括地址文本数据集及与其对应的聚类标签，其中文本数据集用于训练时的输入，聚类标签则代表模型输出的概率分布中应正确对应的索引值，是评判模型好坏的监督依据。同时由于地址文本中数字与空间位置相关，因此不能忽略，需要将文本数据中出现的数字加入字典，同时移植的ALM模型实例的神经网络参数也应是未替换成NUM的模型训练结果。

训练时超参数与前述的ALM模型类似，包括训练样本大小batch_size、学习率η、字典大小、分类标签数量num_labels、训练轮数epoch、测试间隔步数train_interval；另外，还包括最大句子长度max_sentence_size、词嵌入长度(特征数量)embedding_size、语义特征提取模块数量num_self_transformer_module和自注意力头数量attention_head_size，这几个超参数均是ALM训练时的超参数，此处与移植的参数变量所在ALM模型实例严格保持一致。

(2)定义最大化预测分类概率的训练方案，将地址文本通过模型输出后的正确标签概率变得尽可能大，从而使模型内部的参数变量向着正确分类结果不断拟合。

(3)定义模型训练的损失函数。

每次训练的地址文本数量为batch_size，模型的概率输出为prob(batch_size,num_labels)，结合样本的真实标签序列B(batch_size)，获得每一条样本的真实标签概率：

true_prob(batch_size)＝gather(prob,B)

通过概率的对数值相加后取平均值，可得到训练框架中的目标函数表达：

通过概率的对数值相加后取平均负值，可得到训练任务的损失函数表达：

(4)结合模型训练框架与输入的训练数据，对GSAM模型展开训练。获得训练完毕的GSAM模型后，可以将地址文本输入该模型中，输出语义-空间特征的融合向量表达。在该输出的融合向量中，即含有语义特征，又含有空间特征，具有语义-空间的融合属性，此类融合向量具有广泛的应用场景，可以用于构建各类地名地址空间下游任务。

下面基于该上述方法，将其应用至实施例1中，以直观展示其技术效果。

实施例1

本实施例中，以杭州市上城区200百万条地名地址数据构建成地址文本数据集，对其进行特征向量抽取。其基本步骤如前述的S1～S7所述，不再赘述，下面主要对各步骤的一些具体实现细节和效果进行展示。

1、根据步骤S1～S7中描述的方法，使用TensorFlow深度学习框架构建ALM和GSAM，同时设置模型的保存点，保存除目标任务模块以外的神经网络参数变量，方便接下来微调任务中的移植；模型的超参数通过hype-para.config配置文件进行设定，其中具体内容主要包括如下几类：

1)训练样本大小batch_size：64；2)初始学习率η：0.00005；3)训练轮数epoch：3；4)字典大小voc_size：4587；5)最大句子长度max_sentence_size：52；6)最大屏蔽字数量max_mask_size：7；7)词嵌入长度embedding_size：768；8)语义特征提取模块数量num_self_transformer_module：6至12；9)自注意力头数量attention_head_size：12；10)分类标签数量num_labels：500；11)测试间隔步数train_interval：500

2、针对杭州市上城区地名地址的文本内容，构建相关字典，并根据ALM训练数据的构造方法生成随机屏蔽结果，将其中1％，即两万条内容作为测试集，剩余作为训练集。

3、开展杭州市上城区地址数据的ALM实例训练，每隔500步保存模型实例，并对验证集进行一次验证，同时利用TensorBoard插件绘制训练梯度曲线和测试梯度曲线，判断模型是否存在过拟合或欠拟合，最终选取验证准确率最高的保存点作为模型生成结果，其中特征提取模块中Self-Transformer子模块的输出即为地址文本的语义特征向量。以语义特征提取模块数量作为变量，分别设置为6、8、10、12进行模型实例的训练，对比指标如下表：

四类模型实例最终验证的准确度均在90.5％左右，按语义模块数量的顺序依次递增，平均损失值与准确度呈现负相关趋势。从训练模型得到的损失值来看，验证数据集损失值与之相差很小，因此基本可以判断上述四个模型均未出现过拟合及欠拟合的情况。在训练耗时方面，随着模块数量的增加，训练时长也相应增加，然而即使消耗时间最长的模型，在实际训练中带来的负担也仍在可接受范围之内。同时，语义提取模块的增加能更好地提升模型对于地址文本语义特征的提取能力，使各层模块的语义输出更具线性。综合上述各指标情况，判定12个提取模块能够给模型带来最好的目标任务结果和语义特征提取效果；

4、根据前述的聚类方式，对地址文本的语义特征句向量和空间坐标信息开展融合聚类，以城市功能区块划分为依据设定聚类数量为500，通过调整语义特征向量和空间特征向量的权重进行聚类实验和对比，最终发现该实验室数据在语义特征向量权重0.4和空间特征向量权重0.6的权重分配模式下(即λ为0.4)，聚类的结果如图5所示，该结果最符合人类认知。记录此时地址文本的聚类结果标签，与地址文本建立关联。

5、将第三步得到保存点中的神经网络参数变量移植到GSAM模型中，构建验证集与测试集(不屏蔽地址内容，包含文本所有字符序号的整型向量)，数据集内容包含地址文本信息和聚类标签结果，比例依然保持1％(不少于1万条)与99％。

6、以最大化预测分类概率为目标，开展杭州市上城区地址数据的GSAM模型实例训练，每隔500步保存模型实例，并对验证集进行一次验证，绘制训练梯度曲线和测试梯度曲线，判断模型是否存在过拟合或欠拟合，最终选取验证F1值最高的保存点作为模型生成结果。其中特征提取模块中Self-Transformer子模块的输出即为地址文本的语义-空间融合特征向量。从训练数据集的梯度曲线变化来看，模型实例的损失值在20k步前有着较快的下降趋势，随后下降过程变缓并存在小幅度的局部震荡，直至100k步后逐渐平稳，损失值保持在0.18到0.01之间反复震荡，经过平滑后基本在0.08到0.05的区间内，因此可以认为GSAM实例此时已达到训练要求。验证集与训练集的损失梯度曲线状态几乎保持一致，仍是“快速下降-缓慢下降-平稳震荡”的趋势表达。然而在稳定后的损失值方面，验证集则是在0.1293到0.1271之间，与测试集曲线中心有着一定差距，可知模型实例在训练时存在轻微的过拟合现象，需要在100k之后综合考虑测试数据的评价指标曲线，从而选取最优的训练状态点作为模型的生成实例。验证指标的曲线变化是损失曲线的负相关表达，其在训练早期呈快速上升趋势，精确率、宏F1(Macro-F1)分类性能在20k步时分别达到了0.9457,0.9308和0.9458，随后开始缓慢上升，直到100k到120k之间时，三者的指标区间分别稳定在0.9696-0.9711，0.9593-0.9614和0.9698-0.9711之间，其中伴随着小幅度震荡，由于上述三个区间的范围已经很小，因此可认为此时模型已经达到了训练要求，从中取一个较好的步长点作为模型的生成实例。综合以上情况，实验决定在保证模型训练效果的范围内，尽可能降低模型训练集与验证集的过拟合差距，且在该段范围内的验证指标曲线已经稳定，因此不会对模型效果造成太大影响，最终实验选取115.5k时的模型实例保存点作为模型的生成实例GSAM_Format，训练集和测试集的损失值分别为0.128和0.1176，此时的验证精确率、宏F1值及微F1值分别为0.9706，0.9607和0.9710。从GSAM_Format对目标任务的分类效果来看，验证集的三项指标均达到了0.96以上，说明该模型实例能够很好地实现聚类结果的标签识别，因此可认为其已具备高效精确的分类能力；从模型结构上进行分析，其特征提取模块通过训练，能够输出包含语义-空间的融合特征，可为地址相关的下游工程提供支撑。而且，GSAM能对地址文本中的数字赋予聚类粒度的空间特征，其输出的地址文本能够以语义-空间融合特征的形式进行表达，这是ALM及其他自然语言模型所不具备的。

下面通过另一实施例，给出基于该方法提取的融合向量开展的一种下游任务实现方式，以便于本领域技术人员更好地理解。

实施例2

本实施例中提供了一种地址文本的地理位置预测方法，该方法的目的是实现地址文本中提到的地点名称与其对应的空间坐标之间的关联，构建两者的联合表达方式，即“基于地址文本内容预测文档中提及的空间实体的坐标”。

本实施例中地址文本的地理位置预测方法的具体步骤如下：

首先，构建地址空间坐标预测模型；所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层，按照S1～S7所述方法训练得到地址语义-空间融合模型，并将其中特征提取模块的最后一层自转换器子模块的输出SA ^N经过池化层池化后，依次输入三层连续的全连接层以及一层线性变换层中，输出地址文本所描述的空间实体所在的预测坐标。模型整体结构如图6所示。

该模型通过设置三个全连接层作为目标任务模块的隐藏层，并将结果经过线性变换，实现预测坐标的二值输出，该模块的输入则为GSAM模型中的特征提取模块输出。实现过程中，按照前述的S1～S7及实施例1中描述的方法，构建并训练GSAM模型(GSAM_Format)，然后将其中特征提取模块的最后一层自转换器子模块的输出SA ^N经过池化层池化后，依次输入三层连续的全连接层，使模型能够保留更多语义-空间到坐标转换时的关联信息，使用ReLU作为激活函数以保证在训练时的收敛效果。最后一层的神经元输出结果已具有预测坐标的特征，但特征数量与空间坐标的维度并不匹配，因此需经过线性变换层实现降维操作，输出结果即为地址文本所描述的空间实体所在的预测坐标

该地址空间坐标预测模型需要进行训练后，才能够用于预测工作。但需要注意的是，在训练时需要对GSAM模型中的编码器部分变量参数，即任务目标模块之前的神经网络参数Frozen While Training，即进行冻结，在执行反向传播时不对上述参数变量进行梯度下降操作。

模型输入与超参数构造：

训练数据输入包括地址文本数据集及与其对应的真实坐标信息，其中文本数据集用于训练时的输入，真实坐标信息则用于评价模型输出的预测坐标，是指导模型训练时梯度下降的数值依据。同时由于模型中的特征提取模块迁移自训练得到的GSAM模型实例，因此需获取GSAM实例对相关神经网络参数变量进行赋值，训练时的字典也与该模型实例保持一致。

训练时超参数的定义与赋值如下：

(1)训练样本大小batch_size：64。

(2)学习率η：1×10 ^-4(初始学习率)。

(3)字典大小：与地址语义-空间融合模型实例使用的词典大小保持一致，此处字典应包含地址文本中的所有数字枚举。

(4)训练轮数epoch：5。

(5)测试间隔步数train_interval：500。

(6)其他ALM训练的相关超参数(max_sentence_size、embedding_size)，与GSAM实例所设值保持一致。

定义训练方案的具体内容：使地址文本通过模型输出后的坐标预测值与真实值尽可能接近，从而使目标任务模块内部的参数变量向着正确结果不断拟合。

每次训练的地址文本数量为batch_size，因此可将训练目标定义为使该样本距离误差的平均值为0，模型的输出为pred_coord(batch_size,2)，结合样本的空间坐标序列true_coord(batch_size,2)，可得到训练框架中的目标函数表达，其中dis(x)表示空间距离量算函数：

由此可得模型训练的损失函数：

为了对比本发明的效果，除了基于GSAM_Format构建预测模型之外，本实施例还构建和训练了两个对照模型实例。其中一个的模型结构与本实施例一致，但在特征提取器方面，采用ALM_Format对目标任务模块外的神经网络参数变量进行赋值，此时该模型实例的特征表达仅包含地址文本语义信息；另一个则使用Word2Vec方法对地址文本进行向量表达，其目标任务模块与下游任务模型相同，也以三层全连接神经网络作为隐藏层，最后进行线性变化得到输出。两组对照模型在训练时同样仅对目标任务模块中的神经网络参数执行梯度更新操作。隐藏层维度大小为变量，依次设置为768/768/768，1024/1024/1024，2048/2048/2048和4096/4096/4096开展下游任务模型及对照模型实例的训练。

对训练模型取收敛后最优效果的步长点作为模型最终实例保存，此时模型评价指标概括如下表所示：

从上述三个指标以及曲线变化的分析来看，基于GSAM_Format的预测模型针对样本地址信息，无论从全面还是局部来看，其空间坐标的预测能力都远胜于其他两类模型，能高效且精准地完成类似人脑从“地址文本认知”到“空间区域感知”的过程。这也从侧面论证了本发明的GSAM模型确实具有语义-空间融合特征的学习能力，其训练实例包含语义-空间的融合权重。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

一种基于深度神经网络模型的地址信息特征抽取方法，其特征在于，包括如下步骤：

S1：构建位置顺序加权的词嵌入模块，用于通过位置编码算法与内置矩阵变量，将输入的地址文本中每个地址字符以唯一值的向量形式表达，实现地址信息从文本到编码的转换；

S2：构建字符编码的特征提取模块，通过多头自注意力机制的语义提取方法，获得字符要素在不同语义空间下的综合语义输出；

S3：构建基于上下文预测未知字符的目标任务模块，在满足地址字符与上下文表征映射关系的条件下，输出训练任务所需的预测字符条件概率分布；

S4：将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接，形成地名地址语言模型，并采用基于随机屏蔽策略的自然语言训练方案对地名地址语言模型进行训练，使模型能够输出得到地址文本中每个字符的语义特征向量；

S5：综合地址文本中所有字符的语义特征向量，通过地址语义特征的池化方法得到句向量，并结合空间位置信息进行高维加权，通过K-Means聚类方法得到语义-空间融合的聚类结果；

S6：将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植，构成编码器；基于神经网络微调理论重构目标任务模块形成解码器，用于将S5中的聚类结果作为地址文本标签，对编码器中的神经网络参数变量赋予语义-空间的融合权重；

S7：结合所述的编码器和解码器，构建地址语义-空间融合模型，并对地址语义-空间融合模型进行训练，使模型能够针对地址文本输出语义与空间特征的融合向量表达。
根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法，其特征在于，所述的步骤S1中，词嵌入模块中具体的执行流程包括：

S11：创建字典-向量转换矩阵C；

S12：获得输入的地址文本中每个地址字符位于字典中的索引char_index；

S13：根据索引获得每个字符的one-hot向量，向量长度为字典的大小；

S14：将one-hot向量与Lookup Table相乘，得到每个字符的词嵌入值embedding ₀；

S15：获得每个字符在地址文本中的位置position；

S16：根据位置编码算法，获得每个字符的位置权重向量；每个字符的位置权重向量PW由所有维度的位置权重值组成；

偶数维度的位置权重值为：

奇数维度的位置权重值为：

其中d _model表示词嵌入embedding ₀的维度，i表示计算的第i个维度；

S17：将每个字符的位置权重向量与词嵌入值相加，得到每个字符经过位置顺序加权的字符向量化表达内容：

embedding＝embedding ₀+PW。
根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法，其特征在于，所述的步骤S2中，特征提取模块中具体的执行流程包括：

S21：将S1中词嵌入模块输出的字符向量化表达内容输入由多层自转换器子模块串联形成的神经网络中；在每层自转换器子模块中，输入数据首先代入自注意力神经网络，其输出经过残差和归一化计算后，再代入前馈网络层，再经过残差和归一化计算后，作为该自转换器子模块的输出；

S22：除第一层自转换器子模块之外的其余自转换器子模块中，上一层的自转换器子模块的输出作下一层自转换器子模块的输入，层层传递，直至得到最后一层自转换器子模块的输出SA ^N。
根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法，其特征在于，所述的步骤S3中，目标任务模块中具体的执行流程包括：

S31：将S2中特征提取模块的输出作为前馈网络层的输入，通过非线性变换将其转化为每个字符经过上下文影响后的“修正词嵌入”信息prob_embedding，非线性变换公式为：

prob_embedding＝g(W×SA+b)

式中：g()表示ReLu函数，W表示权重矩阵，b表示线性偏置；

S32：将prob_embedding进行线性变换，得到其概率分布得分：

logits＝C ^T×prob_embedding+b′

其中权重矩阵C ^T为字典-向量转换矩阵C的转置，b′表示线性变换的偏置；

S33：将概率分布得分logits代入到softmax激活函数，最终得到每个字符是字典中各个字的条件概率分布。

prob＝softmax(logits)
根据权利要求1所述的一种地址信息特征抽取的深度神经网络模型，其特征在于，所述的步骤S4的具体实现流程包括：

S41：将S1中的词嵌入模块、S2中的特征提取模块以及S3中的目标任务模块顺次连接，形成地名地址语言模型；

S42：构建地名地址语言模型训练框架，训练框架中首先定义基于随机屏蔽策略的自然语言训练方案，然后构造字典以及训练数据的模型输入，再定义损失函数并通过构造神经网络优化器对模型参数变量进行优化；

S43：基于所述训练框架对地名地址语言模型进行训练，使模型能够输出地址文本中每个字符的语义特征向量表达。
根据权利要求5所述的基于深度神经网络模型的地址信息特征抽取方法，其特征在于，所述的步骤S42中：

所述的基于随机屏蔽策略的自然语言训练方案具体为：随机屏蔽输入的地址文本句子中部分字符，以屏蔽符号表示；然后将地址文本句子中的部分屏蔽符号替换成真实字符，再将地址文本句子中的部分屏蔽符号替换成错误字符，剩余的屏蔽符号不变；在地名地址语言模型训练过程中，只针对这3种被屏蔽符号替换的字符执行目标任务模块；

所述神经网络优化器中采用学习率衰减、全局梯度裁剪和自适应矩估计算法三种梯度更新优化策略。
根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法，其特征在于，所述的步骤S5的具体实现流程包括：

S51：获取地址文本在所述特征提取模块中最后四层自转换器子模块的输出SA ^N、SA ^N-1、SA ^N-2、SA ^N-3，分别对SA ^N、SA ^N-1、SA ^N-2、SA ^N-3进行平均值池化与最大值池化，然后并将池化结果全部相加，获得地址文本的最终语义特征表达sentEmbed ₀；

S52：分别计算所有地址文本在语义特征向量空间中的欧氏距离极差sent_range和空间特征向量空间中的欧氏距离极差coor_range；

对每个地址文本的语义特征向量sentEmbed ₀和空间特征向量coorEmbed ₀进行去量纲操作，并通过设置权值λ对去量纲后的特征向量进行权重分配，得到处理后的语义特征向量sentEmbed和空间特征向量coorEmbed：

coorEmbed＝coorEmbed ₀*(1-λ)

将两种处理后的特征向量直接拼接，最终形成融合特征向量：

concatEmbed＝{sentEmbed,coorEmbed}；

S53：通过K-Means聚类算法，结合Elkan距离计算优化算法、Mini-Batch K-means策略和K-means++聚类中心初始化方案，对所有融合特征向量进行聚类，得到语义-空间融合的聚类结果。
根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法，其特征在于，所述的步骤6的具体实现流程包括：

S61：将S4中训练完成的地名地址语言模型中的词嵌入模块和特征提取模块进行移植，两者连接构成编码器；

S62：重新构建用于对地址文本进行分类的目标任务模块作为解码器，用于通过神经网络对所述编码器的输出生成概率分布；在解码器中，首先对所述编码器中特征提取模块的最后一层自转换器子模块输出SA ^N做平均值池化，池化结果作为地址句语义特征；然后通过前馈网络层对地址句语义特征进行非线性变换，将语义特征转换为分类问题的概率分布特征，激活函数使用tanh；最后将得到的概率分布特征通过全连接层转换为地址文本的概率得分分布，由softmax函数求得地址文本属于S5中得到的每一个聚类的预测概率分布。
根据权利要求1所述的基于深度神经网络模型的地址信息特征抽取方法，其特征在于，所述的步骤S7的具体实现流程包括：

S71：将所述的编码器和解码器连接得到地址语义-空间融合模型；

S72：构建地址语义-空间融合模型的训练框架，并基于该训练框架对地址语义-空间融合模型进行训练，使模型能够针对地址文本输出语义与空间特征的融合向量表达。
一种地址文本的地理位置预测方法，其特征在于，步骤如下：

首先，构建地址空间坐标预测模型；所述地址空间坐标预测模型中包括三层连续的全连接层以及一层线性变换层，按照权利要求1～9所述方法训练得到地址语义-空间融合模型，并将其中特征提取模块的最后一层自转换器子模块的输出SA ^N经过池化层池化后，依次输入三层连续的全连接层以及一层线性变换层中，输出地址文本所描述的空间实体所在的预测坐标；

然后将待预测地理位置的地址文本输入经过训练的地址空间坐标预测模型中，得到该地址文本所描述的空间实体所在的预测坐标。