WO2020168750A1

WO2020168750A1 - 一种地址信息标准化方法、装置、计算机设备及存储介质

Info

Publication number: WO2020168750A1
Application number: PCT/CN2019/117264
Authority: WO
Inventors: 吴壮伟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-02-18
Filing date: 2019-11-11
Publication date: 2020-08-27
Also published as: CN109960795B; CN109960795A

Abstract

一种地址信息标准化方法、装置、计算机设备及存储介质，其中方法包括下述步骤：获取待标准化的地址信息；将所述地址信息输入到预设的分词模型中，得到所述分词模型输出的地址分词；将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；将所述候选地址输入到预设的标准地址生成模型中，得到所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。本方法基于人工智能技术，先识别待标准化的地址信息对应的具体地址，再将其转化为预期的标准化的地址，解决了用户输入地址信息时存在多种表达方式，导致无法识别或识别不准确的问题。

Description

一种地址信息标准化方法、装置、计算机设备及存储介质

本申请以2019年2月18日提交的申请号为201910121905.7，名称为“一种地址信息标准化方法、装置、计算机设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及数据标准化技术领域，尤其涉及一种地址信息标准化方法、装置、计算机设备及存储介质。

背景技术

现在，随着电子商务、电子导航、定位等技术的发展，在很多场合很多应用程序涉及到地址信息的获取、识别、处理和应用。如电子商务领域，往来的邮件需要对通讯地址进行识别和处理，电子地图需要对用户输入的地址进行识别、定位或路线规划。

由于人们对地址表达的多样化，这种多样化的表达给地址识别带来了诸多不便，导致一些系统无法自动化运行，例如物流系统，需要投入大量的人力去做地址识别，通过人工对邮件进行分拣处理，随着电子商务的发展，业务增长巨大，人工的处理显然不够高效和准确。所以，对地址信息进行标准化处理，使应用系统可以准确识别多样化的地址表达，提高工作效率，是一项急需解决的问题。

发明内容

为解决地址信息表达多样化，计算机系统无法识别的问题，本申请提供一种地址信息标准化方法、装置、计算机设备及存储介质。

为解决上述技术问题，本申请提出一种地址信息标准化方法，包括：获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息；将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。

为解决上述问题，本申请还提供一种地址信息标准化装置，包括：获取模块，用于获取待标准化的地址信息；分词模块，用于将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；匹配模块，用于将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；执行模块，用于将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。

为解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述地址信息标准化方法的步骤。

为解决上述技术问题，本申请实施例还提供一种非易失性可读存储介质，所述非易失性可读存储介质上存储有计算机可读指令，所述计算机可读指令被一种处理器执行时，实现上述地址信息标准化方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图

图1为本申请实施例一种地址信息标准化方法基本流程示意图；

图2为本申请实施例对地址分词进行过滤处理流程示意图；

图3为本申请实施例对地址分词进行同义词扩展流程示意图；

图4为本申请实施例使用词覆盖率和/或词顺序覆盖率匹配候选地址流程示意图；

图5为本申请实施例使用扩展词覆盖率和/或扩展词顺序覆盖率匹配候选地址流程示意图；

图6为本申请实施例一种地址信息标准化装置基本结构框图；

图7为本申请实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本实施方式中的终端即为上述的终端。

具体地，请参阅图1，图1为本实施例一种地址信息标准化方法的基本流程示意图。

如图1所示，一种地址信息标准化方法，包括下述步骤：

S101、获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息；

目标用户基于其地址识别需求通过终端上的数据输入界面向服务器发送待标准化的地址信息，如以终端上的可交互的界面作为数据输入界面，在界面上提供一个输入框，供用户输入地址信息。在一些实施方式中，通过在终端上内置有语音识别装置来获取用户发出的语音信息，将语音信息转化为计算机可以识别的字符串。

S102、将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；

将S101获取的待标准化的地址信息输入到预设的分词模型中，得到对待标准地址信息的地址分词，该分词模型利用的基于词典的分词方法，其输出的是与词典中的词条最匹配的内容。例如接收到的地址信息为“北大深圳医院”,对其进行分词，可以采用最简单的单字分词，得到的地址分词为“北”、“大”、“深”、“圳”、“医”、“院”这种分词方法，使应用词覆盖率来衡量与常用地址的匹配度时，算法简单。词覆盖率即计算两个字符串的重合度。

在一些实施方式中，采用双向最大匹配法。双向最大匹配方法是一种基于词典的分词方法。基于词典的分词方法是按照一定策略将待分析的汉字串与一个机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。基于词典的分词方法按照扫描方向的不同分为正向匹配和逆向匹配，按照长度的不同分为最大匹配和最小匹配。双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。根据研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的，只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，即有歧义的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对。所以为了使切分出来的词汇能准确的反映句子的意思，采用双向最大匹配法分词。

S103、将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；

将地址分词与预设的地址库匹配，预设的地址库保存有常用地址，计算地址分词和地址库中常用地址的匹配度，取匹配度最高的常用地址为待标准化地址信息的候选地址。常用地址是人们对某个地址的常用的表达法，通过计算匹配度得到候选的常用地址，使系统具有容错性，在用户输入错误或漏了某个字、或使用简称、或顺序颠倒的情况下，也能理解用户的真实意图，例如待标准化的地址信息为“北大深圳医院”，经过分词为“北大”、“深圳”、“医院”，与预设的地址库匹配，得到的候选地址为“深圳北大医院”。

S104、将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。

将候选地址输入到预设的标准地址生成模型中，生成标准的地址。候选地址是人们对某一地点的常用表达方式，这种表达方式对人的思维来说，已经很具体了。但是，为了计算机能够理解并能够处理，有必要将人们对某一地点的常用表达方式转换成标准的表达方式。通过Seq2Seq模型对标准特征的学习，使输出的标准地址满足预期。例如，待标准化的地址信息为“深圳北大医院”，为了定位的准确，预期的标准化地址为“深圳市福田区莲花路1120号北京大学深圳医院”。

其中通过Seq2Seq模型生成标准地址的过程为：首先将候选地址信息向量化，例如采用one-hot词汇编码方式得到词向量，输入到Encoder层，其中，Encoder层是以双向LSTM层作为基本的神经元单位的多层神经元层；

输出的encoder的状态向量，并输入到Decoder层中，其中Decoder层也是以双向LSTM(Long Short-Term Memory)层作为基本的神经元单位的多层神经网络；

将Decoder层输出的final_state状态向量输入到Softmax层，得到概率最高的候选词汇组合内容。

如图2所示，在步骤S103中，还包括下述步骤：

S111、将所述地址分词与预设的停用词表进行比对，并删除所述地址分词中与所述停用词表中重叠的词，得到过滤后的所述地址分词；

在一些实施方式中，通过预设的停用词表将地址分词中一些无意义的词过滤掉。例如“的”“啊”“或”。具体的过滤方法即将地址分词中的各词与停用词表中词比对，当地址分词中的词与停用词表中的词重叠，从地址分词中删除重叠的词。

S112、将所述过滤后的地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址。

将过滤掉停用词的地址分词的过滤结果与预设的地址库匹配，得到待标准化地址信息的候选地址，使用过滤结果与预设地址库进行匹配，可以去掉无意义词的干扰，使匹配结果更准确。

如图3所示，在步骤S103中，还包括下述步骤：

S121、根据所述地址分词检索预设的同义词表，并在同义词表中提取所述地址分词中各分词的同义词，得到所述地址分词的扩展结果，其中，所述扩展结果中包含所述地址分词及各地址分词的同义词；

在一些实施方式中，通过检索预设的同义词表，并将地址分词对应的同义词提取出来，组成地址分词的扩展结果。例如，地址分词中“北大”这个词，通过检索预设的同义词表，“北大”与“北京大学”为同义词，将地址分词中“北大”扩展为“北大/北京大学”。

S122、将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址。

在与预设的地址库匹配时，使用扩展结果与地址库中的常用地址匹配，例如常用地址库中为“北京大学深圳医院”，待标准化地址信息“深圳北大医院”，分词后为“深圳”、“北大”、“医院”，经同义词扩展为“深圳/深圳市”、“北大/北京大学”、“医院”，与常用地址“北京大学深圳医院”可以视为完全匹配。经过扩展的地址分词可以提高地址识别准确度。

如图4所示，在步骤S103中，还包括下述步骤：

S131、计算所述地址分词与所述预设的地址库中各常用地址的词覆盖率和/或词顺序覆盖率，其中，所述词覆盖率为所述地址分词中与所述常用地址重叠的词数占所述地址分词数的比例，所述词顺序覆盖率为所述地址分词与所述常用地址顺序重叠的词数占所述地址分词数的比例；

本申请实施例中采用词覆盖率来衡量地址分词与预设地址库中各常用地址的匹配度，从而确定待标准化地址对应的候选地址。词覆盖率是地址分词中与常用地址重叠的词数占地址分词数的比例。例如地址分词为“深圳”“莲花路”“北大”“医院”，常用地址为“北大深圳医院”，则词覆盖率为3/4。

在一些实施方式中，计算匹配度时，不但计算词的重叠率，还要考虑词的顺序，即地址分词中的词汇及顺序都需要与常用地址中词汇及顺序一致，才计入匹配度的计算，例如地址分词的词汇及顺序为“北大”“深圳”“医院”与常用地址“深圳北大医院”的词顺序覆盖率为2/3，即只有“北大”“医院”与常用地址中的词顺序重叠。

S132、定所述词覆盖率和/或词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。

这里取词覆盖率和/或词顺序覆盖率最高的常用地址为待标准化地址信息对应的候选地址。

如图5所示，在步骤S122中，还包括下述步骤：

S141、计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率，其中，所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例，所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例；

在一些实施方式中，对地址分词进行了同义词扩展，我们用扩展词覆盖率来衡量扩展的地址分词与预设的地址库中常用地址的匹配度。扩展词覆盖率即扩展结果中的地址分词或地址分词的同义词与常用地址重叠的词数占所述地址分词数的比例。例如经扩展的地址分词为“深圳/深圳市”、“北大/北京大学”、“医院”，计算与常用地址“北大深圳医院”的匹配度时，认为完全匹配，即匹配度为3/3＝1。

同样也可以计算顺序匹配度，不但计算词的重叠率，还要考虑词的顺序，即扩展的地址分词中的词汇及顺序都需要与常用地址中词汇及顺序一致，才计入匹配度的计算。

S142、确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。

同样取扩展词覆盖率最高或扩展词顺序覆盖率最高的常用地址为待标准化地址信息对应的候选地址。

在一些实施方式中，综合考虑扩展词覆盖率和扩展词顺序覆盖率，即通过以下公式计算匹配度

S＝aX+bY+cXY

其中，S为扩展结果与预设的地址库中常用地址的匹配度，X为扩展词覆盖率，Y扩展词顺序覆盖率，XY为综合词覆盖率，a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。

综合了扩展词覆盖率和扩展词顺序覆盖率的匹配度计算使匹配结果更准确。

为解决上述技术问题本申请实施例还提供一种地址信息标准化装置。具体请参阅图6，图6为本实施例地址信息标准化装置的基本结构框图。

如图6所示，一种地址信息标准化装置，包括：获取模块210、分词模块220、匹配模块230和执行模块240。其中，获取模块210，用于获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息；分词模块220，用于将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；匹配模块230，用于将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；执行模块240，用于将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。

本申请实施例通过获取待标准化的地址信息；将所述地址信息输入到预设的分词模型中，得到所述分词模型输出的地址分词；将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；将所述候选地址输入到预设的标准地址生成模型中，得到所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。本申请基于人工智能技术，先识别待标准化的地址信息对应的具体地址，再将其转化为预期的标准化的地址，解决了用户输入地址信息时存在多种表达方式，导致无法识别或识别不准确的问题。

在一些实施方式中，所述地址信息标准化装置中的分词模块基于双向最大匹配法。

在一些实施方式中，所述地址信息标准化装置还包括：第一过滤子模块和第一匹配子模块。其中，第一过滤子模块，用于将所述地址分词与预设的停用词表进行比对，并删除所述地址分词中与所述停用词表中重叠的词，得到过滤后的所述地址分词；第一匹配子模块，用于将所述过滤后的地址分词结果与预设的地址库匹配，得到与所述地址信息对应的候选地址。

在一些实施方式中，所述地址信息标准化装置还包括：第一扩展子模块、第二匹配子模块。其中，第一扩展子模块，用于根据所述地址分词检索预设的同义词表，并在同义词表中提取所述地址分词中各分词的同义词，得到所述地址分词的扩展结果，其中，所述扩展结果中包含所述地址分词及各地址分词的同义词；第二匹配子模块，用将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址。

在一些实施方式中，所述地址信息标准化装置还包括：第一计算子模块和第一执行子模块。其中，第一计算子模块，用于计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率，其中，所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例，所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例；第一执行子模块，用于确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。

在一些实施方式中，所述地址信息标准化装置中，通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址：

S＝aX+bY+cXY

在一些实施方式中，所述地址信息标准化装置还包括：第二计算子模块和第二执行子模块。其中，第二计算子模块，用于计算所述地址分词与所述预设的地址库中各常用地址的词覆盖率和/或词顺序覆盖率，其中，所述词覆盖率为所述地址分词中与所述常用地址重叠的词数占所述地址分词数的比例，所述词顺序覆盖率为所述地址分词与所述常用地址顺序重叠的词数占所述地址分词数的比例；第二执行子模块，用于确定所述词覆盖率和/或词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

如图7所示，计算机设备的内部结构示意图。如图7所示，该计算机设备包括通过系统总线连接的处理器、非易失性可读存储介质、存储器和网络接口。其中，该计算机设备的非易失性可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种地址信息标准化方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种地址信息标准化方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图6中获取模块210、分词模块220、匹配模块230和执行模块240的具体内容，存储器存储有执行上述模块所需的计算机可读指令和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有地址信息标准化方法中执行所有子模块所需的计算机可读指令及数据，服务器能够调用服务器的计算机可读指令及数据执行所有子模块的功能。

计算机设备通过获取待标准化的地址信息；将所述地址信息输入到预设的分词模型中，得到所述分词模型输出的地址分词；将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；将所述候选地址输入到预设的标准地址生成模型中，得到所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。本申请基于人工智能技术，先识别待标准化的地址信息对应的具体地址，再将其转化为预期的标准化的地址，解决了用户输入地址信息时存在多种表达方式，导致无法识别或识别不准确的问题。

本申请还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述地址信息标准化方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种地址信息标准化方法,其特征在于,包括下述步骤：

获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息；

将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；

将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；

将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。
根据权利要求1所述的地址信息标准化方法，其特征在于，在所述将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词的步骤中，所述分词模型基于双向最大匹配法。
根据权利要求1所述的地址信息标准化方法，其特征在于，所述将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤，包括下述步骤：

将所述地址分词与预设的停用词表进行比对，并删除所述地址分词中与所述停用词表中重叠的词，得到过滤后的地址分词；

将所述过滤后的地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址。
根据权利要求1所述的地址信息标准化方法，其特征在于，所述将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤，包括下述步骤：

根据所述地址分词检索预设的同义词表，并在同义词表中提取所述地址分词中各分词的同义词，得到所述地址分词的扩展结果，其中，所述扩展结果中包含所述地址分词及各地址分词的同义词；

将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址。
根据权利要求4所述的地址信息标准化方法，其特征在于，在所述将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤中，包括下述步骤：

计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率，其中，所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例，所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例；

确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
根据权利要求5所述的地址信息标准化方法，其特征在于，通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址：

S＝aX+bY+cXY

其中，S为扩展结果与预设的地址库中常用地址的匹配度，X为扩展词覆盖率，Y扩展词顺序覆盖率，XY为综合词覆盖率，a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
根据权利要求1所述的地址信息标准化方法，其特征在于，在所述将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤中，包括下述步骤：

计算所述地址分词与所述预设的地址库中各常用地址的词覆盖率和/或词顺序覆盖率，其中，所述词覆盖率为所述地址分词中与所述常用地址重叠的词数占所述地址分词数的比例，所述词顺序覆盖率为所述地址分词与所述常用地址顺序重叠的词数占所述地址分词数的比例；

确定所述词覆盖率和/或词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
一种地址信息标准化装置，其特征在于，包括：

获取模块，用于获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息；

分词模块，用于将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；

匹配模块，用于将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；

执行模块，用于将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下地址信息标准化方法的步骤：

获取待标准化的地址信息；

将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；

将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；

将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。
根据权利要求9所述的计算机设备，其特征在于，在所述将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词的步骤中，所述分词模型基于双向最大匹配法。
根据权利要求9所述的计算机设备，其特征在于，所述将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤，包括下述步骤：

将所述地址分词与预设的停用词表进行比对，并删除所述地址分词中与所述停用词表中重叠的词，得到过滤后的地址分词；

将所述过滤后的地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址。
根据权利要求9所述的计算机设备，其特征在于，所述将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤，包括下述步骤：

根据所述地址分词检索预设的同义词表，并在同义词表中提取所述地址分词中各分词的同义词，得到所述地址分词的扩展结果，其中，所述扩展结果中包含所述地址分词及各地址分词的同义词；

将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址。
根据权利要求12所述的计算机设备，其特征在于，在所述将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤中，包括下述步骤：

计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率，其中，所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例，所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例；

确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
根据权利要求13所述的计算机设备，其特征在于，通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址：

S＝aX+bY+cXY

其中，S为扩展结果与预设的地址库中常用地址的匹配度，X为扩展词覆盖率，Y扩展词顺序覆盖率，XY为综合词覆盖率，a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
一个或多个非易失性可读存储介质，其特征在于，所述非易失性可读存储介质上存储有计算机可读指令，所述计算机可读指令被一种处理器执行时，实现如下地址信息标准化方法的步骤：

获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息；

将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词；

将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址；

将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理，以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容，并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址，其中，所述标准地址生成模型基于Seq2Seq模型。
根据权利要求15所述的非易失性可读存储介质，其特征在于，在所述将所述地址信息输入到预设的基于词典的分词模型中，通过所述分词模型将所述地址信息与词典中的词条进行匹配，以得到匹配成功后由所述分词模型输出的地址分词的步骤中，所述分词模型基于双向最大匹配法。
根据权利要求15所述的非易失性可读存储介质，其特征在于，所述将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤，包括下述步骤：

将所述地址分词与预设的停用词表进行比对，并删除所述地址分词中与所述停用词表中重叠的词，得到过滤后的地址分词；

将所述过滤后的地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址。
根据权利要求15所述的非易失性可读存储介质，其特征在于，所述将所述地址分词与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤，包括下述步骤：

根据所述地址分词检索预设的同义词表，并在同义词表中提取所述地址分词中各分词的同义词，得到所述地址分词的扩展结果，其中，所述扩展结果中包含所述地址分词及各地址分词的同义词；

将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址。
根据权利要求18所述的非易失性可读存储介质，其特征在于，在所述将所述扩展结果与预设的地址库匹配，得到与所述地址信息对应的候选地址的步骤中，包括下述步骤：

计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率，其中，所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例，所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例；

确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
根据权利要求19所述的非易失性可读存储介质，其特征在于，通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址：

S＝aX+bY+cXY

其中，S为扩展结果与预设的地址库中常用地址的匹配度，X为扩展词覆盖率，Y扩展词顺序覆盖率，XY为综合词覆盖率，a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。