WO2020103783A1

WO2020103783A1 - 地址文本相似度确定方法、地址搜索方法、装置和设备

Info

Publication number: WO2020103783A1
Application number: PCT/CN2019/119149
Authority: WO
Inventors: 刘楚; 谢朋峻; 郑华飞; 李林琳; 司罗
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-11-19
Filing date: 2019-11-18
Publication date: 2020-05-28
Also published as: TW202020688A; CN111274811B; CN111274811A

Abstract

本发明公开了一种地址文本相似度确定方法、地址搜索方法、装置和设备，地址文本包括级别从高到低排列的多个地址元素，方法包括：获取待确定相似度的地址文本对；将所述地址文本对输入到预设的地址文本相似度计算模型，以输出所述地址文本对所包括的两个地址文本的相似度。本发明提高了地址文本相似度计算的准确度。

Description

地址文本相似度确定方法、地址搜索方法、装置和设备

本申请要求2018年11月19日递交的申请号为201811375413.2、发明名称为“地址文本相似度确定方法以及地址搜索方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人工智能领域，具体涉及一种地址文本相似度确定方法、地址搜索方法、装置以及计算设备。

背景技术

在某些对地址敏感的行业或部门里，例如公安、快递、物流、电子地图等，其内部通常会维护一份标准的地址库。而在其地址数据的使用场景中常常存在与标准地址库不统一的描述，比如110报警时候的口述地址与公安系统内部的标准化地址就相去甚远。此时需要一种有效且快速的方法能够将非标准的地址文本映射到到标准地址库中的对应或者相近的地址，其中如何判断两段地址文本的相似程度则至关重要。

常用的地址文本相似度有如下几种计算方式：

1、利用编辑距离计算两段文本的相似程度，此种方式忽略了文本的语义内涵，例如：“阿里巴巴”和“阿里地区”之间的编辑距离与“阿里巴巴”和“阿里妈妈”之间的编辑距离相同，但是从语义上“阿里巴巴”和“阿里妈妈”之间的语义相似程度应该是大于“阿里地区”。

2、利用语义相似度计算两段文本之间的相似度，例如word2vec，此种方式适合于所有文本领域，并不单独针对地址文本。在应用到地址文本时，准确度不够高。

3、将地址文本分解为多个地址元素，人工指定各个级别的地址元素的权重后加权求和，缺点是无法针对数据集自动生成各地址级别的权重，不能很好的自动化。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的地址文本相似度确定方法和地址搜索方法。

根据本发明的一个方面，提供了一种地址文本相似度确定方法，所述地址文本包括级别从高到低排列的多个地址元素，所述方法包括：

获取待确定相似度的地址文本对；

将所述地址文本对输入到预设的地址文本相似度计算模型，以输出所述地址文本对所包括的两个地址文本的相似度；

其中，所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同，构成负样本对。

可选地，在根据本发明的地址文本相似度确定方法中，所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层，训练所述地址文本相似度计算模型的步骤包括：将每条训练数据的第一、二、三地址文本输入到词嵌入层，以得到对应的第一、二、三词向量集；将第一、二、三词向量集输入到文本编码层，以得到对应的第一、二、三文本向量；利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度；根据第一、二相似度调整所述地址文本相似度计算模型的网络参数。

可选地，在根据本发明的地址文本相似度确定方法中，所述网络参数包括：词嵌入层的参数和/或文本编码层的参数。

可选地，在根据本发明的地址文本相似度确定方法中，第一、二、三词向量集中的各词向量集包括多个词向量，每个词向量与地址文本中的一个地址元素相对应。

可选地，在根据本发明的地址文本相似度确定方法中，所述词嵌入层采用Glove模型或者Word2Vec模型。

可选地，在根据本发明的地址文本相似度确定方法中，所述第一相似度和第二相似度包括欧氏距离、余弦相似度或者Jaccard系数中的至少一个。

可选地，在根据本发明的地址文本相似度确定方法中，所述根据第一、二相似度调整词所述地址文本相似度计算模型的网络参数，包括：根据第一、二相似度计算损失函数值；利用反向传播算法调整地址文本相似度计算模型的网络参数，直到损失函数值低于预设值，或者训练次数达到预定次数。

可选地，在根据本发明的地址文本相似度确定方法中，所述损失函数值为：Loss＝Margin-(第一相似度-第二相似度)，其中，Loss为损失函数值，Margin为超参数。

可选地，在根据本发明的地址文本相似度确定方法中，所述文本编码层包括RNN模型、CNN模型或者DBN模型中的至少一个。

根据本发明的另一个方面，提供了一种地址搜索方法，包括：

获取待查询地址文本对应的一个或多个候选地址文本；

将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型，以得到二者的相似度，其中，所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同，构成负样本对；

将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。

根据本发明的另一个方面，提供了一种地址搜索装置，包括：

查询模块，适于获取待查询地址文本对应的一个或多个候选地址文本；

第一相似度计算模块，适于将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型，以得到二者的相似度，其中，所述地址文本相似度计算模型于包括多条训练数据的训练数据集进行训练得到，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同，构成负样本对；

输出模块，适于将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。

根据本发明的另一个方面，提供了一种地址文本相似度计算模型的训练装置，所述地址文本包括级别从高到低排列的多个地址元素，所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层，所述装置包括：

获取模块，适于获取训练数据集，所述训练数据集包括多条训练数据，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同，构成负样本对；

词向量获取模块，适于将每条训练数据的第一、二、三地址文本输入到词嵌入层，以得到对应的第一、二、三词向量集；

文本向量获取模块，适于将第一、二、三词向量集输入到文本编码层，以得到对应的第一、二、三文本向量；

第二相似度计算模块，适于利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度；

调参模块，适于根据第一、二相似度调整地址文本相似度计算模型的网络参数。

根据本发明的另一个方面，提供了一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据上述的方法中的任一方法的指令。

由于地址文本天然包含层级关系，不同级别的地址元素在地址相似度计算中起到不同的作用。本发明实施例利用地址文本中的层级关系自动学习到不同级别地址元素的权重，避免了人工指定权重的主观性，同时具有了对目标数据源的自适应能力，进而能够准确的计算出两个地址文本的相似程度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的地址搜索系统100的示意图；

图2示出了根据本发明一个实施例的计算设备200的示意图；

图3示出了根据本发明一个实施例的地址文本相似度计算模型的训练方法300的流程图；

图4示出了根据本发明一个实施例的的地址文本相似度计算模型400的示意图；

图5示出了根据本发明一个实施例的地址搜索方法500的流程图；

图6示出了根据本发明一个实施例的地址文本相似度计算模型的训练装置600的示意图；

图7示出了根据本发明一个实施例的地址搜索装置700的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

地址文本：比如“杭州文一西路969号阿里巴巴”、“四川省眉山市彭山区彭溪镇锦江大道1号四川大学锦江学院”等包含地址信息的文本。地址文本包括级别从高到低排列的多个地址元素。

地址元素：构成地址文本的各个粒度的要素，比如“杭州文一西路969号阿里巴巴”，“杭州”表示城市、“文一西路”表示道路、“969号”表示路号、阿里巴巴表示兴趣点(Point of Interest，POI)。

地址级别：地址中的地址元素对应的区域具有大小包含的关系，即地级元素具有相应的地址级别，例如：省>市>区>街道/社区>路>楼栋。

地址相似度：两段地址文本之间的相似程度，取值为0到1之间，值越大表示两个地址为同一地点的可能性越大，取值为1时两段文本表示同一地址，取值为0时，两段地址无关系。

偏序关系：地址中的区域具有大小包含的层级关系，例如：省>市>区>街道/社区>路>楼栋。

由于地址文本天然包含层级关系，即上述的偏序关系，不同级别的地址元素在地址相似度计算中起到不同的作用。本发明实施例利用地址文本中的层级关系自动生成不同级别地址元素的权重，且该权重隐含体现在地址文本相似度计算模型的网络参数中，从而能够准确的计算出两个地址文本的相似程度。

图1示出了根据本发明一个实施例的地址搜索系统100的示意图。如图1所示，地址搜索系统100包括用户终端110和计算设备200。

用户终端110即用户所使用的终端设备，其具体可以是桌面电脑、笔记本电脑等个人计算机，也可以是手机、平板电脑、多媒体设备、智能可穿戴设备等，但不限于此。计算设备200用于向用户终端110提供服务，其可以实现为服务器，例如应用服务器、Web服务器等；也可以实现为桌面电脑、笔记本电脑、处理器芯片、手机、平板电脑等，但不限于此。

在本发明的实施例中，计算设备200可用于向用户提供地址搜索服务，例如，计算设备200可以作为电子地图应用的服务器，但是，本领域技术人员应当理解，计算设备200可以是任何能够向用户提供地址搜索服务的设备，而不仅限于电子地图应用的服务器。

在一个实施例中，地址搜索系统100还包括数据存储装置120。数据存储装置120可以是关系型数据库例如MySQL、ACCESS等，也可以是非关系型数据库例如NoSQL等；可以是驻留于计算设备200中的本地数据库，也可以作为分布式数据库例如HBase等设置于多个地理位置处，总之，数据存储装置120用于存储数据，本发明对数据存储装置120的具体部署、配置情况不做限制。计算设备200可以与数据存储装置120连接，并获取数据存储装置120中所存储的数据。例如，计算设备200可以直接读取数据存储装置120中的数据(在数据存储装置120为计算设备200的本地数据库时)，也可以通过有线或无线的方式接入互联网，并通过数据接口来获取数据存储装置120中的数据。

在本发明的实施例中，数据存储装置120中存储有标准地址库，标准地址库中的地址文本为标准地址文本(完整和准确的地址文本)。在地址搜索服务中，用户通过用户终端110输入待查询地址文本(query)，通常，用户的输入是残缺和不准确的地址文本。用户终端110将查询query发送到计算设备200，计算设备200中的地址搜索装置通过检索标准地址库后会召回一批候选地址文本，通常在几条到几千条不等。之后地址搜索装置对这些候选地址文本和查询query之间计算相关程度，地址相似度则是相关程度的一种重要的参考信息，通过分别计算查询query和所有候选地址文本之间的地址相似度后，将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本，并将该目标地址文本返回给用户。

具体地，地址搜索装置可以利用地址文本相似度计算模型来计算待查询地址文本和候选地址文本之间的相似度。相应地，计算设备200中还可以包括地址文本相似度计算模型的训练装置，数据存储装置120还存储有训练地址库，训练地址库可以与上述标准地址库相同或不同，训练地址库中包括多个地址文本，该训练装置利用训练地址库中的地址文本来训练地址文本相似度计算模型。

图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204 可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令，其用于指示处理器204执行相应的操作。在一些实施方式中，应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备200中，应用222包括地址文本相似度计算模型的训练装置600和地址搜索装置700。装置600包括多条程序指令，这些程序指令可以指示处理器104执行地址文本相似度计算模型的训练方法300。装置700包括多条程序指令，这些程序指令可以指示处理器104执行地地址搜索方法600。

图3示出了根据本发明一个实施例的地址文本相似度计算模型的训练方法300的流程图。方法300适于在计算设备(例如前述计算设备200)中执行。如图3所示，该方法300始于步骤S310。在步骤S310中，获取训练数据集，训练数据集包括多条训练数据，每条训练数据包括3个地址文本，分别为第一地址文本、第二地址文本和第三地址文本。每个地址文本包括级别从高到低排列的多个地址元素，第一地址文本和第二地址文本的前n个级别的地址元素相同；第一地址文本和第三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同。这里，n的取值范围为(1，N)，N为地址文本所包括的地址级别的数目，例如，地址文本共包括5个地址级别，分别为：省、市、区、道路、路号，则N取值为5。当然，n也可以根据具体的应用场景采用其他的取值范围。

在本发明实施例中，每条训练数据为3个地址文本构成的三元组{target_addr,pos_addr,neg_addr}，target_addr对应上述的第一地址文本，pos_addr对应上述的第二地址文本，neg_addr对应上述的第三地址文本。{target_addr,pos_addr}构成一对正样本对，{target_addr,neg_addr}构成一对负样本对。

在一个实施例中，训练数据集的获取方式如下：

首先，从训练地址库(或者标准地址库)中获取原始地址文本，并解析原始地址文本，将地址文本的字符串切分并格式化为地址元素。例如，对于地址文本“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区1号楼7层910号”，可以切分为“prov(省)＝浙江省city(市)＝杭州市district(区)＝余杭区road(道路)＝文一西路roadno(路号)＝969号poi＝阿里巴巴西溪园区houseno(楼号)＝1号楼floorno(楼层号)＝7层roomno(房间号)＝910号”。具体地，可以结合分词模型和命名实体模型来完成上述解析，本发明实施例对具体的分词模型和命名实体模型不做限制，本领域技术人员可以根据需要进行合理选择。

然后，将格式化为地址元素的地址文本按不同级别的地址元素做聚合(去重和排序)，形成如下的表格：

省	市	区	道路	路号	poi
浙江省	杭州市	余杭区	文一西路	969号	阿里巴巴西溪园区
浙江省	杭州市	余杭区	文一西路	1008号	浙江省社会主义学院

浙江省	杭州市	余杭区	高教路	248号	赛银国际广场
浙江省	杭州市	上城区	南山路	218号	中国美术学院南山校区
浙江省	杭州市	上城区	南山路	212号	潘天寿纪念馆
浙江省	杭州市	上城区	南山路	206号	茅以升旧居
浙江省	宁波市	鄞州区	宜园路	525号	宜家家居
浙江省	宁波市	鄞州区	宜园路	245号	国骅宜家花园1期
上海	上海市	长宁区	虹桥路	2550号	上海虹桥国际机场

最后，将表格中聚合后的数据按不同地址级别组合成训练数据的正负样本对，输出格式为：{target_addr,pos_addr,neg_addr}。如前所述，{target_addr,pos_addr}构成一对正样本对，{target_addr,neg_addr}构成一对负样本对。需要说明的是，一对正样本对可以对应多对负样本对，即，一个target_addr对应一个pos_addr，该target_addr可以对应多个neg_addr。

具体操作如下：

(1)选定一个地址文本，例如：prov＝浙江省city＝杭州市district＝余杭区road＝文一西路roadno＝969号poi＝阿里巴巴西溪园区；

(2)从高到低遍历所有地址级别，例如，省->市->区->道路，在每个地址级别上分别找到和当前地址元素相同和不同的地址元素，分别与当前地址元素构成正样本对和负样本对，例如：

在省级别，浙江省杭州市余杭区文一西路 969号阿里巴巴西溪园区的正例为：浙江省宁波市鄞州区宜园路 245号国骅宜家花园1期；负例为：上海上海市长宁区虹桥路 2550号上海虹桥国际机场。

在市级别，浙江省杭州市余杭区文一西路 969号阿里巴巴西溪园区的正例为：浙江省杭州市余杭区文一西路 1008号浙江省社会主义学院；负例为：浙江省宁波市鄞州区宜园路 525号宜家家居。

在区级别，浙江省杭州市余杭区文一西路 969号阿里巴巴西溪园区的正例为：浙江省杭州市余杭区高教路 248号赛银国际广场；负例为：浙江省杭州市上城区南山路 218号中国美术学院南山校区。

在获取到训练数据集后，方法300进入步骤S320。在描述步骤S320的处理过程之前，先介绍一下本发明实施例的地址文本相似度计算模型的结构。

参照图4，本发明实施例的地址文本相似度计算模型400包括：词嵌入层410、文本编码层420和相似度计算层430。词嵌入层410适于将地址文本中的各地址元素转换为词向量，并将各词向量组合为地址文本对应的词向量集；文本编码层420适于将地址文本对应的词向量集编码为文本向量；相似度计算层430适于计算两个文本向量之间的相似度，利用文本向量之间的相似度来表征地址文本之间的相似度。

在步骤S320中，将每条训练数据中的第一地址文本、第二地址文本和第三地址文本分别输入到词嵌入层进行处理，以得到与第一地址文本对应的第一词向量集，与第二地址文本对应的第二词向量集，与第三地址文本对应的第三词向量集。

词嵌入层(embedding层)能够将一个句子中的每一个词转化成一个数字向量(词向量)，embedding层的权重可以通过海量语料库的文本共现信息预计算得到，例如采用Glove算法，或者，Word2Vec中的CBOW和skip-gram算法进行计算。这些算法都是基于这样一个事实：在相同潜在语义的不同文本表示会反复出现在同样的上下文语境当中，利用这种上下文和单词之间的关系进行单词到上下文的预测，或者通过上下文预测单词，从而得到每个单词的潜在语义。在本发明实施例中，词嵌入层的参数可以利用语料库单独进行训练得到；也可以将词嵌入层和文本编码层一起进行训练，从而同时得到词嵌入层的参数和文本编码层的参数。下文以词嵌入层和文本编码层一起进行训练为例进行说明。

具体地，地址文本包括多个格式化的地址元素，将地址文本输入到词嵌入层后，词嵌入层将地址文本中的每个地址元素作为一个词，转换为词向量，这样得到多个词向量，然后，将这些词向量组合为词向量集合。

在一种实现方式中，词向量集合表示为一个列表，即词向量列表，词向量列表中的每个列表项对应一个词向量，列表的项数为地址文本中地址元素的数目。在另一种实现方式中，词向量集合表示为一个矩阵，即词向量矩阵，矩阵的每列对应一个词向量，矩阵的列数即为地址文本中地址元素的数目。

在获取到词向量集后，方法300进入步骤S330。在步骤S330中，分别将第一词向量集、第二词向量集和第三词向量集输入到文本编码层进行处理，从而将第一词向量集编码为第一文本向量，将第二词向量集编码为第二文本向量，将第三词向量集编码为第三文本向量。

文本编码层采用深度神经网络(Deep Neural Networks，DNN)模型来实现，例如可以采用循环神经网络(Recurrent Neural Network，RNN)模型、卷积神经网络 (Convolutional Neural Network，CNN)模型或者深度信念网络(Deep Belief Network，DBN)模型。通过DNN将不定长度的地址句子文本的embedding输出编码为一个定长的句子向量，此时target_addr,pos_addr,neg_addr分别转化为vector_A,vector_B,vector_C。vector_A即上述的第一文本向量，vector_B即上述的第二文本向量，vector_C即上述的第三文本向量。

以RNN为例，可以将地址文本对应的词向量序列看作时间序列，按照顺序将词向量序列中的词向量输入到RNN中，最终输出的向量为地址文本对应的文本向量(句子向量)。

以CNN为例，将地址文本对应的词向量矩阵输入到CNN中，通过多个卷积层和池化层的处理，最后通过全连接层将二维特征图转换为一维的特征向量，此特征向量即为地址文本对应的文本向量。

在获取到文本向量后，方法300进入步骤S340。在步骤S340中，利用相似度计算层计算第一文本向量与第二文本向量之间的第一相似度，以及第一文本向量与第三文本向量之间的第二相似度。这样，第一相似度可以表征第一地址文本与第二地址文本之间的相似度，第二相似度可以表征第一地址文本和第三地址文本之间的相似度。

可以选择多种相似度距离计算方式，例如：欧氏距离、余弦相似度、Jaccard系数等。在本实施例中，vector_A和vector_B之间的相似度记作SIM_AB，vector_A和vector_C之间的相似度记作SIM_AC。

最后，在步骤S350中，根据第一相似度和第二相似度调整词嵌入层和文本编码层的网络参数。具体包括：根据第一相似度和第二相似度计算损失函数值；利用反向传播算法调整词嵌入层和文本编码层的网络参数，直到损失函数值低于预设值，或者训练次数达到预定次数。

这里的损失函数为三元组损失函数，利用三元组损失函数可以拉近正样本对之间的距离，推开负样本对之间的距离。损失函数具体可以表示为：loss＝Margin-(SIM_AB-SIM_AC)。利用反向传播算法去优化网络的目标min(loss)，这样网络会主动学习到参数使得target_addr在语义空间上更加靠近pos_addr，同时远离neg_addr。

其中，Margin是一个超参数，它表示训练的目标要保证SIM_AB和SIM_AC之间要保持一定的距离，以增大模型的区分度，Margin的取值可以根据数据情况和实际任务反复调整直到效果最优。

完成上述训练过程后，最终就得到了可用于计算两段地址文本之间的相似度的相似度计算模型。基于该相似度计算模型，本发明实施例还提供一种地址文本相似度确定方法，包括如下步骤：

1)获取待确定相似度的地址文本对；

2)将所述地址文本对输入到训练好的地址文本相似度计算模型，以输出所述地址文本对所包括的两个地址文本的相似度。

另外，该相似度计算模型可以应用于各种需要计算地址文本相似度的场景，例如可以应用于公安、快递、物流、电子地图等领域的地址标准化。在这些场景中，利用本发明实施例的地址文本相似度计算模型，可以为用户提供地址搜索服务。

图5示出了根据本发明一个实施例的地址搜索方法500的流程图。参照图5，方法500包括步骤S510～S530。

在步骤S510中，获取待查询地址文本对应的一个或多个候选地址文本。在地址搜索服务中，用户通过用户终端输入待查询地址文本(query)，通常，用户的输入是残缺和不准确的地址文本。用户终端将查询query发送到计算设备，计算设备中的地址搜索装置通过检索标准地址库后会召回一批候选地址文本，通常在几条到几千条不等。

在步骤S520中，将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型，以得到二者的相似度，其中，所述地址文本相似度计算模型根据上述的方法300训练得到。在本步骤中，是分别计算待查询地址文本和各候选地址文件的相似度。

在得到了待查询地址文本与所有候选地址文本的相似度之后，方法500进入步骤S530。在步骤S530中，将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本，并将该目标地址文本返回给用户。

图6示出了根据本发明一个实施例的地址文本相似度计算模型的训练装置600的示意图。地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层，训练装置600包括：

获取模块610，适于获取训练数据集，所述训练数据集包括多条训练数据，每条训练数据包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同。获取模块610具体用于执行如前述步骤S310的方法，关于获取模块610的处理逻辑和功能可以参见前述步骤S310的相关描述，此处不再赘述。

词向量获取模块620，适于将每条训练数据的第一、二、三地址文本输入到词嵌入层，以得到对应的第一、二、三词向量集。词向量获取模块620具体用于执行如前述步骤S320的方法，关于词向量获取模块620的处理逻辑和功能可以参见前述步骤S320的相关描述，此处不再赘述。

文本向量获取模块630，适于将第一、二、三词向量集输入到文本编码层，以得到对应的第一、二、三文本向量。文本向量获取模块630具体用于执行如前述步骤S330的方法，关于词向量获取模块630的处理逻辑和功能可以参见前述步骤S330的相关描述，此处不再赘述。

第二相似度计算模块640，适于利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度。第二相似度计算模块640具体用于执行如前述步骤S340的方法，关于第二相似度计算模块640的处理逻辑和功能可以参见前述步骤S340的相关描述，此处不再赘述。

调参模块650，适于根据第一、二相似度调整词嵌入层和文本编码层的网络参数。调参模块650具体用于执行如前述步骤S350的方法，关于第二相似度计算模块650的处理逻辑和功能可以参见前述步骤S350的相关描述，此处不再赘述。

图7示出了根据本发明一个实施例的地址搜索装置700的示意图。参照图7，地址搜索装置700包括：

查询模块710，适于获取待查询地址文本对应的一个或多个候选地址文本；

第一相似度计算模块720，适于将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型，以得到二者的相似度，其中，所述地址文本相似度计算模型由训练装置600进行训练得到；

输出模块730，适于将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的多语言垃圾文本的识别方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

Claims

一种地址文本相似度确定方法，所述地址文本包括级别从高到低排列的多个地址元素，所述方法包括：

获取待确定相似度的地址文本对；

将所述地址文本对输入到预设的地址文本相似度计算模型，以输出所述地址文本对所包括的两个地址文本的相似度；

其中，所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同，构成负样本对。
如权利要求1所述的方法，其中，所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层，训练所述地址文本相似度计算模型的步骤包括：

将每条训练数据的第一、二、三地址文本输入到词嵌入层，以得到对应的第一、二、三词向量集；

将第一、二、三词向量集输入到文本编码层，以得到对应的第一、二、三文本向量；

利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度；

根据第一、二相似度调整所述地址文本相似度计算模型的网络参数。
如权利要求2所述的方法，其中，所述网络参数包括：词嵌入层的参数和/或文本编码层的参数。
如权利要求2所述的方法，其中，第一、二、三词向量集中的各词向量集包括多个词向量，每个词向量与地址文本中的一个地址元素相对应。
如权利要求2所述的方法，其中，所述词嵌入层采用Glove模型或者Word2Vec模型。
如权利要求2所述的方法，其中，所述第一相似度和第二相似度包括欧氏距离、余弦相似度或者Jaccard系数中的至少一个。
如权利要求2所述的方法，其中，所述根据第一、二相似度调整词所述地址文本相似度计算模型的网络参数，包括：

根据第一、二相似度计算损失函数值；

利用反向传播算法调整地址文本相似度计算模型的网络参数，直到损失函数值低于预设值，或者训练次数达到预定次数。
如权利要求7所述的方法，其中，所述损失函数值为：

Loss＝Margin-(第一相似度-第二相似度)

其中，Loss为损失函数值，Margin为超参数。
如权利要求2所述的方法，其中，所述文本编码层包括RNN模型、CNN模型或者DBN模型中的至少一个。
一种地址搜索方法，包括：

获取待查询地址文本对应的一个或多个候选地址文本；

将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型，以得到二者的相似度，其中，所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同，构成负样本对；

将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。
一种地址搜索装置，包括：

查询模块，适于获取待查询地址文本对应的一个或多个候选地址文本；

第一相似度计算模块，适于将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型，以得到二者的相似度，其中，所述地址文本相似度计算模型于包括多条训练数据的训练数据集进行训练得到，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同，构成负样本对；

输出模块，适于将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。
一种地址文本相似度计算模型的训练装置，所述地址文本包括级别从高到低排列的多个地址元素，所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层，所述装置包括：

获取模块，适于获取训练数据集，所述训练数据集包括多条训练数据，每条训练数据至少包括第一、二、三地址文本，其中，第一、二地址文本的前n个级别的地址元素相同，构成正样本对，第一、三地址文本的前(n-1)个级别的地址元素相同、且第n 级别的地址元素不相同，构成负样本对；

词向量获取模块，适于将每条训练数据的第一、二、三地址文本输入到词嵌入层，以得到对应的第一、二、三词向量集；

文本向量获取模块，适于将第一、二、三词向量集输入到文本编码层，以得到对应的第一、二、三文本向量；

第二相似度计算模块，适于利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度；

调参模块，适于根据第一、二相似度调整地址文本相似度计算模型的网络参数。
一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-10所述的方法中的任一方法的指令。