WO2022089227A1 - 地址参数处理方法及相关设备 - Google Patents
地址参数处理方法及相关设备 Download PDFInfo
- Publication number
- WO2022089227A1 WO2022089227A1 PCT/CN2021/124161 CN2021124161W WO2022089227A1 WO 2022089227 A1 WO2022089227 A1 WO 2022089227A1 CN 2021124161 W CN2021124161 W CN 2021124161W WO 2022089227 A1 WO2022089227 A1 WO 2022089227A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- address
- information
- address information
- parameter
- bert
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 37
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000006403 short-term memory Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种地址参数处理方法及相关设备,所述地址参数处理方法包括:接收输入的地址信息(S11);将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率(S12);若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数(S13);根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息(S14);根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数(S15);将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果(S16)。还涉及区块链技术,可以将地址解析结果上传至区块链上,能够对地址型参数进行有效解析。
Description
本申请要求于2020年10月30日提交中国专利局,申请号为202011188722.6申请名称为“地址参数处理方法及相关设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及人工智能技术领域,尤其涉及一种地址参数处理方法及相关设备。
地址型参数在自然语言处理中是非常常见而且重要的参数。发明人意识到地址型参数与一般的参数不一样,并不是简单的字符串,而是有省市区层级的对应,并且是真实有效的地址。
实际应用中,地址经常是介于规则和非规则信息中间,在实际对话中经常会有一些非规范的地址表述,比如:XX省XX市XX区XX路XX办公楼,XX办公楼就属于非规范的地址表述,然而,目前并没有有效的方法能够识别非规范的地址信息。
因此,如何对地址型参数进行有效解析是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种地址参数处理方法及相关设备,能够对地址型参数进行有效解析。
本申请的第一方面提供一种地址参数处理方法,所述地址参数处理方法包括:
接收输入的地址信息;
将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
本申请的第二方面提供一种电子设备,所述电子设备包括存储器及处理器,所述存储器用于存储至少一个计算机可读指令,所述处理器用于执行所述至少一个计算机可读指令以实现以下步骤:
接收输入的地址信息;
将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
本申请的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有 至少一个计算机可读指令,所述至少一个计算机可读指令被处理器执行时实现以下步骤:
接收输入的地址信息;
将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
本申请的第四方面提供一种地址参数处理装置,所述装置包括:
接收模块,用于接收输入的地址信息;
输入模块,用于将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
获取模块,用于若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
清理模块,用于根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
切分模块,用于根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
合并模块,用于将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
由以上技术方案可知,本申请中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
图1是本申请公开的一种地址参数处理方法的较佳实施例的流程图。
图2是本申请公开的一种BIO标记的示意图。
图3是本申请公开的一种地址参数处理装置的较佳实施例的功能模块图。
图4是本申请实现地址参数处理方法的较佳实施例的电子设备的结构示意图。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的 那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
请参见图1,图1是本申请公开的一种地址参数处理方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、接收输入的地址信息。
其中,所述地址信息可以包括规范信息和非规范信息,规范信息即省市区相关的地理信息,非规范信息比如小区名、办公楼名和公司名等。
可选的,步骤S11之后,以及步骤S12之前,所述方法还包括:
对所述地址信息进行语义识别,获得识别结果;
根据所述识别结果,判断所述地址信息中是否存在非规范信息;
若所述地址信息中存在非规范信息,执行步骤S12。
在该可选的实施方式中,可以先通过语义识别,对所述地址信息进行识别分析,即分析获得该地址信息中包括哪些类型的地址参数,有些地址参数是规范的,有些地址参数是不规范的。
S12、将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层。
具体的,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率包括:
将所述地址信息输入至所述基于BERT的地址解析模型中的BERT输入层;
通过所述Bilstm层提取所述地址信息的非规范地址参数;
使用所述FC层对所述非规范地址参数进行分类识别,获得识别结果;
使用所述CRF层对所述识别结果进行预测,获得输出概率。
其中,基于Transformer的双向编码器表征BERT(Bidirectional Encoder Representations from Transformers,BERT)实现了多层双向的Transformer编码器,“双向”即表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。本申请实施例中,地址解析模型采用bert本身的输入结构作为BERT输入层。其中,bert本身的输入结构属于现有技术,在此不再赘述。
其中,双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory,BiLSTM)层是由前向LSTM与后向LSTM组合而成。单向的LSTM可以更好的捕捉到较长距离的依赖关系,无法编码从后到前的信息。而采用BiLSTM即加了一层从后往前的链接,使得信息之间的前后关系双向都可以利用。在地址参数提取中,很显然,信息之间是有上下文关系的。所以,在地址解析模型中引入BiLSTM层能更好的进行参数提取。
其中,全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。FC层可以将非规范地址参数分类为不同的类别,比如分成小区名、商场名、公司名。
其中,条件随机场(Conditional Random Field,CRF层)能从训练数据中获得约束性的规则。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束可以通过CRF层自动学习到。这些约束可以是:I:句子中 第一个词总是以标签“B-”或“O”开始,而不是“I-”;II:标签“B-label1I-label2I-label3I-…”,label1,label2,label3应该属于同一类实体。例如,“B-Person I-Person”是合法的序列,但是“B-Person I-Organization”是非法标签序列;III:标签序列“0I-label”is非法的,实体标签的首个标签应该是“B-”,而非“I-”,换句话说,有效的标签序列应该是“O B-label”。基于这些约束,标签序列预测中非法序列出现的概率将会大大降低。
S13、若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数。
其中,可以预先通过多次试验的测试数据,计算每次试验的准确率大小,并根据准确率大小确定预设阈值,该预设阈值用于衡量模型识别的准确率大小的临界值。其中,输出概率为模型输出某个结果的概率大小,如果输出概率大于预设阈值,表明模型输出某个结果的准确率是符合要求的。
其中,所述非规范地址参数,比如:建筑物名:XX。
其中,地址解析模型的输出格式,采取BIO的标记方法,NP为需要识别的类别。
(1)B-NP:名词短语的开头。
(2)I-NP:名词短语的中间。
(3)O:不是名词短语。
在模型训练时,可以根据真实的地址语料采用BIO标记方法进行标注,然后将这些语料进行训练,得到地址解析模型。
如下图2所示的BIO标记的示意图,可以标记出地址信息,比如厦门,金门。
可选的,步骤S12之后,以及步骤S13之前,所述方法还包括:
通过所述地址解析模型,输出非规范信息在所述地址信息中的位置及类型;
根据所述位置、所述类型以及所述非规范信息,生成所述非规范地址参数。
在该可选的实施方式中,地址解析模型会标注出非规范信息在原句(即地址信息)中的位置以及类型。可以将此类信息都归为一类信息,也可以将这些细分,细分多个类型,比如细分成小区名,建筑物名,公司名等。
S14、根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息。
举例来说,输入的地址信息为:上海虹口区西江湾路龙之梦5楼,通过地址解析模型之后,得到的非规范地址参数为建筑物名:龙之梦,则对所述地址信息进行清理,获得清理后的地址信息为上海虹口区西江湾路5楼。
S15、根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数。
举例来说,清理后的地址信息为上海虹口区西江湾路5楼,进行切分后,可以得到规范地址参数为:省:上海,市:上海(推理),区:虹口区,路名:西江湾路,楼层,5楼。
S16、将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
举例来说,非规范地址参数为建筑物名:龙之梦,规范地址参数为:省:上海,市:上海(推理),区:虹口区,路名:西江湾路,楼层,5楼,合并后获得的地址信息的地址解析结果为:省:上海,市:上海,区:虹口区,路名:西江湾路,建筑物名:龙之梦,楼层:5楼。
可选的,为了确保数据的安全性和私密性,可以将地址解析结果上传至区块链上。
可选的,所述方法还包括:
获取基准地址参数;
计算所述地址解析结果与所述基准地址参数的相似度;
根据所述相似度,对所述地址信息的准确性进行校验。
在该可选的实施方式中,其中,基准地址参数比如大众公知的地名,区名等。通过计算地址解析模型输出的地址解析结果与所述基准地址参数的相似度,可以对所述地址信 息的准确性进行校验,即如果相似度超过某个相似度阈值(如80%),则可以表明所述地址信息无误,如果相似度低于某个相似度阈值(如50%),则可以表明所述地址信息输入有误。通过这种方式,可以有效的对输入的地址信息进行核验,避免地址信息作假。
具体的,所述计算所述地址解析结果与所述基准地址参数的相似度包括:
采用词频-逆文本频率指数TF-IDF算法计算所述地址解析结果的第一词频向量,以及采用所述TF-IDF算法计算所述基准地址参数的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述地址解析结果与所述基准地址参数的相似度。
其中,TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。通过TF-IDF算法计算词频向量,便于将文本数据转换成向量数据,有利于后续计算两个向量之间的余弦值。其中,余弦值的计算公式为:
A和B分别代表两个向量,cosθ为两个向量的夹角。夹角的余弦值的取值范围为(0,1),余弦值越接近1,表明地址解析结果与基准地址参数要素越相似。
可选的,所述方法还包括:
若校验的结果表明所述地址信息有误,从所述地址解析结果中提取出有误的目标地址参数;
获取所述目标地址参数所属的地址类型以及所述地址信息的应用场景;
根据所述地址类型,确定所述目标地址参数在所述应用场景下的风险级别;
若所述风险级别高于预设风险级别阈值,输出风险提示信息。
在该可选的实施方式中,每个地址参数会对应一个地址类型,比如:AA对应建筑物名,BB对应小区名,CC对应办公楼名。其中,在不同应用场景的不同地址类型下,不同的目标地址参数对应的风险级别是不同的,比如针对金融审核领域的智能面审场景,输入的地址信息有误是很严重的,涉及到作假行为。通常,地理类型的范围越大,风险级别越高,比如目标地址参数为XX省的风险级别比目标地址参数为YY市的风险级别高。通过风险提示信息可以智能地提醒用户该地址信息在当前应用场景下的风险程度,以便用户及时作出相应的防御措施。
在图1所描述的方法流程中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
以上所述,仅是本申请的具体实施方式,但本申请的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本申请创造构思的前提下,还可以做出改进,但这些均属于本申请的保护范围。
请参见图3,图3是本申请公开的一种地址参数处理装置的较佳实施例的功能模块图。
在一些实施例中,所述地址参数处理装置运行于电子设备中。所述地址参数处理装置可以包括多个由程序代码段所组成的功能模块。所述地址参数处理装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的地址参数处理方法中的部分或全部步骤,具体请参考图1中的相关描述,在此不再赘述。
本实施例中,所述地址参数处理装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块301、输入模块302、获取模块303、清理模块304、切分模块305及合并模块306。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。
接收模块301,用于接收输入的地址信息;
输入模块302,用于将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
获取模块303,用于若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
清理模块304,用于根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
切分模块305,用于根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
合并模块306,用于将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
在图3所描述的地址参数处理装置中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
如图4所示,图4是本申请实现地址参数处理方法的较佳实施例的电子设备的结构示意图。所述电子设备4包括存储器41、至少一个处理器42、存储在所述存储器41中并可在所述至少一个处理器42上运行的计算机程序43及至少一条通讯总线44。
本领域技术人员可以理解,图4所示的示意图仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备4还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器42可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器42可以是微处理器或者该处理器42也可以是任何常规的处理器等,所述处理器42是所述电子设备4的控制中心,利用各种接口和线路连接整个电子设备4的各个部分。
所述存储器41可用于存储所述计算机程序43和/或模块/单元,所述处理器42通过运行或执行存储在所述存储器41内的计算机程序和/或模块/单元,以及调用存储在存储器41内的数据,实现所述电子设备4的各种功能。所述存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备4的使用所创建的数据等。此外,存储器41可以包括非易失性和易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
结合图1,所述电子设备4中的所述存储器41存储多个计算机可读指令以实现一种地址参数处理方法,所述处理器42可执行所述多个计算机可读指令从而实现:
接收输入的地址信息;
将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;
若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;
根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;
根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;
将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
具体地,所述处理器42对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图4所描述的电子设备4中,在传统的基础上,先利用地址解析模型提取并识别非规范地址参数,然后利用地址知识模板库,对清理后的地址信息进行切分,获得规范地址参数,最后,结合两部分内容,得到地址解析结果,让传统的方法在清理后的地址信息上更好的发挥作用,同时对这些非规范地点信息进行定位和识别,从而有效地解决了现有技术中无法识别非规范地址的盲点,有效解析了地址型参数。
所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序43可存储于一计算机可读存储介质中,所述计算机可读存储介质可以是非易失性的存储介质,也可以是易失性的存储介质。该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)以及随机存取存储器(RAM,Random Access Memory)。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。本申请中陈述的多个单元或装置也可以通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (20)
- 一种地址参数处理方法,其中,所述地址参数处理方法包括:接收输入的地址信息;将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
- 根据权利要求1所述的地址参数处理方法,其中,所述接收输入的地址信息之后,所述地址参数处理方法包括:对所述地址信息进行语义识别,获得识别结果;根据所述识别结果,判断所述地址信息中是否存在非规范信息;若所述地址信息中存在非规范信息,执行所述的将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率的步骤。
- 根据权利要求1所述的地址参数处理方法,其中,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率包括:将所述地址信息输入至所述基于BERT的地址解析模型中的BERT输入层;通过所述Bilstm层提取所述地址信息的非规范地址参数;使用所述FC层对所述非规范地址参数进行分类识别,获得识别结果;使用所述CRF层对所述识别结果进行预测,获得输出概率。
- 根据权利要求1所述的地址参数处理方法,其中,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率之后,以及所述若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数之前,所述地址参数处理方法还包括:通过所述地址解析模型,输出非规范信息在所述地址信息中的位置及类型;根据所述位置、所述类型以及所述非规范信息,生成所述非规范地址参数。
- 根据权利要求1所述的地址参数处理方法,其中,所述地址参数处理方法还包括:获取基准地址参数;计算所述地址解析结果与所述基准地址参数的相似度;根据所述相似度,对所述地址信息的准确性进行校验。
- 根据权利要求5所述的地址参数处理方法,其中,所述计算所述地址解析结果与所述基准地址参数的相似度包括:采用词频-逆文本频率指数TF-IDF算法计算所述地址解析结果的第一词频向量,以及采用所述TF-IDF算法计算所述基准地址参数的第二词频向量;计算所述第一词频向量与所述第二词频向量的余弦值;将所述余弦值确定为所述地址解析结果与所述基准地址参数的相似度。
- 根据权利要求5所述的地址参数处理方法,其中,所述地址参数处理方法还包括:若校验的结果表明所述地址信息有误,从所述地址解析结果中提取出有误的目标地址参数;获取所述目标地址参数所属的地址类型以及所述地址信息的应用场景;根据所述地址类型,确定所述目标地址参数在所述应用场景下的风险级别;若所述风险级别高于预设风险级别阈值,输出风险提示信息。
- 一种电子设备,其中,所述电子设备包括存储器及处理器,所述存储器用于存储至少一个计算机可读指令,所述处理器用于执行所述至少一个计算机可读指令以实现以下步骤:接收输入的地址信息;将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
- 根据权利要求8所述的电子设备,其中,所述接收输入的地址信息之后,所述处理器执行所述至少一个计算机可读指令还用以实现以下步骤:对所述地址信息进行语义识别,获得识别结果;根据所述识别结果,判断所述地址信息中是否存在非规范信息;若所述地址信息中存在非规范信息,执行所述的将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率的步骤。
- 根据权利要求8所述的电子设备,其中,所述处理器执行所述至少一个计算机可读指令以实现所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率时,具体包括:将所述地址信息输入至所述基于BERT的地址解析模型中的BERT输入层;通过所述Bilstm层提取所述地址信息的非规范地址参数;使用所述FC层对所述非规范地址参数进行分类识别,获得识别结果;使用所述CRF层对所述识别结果进行预测,获得输出概率。
- 根据权利要求8所述的电子设备,其中,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率之后,以及所述若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数之前,所述处理器执行所述至少一个计算机可读指令还用以实现以下步骤:通过所述地址解析模型,输出非规范信息在所述地址信息中的位置及类型;根据所述位置、所述类型以及所述非规范信息,生成所述非规范地址参数。
- 根据权利要求8所述的电子设备,其中,所述处理器执行所述至少一个计算机可读指令还用以实现以下步骤:获取基准地址参数;计算所述地址解析结果与所述基准地址参数的相似度;根据所述相似度,对所述地址信息的准确性进行校验。
- 根据权利要求12所述的电子设备,其中,所述处理器执行所述至少一个计算机可读指令以实现所述计算所述地址解析结果与所述基准地址参数的相似度时,具体包括:采用词频-逆文本频率指数TF-IDF算法计算所述地址解析结果的第一词频向量,以及采用所述TF-IDF算法计算所述基准地址参数的第二词频向量;计算所述第一词频向量与所述第二词频向量的余弦值;将所述余弦值确定为所述地址解析结果与所述基准地址参数的相似度。
- 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有至少一个计算机可读指令,所述至少一个计算机可读指令被处理器执行时实现以下步骤:接收输入的地址信息;将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
- 根据权利要求14所述的存储介质,其中,所述接收输入的地址信息之后,所述至少一个计算机可读指令被处理器执行时还用以实现以下步骤:对所述地址信息进行语义识别,获得识别结果;根据所述识别结果,判断所述地址信息中是否存在非规范信息;若所述地址信息中存在非规范信息,执行所述的将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率的步骤。
- 根据权利要求14所述的存储介质,其中,所述至少一个计算机可读指令被所述处理器执行以实现所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率时,具体包括:将所述地址信息输入至所述基于BERT的地址解析模型中的BERT输入层;通过所述Bilstm层提取所述地址信息的非规范地址参数;使用所述FC层对所述非规范地址参数进行分类识别,获得识别结果;使用所述CRF层对所述识别结果进行预测,获得输出概率。
- 根据权利要求14所述的存储介质,其中,所述将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率之后,以及所述若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数之前,所述至少一个计算机可读指令被处理器执行时还用以实现以下步骤:通过所述地址解析模型,输出非规范信息在所述地址信息中的位置及类型;根据所述位置、所述类型以及所述非规范信息,生成所述非规范地址参数。
- 根据权利要求14所述的存储介质,其中,所述至少一个计算机可读指令被处理器执行时还用以实现以下步骤:获取基准地址参数;计算所述地址解析结果与所述基准地址参数的相似度;根据所述相似度,对所述地址信息的准确性进行校验。
- 根据权利要求18所述的存储介质,其中,所述至少一个计算机可读指令被所述处理器执行以实现所述计算所述地址解析结果与所述基准地址参数的相似度时,具体包括:采用词频-逆文本频率指数TF-IDF算法计算所述地址解析结果的第一词频向量,以及采用所述TF-IDF算法计算所述基准地址参数的第二词频向量;计算所述第一词频向量与所述第二词频向量的余弦值;将所述余弦值确定为所述地址解析结果与所述基准地址参数的相似度。
- 一种地址参数处理装置,其中,所述地址参数处理装置包括:接收模块,用于接收输入的地址信息;输入模块,用于将所述地址信息输入至基于Transformer的双向编码器表征BERT的地址解析模型中,获得输出概率,其中,所述基于BERT的地址解析模型包括BERT输入层、双向长短时记忆循环神经网络Bilstm层、全连接层FC以及条件随机场CRF层;获取模块,用于若所述输出概率大于预设阈值,获取所述地址解析模型输出的非规范地址参数;清理模块,用于根据所述非规范地址参数,对所述地址信息进行清理,获得清理后的地址信息;切分模块,用于根据地址知识模板库,对所述清理后的地址信息进行切分,获得规范地址参数;合并模块,用于将所述非规范地址参数和所述规范地址参数进行合并,获得所述地址信息的地址解析结果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188722.6A CN112257413B (zh) | 2020-10-30 | 2020-10-30 | 地址参数处理方法及相关设备 |
CN202011188722.6 | 2020-10-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022089227A1 true WO2022089227A1 (zh) | 2022-05-05 |
Family
ID=74267801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2021/124161 WO2022089227A1 (zh) | 2020-10-30 | 2021-10-15 | 地址参数处理方法及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112257413B (zh) |
WO (1) | WO2022089227A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257413B (zh) * | 2020-10-30 | 2022-05-17 | 深圳壹账通智能科技有限公司 | 地址参数处理方法及相关设备 |
CN113191602A (zh) * | 2021-04-13 | 2021-07-30 | 上海东普信息科技有限公司 | 基于地址的物流分派方法、装置、设备和存储介质 |
CN115577065B (zh) * | 2022-12-09 | 2023-06-09 | 中信证券股份有限公司 | 一种地址解析的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365579A1 (en) * | 2017-06-15 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110674636A (zh) * | 2019-09-02 | 2020-01-10 | 中国南方电网有限责任公司 | 一种用电行为分析方法 |
CN111104802A (zh) * | 2019-12-11 | 2020-05-05 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
CN111125365A (zh) * | 2019-12-24 | 2020-05-08 | 京东数字科技控股有限公司 | 地址数据标注方法及装置、电子设备、存储介质 |
CN112257413A (zh) * | 2020-10-30 | 2021-01-22 | 深圳壹账通智能科技有限公司 | 地址参数处理方法及相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160147943A1 (en) * | 2014-11-21 | 2016-05-26 | Argo Data Resource Corporation | Semantic Address Parsing Using a Graphical Discriminative Probabilistic Model |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
-
2020
- 2020-10-30 CN CN202011188722.6A patent/CN112257413B/zh active Active
-
2021
- 2021-10-15 WO PCT/CN2021/124161 patent/WO2022089227A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365579A1 (en) * | 2017-06-15 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110674636A (zh) * | 2019-09-02 | 2020-01-10 | 中国南方电网有限责任公司 | 一种用电行为分析方法 |
CN111104802A (zh) * | 2019-12-11 | 2020-05-05 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
CN111125365A (zh) * | 2019-12-24 | 2020-05-08 | 京东数字科技控股有限公司 | 地址数据标注方法及装置、电子设备、存储介质 |
CN112257413A (zh) * | 2020-10-30 | 2021-01-22 | 深圳壹账通智能科技有限公司 | 地址参数处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112257413A (zh) | 2021-01-22 |
CN112257413B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022089227A1 (zh) | 地址参数处理方法及相关设备 | |
WO2021042521A1 (zh) | 一种合同自动生成方法、计算机设备及计算机非易失性存储介质 | |
CN108446355B (zh) | 投融资事件要素抽取方法、装置及设备 | |
WO2022142011A1 (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN111597803B (zh) | 一种要素提取方法、装置、电子设备及存储介质 | |
CN104714931A (zh) | 用于选择用以代表表格式信息的方法和系统 | |
CN112860852B (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
WO2021196825A1 (zh) | 摘要生成方法、装置、电子设备及介质 | |
WO2019028990A1 (zh) | 代码元素的命名方法、装置、电子设备及介质 | |
CN112163099A (zh) | 基于知识图谱的文本识别方法、装置、存储介质和服务器 | |
CN112214984A (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
WO2022143608A1 (zh) | 语言标注方法、装置、计算机设备和存储介质 | |
CN115641092A (zh) | 实现数据核查计划导入自动生成逻辑核查的方法和系统 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN112732993B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112307318A (zh) | 一种内容发布方法、系统及装置 | |
US20200097605A1 (en) | Machine learning techniques for automatic validation of events | |
CN115601779A (zh) | 一种模型迭代方法及装置 | |
CN112541357B (zh) | 实体识别方法、装置及智能设备 | |
WO2021098491A1 (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN113741864A (zh) | 基于自然语言处理的语义化服务接口自动设计方法与系统 | |
CN105824871A (zh) | 一种图片检测方法与设备 | |
CN110909538A (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21884956 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 110823) |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21884956 Country of ref document: EP Kind code of ref document: A1 |