WO2020168750A1 - 一种地址信息标准化方法、装置、计算机设备及存储介质 - Google Patents

一种地址信息标准化方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2020168750A1
WO2020168750A1 PCT/CN2019/117264 CN2019117264W WO2020168750A1 WO 2020168750 A1 WO2020168750 A1 WO 2020168750A1 CN 2019117264 W CN2019117264 W CN 2019117264W WO 2020168750 A1 WO2020168750 A1 WO 2020168750A1
Authority
WO
WIPO (PCT)
Prior art keywords
address
segmentation
word
preset
coverage rate
Prior art date
Application number
PCT/CN2019/117264
Other languages
English (en)
French (fr)
Inventor
吴壮伟
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020168750A1 publication Critical patent/WO2020168750A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Definitions

  • This application relates to the technical field of data standardization, and in particular to an address information standardization method, device, computer equipment and storage medium.
  • this application provides an address information standardization method, device, computer equipment and storage medium.
  • this application proposes an address information standardization method, which includes: obtaining the address information to be standardized that the target user sends based on the address recognition needs of the target user in the data input interface; and inputting the address information into a preset In the word segmentation model of the dictionary, the address information is matched with the entries in the dictionary through the word segmentation model to obtain the address segmentation output by the word segmentation model after the matching is successful; the address segmentation is compared with the preset address Database matching to obtain a candidate address corresponding to the address information; input the candidate address into a preset standard address generation model to vectorize the candidate address, so as to obtain the candidate address through the standard address generation model
  • the vocabulary combination content of the address matching is used as the standard address output by the standard address generation model, wherein the standard address generation model is based on the Seq2Seq model.
  • the present application also provides an address information standardization device, including: an acquisition module for acquiring address information to be standardized; a word segmentation module for inputting the address information into a preset dictionary-based word segmentation model In the word segmentation model, the address information is matched with the entries in the dictionary to obtain the address segmentation output by the word segmentation model after the matching is successful; the matching module is used to compare the address segmentation with the preset
  • the address library is matched to obtain the candidate address corresponding to the address information;
  • the execution module is used to input the candidate address into a preset standard address generation model to vectorize the candidate address to generate a standard address
  • the model obtains the vocabulary combination content matching the candidate address, and uses the vocabulary combination content as the standard address output by the standard address generation model, where the standard address generation model is based on the Seq2Seq model.
  • an embodiment of the present application further provides a computer device including a memory and a processor.
  • the memory stores computer-readable instructions.
  • the The processor executes the steps of the address information standardization method.
  • embodiments of the present application also provide a non-volatile readable storage medium, the non-volatile readable storage medium stores computer readable instructions, and the computer readable instructions are When the processor executes, it realizes the steps of the address information standardization method.
  • FIG. 1 is a schematic diagram of the basic flow of an address information standardization method according to an embodiment of this application;
  • FIG. 2 is a schematic diagram of a filtering process for address segmentation according to an embodiment of the application
  • Fig. 3 is a schematic diagram of a process of synonym expansion for address segmentation according to an embodiment of the application
  • FIG. 4 is a schematic diagram of a process of matching candidate addresses with word coverage rate and/or word order coverage rate according to an embodiment of the application;
  • FIG. 5 is a schematic diagram of a process of matching candidate addresses using expanded word coverage and/or expanded word sequence coverage according to an embodiment of the application
  • FIG. 6 is a block diagram of the basic structure of an address information standardization device according to an embodiment of this application.
  • FIG. 7 is a block diagram of the basic structure of a computer device according to an embodiment of the application.
  • terminal and “terminal equipment” used herein include both wireless signal receiver equipment, equipment that only has wireless signal receivers without transmitting capability, and equipment receiving and transmitting hardware.
  • a device which has a device capable of performing two-way communication receiving and transmitting hardware on a two-way communication link.
  • Such equipment may include: cellular or other communication equipment, which has a single-line display or multi-line display or cellular or other communication equipment without a multi-line display; PCS (Personal Communications Service, personal communication system), which can combine voice and data Processing, fax and/or data communication capabilities; PDA (Personal Digital Assistant), which can include radio frequency receivers, pagers, Internet/Intranet access, web browsers, notebooks, calendars and/or GPS (Global Positioning System (Global Positioning System) receiver; a conventional laptop and/or palmtop computer or other device, which has and/or includes a radio frequency receiver, a conventional laptop and/or palmtop computer or other device.
  • PCS Personal Communications Service, personal communication system
  • PDA Personal Digital Assistant
  • GPS Global Positioning System (Global Positioning System) receiver
  • a conventional laptop and/or palmtop computer or other device which has and/or includes a radio frequency receiver, a conventional laptop and/or palmtop computer or other device.
  • terminal and terminal equipment used here may be portable, transportable, installed in a vehicle (aviation, sea and/or land), or suitable and/or configured to operate locally, and/or In a distributed form, it runs on the earth and/or any other location in space.
  • the "terminal” and “terminal device” used here can also be communication terminals, Internet terminals, music/video playback terminals, such as PDA, MID (Mobile Internet Device, mobile Internet device) and/or music/video playback Functional mobile phones can also be devices such as smart TVs and set-top boxes.
  • the terminal in this embodiment is the aforementioned terminal.
  • FIG. 1 is a schematic diagram of the basic flow of an address information standardization method in this embodiment.
  • a method for standardizing address information includes the following steps:
  • the target user sends the address information to be standardized to the server through the data input interface on the terminal based on its address recognition needs.
  • the interactive interface on the terminal is used as the data input interface, and an input box is provided on the interface for the user to input address information .
  • a voice recognition device is built in the terminal to obtain the voice information sent by the user, and convert the voice information into a character string that can be recognized by the computer.
  • the word segmentation model uses a dictionary-based word segmentation method, and its output is the most matching entry in the dictionary Content.
  • the received address information is "Beijing University Shenzhen Hospital”.
  • To segment it the simplest one-character segmentation can be used, and the obtained address segmentation is "Bei", " ⁇ ", “Shen”, “Zhen", " ⁇ ”
  • the word segmentation method of "Hospital” makes the algorithm simple when using word coverage to measure the matching degree with common addresses. Word coverage is to calculate the coincidence degree of two strings.
  • a two-way maximum matching method is used.
  • the two-way maximum matching method is a dictionary-based word segmentation method.
  • the dictionary-based word segmentation method is to match the Chinese character string to be analyzed with the entry in a machine dictionary according to a certain strategy. If a certain string is found in the dictionary, the matching is successful.
  • Dictionary-based word segmentation methods are divided into forward matching and reverse matching according to the different scanning directions, and divided into maximum matching and minimum matching according to the difference in length.
  • the two-way maximum matching method compares the word segmentation results obtained by the forward maximum matching method and the reverse maximum matching method to determine the correct word segmentation method. According to research, about 90.0% of sentences in Chinese, the forward maximum matching method and the reverse maximum matching method are completely coincident and correct.
  • the address segmentation is matched with a preset address library.
  • the preset address library stores frequently used addresses.
  • the matching degree between the address segmentation and the commonly used addresses in the address library is calculated, and the frequently used address with the highest matching degree is selected as the candidate address of the address information to be standardized.
  • Frequently used address is a commonly used expression of an address by people.
  • the candidate common address is obtained by calculating the matching degree, which makes the system fault-tolerant.
  • the address information to be standardized is "Beijing University Shenzhen Hospital”, after word segmentation is “Beijing University”, “Shenzhen”, “Hospital”, and the preset address library is matched to obtain the candidate address It is the "Shenzhen Peking University Hospital”.
  • Candidate address is a common way for people to express a certain place. This way of expression is already very specific to people's thinking. However, in order for computers to understand and process, it is necessary to convert people's common expressions of a certain place into standard expressions.
  • the output standard address meets expectations. For example, the address information to be standardized is "Shenzhen Peking University Hospital”. For accurate positioning, the expected standardized address is "Peking University Shenzhen Hospital, 1120 Lianhua Road, Futian District, Shenzhen".
  • the process of generating a standard address through the Seq2Seq model is: first vectorize the candidate address information, for example, use one-hot vocabulary encoding to obtain the word vector, and input it to the Encoder layer, where the Encoder layer uses the bidirectional LSTM layer as the basic neuron Multi-layer neuron layers of the unit;
  • the output state vector of the encoder is input to the Decoder layer, where the Decoder layer is also a multi-layer neural network with the bidirectional LSTM (Long Short-Term Memory) layer as the basic neuron unit;
  • the Decoder layer is also a multi-layer neural network with the bidirectional LSTM (Long Short-Term Memory) layer as the basic neuron unit;
  • the final_state state vector output by the Decoder layer is input to the Softmax layer, and the content of the candidate word combination with the highest probability is obtained.
  • step S103 the following steps are further included:
  • some meaningless words in the address segmentation are filtered out through a preset stop word list. For example, "of" "ah” "or”.
  • the specific filtering method is to compare each word in the address segmentation with the words in the stop vocabulary. When the words in the address segmentation overlap with the words in the stop vocabulary, the overlapping words are deleted from the address segmentation.
  • step S103 the following steps are further included:
  • the expansion result of the address segmentation is composed. For example, for the word "Beida” in the address segmentation, by searching the preset synonym table, "Beida” and “Peking University” are synonyms, and the address segmentation "Beida” is expanded to "Beida/Peking University".
  • the extended result When matching with the preset address database, use the extended result to match the common addresses in the address database.
  • the common address database is "Peking University Shenzhen Hospital”
  • the address information to be standardized is “Shenzhen Peking University Hospital”
  • the word segmentation is "Shenzhen” ",” “Peking University”, “Hospital”, expanded by synonyms to "Shenzhen/Shenzhen”, “Peking University/Peking University”, “Hospital”
  • the common address "Peking University Shenzhen Hospital” can be regarded as a complete match.
  • the extended address segmentation can improve the accuracy of address recognition.
  • step S103 the following steps are further included:
  • S131 Calculate the word coverage rate and/or word sequence coverage rate of the address segmentation and each frequently used address in the preset address library, where the word coverage rate is overlapped with the common address in the address segmentation
  • the ratio of the number of words to the number of word segmentation of the address, and the word order coverage ratio is the ratio of the number of words that overlap the order of the address segmentation and the commonly used address to the number of address word segments;
  • the word coverage ratio is used to measure the matching degree between the address segmentation and each common address in the preset address library, so as to determine the candidate address corresponding to the address to be standardized.
  • Word coverage is the ratio of the number of words that overlap with common addresses in address segmentation to the number of address segmentation. For example, if the address segmentation is "Shenzhen”, “Lianhua Road”, “Beijing University” and “Hospital”, and the common address is "Beijing University Shenzhen Hospital", the word coverage rate is 3/4.
  • the order of the words is also considered. That is, the words and order in the address segmentation need to be consistent with the words and order in the common address before they are included in the matching degree.
  • the vocabulary and order of address segmentation are "Beida”, “Shenzhen”, “Hospital” and the common address "Shenzhen Peking University Hospital”.
  • the word order coverage rate is 2/3, that is, only "Beida”, “Hospital” and the common address The word order overlaps.
  • the commonly used address with the highest word coverage rate and/or word order coverage rate is taken as the candidate address corresponding to the address information to be standardized.
  • step S122 the following steps are further included:
  • the address segmentation is expanded by synonyms, and we use the expanded word coverage to measure the matching degree between the expanded address segmentation and the common addresses in the preset address library.
  • the expanded word coverage is the ratio of the address segmentation or the synonym of the address segmentation in the expansion result that overlaps the common address with the number of words in the address segmentation.
  • the expanded address segmentation is "Shenzhen/Shenzhen", “Peking University/Peking University”, “Hospital”.
  • the common address with the highest coverage rate of the extended word or the highest coverage rate of the extended word sequence is taken as the candidate address corresponding to the address information to be standardized.
  • the expanded word coverage rate and the expanded word sequence coverage rate are comprehensively considered, that is, the matching degree is calculated by the following formula
  • S is the matching degree between the expansion result and the commonly used addresses in the preset address library
  • X is the coverage rate of expanded words
  • Y is the coverage rate of expanded words
  • XY is the coverage rate of comprehensive words
  • a, b, and c are respectively expanded word coverage The weight of coverage rate, expanded word order coverage rate and comprehensive word coverage rate.
  • the matching degree calculation that integrates the expanded word coverage rate and the expanded word sequence coverage rate makes the matching result more accurate.
  • FIG. 6 is a block diagram of the basic structure of the address information standardization device of this embodiment.
  • an address information standardization device includes: an acquisition module 210, a word segmentation module 220, a matching module 230, and an execution module 240.
  • the obtaining module 210 is used to obtain the address information to be standardized that the target user sends based on the address recognition needs of the target user in the data input interface
  • the word segmentation module 220 is used to input the address information into a preset dictionary-based word segmentation model In the word segmentation model, the address information is matched with the entries in the dictionary to obtain the address segmentation output by the word segmentation model after the matching is successful
  • the matching module 230 is used to compare the address segmentation with the preset
  • the address library is matched to obtain the candidate address corresponding to the address information
  • the execution module 240 is configured to input the candidate address into the preset standard address generation model to vectorize the candidate address to pass the standard
  • the address generation model obtains the vocabulary combination content matching the candidate address, and uses the vocabulary combination content as the standard address output by the standard address generation model, where the standard address generation model
  • the embodiment of the application obtains the address information to be standardized; inputs the address information into a preset word segmentation model to obtain the address segmentation output by the word segmentation model; matches the address segmentation with the preset address library to obtain A candidate address corresponding to the address information; input the candidate address into a preset standard address generation model to obtain a standard address output by the standard address generation model, wherein the standard address generation model is based on a Seq2Seq model.
  • This application is based on artificial intelligence technology. It first identifies the specific address corresponding to the address information to be standardized, and then converts it into the expected standardized address. This solves the problem that there are multiple expressions when the user enters the address information, which leads to unrecognition or inaccurate recognition. The problem.
  • the word segmentation module in the address information standardization device is based on a two-way maximum matching method.
  • the address information standardization device further includes: a first filtering submodule and a first matching submodule.
  • the first filtering sub-module is used to compare the address segmentation with a preset stop vocabulary list, and delete the words in the address segmentation that overlap with the stop vocabulary list to obtain the filtered The address segmentation; a first matching sub-module, used to match the filtered address segmentation result with a preset address library to obtain a candidate address corresponding to the address information.
  • the address information standardization device further includes: a first extension sub-module and a second matching sub-module.
  • the first expansion sub-module is used to retrieve the preset synonym table according to the address segmentation, and extract the synonyms of each word segmentation in the address segmentation from the synonym table to obtain the expansion result of the address segmentation, where The expansion result includes the address segmentation and the synonyms of each address segmentation;
  • the second matching sub-module is used to match the expansion result with a preset address library to obtain a candidate address corresponding to the address information.
  • the address information standardization device further includes: a first calculation submodule and a first execution submodule.
  • the first calculation sub-module is used to calculate the expanded word coverage rate and/or the expanded word sequence coverage rate of the expansion result and each commonly used address in the preset address library, wherein the expanded word coverage rate is The address segmentation or the synonym of the address segmentation in the expansion result is the ratio of the number of words overlapping the common address with the address segmentation, and the expansion word sequence coverage rate is the address segmentation or address segmentation in the expansion result The proportion of the number of words that overlap the sequence of the common address with the synonyms of the common address accounted for the proportion of the word segmentation of the address; the first execution sub-module is used to determine the extended word coverage rate and/or the common address with the highest coverage rate of the extended word sequence. The candidate address corresponding to the address information.
  • the commonly used address with the highest coverage rate of the extended word and the sequence coverage of the extended word is determined as the candidate address corresponding to the address information by the following formula:
  • S is the matching degree between the expansion result and the commonly used addresses in the preset address library
  • X is the coverage rate of expanded words
  • Y is the coverage rate of expanded words
  • XY is the coverage rate of comprehensive words
  • a, b, and c are respectively expanded word coverage The weight of coverage rate, expanded word order coverage rate and comprehensive word coverage rate.
  • the address information standardization device further includes: a second calculation submodule and a second execution submodule.
  • the second calculation sub-module is used to calculate the word coverage rate and/or word order coverage rate of the address segmentation and each common address in the preset address library, wherein the word coverage rate is the address The proportion of the number of words overlapping the common address in the word segmentation to the number of word segmentation of the address, and the word sequence coverage ratio is the proportion of the number of words overlapping the sequence of the address word segmentation and the common address in the number of address word segments;
  • the second execution sub-module is configured to determine that the commonly used address with the highest word coverage rate and/or word sequence coverage rate is the candidate address corresponding to the address information.
  • FIG. 7 is a block diagram of the basic structure of the computer device in this embodiment.
  • the computer device includes a processor, a non-volatile readable storage medium, a memory, and a network interface connected through a system bus.
  • the non-volatile readable storage medium of the computer device stores an operating system, a database, and computer-readable instructions.
  • the database may store control information sequences.
  • the processor A method to standardize address information is realized.
  • the processor of the computer equipment is used to provide calculation and control capabilities, and supports the operation of the entire computer equipment.
  • a computer readable instruction may be stored in the memory of the computer device, and when the computer readable instruction is executed by the processor, the processor may execute an address information standardization method.
  • the network interface of the computer device is used to connect and communicate with the terminal.
  • FIG. 7 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the specific computer device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
  • the processor is used to execute specific content of the acquisition module 210, the word segmentation module 220, the matching module 230, and the execution module 240 in FIG. 6, and the memory stores computer readable instructions and various data required to execute the above modules.
  • the network interface is used for data transmission between user terminals or servers.
  • the memory in this embodiment stores computer-readable instructions and data required to execute all sub-modules in the address information standardization method, and the server can call the computer-readable instructions and data of the server to perform the functions of all sub-modules.
  • the computer equipment obtains the address information to be standardized; inputs the address information into the preset word segmentation model to obtain the address word segmentation output by the word segmentation model; matches the address word segmentation with the preset address library to obtain the The candidate address corresponding to the address information; the candidate address is input into a preset standard address generation model to obtain the standard address output by the standard address generation model, wherein the standard address generation model is based on the Seq2Seq model.
  • This application is based on artificial intelligence technology. It first identifies the specific address corresponding to the address information to be standardized, and then converts it into the expected standardized address. This solves the problem that there are multiple expressions when the user enters the address information, which leads to unrecognition or inaccurate recognition. The problem.
  • the present application also provides a storage medium storing computer-readable instructions.
  • the computer-readable instructions are executed by one or more processors, the one or more processors perform the address information standardization described in any of the above embodiments. Method steps.
  • the aforementioned storage medium may be a non-volatile storage medium such as a magnetic disk, an optical disc, a read-only memory (Read-Only Memory, ROM), or a random access memory (Random Access Memory, RAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种地址信息标准化方法、装置、计算机设备及存储介质,其中方法包括下述步骤:获取待标准化的地址信息;将所述地址信息输入到预设的分词模型中,得到所述分词模型输出的地址分词;将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;将所述候选地址输入到预设的标准地址生成模型中,得到所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。本方法基于人工智能技术,先识别待标准化的地址信息对应的具体地址,再将其转化为预期的标准化的地址,解决了用户输入地址信息时存在多种表达方式,导致无法识别或识别不准确的问题。

Description

一种地址信息标准化方法、装置、计算机设备及存储介质
本申请以2019年2月18日提交的申请号为201910121905.7,名称为“一种地址信息标准化方法、装置、计算机设备及存储介质”的中国发明专利申请为基础,并要求其优先权。
技术领域
本申请涉及数据标准化技术领域,尤其涉及一种地址信息标准化方法、装置、计算机设备及存储介质。
背景技术
现在,随着电子商务、电子导航、定位等技术的发展,在很多场合很多应用程序涉及到地址信息的获取、识别、处理和应用。如电子商务领域,往来的邮件需要对通讯地址进行识别和处理,电子地图需要对用户输入的地址进行识别、定位或路线规划。
由于人们对地址表达的多样化,这种多样化的表达给地址识别带来了诸多不便,导致一些系统无法自动化运行,例如物流系统,需要投入大量的人力去做地址识别,通过人工对邮件进行分拣处理,随着电子商务的发展,业务增长巨大,人工的处理显然不够高效和准确。所以,对地址信息进行标准化处理,使应用系统可以准确识别多样化的地址表达,提高工作效率,是一项急需解决的问题。
发明内容
为解决地址信息表达多样化,计算机系统无法识别的问题,本申请提供一种地址信息标准化方法、装置、计算机设备及存储介质。
为解决上述技术问题,本申请提出一种地址信息标准化方法,包括:获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息;将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;将所述候选地址输入到预设的标准地址生成模型中对所述候选地 址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
为解决上述问题,本申请还提供一种地址信息标准化装置,包括:获取模块,用于获取待标准化的地址信息;分词模块,用于将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;匹配模块,用于将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;执行模块,用于将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
为解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述地址信息标准化方法的步骤。
为解决上述技术问题,本申请实施例还提供一种非易失性可读存储介质,所述非易失性可读存储介质上存储有计算机可读指令,所述计算机可读指令被一种处理器执行时,实现上述地址信息标准化方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出,本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图
图1为本申请实施例一种地址信息标准化方法基本流程示意图;
图2为本申请实施例对地址分词进行过滤处理流程示意图;
图3为本申请实施例对地址分词进行同义词扩展流程示意图;
图4为本申请实施例使用词覆盖率和/或词顺序覆盖率匹配候选地址流程示意图;
图5为本申请实施例使用扩展词覆盖率和/或扩展词顺序覆盖率匹配候选地址流程示意图;
图6为本申请实施例一种地址信息标准化装置基本结构框图;
图7为本申请实施例计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、 可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本实施方式中的终端即为上述的终端。
具体地,请参阅图1,图1为本实施例一种地址信息标准化方法的基本流程示意图。
如图1所示,一种地址信息标准化方法,包括下述步骤:
S101、获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息;
目标用户基于其地址识别需求通过终端上的数据输入界面向服务器发送待标准化的地址信息,如以终端上的可交互的界面作为数据输入界面,在界面上提供一个输入框,供用户输入地址信息。在一些实施方式中,通过在终端上内置有语音识别装置来获取用户发出的语音信息,将语音信息转化为计算机可以识别的字符串。
S102、将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;
将S101获取的待标准化的地址信息输入到预设的分词模型中,得到对待标准地址信息的地址分词,该分词模型利用的基于词典的分词方法,其输出的是与词典中的词条最匹配的内容。例如接收到的地址信息为“北大深圳医院”,对其进行分词,可以采用最简单的单字分词,得到的地址分词为“北”、“大”、“深”、“圳”、“医”、“院”这种分词方法,使应用词覆盖率来衡量与常用地址的匹配度时,算法简单。词覆盖率即计算两个字符串的重合度。
在一些实施方式中,采用双向最大匹配法。双向最大匹配方法是一种基于词典的分词方法。基于词典的分词方法是按照一定策略将待分析的汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。基于词典的分词方法按照扫描方向的不同分为正向匹配和逆向匹配,按照长度的不同分为最大匹配和最小匹配。双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,从而决定正确的分词方法。根 据研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的,只有不到1.0%的句子,或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,即有歧义的,或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对。所以为了使切分出来的词汇能准确的反映句子的意思,采用双向最大匹配法分词。
S103、将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;
将地址分词与预设的地址库匹配,预设的地址库保存有常用地址,计算地址分词和地址库中常用地址的匹配度,取匹配度最高的常用地址为待标准化地址信息的候选地址。常用地址是人们对某个地址的常用的表达法,通过计算匹配度得到候选的常用地址,使系统具有容错性,在用户输入错误或漏了某个字、或使用简称、或顺序颠倒的情况下,也能理解用户的真实意图,例如待标准化的地址信息为“北大深圳医院”,经过分词为“北大”、“深圳”、“医院”,与预设的地址库匹配,得到的候选地址为“深圳北大医院”。
S104、将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
将候选地址输入到预设的标准地址生成模型中,生成标准的地址。候选地址是人们对某一地点的常用表达方式,这种表达方式对人的思维来说,已经很具体了。但是,为了计算机能够理解并能够处理,有必要将人们对某一地点的常用表达方式转换成标准的表达方式。通过Seq2Seq模型对标准特征的学习,使输出的标准地址满足预期。例如,待标准化的地址信息为“深圳北大医院”,为了定位的准确,预期的标准化地址为“深圳市福田区莲花路1120号北京大学深圳医院”。
其中通过Seq2Seq模型生成标准地址的过程为:首先将候选地址信息向量化,例如采用one-hot词汇编码方式得到词向量,输入到Encoder层,其中,Encoder层是以双向LSTM层作为基本的神经元单位的多层神经元层;
输出的encoder的状态向量,并输入到Decoder层中,其中Decoder层也是以双向LSTM(Long Short-Term Memory)层作为基本的神经元单位的多层神经 网络;
将Decoder层输出的final_state状态向量输入到Softmax层,得到概率最高的候选词汇组合内容。
如图2所示,在步骤S103中,还包括下述步骤:
S111、将所述地址分词与预设的停用词表进行比对,并删除所述地址分词中与所述停用词表中重叠的词,得到过滤后的所述地址分词;
在一些实施方式中,通过预设的停用词表将地址分词中一些无意义的词过滤掉。例如“的”“啊”“或”。具体的过滤方法即将地址分词中的各词与停用词表中词比对,当地址分词中的词与停用词表中的词重叠,从地址分词中删除重叠的词。
S112、将所述过滤后的地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址。
将过滤掉停用词的地址分词的过滤结果与预设的地址库匹配,得到待标准化地址信息的候选地址,使用过滤结果与预设地址库进行匹配,可以去掉无意义词的干扰,使匹配结果更准确。
如图3所示,在步骤S103中,还包括下述步骤:
S121、根据所述地址分词检索预设的同义词表,并在同义词表中提取所述地址分词中各分词的同义词,得到所述地址分词的扩展结果,其中,所述扩展结果中包含所述地址分词及各地址分词的同义词;
在一些实施方式中,通过检索预设的同义词表,并将地址分词对应的同义词提取出来,组成地址分词的扩展结果。例如,地址分词中“北大”这个词,通过检索预设的同义词表,“北大”与“北京大学”为同义词,将地址分词中“北大”扩展为“北大/北京大学”。
S122、将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址。
在与预设的地址库匹配时,使用扩展结果与地址库中的常用地址匹配,例如常用地址库中为“北京大学深圳医院”,待标准化地址信息“深圳北大医院”,分词后为“深圳”、“北大”、“医院”,经同义词扩展为“深圳/深圳市”、“北大/北京大学”、“医院”,与常用地址“北京大学深圳医院”可以视为完全匹配。经过扩展的地址分词可以提高地址识别准确度。
如图4所示,在步骤S103中,还包括下述步骤:
S131、计算所述地址分词与所述预设的地址库中各常用地址的词覆盖率和/或词顺序覆盖率,其中,所述词覆盖率为所述地址分词中与所述常用地址重叠的词数占所述地址分词数的比例,所述词顺序覆盖率为所述地址分词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
本申请实施例中采用词覆盖率来衡量地址分词与预设地址库中各常用地址的匹配度,从而确定待标准化地址对应的候选地址。词覆盖率是地址分词中与常用地址重叠的词数占地址分词数的比例。例如地址分词为“深圳”“莲花路”“北大”“医院”,常用地址为“北大深圳医院”,则词覆盖率为3/4。
在一些实施方式中,计算匹配度时,不但计算词的重叠率,还要考虑词的顺序,即地址分词中的词汇及顺序都需要与常用地址中词汇及顺序一致,才计入匹配度的计算,例如地址分词的词汇及顺序为“北大”“深圳”“医院”与常用地址“深圳北大医院”的词顺序覆盖率为2/3,即只有“北大”“医院”与常用地址中的词顺序重叠。
S132、定所述词覆盖率和/或词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
这里取词覆盖率和/或词顺序覆盖率最高的常用地址为待标准化地址信息对应的候选地址。
如图5所示,在步骤S122中,还包括下述步骤:
S141、计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率,其中,所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例,所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
在一些实施方式中,对地址分词进行了同义词扩展,我们用扩展词覆盖率来衡量扩展的地址分词与预设的地址库中常用地址的匹配度。扩展词覆盖率即扩展结果中的地址分词或地址分词的同义词与常用地址重叠的词数占所述地址分词数的比例。例如经扩展的地址分词为“深圳/深圳市”、“北大/北京大学”、“医院”,计算与常用地址“北大深圳医院”的匹配度时,认为完全匹配,即匹配度为3/3=1。
同样也可以计算顺序匹配度,不但计算词的重叠率,还要考虑词的顺序,即扩展的地址分词中的词汇及顺序都需要与常用地址中词汇及顺序一致,才计 入匹配度的计算。
S142、确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
同样取扩展词覆盖率最高或扩展词顺序覆盖率最高的常用地址为待标准化地址信息对应的候选地址。
在一些实施方式中,综合考虑扩展词覆盖率和扩展词顺序覆盖率,即通过以下公式计算匹配度
S=aX+bY+cXY
其中,S为扩展结果与预设的地址库中常用地址的匹配度,X为扩展词覆盖率,Y扩展词顺序覆盖率,XY为综合词覆盖率,a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
综合了扩展词覆盖率和扩展词顺序覆盖率的匹配度计算使匹配结果更准确。
为解决上述技术问题本申请实施例还提供一种地址信息标准化装置。具体请参阅图6,图6为本实施例地址信息标准化装置的基本结构框图。
如图6所示,一种地址信息标准化装置,包括:获取模块210、分词模块220、匹配模块230和执行模块240。其中,获取模块210,用于获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息;分词模块220,用于将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;匹配模块230,用于将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;执行模块240,用于将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
本申请实施例通过获取待标准化的地址信息;将所述地址信息输入到预设的分词模型中,得到所述分词模型输出的地址分词;将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;将所述候选地址输入到预设的标准地址生成模型中,得到所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。本申请基于人工智能技术,先识别 待标准化的地址信息对应的具体地址,再将其转化为预期的标准化的地址,解决了用户输入地址信息时存在多种表达方式,导致无法识别或识别不准确的问题。
在一些实施方式中,所述地址信息标准化装置中的分词模块基于双向最大匹配法。
在一些实施方式中,所述地址信息标准化装置还包括:第一过滤子模块和第一匹配子模块。其中,第一过滤子模块,用于将所述地址分词与预设的停用词表进行比对,并删除所述地址分词中与所述停用词表中重叠的词,得到过滤后的所述地址分词;第一匹配子模块,用于将所述过滤后的地址分词结果与预设的地址库匹配,得到与所述地址信息对应的候选地址。
在一些实施方式中,所述地址信息标准化装置还包括:第一扩展子模块、第二匹配子模块。其中,第一扩展子模块,用于根据所述地址分词检索预设的同义词表,并在同义词表中提取所述地址分词中各分词的同义词,得到所述地址分词的扩展结果,其中,所述扩展结果中包含所述地址分词及各地址分词的同义词;第二匹配子模块,用将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址。
在一些实施方式中,所述地址信息标准化装置还包括:第一计算子模块和第一执行子模块。其中,第一计算子模块,用于计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率,其中,所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例,所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例;第一执行子模块,用于确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
在一些实施方式中,所述地址信息标准化装置中,通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址:
S=aX+bY+cXY
其中,S为扩展结果与预设的地址库中常用地址的匹配度,X为扩展词覆盖率,Y扩展词顺序覆盖率,XY为综合词覆盖率,a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
在一些实施方式中,所述地址信息标准化装置还包括:第二计算子模块和第二执行子模块。其中,第二计算子模块,用于计算所述地址分词与所述预设的地址库中各常用地址的词覆盖率和/或词顺序覆盖率,其中,所述词覆盖率为所述地址分词中与所述常用地址重叠的词数占所述地址分词数的比例,所述词顺序覆盖率为所述地址分词与所述常用地址顺序重叠的词数占所述地址分词数的比例;第二执行子模块,用于确定所述词覆盖率和/或词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
如图7所示,计算机设备的内部结构示意图。如图7所示,该计算机设备包括通过系统总线连接的处理器、非易失性可读存储介质、存储器和网络接口。其中,该计算机设备的非易失性可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种地址信息标准化方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种地址信息标准化方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中获取模块210、分词模块220、匹配模块230和执行模块240的具体内容,存储器存储有执行上述模块所需的计算机可读指令和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有地址信息标准化方法中执行所有子模块所需的计算机可读指令及数据,服务器能够调用服务器的计算机可读指令及数据执行所有子模块的功能。
计算机设备通过获取待标准化的地址信息;将所述地址信息输入到预设的分词模型中,得到所述分词模型输出的地址分词;将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;将所述候选地址输入到预设的标准地址生成模型中,得到所述标准地址生成模型输出的标准地址,其中, 所述标准地址生成模型基于Seq2Seq模型。本申请基于人工智能技术,先识别待标准化的地址信息对应的具体地址,再将其转化为预期的标准化的地址,解决了用户输入地址信息时存在多种表达方式,导致无法识别或识别不准确的问题。
本申请还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述地址信息标准化方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (20)

  1. 一种地址信息标准化方法,其特征在于,包括下述步骤:
    获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息;
    将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;
    将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;
    将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
  2. 根据权利要求1所述的地址信息标准化方法,其特征在于,在所述将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词的步骤中,所述分词模型基于双向最大匹配法。
  3. 根据权利要求1所述的地址信息标准化方法,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:
    将所述地址分词与预设的停用词表进行比对,并删除所述地址分词中与所述停用词表中重叠的词,得到过滤后的地址分词;
    将所述过滤后的地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址。
  4. 根据权利要求1所述的地址信息标准化方法,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:
    根据所述地址分词检索预设的同义词表,并在同义词表中提取所述地址分词中各分词的同义词,得到所述地址分词的扩展结果,其中,所述扩展结果中包含所述地址分词及各地址分词的同义词;
    将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址。
  5. 根据权利要求4所述的地址信息标准化方法,其特征在于,在所述将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤中,包括下述步骤:
    计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率,其中,所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例,所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
    确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
  6. 根据权利要求5所述的地址信息标准化方法,其特征在于,通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址:
    S=aX+bY+cXY
    其中,S为扩展结果与预设的地址库中常用地址的匹配度,X为扩展词覆盖率,Y扩展词顺序覆盖率,XY为综合词覆盖率,a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
  7. 根据权利要求1所述的地址信息标准化方法,其特征在于,在所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤中,包括下述步骤:
    计算所述地址分词与所述预设的地址库中各常用地址的词覆盖率和/或词顺序覆盖率,其中,所述词覆盖率为所述地址分词中与所述常用地址重叠的词数占所述地址分词数的比例,所述词顺序覆盖率为所述地址分词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
    确定所述词覆盖率和/或词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
  8. 一种地址信息标准化装置,其特征在于,包括:
    获取模块,用于获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地址信息;
    分词模块,用于将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;
    匹配模块,用于将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;
    执行模块,用于将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
  9. 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如下地址信息标准化方法的步骤:
    获取待标准化的地址信息;
    将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;
    将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;
    将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
  10. 根据权利要求9所述的计算机设备,其特征在于,在所述将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词的步骤中,所述分词模型基于双向最大匹配法。
  11. 根据权利要求9所述的计算机设备,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:
    将所述地址分词与预设的停用词表进行比对,并删除所述地址分词中与所述停用词表中重叠的词,得到过滤后的地址分词;
    将所述过滤后的地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址。
  12. 根据权利要求9所述的计算机设备,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:
    根据所述地址分词检索预设的同义词表,并在同义词表中提取所述地址分词中各分词的同义词,得到所述地址分词的扩展结果,其中,所述扩展结果中包含所述地址分词及各地址分词的同义词;
    将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址。
  13. 根据权利要求12所述的计算机设备,其特征在于,在所述将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤中,包括下述步骤:
    计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率,其中,所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例,所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
    确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
  14. 根据权利要求13所述的计算机设备,其特征在于,通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址:
    S=aX+bY+cXY
    其中,S为扩展结果与预设的地址库中常用地址的匹配度,X为扩展词覆盖率,Y扩展词顺序覆盖率,XY为综合词覆盖率,a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
  15. 一个或多个非易失性可读存储介质,其特征在于,所述非易失性可读存储介质上存储有计算机可读指令,所述计算机可读指令被一种处理器执行时,实现如下地址信息标准化方法的步骤:
    获取目标用户在数据输入界面中基于其地址识别需求发送的待标准化的地 址信息;
    将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词;
    将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址;
    将所述候选地址输入到预设的标准地址生成模型中对所述候选地址进行向量化处理,以通过标准地址生成模型获得与所述候选地址匹配的词汇组合内容,并将所述词汇组合内容作为由所述标准地址生成模型输出的标准地址,其中,所述标准地址生成模型基于Seq2Seq模型。
  16. 根据权利要求15所述的非易失性可读存储介质,其特征在于,在所述将所述地址信息输入到预设的基于词典的分词模型中,通过所述分词模型将所述地址信息与词典中的词条进行匹配,以得到匹配成功后由所述分词模型输出的地址分词的步骤中,所述分词模型基于双向最大匹配法。
  17. 根据权利要求15所述的非易失性可读存储介质,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:
    将所述地址分词与预设的停用词表进行比对,并删除所述地址分词中与所述停用词表中重叠的词,得到过滤后的地址分词;
    将所述过滤后的地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址。
  18. 根据权利要求15所述的非易失性可读存储介质,其特征在于,所述将所述地址分词与预设的地址库匹配,得到与所述地址信息对应的候选地址的步骤,包括下述步骤:
    根据所述地址分词检索预设的同义词表,并在同义词表中提取所述地址分词中各分词的同义词,得到所述地址分词的扩展结果,其中,所述扩展结果中包含所述地址分词及各地址分词的同义词;
    将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址。
  19. 根据权利要求18所述的非易失性可读存储介质,其特征在于,在所述将所述扩展结果与预设的地址库匹配,得到与所述地址信息对应的候选地址的 步骤中,包括下述步骤:
    计算所述扩展结果与所述预设的地址库中各常用地址的扩展词覆盖率和/或扩展词顺序覆盖率,其中,所述扩展词覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址重叠的词数占所述地址分词数的比例,所述扩展词顺序覆盖率为所述扩展结果中的地址分词或地址分词的同义词与所述常用地址顺序重叠的词数占所述地址分词数的比例;
    确定所述扩展词覆盖率和/或扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址。
  20. 根据权利要求19所述的非易失性可读存储介质,其特征在于,通过以下公式确定所述扩展词覆盖率和扩展词顺序覆盖率最高的常用地址为所述地址信息对应的候选地址:
    S=aX+bY+cXY
    其中,S为扩展结果与预设的地址库中常用地址的匹配度,X为扩展词覆盖率,Y扩展词顺序覆盖率,XY为综合词覆盖率,a、b、c分别为扩展词覆盖率、扩展词顺序覆盖率和综合词覆盖率的权重。
PCT/CN2019/117264 2019-02-18 2019-11-11 一种地址信息标准化方法、装置、计算机设备及存储介质 WO2020168750A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910121905.7A CN109960795B (zh) 2019-02-18 2019-02-18 一种地址信息标准化方法、装置、计算机设备及存储介质
CN201910121905.7 2019-02-18

Publications (1)

Publication Number Publication Date
WO2020168750A1 true WO2020168750A1 (zh) 2020-08-27

Family

ID=67023574

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117264 WO2020168750A1 (zh) 2019-02-18 2019-11-11 一种地址信息标准化方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109960795B (zh)
WO (1) WO2020168750A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651232A (zh) * 2020-12-29 2021-04-13 中国平安人寿保险股份有限公司 一种地址纠错方法、装置、设备及存储介质
CN112835899A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地址库索引方法、地址匹配方法以及相关设备
CN113515677A (zh) * 2021-07-22 2021-10-19 中移(杭州)信息技术有限公司 地址匹配方法、装置及计算机可读存储介质
CN113569568A (zh) * 2021-07-29 2021-10-29 中国工商银行股份有限公司 文本识别方法、装置、电子设备、存储介质及转账方法
CN113704574A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 地址标准化的方法及装置
CN113987114A (zh) * 2021-09-17 2022-01-28 上海燃气有限公司 一种基于语义分析的地址匹配方法、装置和电子设备

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109960795B (zh) * 2019-02-18 2024-05-07 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其系统、电子设备
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN112613319A (zh) * 2019-09-18 2021-04-06 杭州联保致新科技有限公司 一种车辆配件名称自动标准化方法和装置
CN112749532B (zh) * 2019-10-30 2024-06-21 阿里巴巴集团控股有限公司 地址文本处理方法、装置及设备
CN112749560A (zh) * 2019-10-30 2021-05-04 阿里巴巴集团控股有限公司 地址文本处理方法、装置、设备及计算机存储介质
CN113076746B (zh) * 2020-01-06 2024-05-31 阿里巴巴集团控股有限公司 数据处理方法和系统、存储介质及计算设备
CN111522901B (zh) * 2020-03-18 2023-10-20 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN111625732B (zh) * 2020-05-25 2023-06-23 鼎富智能科技有限公司 地址匹配方法及装置
CN113779427B (zh) * 2021-08-11 2023-04-14 荣耀终端有限公司 日程地址识别方法、设备、存储介质和软件程序产品
CN113592037B (zh) * 2021-08-26 2023-11-24 吉奥时空信息技术股份有限公司 一种基于自然语言推断的地址匹配方法
CN114048797A (zh) * 2021-10-20 2022-02-15 盐城金堤科技有限公司 确定地址相似度的方法、装置、介质及电子设备
CN115099359A (zh) * 2022-07-12 2022-09-23 平安科技(深圳)有限公司 基于人工智能的地址识别方法、装置、设备及存储介质
CN115277626B (zh) * 2022-07-29 2023-07-25 平安科技(深圳)有限公司 地址信息转换方法、电子设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
US20120047179A1 (en) * 2010-08-19 2012-02-23 International Business Machines Corporation Systems and methods for standardization and de-duplication of addresses using taxonomy
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
CN107451106A (zh) * 2017-07-26 2017-12-08 阿里巴巴集团控股有限公司 文本纠正方法及装置、电子设备
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024024B (zh) * 2010-11-10 2013-07-10 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN108733657B (zh) * 2017-04-17 2022-10-28 北京搜狗科技发展有限公司 神经机器翻译中注意力参数的修正方法、装置及电子设备
CN108062365B (zh) * 2017-12-06 2021-01-26 吉旗(成都)科技有限公司 一种提高地址解析准确度的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120047179A1 (en) * 2010-08-19 2012-02-23 International Business Machines Corporation Systems and methods for standardization and de-duplication of addresses using taxonomy
CN102169498A (zh) * 2011-04-14 2011-08-31 中国测绘科学研究院 一种地址模型的构建方法,以及地址匹配的方法和系统
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
CN107451106A (zh) * 2017-07-26 2017-12-08 阿里巴巴集团控股有限公司 文本纠正方法及装置、电子设备
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651232A (zh) * 2020-12-29 2021-04-13 中国平安人寿保险股份有限公司 一种地址纠错方法、装置、设备及存储介质
CN112651232B (zh) * 2020-12-29 2023-07-25 中国平安人寿保险股份有限公司 一种地址纠错方法、装置、设备及存储介质
CN112835899A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地址库索引方法、地址匹配方法以及相关设备
CN113515677A (zh) * 2021-07-22 2021-10-19 中移(杭州)信息技术有限公司 地址匹配方法、装置及计算机可读存储介质
CN113515677B (zh) * 2021-07-22 2023-10-27 中移(杭州)信息技术有限公司 地址匹配方法、装置及计算机可读存储介质
CN113569568A (zh) * 2021-07-29 2021-10-29 中国工商银行股份有限公司 文本识别方法、装置、电子设备、存储介质及转账方法
CN113704574A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 地址标准化的方法及装置
CN113704574B (zh) * 2021-08-27 2024-02-09 北京市律典通科技有限公司 地址标准化的方法及装置
CN113987114A (zh) * 2021-09-17 2022-01-28 上海燃气有限公司 一种基于语义分析的地址匹配方法、装置和电子设备
CN113987114B (zh) * 2021-09-17 2023-04-07 上海燃气有限公司 一种基于语义分析的地址匹配方法、装置和电子设备

Also Published As

Publication number Publication date
CN109960795B (zh) 2024-05-07
CN109960795A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
WO2020168750A1 (zh) 一种地址信息标准化方法、装置、计算机设备及存储介质
CN109145219B (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN112507099B (zh) 对话理解模型的训练方法、装置、设备和存储介质
CN110390054B (zh) 兴趣点召回方法、装置、服务器和存储介质
US20200326197A1 (en) Method, apparatus, computer device and storage medium for determining poi alias
CN111832290B (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN110968654B (zh) 文本数据的地址类目确定方法、设备以及系统
CN112507706B (zh) 知识预训练模型的训练方法、装置和电子设备
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN113947147B (zh) 目标地图模型的训练方法、定位方法及相关装置
CN116795973A (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN114329244A (zh) 地图兴趣点查询方法、装置、设备、存储介质及程序产品
CN115578570A (zh) 图像处理方法、装置、可读介质及电子设备
CN116917887A (zh) 使用基于注意力的排名系统的查询处理
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN112988753A (zh) 一种数据搜索方法和装置
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN111191107B (zh) 使用标注模型召回兴趣点的系统和方法
CN113515687B (zh) 物流信息的获取方法和装置
CN112861023B (zh) 地图信息处理方法、装置、设备、存储介质及程序产品
WO2020151318A1 (zh) 基于爬虫模型的语料构建方法、装置及计算机设备
CN114579883A (zh) 地址查询方法、获取地址向量表示模型的方法及对应装置
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN112149005A (zh) 用于确定搜索结果的方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19915777

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19915777

Country of ref document: EP

Kind code of ref document: A1