WO2015027836A1 - 一种地名实体识别的方法及系统 - Google Patents

一种地名实体识别的方法及系统 Download PDF

Info

Publication number
WO2015027836A1
WO2015027836A1 PCT/CN2014/084609 CN2014084609W WO2015027836A1 WO 2015027836 A1 WO2015027836 A1 WO 2015027836A1 CN 2014084609 W CN2014084609 W CN 2014084609W WO 2015027836 A1 WO2015027836 A1 WO 2015027836A1
Authority
WO
WIPO (PCT)
Prior art keywords
address
segmentation
place name
level
labeling
Prior art date
Application number
PCT/CN2014/084609
Other languages
English (en)
French (fr)
Inventor
王国印
贾西贝
Original Assignee
深圳市华傲数据技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市华傲数据技术有限公司 filed Critical 深圳市华傲数据技术有限公司
Publication of WO2015027836A1 publication Critical patent/WO2015027836A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Definitions

  • the present invention relates to the field of geographic information, and in particular, to a method and system for identifying a place name entity.
  • Geographic information-based applications especially the most important part of the communication address is the identification of geographical names.
  • the geographical names of the geographical names are single. Only the geographical names are used to identify all the geographical names.
  • the geographical names of the geographical names are not divided.
  • the present invention has been made to solve one of the above drawbacks. Therefore, the present invention provides a method and system for identifying a place name entity, performing address segmentation on the address text according to the dictionary metadata, and then labeling the segmentation results respectively corresponding to the place name categories according to the place name category definition table, and the tag sequence by the Viterbi algorithm. Optimize and correct the labeling sequence according to the context to obtain the final labeling result, so that the geographical name entity recognition result is accurate and practical.
  • an embodiment of the present invention provides a method for identifying a place name entity, the method comprising the steps of: inputting an address text and performing preprocessing; performing address segmentation on the address text according to the dictionary metadata; and performing address tagging on the segmentation result, And obtain the optimal address level labeling sequence; correct the labeling sequence according to the context, and output the optimal labeling result.
  • the method is performed in a dictionary mode, wherein the dictionary uses a double array of Trie nodes Constructed to store.
  • the method pre-establishes an address base database based on the Trie tree; the method divides the address element data place name into 12 levels; and establishes a corresponding place name category definition table according to the address element database.
  • the address segmentation uses the inverse maximum matching algorithm of the Trie tree to scan the input address text from right to left for address segmentation.
  • the address labeling includes: labeling the segmentation result by a corresponding place name category according to the place name category definition table; and marking the address level of the segmentation result that cannot be found in the address metadata as level 0 .
  • the address labeling obtains an optimal address level labeling sequence by the Viterbi algorithm.
  • Another embodiment of the present invention provides a system for identifying a place name entity, the system comprising: an address text input system for acquiring input information of an address text and performing preprocessing; and an address segmentation system for performing address metadata pairing
  • the address text obtained in the address local input system is segmented; the address labeling system is used to obtain an optimal address level labeling sequence by the Viterbi algorithm; the address correction system is used to correct the labeling sequence according to the context, and obtain an optimal labeling result.
  • the address text system pre-processing the address text includes at least: deleting extra spaces and converting full-width characters of numbers or letters into half-width characters.
  • the address segmentation system performs segmentation of address text according to a Terie tree-based address metadata database in advance; the address segmentation system uses an inverse maximum matching algorithm based on the Trie tree to perform address segmentation. Minute.
  • the address labeling system respectively marks the segmentation result according to the attribute of the place name in the address metadata to the corresponding place name category; in addition, the address tagging system may not find the slice in the address metadata.
  • the address level of the segmentation result is marked as level 0; the address tagging system then obtains the optimal address level tag sequence through the Viterbi algorithm.
  • the invention performs address segmentation on the address text according to the dictionary metadata, and then labels the segmentation result with the corresponding place name category according to the place name category definition table, optimizes the label sequence by the Viterbi algorithm, and corrects the label sequence according to the context to obtain the final Labeling result
  • the entity identification result is accurate and practical.
  • FIG. 1 is a schematic flow chart of a method for identifying a place name entity implemented by an embodiment of the present invention.
  • FIG. 2 is a schematic diagram showing the working principle of a Trie tree used in an embodiment of the present invention.
  • the address text is subjected to address segmentation according to the dictionary metadata, and then the segmentation result is respectively marked with the corresponding place name category according to the place name category definition table, and the tag sequence is performed by the Viterbi algorithm. Optimize, and correct the labeling sequence according to the context to obtain the final labeling result, so that the geographical name entity recognition result is accurate and practical.
  • FIG. 1 is a schematic flowchart of a method for identifying a place name entity implemented by an embodiment of the present invention, where the method specifically includes the following steps:
  • Step S110 The address text is input and preprocessed. Based on the characteristics of the Chinese place name, the address segmentation and the address place name entity identification in the embodiment of the present invention are all based on the dictionary mode. Dictionary-based word segmentation usually has a positive (left to right) match and a reverse (from right to left) match. Normally, the inverse matching is half the error rate of the positive matching segmentation. It has an advantage for solving the cross ambiguity.
  • the cross ambiguity is defined as: ABC three consecutive Chinese characters, AB and BC can be words; Generally, Chinese BC constituent words The probability is greater.
  • the address segmentation is based on the address metadata dictionary using the inverse maximum matching algorithm to scan the address text input by the user from right to left to implement the segmentation of the address.
  • the dictionary uses a Trie tree data structure based on Double Array.
  • the address metadata dictionary mainly includes various place name data, such as a provincial administrative district, a prefecture-level administrative district, a county-level administrative district, a township-level administrative district, and a community/village committee. Roads, buildings, communities, villages, institutions, etc., the geographical names of administrative divisions can be directly Obtained from the address data on the administrative divisions of China from Wikipedia and the National Bureau of Statistics website, other data can be collected manually and extracted from the complete communication address by address segmentation and identification techniques.
  • the data contained in the geographical names metadata mainly include: provincial administrative district names (including provinces, autonomous regions, municipalities and special administrative regions), prefecture-level administrative district names (prefecture-level cities, autonomous prefectures, regions, and alliances), and county-level administrative districts (including municipal jurisdictions, County-level cities, counties, autonomous counties, flags, autonomous flags, special zones and forest areas), township-level administrative district names (including townships, towns, streets, Sumu, district offices), other address data (including road names, village names, communities) Name, building name and square name, institution name), etc.
  • the common address construction rules are as follows: Provincial administrative district + prefecture administrative district + county administrative district + road + house number + building name + room number. Such as: Room 2208, International Student Venture Building, No. 29 Gaoxin South Ring Road, Nanshan District, Shenzhen, Guangdong, China. Such address description patterns are commonly found in electronic maps, such as Baidu maps, Google maps, and the like.
  • Mode 2 The address centered on the administrative division, the common address construction rules are as follows: Provincial administrative district + prefecture-level administrative district + county-level administrative district + township / town / street + residence (village) committee + community / natural village.
  • the third level governs the district, county, provincial county, Haidian District, Wenchang City, Ding'an County, Qing
  • the fifth level community village committee Liutang community, Shizhuang village committee, etc.
  • the ninth level of the residential building's roads, trails, etc. The main features are: unit,
  • Room number such as room 2208, 22nd floor (floor, F) room 08, etc.
  • the address metadata dictionary not only contains the place name vocabulary, but also the attribute corresponding to the place name vocabulary, that is, the place name category.
  • the dictionary format is defined as:
  • the address metadata dictionary is composed of multiple lines, and each line becomes an entry.
  • each Term contains a list of address categories corresponding to place names and place names, where the name is key, the address level is key attribute set or Categories.
  • Address Metadata Dictionary Each Term contains 2 items, that is, the address category corresponding to the place name and the place name. They are separated by a semicolon semicolon ";", and some place names contain multiple place name categories (such as some standards).
  • the alias of the version address is also an alias for other standard version addresses. The different level levels are separated by a comma " , " with a half-width. According to the characteristics and usage habits of the place names, the official name is the standard name of a certain place name, and other names are aliases.
  • “Yue” and “Guangdong” are aliases of "Guangdong province”, and the alias is classified from the literal feature.
  • one is a contiguous substring of a standard name, which is called an abbreviated name or a short name, such as "Guangdong” to "Guangdong province”
  • another alias does not see any association on the literal features or Non-substring, such as " ⁇ ” For "Guangdong province”.
  • the category definition for the first case is followed by the standard name category followed by "_ABBR”
  • the second case is the standard name category followed by "_ALIAS”. Therefore, the category definition of place names is shown in Table 2 below.
  • Step S120 performs address segmentation on the address text based on the dictionary metadata.
  • the dictionary uses a double array (Double Array) based Trie tree data structure.
  • Double Array Double Array
  • the forward maximum matching may be taken as an example.
  • the principle of the Trie tree is as shown in FIG. 2 .
  • the Trie tree is a certain finite state automaton (DFA).
  • DFA finite state automaton
  • Each node represents a state of the automaton.
  • the state transition is performed, and the state is changed once during the transition.
  • the verification of the transfer path when the end state is reached or cannot be transferred, the query is completed.
  • the query process of the Trie tree is mainly divided into two steps: In the current state, the state transition is made according to the currently input character, and the position of the direct successor state is obtained; the precursor of the current state is verified, and the state of the current state is determined by which state Transferred, is it directed to its direct precursor.
  • Trie tree it is necessary to store the direct precursor information of the current state.
  • the implementation versions of the popular Trie tree on the current network are generally based on double arrays.
  • the names of the two arrays are ba Se [] and check[].
  • Each element in the array is subscript i equivalent to a knot of the Trie tree.
  • the point number or the storage location in the double array also known as the status number.
  • Base[i] stores the minimum conflict-free offset from the current state i to all subsequent states
  • Check[i] stores the direct precursor information of the current state i, that is, which state is transferred from the current state;
  • Base and check are paired, and base[i] and check[i] represent attributes of the same state.
  • the base[s] value of each state is unique.
  • t check[t] (formula 4); Base[t] ⁇ 0 and the value of base[t] is the inverse of the position of the initial node 0 of the DFA to the character of the current leaf node passing through the lexical order of all lexicographically ordered terms.
  • the query efficiency based on the Trie tree structure is relatively high.
  • the time to make a query with the Trie tree has nothing to do with the size of the dictionary. It is only related to the length of the query text string, so the query is the fastest 0 (1). ), that is, the first character of the text string is not retrieved in the first layer of Trie; the worst time complexity of the query is 0(n), where n is only related to the depth of the Trie tree and the length of the query text. , where the depth of the tree depends on the longest term in the dictionary.
  • the embodiment of the present invention puts check and base into an array, that is, the base array is placed in an even number, the check array is placed in an odd bit, BP base[i] -> array[2*i], check[ i] - > array[2*i + 1] ; If the current state is s, the input character is c, and the next state is t (non-leaf node), the constraints of the query process of this method are modified. For:
  • the values of valid even digits in the array array are unequal to each other, ie the value is unique.
  • array [2*t] ⁇ 0 and the value of array[2*t] is the inverse of the position of the initial node 0 of the DFA to the current character of the leaf node in all lexicographically ordered terms. .
  • Step S130 Perform address labeling on the segmentation result, and obtain an optimal address level labeling sequence.
  • the corresponding address metadata is marked with the corresponding place name category, and the place name category can be obtained from each place name in the address metadata dictionary. Obtained in the attribute, if the segmented address does not exist in the dictionary, it indicates that the address is an unrecognized address, the address level is marked as level 0, and then the above address is marked by the Viterbi algorithm to obtain the optimal Address level labeling sequence.
  • the Viterbi algorithm An example is given to illustrate the implementation of the above steps. Based on the prior knowledge to construct the probabilistic model of the Viterbi algorithm, Pi and A can take the following initial values:
  • A ⁇ ⁇ 0.05, 0.45, 0.25, 0.15, 0.10 ⁇
  • the most probable sequence of labels is the first type of labeling, so the result of the dynamic programming algorithm output is also the first type of labeling status "Guangdong (1) Shenzhen (2) Baoan (3) Xixiang (4).
  • Step S 140 corrects the annotation sequence according to the context and outputs the optimal annotation result.
  • step S130 it is impossible to solve the case where the alias of a prefecture-level city jurisdiction and the county or county-level city have the same alias, such as "Taihe County” (subordinate to Fuyang City, Anhui province) and “Taihe District” (subordinate to Jinzhou City, Liaoning province) ), their aliases are “too", but they belong to different address level levels.
  • "Xiangyang (City) Taihe” and “Jinzhou (City) Taihe” appear
  • the probability of "Taihe” labeling at the third pole address level is the largest according to the algorithm and probability model.
  • the address name above determines whether the address level is "2" or "3", and so on as a special case for the correction of the labeling sequence. Examples are as follows: The address entered is: “Hebei Shijiazhuang Pingshan Ancient Moon”.
  • the sequence of addresses marked is: "Hebei (1,2,4) Shijiazhuang (2,4) Pingshan (2,3,4) Ancient Moon (4)", the labeling level of each address in this labeling sequence is interpreted as: “ Hebei “may be an alias for "Hebei province”, or an alias for "Hebei District” in Tianjin, or an alias for "Hebei Township”; “Shijiazhuang” may be an alias for "Shijiazhuang City” and “Shijiazhuang Town” "Pingshan” can be an alias for "Pingshan County” or “Pingshan District” or “Pingshan Town”.
  • the optimal labeling sequence is: "Hebei (1) Shijiazhuang (2) Pingshan (3) Ancient Moon (4)”.
  • the prefecture-level city marked as the three-level address is its direct predecessor address, if not corrected.
  • the rules are stored in the opposite manner as described above, that is, the alias of the prefecture-level city to which the county or county-level city belongs is the context, for example, (Taihe Yiyang). Therefore, when this context is satisfied, the level of the label is modified, and no modification is made when it is not satisfied.
  • the second-level address and the fourth-level address have the same name, mainly in the county-level city or county alias and the same name of the township alias. Since the four-level address can appear multiple times in a complete address, Sometimes the secondary address is marked on level 4. At this time, it is also necessary to discriminate based on the context to revise the sequence of the annotation.
  • the address entered is: "Heihe River Heilongjiang Wudalianchi Xinfa Township and Mincun";
  • the optimal labeling sequence is: "Heilongjiang (1) Heihe (2) Wudalianchi (4) Xinfa Township (4) and Mincun (0)", at this time the "Five Dalian Pool” is marked at the fourth level address level, the actual It is a county-level city, and the sequence of labels after correction according to the context is: "Heilongjiang (1) Heihe (2) Wudalianchi (2) Xinfa Township (4) and Mincun (.)".
  • the rule reserved by the system is the alias of the alias of the county-level or county-level city, such as (WuDalianchi-Heihe). Therefore, when this context is satisfied, the level of the label is modified, and no modification is made when it is not satisfied.
  • a mechanism is also provided to correct the optimal label sequence according to the context.
  • the method of processing is to eliminate the ambiguity caused by the alias according to the address context (an alias corresponds to multiple address levels). The result is more accurate.
  • Another embodiment of the present invention provides a system for identifying a place name entity, the system comprising: an address text input system for acquiring input information of an address text and performing preprocessing; and an address segmentation system for performing address metadata pairing
  • the address text obtained in the address local input system is segmented; the address labeling system is used to obtain an optimal address level labeling sequence by the Viterbi algorithm; the address correction system is used to correct the labeling sequence according to the context, and obtain an optimal labeling result.
  • the address text system pre-processing the address text includes at least: deleting extra spaces and converting full-width characters of numbers or letters into half-width characters.
  • the address segmentation system performs segmentation of address text according to a Terie tree-based address metadata database in advance; the address segmentation system uses an inverse maximum matching algorithm based on the Trie tree to perform address segmentation. Minute.
  • the address labeling system respectively marks the segmentation result according to the attribute of the place name in the address metadata to the corresponding place name category; in addition, the address tagging system may not find the slice in the address metadata.
  • the address level of the segmentation result is marked as level 0; the address tagging system then obtains the optimal address level tag sequence through the Viterbi algorithm.
  • the invention performs address segmentation on the address text according to the dictionary metadata, and then labels the segmentation result with the corresponding place name category according to the place name category definition table, optimizes the label sequence by the Viterbi algorithm, and corrects the label sequence according to the context to obtain the final
  • the result of the labeling makes the geographical name entity recognition result accurate and practical.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种地名实体识别的方法,该方法包括:地址文本输入并进行预处理;根据词典元数据对地址文本进行地址切分;对切分结果进行地址标注,并获得最优的地址等级标注序列;根据上下文校正标注序列,并输出最优标注结果。本发明根据词典元数据对地址文本进行地址切分,然后根据地名类别定义表格将切分结果分别标注对应的地名类别,再通过Viterbi算法对标注序列进行最优化,并根据上下文校正标注序列,获得最终的标注结果,使得地名实体识别结果精确,实用性强。另外,本发明还提供一种地名实体识别的系统。

Description

一种地名实体识别的方法及系统 技术领域
本发明涉及地理信息领域, 尤其涉及一种地名实体识别的方法及系统。
背景技术
随着地理信息系统 GIS、 遥感系统 RS、 全球卫星定位系统 GPS的发展, 尤其是 移动互联 LBS的广泛应用, 基于地理信息的应用越来越成为人们生活的一部分。基 于地理信息的应用特别是通讯地址中较重要的一部分就是地名实体识别, 当前很多 自然语言处理平台中涉及命名实体识别的部分中对地名实体的识别率都不够高, 主 要体现在: 第一、 地名实体类别属性单一, 仅仅以地名来标识所有地名, 不对地名 的等级 (省级、 地级、 县级、 乡级、 社区 /村委会、 道路、 村庄、 建筑物等) 作更细 的划分; 第二、 对于乡级及乡级以下的地名识别率较低; 第三、 处理不了不同地名 拥有相同简称的情况, 如吉林, 可以是吉林市, 也可以是吉林省; 第四、 对同一个 名字的不同描述 (地名别名) 识别较差。 所以, 需要有一种识别率较高的地名实体识别方法来解决上述这些问题。
发明内容
为此, 本发明为了解决上述缺陷之一。 因而, 本发明提供一种地名实体识别的方法及系统, 根据词典元数据对地址文 本进行地址切分, 然后根据地名类别定义表格将切分结果分别标注对应的地名类 别, 通过 Viterbi算法对标注序列进行最优化, 并根据上下文校正标注序列, 获得最 终的标注结果, 使得地名实体识别结果精确, 实用性强。 所以, 本发明一个实施例提供一种地名实体识别的方法, 该方法包括以下步骤: 地址文本输入并进行预处理; 根据词典元数据对地址文本进行地址切分; 对切分结 果进行地址标注, 并获得最优的地址等级标注序列; 根据上下文校正标注序列, 并 输出最优标注结果。 优选地, 所述方法采用词典模式进行, 其中, 所述词典采用双数组的 Trie树结 构来存储。
优选地, 所述方法预先建立基于 Trie树的地址元数据库; 所述方法将地址元数 据地名划分为 12个等级; 根据所述地址元数据库建立对应的地名类别定义表格。
在本发明一个实施例中, 所述地址切分采用 Trie树的逆向最大匹配算法从右到 左扫描输入的地址文本进行地址切分。
在本发明一个实施例中, 所述地址标注包括: 根据地名类别定义表格将切分结 果分别标注对应的地名类别; 并将在地址元数据中无法找到的切分结果的地址等级 标注为 0级。
优选地, 所述地址标注通过 Viterbi算法的获得最优的地址等级标注序列。
本发明另一个实施例提供一种地名实体识别的系统, 该系统包括: 地址文本输 入系统, 用以获取地址文本的输入信息, 并进行预处理; 地址切分系统, 用以根据 地址元数据对地址本地输入系统中获取的地址文本进行切分; 地址标注系统, 用以 通过 Viterbi算法的获得最优的地址等级标注序列; 地址校正系统, 用以根据上下文 进行校正标注序列, 并获得最优标注结果。
在本发明另一个实施例中,所述地址文本系统对地址文本进行预处理至少包含: 删除多余的空格和将数字或字母的全角字符转换为半角字符。
在本发明另一个实施例中, 所述地址切分系统根据预先建立基于 Trie树的地址 元数据库进行地址文本的切分; 所述地址切分系统采用基于 Trie树的逆向最大匹配 算法进行地址切分。
在本发明另一个实施例中, 所述地址标注系统根据地址元数据中地名的属性将 切分结果分别标注对应的地名类别; 另外, 所述地址标注系统将在地址元数据中无 法找到的切分结果的地址等级标注为 0级;所述地址标注系统再通过 Viterbi算法获 得最优的地址等级标注序列。 本发明根据词典元数据对地址文本进行地址切分, 然 后根据地名类别定义表格将切分结果分别标注对应的地名类别,通过 Viterbi算法对 标注序列进行最优化, 并根据上下文校正标注序列, 获得最终的标注结果, 使得地 名实体识别结果精确, 实用性强。
附图说明
图 1 是本发明实施例实现的一种地名实体识别的方法的流程示意图。
图 2是本发明实施例采用的 Trie树的工作原理示意图。
具体实施方式
为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对本发明进行进一步的详细说明。 应当理解, 此处所描述的具体实施例仅仅用于解 释本发明, 并不用于限定本发明。
本发明提供的一种地名实体识别的方法及系统, 根据词典元数据对地址文本进 行地址切分, 然后根据地名类别定义表格将切分结果分别标注对应的地名类别, 通 过 Viterbi算法对标注序列进行最优化, 并根据上下文校正标注序列, 获得最终的标 注结果, 使得地名实体识别结果精确, 实用性强。
如图 1 是本发明实施例实现的一种地名实体识别的方法的流程示意图, 该方法 具体包括以下步骤:
步骤 S 110: 地址文本输入并进行预处理。 基于中文地名的特点, 本发明实施例中地址切分和地址地名实体识别都是基于 词典的模式。 基于词典的分词通常有正向 (从左向右) 匹配和逆向 (从右向左) 匹 配。通常情况下逆向匹配比正向匹配切分错误率低一半,对于解决交叉歧义有优势, 交叉歧义定义为: ABC三个连续汉字, AB和 BC均可以成为词; 一般情况下汉语 中 BC组成词的概率更大些。 本发明实施例中地址切分是基于地址元数据词典采用 逆向最大匹配算法从右到左扫描用户输入的地址文本, 来实现地址的切分。 为了提 高切分的速度, 词典采用基于双数组 (Double Array) 的 Trie树数据结构。
在本步骤中, 需要预先建立基于 Trie树的地址元数据库, 地址元数据词典主要 包含各种地名数据, 如省级行政区、 地级行政区、 县级行政区、 乡级行政区、 社区 /村委会、 道路、 建筑物、 小区、 村庄、 机构等, 有关行政区划的地名数据可以直接 从自维基百科和国家统计局网站上有关中国行政区划的地址数据中获得, 其他的数 据可以通过人工收集, 以及通过地址切分和识别技术从完整的通信地址中抽取。 地名元数据包含的数据主要有: 省级行政区名 (包括省、 自治区、 直辖市和特 别行政区)、 地级行政区名 (地级市、 自治州、 地区、 盟)、 县级行政区名 (包含市 辖区、 县级市、 县、 自治县、 旗、 自治旗、 特区和林区)、 乡级行政区名 (包括乡、 镇、 街道、 苏木、 区公所), 其他地址数据 (包括道路名、 村庄名、 小区名、 建筑 物名和广场名、 机构名称) 等。 当前使用的通讯地址使用模式主要有两种: 模式一: 以道路为中心定位的地址, 常见的地址构造规则如下: 省级行政区 +地级 行政区 +县级行政区 +道路 +门牌号 +建筑物名 +房间号。 如: 广东省深圳市南山区高 新南环路 29号留学生创业大厦 2208室。 此种地址描述模式常见于电子地图中, 如 百度地图, 谷歌地图等。 模式二: 以行政区划为中心地位的地址, 常见的地址构造规则如下: 省级行政 区 +地级行政区 +县级行政区 +乡 /镇 /街道 +居 (村) 委会 +小区 /自然村。 如: 广东省 深圳市宝安区西乡街道流塘居委会宝民花园。 此种地址描述模式常见于政府部门, 如民政局。 本发明实施例中为了兼容上述两种地址描述模式, 将按照地名的特点将地址中 的地名划分为 12级, 如下表 1所示。
层级 行政区域 行政区域举例
广东省、 内蒙古自治区、 广西壮族
第一级 省、 自治区、 直辖市
自治区、 北京市、 重庆市等
深圳市、 广州市、 武汉市、 温州市、
地级市、 自治州、 地 延边朝鲜族自治州、 日喀则地区、
第二级
区、 盟 和田地区、 吐鲁番地区、 锡林郭勒 地级市所辖区县、直 福田区、 南山区、 浦东新区、 崇明
第三级 辖市所辖区县、省直 县、 海淀区、 文昌市、 定安县、 清
辖县、 自治县、 县级 原满族自治县、 从化市、 科尔沁右 市、 旗 翼前旗等
关集镇、 乌镇、 三官庙乡、 粵海街
乡镇、 街道、 苏木、
第四级 道、 巴彦胡舒苏木、 许家桥回族维
民族乡、 区公所
吾尔族乡等
第五级 社区、 村委会 流塘社区、 史庄村委会等
深南大道、 科苑南路、 西直门外大
第六级 道路
街等
紧跟道路后的编号,如:福中路 208
第七级 门牌号
号、 延平路 223弄等
小区、 村庄 (自然
第八级 海怡东方花园、 流塘村等
村)、 工业区
村中路、 巷、 小径, 该字段存放的是村中路或小巷、 小
第九级 小区中住宅楼的编 路、 小径等。 特征主要有: 单元、
等 胡同、 巷、 街坊、 坊、 栋、 幢等
第十级 建筑物名称 软件大厦、 留学生创业大厦等
第十一
房间号 如 2208室、 22楼(层、 F) 08室等
第十二 除上述之外的其他
机构名、 公司名称、 非地名等
级 名称
表 1 : 十二级地址等级分级模型定义。 地址元数据词典不仅包含地名词汇, 而且还要包含地名词汇对应的属性, 即地 名类别, 其词典格式定义为: 地址元数据词典由多行构成, 每一行成为一个词条
( Term) , 每一个 Term包含地名和地名对应的地址类别集 (Categories) , 其中地名 为 key, 地址等级为 key的属性集或 Categories。 地址元数据词典每一个 Term包含 2项, 即地名和地名对应的地址类别集 (Categories) , 他们之间用半角的分号 ";" 隔开, 有的地名包含多个地名类别 (比如一些标准版地址的别名也是其他标准版地 址的别名), 不同的地级等级之间用半角的逗号 " , " 隔开。 根据地名的特点和使用习惯, 以官方全名为某一地名的标准名字, 其他的名字 为其别名, 如, "粵" 和 "广东" 为 "广东省" 的别名, 别名从字面特征上分为两 种, 一种是标准名字的连续子串, 称之为缩写名字又称简称, 如 "广东 "之于 "广 东省", 另外一种别名在字面特征上完全看不出有任何关联或者非子串, 如 "粵" 之于 "广东省"。 为了兼顾此种类型的区别, 对于第一种的情况的类别定义为标准 名字类别后面加上" _ABBR",同理第二种情况为标准名字类别后面加上" _ALIAS "。 因此地名的类别定义如下表 2所示。
Figure imgf000009_0001
地名类别定义表格。 步骤 S 120根据词典元数据对地址文本进行地址切分。
本发明实施例中词典采用基于双数组(Double Array) 的 Trie树数据结构, 为了 便于理解, 不妨以正向最大匹配为例 Trie树的原理如图 2所示。
由图 2所示的原理图可知 Trie树是一个确定的有限状态自动机(DFA), 每个节 点代表自动机的一个状态, 根据变量的不同, 进行状态转移, 并在转移的时候做一 次状态转移路径的校验, 当到达结束状态或者无法转移的时候, 完成査询。 Trie树 的査询过程主要分为两步: 在当前状态下, 根据当前输入的字符做出状态转移, 获 取其直接后继状态的位置; 校验当前状态的前驱, 确定当前状态是由哪一状态转移 而来, 是否是指向其直接前驱。
由此可以看出在构造 Trie树中, 一定要存储当前状态的直接前驱信息。 当前网 络上流行的 Trie树的实现版本一般都是基于双数组的,两个数组的名字分别为 baSe[] 和 check[],数组中的每一个元素下标 i相当于 Trie树的一个结点编号或在双数组中 的存储位置, 又称状态编号。
base[i] : 存放的是当前状态 i到所有后继状态最小无冲突的偏移量;
check[i] : 存放的是当前状态 i的直接前驱信息, 即存储当前状态是由哪一个状态转 移而来;
base和 check是成对的, base[i]和 check[i]代表同一个状态的属性。
假如当前状态为 3, 输入的字符为 C, 下一状态为 t (非叶子节点), 则査询过程 的约束条件为:
check[base[s]+c]=s (公式 1
base[s]+c=t (公式 2 ) ;
每个状态的 base[s]值唯一。
若当前状态 s可以转移到叶子结点 t中, 则其约束条件为:
base[s]=t (公式 3 ) ;
t=check[t] (公式 4) ; base[t]<0 且 base[t]的值为 DFA的初始结点 0到当前叶子结点经过的字符组成的词 条在所有按词典顺序排序的词条集中位置的相反数。
基于 Trie树结构实现的査询效率就比较高, 用 Trie树做一次査询的时间和词典 的规模没有关系, 仅与査询文本字符串的长度有关, 因此査询一次最快为 0(1), 即 文本字符串第一个字符在 Trie 的第一层检索不到; 査询一次最差的时间复杂度为 0(n), 其中 n仅和 Trie树的深度和査询文本的长度有关, 其中树的深度取决于词典 中最长的词条长度。
为了实现的方便, 本发明实施例将 check和 base放到一个数组内, 即 base数组 放在偶数位, check数组放在奇数位, BP base[i] -> array[2*i], check[i] - > array[2*i + 1] ; 若当前状态为 s, 输入的字符为 c, 下一状态为 t (非叶子节点) 的条件下, 其本方法的査询过程的约束条件修改为:
array [2Hs(array[2*s] + c) + 1] = array [2*s] (公式 5 );
array [2*s]+c=t (公式 6);
array数组中有效偶数位的值是互不相等, 即值唯一。
若当前状态 s可以转移到叶子结点 t中, 则其约束条件为:
array [2*s]=t (公式 7 ) ;
t= array[2*t+l] (公式 8 ) ;
array [2*t]<0 且 array [2*t]的值为 DFA的初始结点 0到当前叶子结点经过的字符组 成的词条在所有按词典顺序排序的词条集中位置的相反数。
步骤 S 130 : 对切分结果进行地址标注, 并获得最优的地址等级标注序列。
经过步骤 S 120中地址文本通过基于 Trie树的逆向最大匹配算法切分之后,接下 来对切分出来的地址元数据标注上对应的地名类别, 地名类别可以从地址元数据词 典中每一个地名的属性中获得, 若被切分的出来的地址在词典中不存, 则说明此地 址是未被识别的地址, 其地址等级标注为 0 级, 然后对上述地址标注通过 Viterbi 算法的获得最优的地址等级标注序列。 举例来说明上述步骤的实现。 依据先验知识构建 Viterbi算法的概率模型, Pi和 A可取以下初始值:
Pi={0.05 , 0.45, 0.25 , 0.15, 0.1 };
A = { {0.05, 0.45, 0.25, 0.15, 0.10},
{0.05, 0.23, 0.45, 0.17, 0.10},
{0.05, 0.18, 0.25, 0.30, 0.22} ,
{0.05, 0.35, 0.05, 0.05, 0.50},
{0.05, 0.30, 0.15, 0.05, 0.45} };
如输入的地址为: "广东深圳宝安西乡", 经过所述的地址切、 地址标注处理之后可 得到以下四种标注结果序列:"广东(1) 深圳 (2) 宝安 (3) 西乡 (4) "、"广东(1) 深圳 (2) 宝安 (3) 西乡 (2) "、 "广东(1) 深圳 (4) 宝安 (3) 西乡 (4)"、 "广东(1) 深圳 (4) 宝安 (3) 西乡 (2) "。 根据维特比 (Viterbi) 算法, 我们可得知四种标注状态的权值: 广东(1) 深圳 (2) 宝安 (3) 西乡 (4); P = 0.030375;
广东(1) 深圳 (2) 宝安 (3) 西乡 (2); P = 0.0030375;
广东(1) 深圳 (4) 宝安 (3) 西乡 (4); P = 0.001125 ;
广东(1) 深圳 (4) 宝安 (3) 西乡 (2); P = 1.125E-4;
概率最大的标注序列为第一种标注状况, 因此动态规划算法输出的结果也是第一种 标注状态 "广东(1) 深圳 (2) 宝安 (3) 西乡 (4) "。
步骤 S 140根据上下文校正标注序列, 并输出最优标注结果。
在步骤 S130 中解决不了一个地级市辖区的别名和县或县级市的别名相同的情 况, 例如 "太和县" (隶属安徽省阜阳市) 和 "太和区" (隶属辽宁省锦州市), 它 们的别名都为 "太和", 但是他们属于不同的地址等级级别。 当出现 "阜阳 (市) 太和"和 "锦州 (市) 太和" 时, 依据算法和概率模型此时的 "太和"标注在第三 极地址级别上概率最大, 解决此类问题要根据其上文的地址名称判断其地址级别是 "2 " 或 " 3 ", 诸如此类作为特殊情况进行标注序列的校正。 举例如下: 输入的地址为: "河北石家庄平山古月"。
标注的地址序列为: "河北(1,2,4) 石家庄 (2,4) 平山 (2,3,4) 古月(4) ", 此标注序 列中每一个地址的标注等级解释为: "河北" 可以是 "河北省" 的别名, 也可以是 天津市的 "河北区" 的别名, 也可以是 "河北乡" 的别名; "石家庄" 可以是 "石 家庄市" 和 "石家庄镇" 的别名; "平山" 可以是 "平山县" 或 "平山区" 或 "平 山镇" 的别名。
最优的标注序列为: "河北(1) 石家庄 (2) 平山 (3) 古月(4)"。
根据上下文校正之后的标注序列为: "河北 (1) 石家庄 (2) 平山 (2) 古月(4)", 因 为此时的 "平山" 是 "平山县"。
由此可以看出当一个地级市辖区的别名和县或者县级市别名相同的时候, 被标 注为三级地址的所属地级市是否它的直接前驱地址, 如果不是进行校正。 为了方便 上下文的规则采用上述相反规则的方式存储, 即记录别名为县或县级市所属地级市 的别名为上下文, 例如 (太和一阜阳)。 因此当满足此上下文时, 修改标注的等级, 不满足时不做任何修改。
与此同时还存在二级地址和四级地址同名的情况, 主要出现在县级市或县的别 名和乡镇的别名同名情况, 由于四级地址可以在一个完整的地址中连续出现多次, 因此有时候会把二级地址标注在四级上。 此时也要根据上下文进行判别, 来修订标 注的序列。
如输入的地址为: "黑龙江黑河五大连池新发乡和民村";
最优的标注序列为: "黑龙江 (1) 黑河 (2) 五大连池 (4) 新发乡 (4) 和民村 (0)", 此时的 "五大连池"被标注在第四级地址级别上, 实际上它是一个县级市, 根据上 下文校正之后的标注序列为: "黑龙江(1) 黑河 (2) 五大连池 (2) 新发乡 (4) 和民村 (。)"。
和区县拥有相同别名的解决方案类似, 对于乡镇和县同名的情况, 系统保留的 规则是别名为县或县级市所属地级市的别名为上下文, 例如 (五大连池一黑河), 因此当满足此上下文时, 修改标注的等级, 不满足时不做任何修改。
因此对于一些特殊情况, 同时提供一个机制对最佳标注序列根据上下文进行校 正, 处理的方法是根据地址上下文消除因别名带来的歧义 (一个别名对应多个地址 等级)。 这样得出的结果更准确一些。
本发明另一个实施例提供一种地名实体识别的系统, 该系统包括: 地址文本输 入系统, 用以获取地址文本的输入信息, 并进行预处理; 地址切分系统, 用以根据 地址元数据对地址本地输入系统中获取的地址文本进行切分; 地址标注系统, 用以 通过 Viterbi算法的获得最优的地址等级标注序列; 地址校正系统, 用以根据上下文 进行校正标注序列, 并获得最优标注结果。
在本发明另一个实施例中,所述地址文本系统对地址文本进行预处理至少包含: 删除多余的空格和将数字或字母的全角字符转换为半角字符。
在本发明另一个实施例中, 所述地址切分系统根据预先建立基于 Trie树的地址 元数据库进行地址文本的切分; 所述地址切分系统采用基于 Trie树的逆向最大匹配 算法进行地址切分。
在本发明另一个实施例中, 所述地址标注系统根据地址元数据中地名的属性将 切分结果分别标注对应的地名类别; 另外, 所述地址标注系统将在地址元数据中无 法找到的切分结果的地址等级标注为 0级;所述地址标注系统再通过 Viterbi算法获 得最优的地址等级标注序列。 本发明根据词典元数据对地址文本进行地址切分, 然 后根据地名类别定义表格将切分结果分别标注对应的地名类别,通过 Viterbi算法对 标注序列进行最优化, 并根据上下文校正标注序列, 获得最终的标注结果, 使得地 名实体识别结果精确, 实用性强。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明, 不能认 定本发明的具体实施只局限于这些说明。 对于本发明所属技术领域的普通技术人员 来说, 在不脱离本发明构思的前提下, 还可以做出若干简单推演或替换。

Claims

1. 一种地名实体识别的方法, 其特征在于, 所述方法包括以下步骤: 地址文本输入并进行预处理;
根据词典元数据对地址文本进行地址切分;
对切分结果进行地址标注, 并获得最优的地址等级标注序列;
根据上下文校正标注序列, 并输出最优标注结果。
2. 根据权利要求 1所述的方法, 其特征在于, 所述方法采用词典模式进行; 其中, 所述词典采用双数组的 Trie树结构来存储。
3. 根据权利要求 1或 2所述的方法, 其特征在于, 所述方法包括:
所述方法预先建立基于 Trie树的地址元数据库;
所述方法将地址元数据地名划分为 12个等级;
根据所述地址元数据库建立对应的地名类别定义表格。
4. 根据权利要求 1所述的方法, 其特征在于, 所述地址切分包括: 所述地址切分采 用 Trie树的逆向最大匹配算法从右到左扫描输入的地址文本进行地址分。
5. 根据权利要求 1所述的方法, 其特征在于, 所述地址标注包括:
根据地名类别定义表格将切分结果分别标注对应的地名类别;
并将在地址元数据中无法找到的切分结果的地址等级标注为 0级。
6. 根据权利要求 1或 5所述的方法, 其特征在于, 所述地址标注包括: 所述地址标 注通过 Viterbi算法的获得最优的地址等级标注序列。
7. 一种地名实体识别的系统, 其特征在于, 所述系统包括:
地址文本输入系统, 用以获取地址文本的输入信息, 并进行预处理;
地址切分系统, 用以根据地址元数据对地址本地输入系统中获取的地址文本进行切 分;
地址标注系统, 用以通过 Viterbi算法的获得最优的地址等级标注序列; 地址校正系统, 用以根据上下文进行校正标注序列, 并获得最优标注结果。
8. 根据权利要求 7所述的系统, 其特征在于, 所述系统包括: 所述地址文本系统对 地址文本进行预处理至少包含: 删除多余的空格和将数字或字母的全角字符转换为 半角字符。
9. 根据权利要求 7所述的系统, 其特征在于, 所述系统包括: 所述地址切分系统根 据预先建立基于 Trie树的地址元数据库进行地址文本的切分; 所述地址切分系统采 用基于 Trie树的逆向最大匹配算法进行地址切分。
10. 根据权利要求 7所述的系统, 其特征在于, 所述系统包括:
所述地址标注系统根据地址元数据中地名的属性将切分结果分别标注对应的地名 类别;
另外, 所述地址标注系统将在地址元数据中无法找到的切分结果的地址等级标注为 0级;
所述地址标注系统再通过 Viterbi算法获得最优的地址等级标注序列。
PCT/CN2014/084609 2013-08-27 2014-08-18 一种地名实体识别的方法及系统 WO2015027836A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310377702.7 2013-08-27
CN2013103777027A CN103440311A (zh) 2013-08-27 2013-08-27 一种地名实体识别的方法及系统

Publications (1)

Publication Number Publication Date
WO2015027836A1 true WO2015027836A1 (zh) 2015-03-05

Family

ID=49694004

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/084609 WO2015027836A1 (zh) 2013-08-27 2014-08-18 一种地名实体识别的方法及系统

Country Status (2)

Country Link
CN (1) CN103440311A (zh)
WO (1) WO2015027836A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417022A (zh) * 2022-03-30 2022-04-29 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置
CN117131867A (zh) * 2022-05-17 2023-11-28 贝壳找房(北京)科技有限公司 房本地址拆分方法、装置、计算机程序产品和存储介质

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统
CN105704258B (zh) * 2014-11-28 2019-11-29 方正国际软件(北京)有限公司 一种地址识别的方法和设备
CN104679867B (zh) * 2015-03-05 2018-05-29 深圳市华傲数据技术有限公司 基于图的地址知识处理方法及装置
CN106155998B (zh) * 2015-04-09 2019-03-26 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN104933023B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN104933024B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN106326206B (zh) * 2015-06-24 2021-01-26 北京京东尚科信息技术有限公司 一种基于文法模板的实体抽取方法
CN105045888A (zh) * 2015-07-28 2015-11-11 浪潮集团有限公司 一种用于hmm的分词训练语料标注方法
CN106970918B (zh) * 2016-01-13 2020-10-27 菜鸟智能物流控股有限公司 生成国际地址唯一标识符的方法及装置
CN107305540B (zh) * 2016-04-20 2021-03-02 顺丰科技有限公司 地址切分识别方法
CN106557574B (zh) * 2016-11-23 2020-02-04 广东电网有限责任公司佛山供电局 基于树结构的目标地址匹配方法和系统
CN107133215A (zh) * 2017-05-20 2017-09-05 复旦大学 一种脱机手写中文规范地址识别方法
CN109145095B (zh) * 2017-06-16 2024-03-29 贵州小爱机器人科技有限公司 地名信息匹配方法、信息匹配方法、装置及计算机设备
CN107247792B (zh) * 2017-06-16 2021-01-15 中国电子技术标准化研究院 匹配职能部门的方法、装置及计算机设备
CN109255564B (zh) * 2017-07-13 2022-09-06 菜鸟智能物流控股有限公司 一种取件点地址推荐方法及装置
CN108509505B (zh) * 2018-03-05 2022-04-12 昆明理工大学 一种基于分区双数组Trie的字符串检索方法及装置
CN108664574B (zh) * 2018-04-27 2023-08-18 平安科技(深圳)有限公司 信息的输入方法、终端设备及介质
CN108920457B (zh) * 2018-06-15 2022-01-04 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN110909110B (zh) * 2018-09-17 2023-05-30 阿里巴巴集团控股有限公司 地址的标准化方法、装置、存储介质及处理器
CN109299469B (zh) * 2018-10-29 2023-05-02 复旦大学 一种在长文本中识别复杂住址的方法
CN111324679B (zh) * 2018-12-14 2023-04-11 阿里巴巴集团控股有限公司 地址信息的处理方法、装置和系统
CN110210020B (zh) * 2019-05-22 2023-06-20 武汉虹旭信息技术有限责任公司 通讯地址标准化的系统及其方法
CN111931478B (zh) * 2020-07-16 2023-11-10 丰图科技(深圳)有限公司 地址兴趣面模型的训练方法、地址的预测方法及装置
CN112052673A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 物流网点识别方法、装置、计算机设备和存储介质
CN112966511B (zh) * 2021-02-08 2024-03-15 广州探迹科技有限公司 一种实体词识别方法及装置
CN113220836B (zh) * 2021-05-08 2024-04-09 北京百度网讯科技有限公司 序列标注模型的训练方法、装置、电子设备和存储介质
CN115238692A (zh) * 2022-06-29 2022-10-25 青岛海尔科技有限公司 一种地点名称识别方法、系统、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102955832A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的系统
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007213211A (ja) * 2006-02-08 2007-08-23 Fujifilm Corp 検索データベース、住所検索装置、住所検索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102955832A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的系统
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417022A (zh) * 2022-03-30 2022-04-29 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置
CN114417022B (zh) * 2022-03-30 2022-06-28 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置
CN117131867A (zh) * 2022-05-17 2023-11-28 贝壳找房(北京)科技有限公司 房本地址拆分方法、装置、计算机程序产品和存储介质
CN117131867B (zh) * 2022-05-17 2024-05-14 贝壳找房(北京)科技有限公司 房本地址拆分方法、装置、计算机程序产品和存储介质

Also Published As

Publication number Publication date
CN103440311A (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
WO2015027836A1 (zh) 一种地名实体识别的方法及系统
CN109145169B (zh) 一种基于统计分词的地址匹配方法
CN102955833B (zh) 一种通讯地址识别、标准化的方法
WO2015027835A1 (zh) 一种通信地址查询邮政编码的系统及终端
CN107145577A (zh) 地址标准化方法、装置、存储介质及计算机
US10783171B2 (en) Address search method and device
CN106528526B (zh) 一种基于贝叶斯分词算法的中文地址语义标注方法
CN109344213B (zh) 一种基于字典树的中文地理编码方法
CN102955832B (zh) 一种通讯地址识别、标准化的系统
CN108763215B (zh) 一种基于地址分词的地址存储方法、装置及计算机设备
WO2022095256A1 (zh) 一种地理编码方法、系统、终端以及存储介质
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
CN109344263B (zh) 一种地址匹配方法
CN111291277A (zh) 一种基于语义识别和高级语言搜索的地址标准化方法
CN106021336A (zh) 一种对批量地址信息进行自动行政区划划分的方法
WO2015027837A1 (zh) 一种通信地址补全的装置及方法
WO2022126988A1 (zh) 实体命名识别模型的训练方法、装置、设备及存储介质
WO2016179988A1 (zh) 中文地址分词标注方法
CN106777118B (zh) 一种基于模糊字典树的地理词汇快速抽取方法
CN109933797A (zh) 基于Jieba分词及地址词库的地理编码方法和系统
CN106874287A (zh) 一种兴趣点poi地址编码的处理方法及装置
CN110990520B (zh) 一种地址编码方法、装置、电子设备和存储介质
CN104679801A (zh) 一种兴趣点搜索方法和装置
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN107908627A (zh) 一种多语言的地图poi 搜索系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14840250

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14840250

Country of ref document: EP

Kind code of ref document: A1