WO2016179988A1 - 中文地址分词标注方法 - Google Patents

中文地址分词标注方法 Download PDF

Info

Publication number
WO2016179988A1
WO2016179988A1 PCT/CN2015/094375 CN2015094375W WO2016179988A1 WO 2016179988 A1 WO2016179988 A1 WO 2016179988A1 CN 2015094375 W CN2015094375 W CN 2015094375W WO 2016179988 A1 WO2016179988 A1 WO 2016179988A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
label
word segmentation
address
characters
Prior art date
Application number
PCT/CN2015/094375
Other languages
English (en)
French (fr)
Inventor
王明兴
贾西贝
Original Assignee
深圳市华傲数据技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市华傲数据技术有限公司 filed Critical 深圳市华傲数据技术有限公司
Publication of WO2016179988A1 publication Critical patent/WO2016179988A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Definitions

  • the present invention relates to the field of data processing technologies, and in particular, to a Chinese address word segmentation method.
  • the result of the word segmentation of the address information in the above example may be: "Guangdong / Shenzhen / City Nanshan District / District Gaoxinzhongyi / Road No. 9 / Road No. Science Park / Area Software Building / Building 713 / Room”.
  • Chinese address segmentation is a basic work of address information processing, and its accuracy will directly affect the correctness of subsequent processing.
  • HMM Hidden Markov Model
  • the object of the present invention is to provide a Chinese address segmentation labeling method, which improves the accuracy of Chinese address segmentation labeling.
  • the present invention provides a Chinese address word segmentation method, including:
  • Step 11 Perform manual segmentation on the selected address data as training data
  • Step 12 a single Arabic numeral character or an English alphabet character and a plurality of consecutive Arabic numeral characters or English alphabet characters appearing in the training data or the selected address data, and a single Arabic numeral character or English specified in advance Alphabetic character replacement;
  • Step 13 using the word segmentation label and the labeling label respectively to convert the training data into a format required by the CRF++ tool;
  • Step 14 defining a feature template;
  • Step 15 using the CRF++ tool to establish a word segmentation model and a labeling model respectively;
  • Step 16 the single Arabic numeral character or the English alphabet character appearing in the address to be distinguished by the word segmentation, and a plurality of consecutive Arabic numeral characters or English alphabet characters, replaced by the previously unique single Arabic character or English alphabet character , the same as the Arabic digits or English alphabet characters before the replacement;
  • Step 17 and then use the CRF++ tool to perform word segmentation on the address marked with the word segmentation;
  • Step 18 Restore the Arabic numeral character or the English alphabet character before the replacement in the word segmentation result.
  • the word segmentation tag includes a tag indicating a word at the beginning of the word, a tag indicating the word in the word, a tag indicating the word at the end, and a tag indicating the word of the single word.
  • the labeling label includes a province, a city, a district, a street, a community, a road, a road number, a tile, a building, and a room.
  • Step 17 includes acquiring the word segmentation label and the label label of each word and parsing the word segment label and the label label of each word respectively by using the word segmentation model and the label model.
  • the process of parsing the word segmentation label and the labeling label of each word includes:
  • the criLlearn command provided by the CRF++ tool is used to train the word segmentation model and the annotation model.
  • the process of training the word segmentation model and the annotation model is iterated 100 steps.
  • the Chinese address word segmentation method of the present invention has high accuracy.
  • the present invention adopts a word segmentation framework based on a conditional random field model, and the conditional random field related technology adopts a source of resources.
  • CRF++ tool is a well-known conditional random field source tool and is currently the best comprehensive C.
  • province The first-level administrative region specified by the "National Geographical Name Address Data Specification" includes: provinces, municipalities directly under the Central Government, autonomous regions, special administrative regions;
  • City The secondary administrative area specified by the "National Geographical Name Address Data Specification", including: prefecture-level cities, regions, autonomous prefectures, and alliances;
  • District The three-level administrative area stipulated by the "National Geographical Name Address Data Specification", including: municipal district, county-level city
  • Street The four-level administrative area stipulated by the "National Geographic Name Address Data Specification", including: district office, town, township, Sumu, and street;
  • Community The five-level administrative area stipulated by the "National Geographical Name Address Data Specification", including: community, neighborhood committee, administrative village;
  • Roads roads, streets, lanes
  • road number house number
  • Area The address name of the regional nature, usually the address area represented by the name has several buildings, such as Science and Technology Park, Shennan Garden, Xiasha Village, etc.;
  • Building The name of the building, refers to a building, such as Software Building, Building 1, Building 2, Building A, etc.;
  • Room The room number in the building, such as 713;
  • FIG. 1 it is a flowchart of a preferred embodiment of a Chinese address word segmentation method according to the present invention.
  • the method mainly includes:
  • Step 11 Perform manual segmentation on the selected address data as training data.
  • Step 11 Selecting a batch of address data, which can be thousands to tens of thousands, the data source should conform to the diversity, try to ensure that the common address of the address is covered, manually segment and mark it as the training data of the model.
  • the training data can be organized into a format in which each word is separated by a space, and the annotation information is added after each word, with a slash "/" (or other special symbol) as a separator, such as:
  • Step 12 a single Arabic numeral character or an English alphabet character appearing in the training data or the selected address data, and a plurality of consecutive Arabic numeral characters or English alphabet characters, and a single Arabic numeral character or English specified in advance Alphabetic character replacement.
  • the advantages of this processing are 2 points: 1 is to ensure that the digital letters will not be split by mistakes; 2 is to reduce the number of features in the training data, can save the training time of the model, and improve the address word segmentation The speed of the annotation.
  • the replacement operation can be selected for the training data, or it can be selected in the selected address data. Perform the manual participle labeling operation.
  • Step 13 Convert the training data into a format required by the CRF++ tool by using a word segmentation tag and an annotation tag respectively.
  • the format of the above training data is convenient for human reading and processing, but it is not a format required by the CRF++ tool, so it needs to be converted.
  • the format required by the CRF++ tool is that each line of content is a word and its label, separated by spaces or tabs.
  • the present invention uses a word segmentation model and a labeling model to synchronize two CRF models to solve the problem of address segmentation and labeling.
  • Each model uses different training data and different labels.
  • the present invention uses the word segmentation labels B, I, E, and S to indicate the state of each word, meaning B: representative of the beginning of the word; I: word; E: suffix; S: single word idiom.
  • label labels are used to indicate the labeling attributes of the word, such as provinces, cities, and buildings.
  • Word segmentation and labeling 2 sample data are as follows:
  • Word segmentation results Shenzhen City / Futian District / District Futian Village / Area Niuxiangfang / Area 89 / Building 402 / room.
  • the CRF++ format data conversion method for training data to the word segmentation model is as follows:
  • Step 14 Define a feature template.
  • Step B Establish a word segmentation model and a labeling model using the CRF++ tool.
  • the two models are trained separately using the criLlearn command provided by the CRF++ tool.
  • the training command format is as follows:
  • crf_learn -m num template file train—file model_file.
  • template_file is a feature template file
  • train_file is a training data file
  • model_file is a obtained model file for later use
  • -m num parameter specifies a maximum number of iteration steps of the training process, such as -m 100, that is, Iterate 100 steps.
  • criLlearn also has several other parameters for controlling the training effect and training time. For details, please refer to the help documentation of the tool.
  • the two models of the word segmentation are established, and then the model can be used to solve the specific address segmentation and labeling problems. Using the word segmentation labels B, I, E, and S reduces the speed, but can improve the accuracy of the word segmentation results.
  • Sub-components and annotations Two models can ultimately speed up the processing of Chinese address segmentation.
  • Step 16 Replace a single Arabic numeral character or English alphabet character and a plurality of consecutive Arabic numeral characters or English alphabet characters appearing in the address marked with the word segmentation, and replace the single Arabic character character or English alphabet character specified in advance. , the same as the Arabic digits or English alphabet characters before the replacement.
  • the peer saves the replaced three alphanumeric group: ⁇ "89""4""02" ⁇ .
  • Step 17 and then use the CRF++ tool to perform word segmentation on the address to be distinguished.
  • the CRF++ tool can be used for analysis, and the word segmentation label and the label label of each word are respectively obtained by the word segmentation model and the annotation model, as follows:
  • the word segmentation and labeling result of the Chinese address can be obtained.
  • the parsing result is as follows:
  • Step 18 Restore the Arabic numeral character or the English alphabet character before the replacement in the word segmentation result.
  • the Chinese address word segmentation method of the present invention has high accuracy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提供一种中文地址分词标注方法。该方法包括:步骤11、人工分词标注挑选出的地址数据作为训练数据;步骤12、对出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以指定的单个阿拉伯数字字符或英文字母字符替换;步骤13、训练数据转换成CRF++工具需要的格式;步骤14、定义特征模板;步骤15、使用CRF++工具分别建立分词模型和标注模型;步骤16、地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该指定的单个阿拉伯数字字符或英文字母字符替换;步骤17、用CRF++工具分词标注;步骤18、还原替换前的阿拉伯数字字符或英文字母字符。本发明的中文地址分词标注方法的准确率高。

Description

技术领域
[0001] 本发明涉及数据处理技术领域, 尤其涉及一种中文地址分词标注方法。
[0002] 背景技术
[0003] 人们在填写收件人地址、 办公地址、 家庭住址等地址信息吋一般都是将省、 市 、 区、 门牌号、 住宅小区、 房间号等信息写在一起组成地址信息, 如"广东深圳 南山区高新中一道 9号科技园软件大厦 713", 这种写法适合人工识别, 而当通过 机器识别地址的结构化细节信息吋首先要做的处理就是分词与标注, 将输入的 长文本切分成一个一个的词, 并对词的属性进行标注, 如上例地址信息的分词 标注结果可能为: "广东 /省深圳 /市南山区 /区高新中一道 /道路 9号 /路号科技园 / 片区软件大厦 /楼栋 713/房间"。 中文地址分词标注是地址信息处理的一项基础 性工作, 其准确程度将直接影响到后续处理的正确性。
[0004] 现有分词标注技术中应用的比较成熟的是基于统计的方法, 例如, 隐马尔可夫 模型 (HMM)的分词标注技术就是一种典型的基于统计模型的分词标注方法。 但 是, 应用通用的分词标注或实体识别技术来进行中文地址分词标注的结果准确 率不太高, 只有 80%左右。 因此, 亟需一种高准确率的中文地址分词标注方法。
[0005] 发明内容
[0006] 本发明的目的在于提供一种中文地址分词标注方法, 提高中文地址分词标注的 准确率。
[0007] 为实现上述目的, 本发明提供一种中文地址分词标注方法, 包括:
[0008] 步骤 11、 对挑选出的地址数据进行人工分词标注, 以作为训练数据;
[0009] 步骤 12、 对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或 英文字母字符以及多个连续阿拉伯数字字符或英文字母字符, 以预先唯一指定 的单个阿拉伯数字字符或英文字母字符替换;
[0010] 步骤 13、 采用分词标签和标注标签分别将该训练数据转换成 CRF++工具所需要 的格式; [0011] 步骤 14、 定义特征模板;
[0012] 步骤 15、 使用 CRF++工具分别建立分词模型和标注模型;
[0013] 步骤 16、 对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符 以及多个连续阿拉伯数字字符或英文字母字符, 以该预先唯一指定的单个阿拉 伯数字字符或英文字母字符替换, 同吋保存替换前的阿拉伯数字字符或英文字 母字符;
[0014] 步骤 17、 然后使用 CRF++工具对欲分词标注的地址进行分词标注;
[0015] 步骤 18、 在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
[0016] 其中, 所述分词标签包括表示字在词首的标签, 表示字在词中的标签, 表示字 在词尾的标签, 以及表示单个字成词的标签。
[0017] 其中, 所述标注标签包括省、 市、 区、 街道、 社区、 道路、 路号、 片区、 楼栋 及房间。
[0018] 其中, 步骤 17包括用该分词模型和标注模型分别获取每个字的分词标签和标注 标签以及解析每个字的分词标签和标注标签。
[0019] 其中, 解析每个字的分词标签和标注标签的过程包括:
[0020] a)首先建立一个字的缓存区, 初始为空, 并从头幵始按顺序处理输入地址的每 个字.
[0021] b)将字存入缓存区, 然后判断该字的分词标签;
[0022] c)如果该字的分词标签表示字在词首或词中且非最后一个字, 则继续处理下一 个字.
[0023] d)否则取出缓存区所有的字并组成一个词, 且该词的标注属性为缓存区中字的 标注标签, 将结果输出, 清空缓存区。
[0024] 其中, 所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为 1。
[0025] 其中, 所述步骤 15中使用 CRF++工具提供的 criLlearn命令训练分词模型和标注 模型。
[0026] 其中, 训练分词模型和标注模型的过程迭代 100步。
[0027] 综上所述, 本发明的中文地址分词标注方法的准确率高。
[0028] 附图说明 [0029] 图 1为本发明中文地址分词标注方法一较佳实施例的流程图。
[0030] 具体实施方式
[0031] 下面结合附图, 通过对本发明的具体实施方式详细描述, 将使本发明的技术方 案及其有益效果显而易见。
[0032] 本发明采用基于条件随机场模型的分词框架, 条件随机场相关技术采用幵源的
CRF++工具。 CRF++是著名的条件随机场幵源工具, 也是目前综合性能最佳的 C
RF工具。
[0033] 对应于地址的标注标签, 本发明定义地址如下概念:
[0034] 省: 由"国家地名地址数据规范"规定的一级行政区域, 包含: 省、 直辖市、 自 治区、 特别行政区;
[0035] 市: 由"国家地名地址数据规范"规定的二级行政区域, 包含: 地级市、 地区、 自治州、 盟;
[0036] 区: 由"国家地名地址数据规范"规定的三级行政区域, 包含: 市辖区、 县级市
、 县、 旗、 特区、 林区;
[0037] 街道: 由"国家地名地址数据规范"规定的四级行政区域, 包含: 区公所、 镇、 乡、 苏木、 街道;
[0038] 社区: 由"国家地名地址数据规范"规定的五级行政区域, 包含: 社区、 居委会 、 行政村;
[0039] 道路: 道路、 街、 巷;
[0040] 路号: 门牌号;
[0041] 片区: 区域性质的地址名, 通常该名称所代表的地址区域内容有数栋建筑, 如 科技园、 深南花园、 下沙村等;
[0042] 楼栋: 建筑物名称, 通指一栋建筑, 如软件大厦、 1栋、 2号楼、 A座等;
[0043] 房间: 楼栋内的房间编号, 如 713;
[0044] 其他: 其他内容。
[0045] 参见图 1, 其为本发明中文地址分词标注方法一较佳实施例的流程图。 该方法 主要包括:
[0046] 步骤 11、 对挑选出的地址数据进行人工分词标注, 以作为训练数据。 [0047] 挑选一批地址数据, 可以是数千至数万条, 数据来源应符合多样性, 尽量保证 地址常见的写法都涵盖, 人工对其进行分词并标注, 作为模型的训练数据。
[0048] 训练数据可整理成如下格式, 即每个词之间用空格隔幵, 标注信息添加在每个 词后面, 以斜线 "/" (或其他特殊符号) 作为分隔符, 如:
[0049] 广东 /省深圳 /市南山区 /区高新中一道 /道路 9号 /路号科技园 /片区软件大厦 /楼 栋 713/房间;
[0050] 广东省 /省深圳市 /市南山区 /区沙河街道 /街道沙河街社区 /社区上白石 /片区五 坊 /片区 15号 /楼栋;
[0051] 广东省 /省深圳市 /市福田区 /区梅林街道 /街道新阁社区 /社区林园东路 /道路 32 号 /门牌号华天公寓 /楼栋;
[0052] 福田 /区莲花路 /道路与 /其他香梅路 /道路交汇处 /其他康欣园 /片区。
[0053] 步骤 12、 对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或 英文字母字符以及多个连续阿拉伯数字字符或英文字母字符, 以预先唯一指定 的单个阿拉伯数字字符或英文字母字符替换。
[0054] 由于数字、 字母在中文地址中绝大部分是作为整体出现的, 很少存在把在数字 、 字母切分幵的情况, 如上面例子中 "713/房间"中的 713,以及" 15号 /楼栋"中的 15 , 都是作为整体出现。 针对这个情况, 本发明将地址中所有连续的字母数字统 一用一个字符替换, 任一数字或字母都可以, 比如用 1替换。 如存在其它数字、 字母形式, 如: 2A123 , 也可以替换成 1。
[0055] 原训练数据:
[0056] "广东 /省深圳 /市南山区 /区高新中一道 /道路 9号 /路号科技园 /片区软件大厦 / 楼栋 713/房间"。
[0057] 处理后变为:
[0058] "广东 /省深圳 /市南山区 /区高新中一道 /道路 1号 /路号科技园 /片区软件大厦 / 楼栋 1/房间"。
[0059] 这样处理的好处有 2点: 1是保证数字字母不会被错误的拆分幵; 2是减少了训 练数据中的特征数量, 可节约模型的训练吋间, 同吋提升地址分词与标注的速 度。 替换操作可以选择对训练数据进行, 也可以选择在对挑选出的地址数据进 行人工分词标注操作前进行。
[0060] 步骤 13、 采用分词标签和标注标签分别将该训练数据转换成 CRF++工具所需要 的格式。
[0061] 上述训练数据的格式方便人的阅读与处理, 但并不是 CRF++工具所需要的格式 , 因此需要转换一下。 CRF++工具要求的格式为每行内容为一个字及其标签, 中间用空格或制表符隔幵。
[0062] 本发明采用分词模型和标注模型 2个 CRF模型同步来解决地址的分词与标注 2个 问题, 每个模型使用不同的训练数据和不同的标签。 对于分词问题, 本发明采 用分词标签 B、 I、 E、 S来表示每个字的状态, 含义分别为 B:代表词首; I: 词中 ; E: 词尾; S:单个字成词。 对于标注问题, 标注标签用于表示此词的标注属性 , 如省、 市、 楼栋等。 分词和标注 2份示例数据如下:
[0063] 分词用数据 标注用数据
[0064] 深 B 深市
[0065] 圳 I 圳 市
[0066] 市 E 市 市
[0067] 福 B 福 区
[0068] 田 I 田 区
[0069] 区 E 区 区
[0070] 福 B 福道路
[0071] 强 I 强道路
[0072] 路 E 路道路。
[0073] 再如:
[0074] 分词用数据: 深 /B il市 /E福 /B田 /1区 /E福 /B田 /1村 /E牛 /B巷 /1坊 /E 1/B 号 /E 1/S;
[0075] 标注用数据: 深 /市圳 /市市 /市福 /区田 /区区 /区福 /片区田 /片区村 /片区牛 /片 区巷 /片区坊 /片区 1/楼栋号 /楼栋 1/房间;
[0076] 分词标注结果: 深圳市 /市福田区 /区福田村 /片区牛巷坊 /片区 89号 /楼栋 402/ 房间。 [0077] 训练数据到分词模型用的 CRF++格式数据转换方法如下:
[0078] 1) 对每行训练数据, 用空格进行拆分得到地址单元信息组, 如: {"广东 /省" , " 深圳 /市", "南山区 /区", "高新中一道 /道路", "9号 /路号", "科技园 /片区", "软件大厦 / 楼栋","713/房间 "} ;
[0079] 2) 对每个地址单元信息 (如"软件大厦 /楼栋") ,用斜线 "进行拆分, 获得一个 二元组, 其中第一个为地址单元的名称 (软件大厦) , 第二个为标注信息 (楼 栋) ;
[0080] 3) 对于地址名称 (如"软件大厦") 的每个字符 x, 按顺序输出一行:
[0081] a)如果该名称只有一个字, 则输出 "X S";
[0082] b)否则如果该字符是名称的最后一个字, 输出 "X E", 如"厦 E";
[0083] c)否则如果是名称的第一个字, 输出 "X B", 如"软 E";
[0084] d)否则输出 "X 1", 如"软 Γ;
[0085] 4) 该行训练数据的所有地址单元信息处理完毕后输出一个空行。
[0086] 训练数据到标注模型 CRF++格式数据转换方法如下:
[0087] 1) 对每行训练数据, 用空格进行拆分得到地址单元信息组, 如: {"广东 /省" , " 深圳 /市", "南山区 /区", "高新中一道 /道路", "9号 /路号", "科技园 /片区", "软件大厦 / 楼栋","713/房间 "} ;
[0088] 2) 对每个地址单元信息 (如"软件大厦 /楼栋") ,用斜线 "进行拆分, 获得一个 二元组, 其中第一个为地址单元的名称 (软件大厦) , 第二个为标注信息 (楼 栋) ;
[0089] 3) 对于地址名称 (如"软件大厦") 的每个字符 x, 按顺序输出一行: "X标注", 如"软楼栋";
[0090] 4) 该行训练数据的所有地址单元信息处理完毕后输出一个空行。
[0091] 步骤 14、 定义特征模板。
[0092] 针对不同的问题, CRF++工具需要提供合理特征模板以便高效、 合理的解决对 应的问题。 本发明中采用如下模板:
[0093] # Unigram
[0094] U00:%x[-2,0] [0095] U01:%x[-1,0]
[0096] U02:%x[0,0]
[0097] U03:%x[l,0]
[0098] U04:%x[2,0]
[0099] U05:%x[-2,0]/%x[-l,0]/%x[0,0]
[0100] U06:%x [- 1 ,0]/%x[0,0]/%x[ 1 ,0]
[0101] U07: %x[0,0]/%x[ 1 ,0]/%x[2,0]
[0102] U08:%x[-l,0]/%x[0,0]
[0103] U09:%x[0,0]/%x[l,0]
[0104]
[0105] # Bigram
[0106] B步骤 15、 使用 CRF++工具分别建立分词模型和标注模型。
[0107] 使用 CRF++工具提供的 criLlearn命令分别训练两个模型, 训练命令格式如下:
[0108] crf_learn -m num template—file train—file model_file。
[0109] 其中 template_file为特征模板文件, train_file为训练数据文件, model_file为获得 的模型文件, 供以后使用; -m num参数可指定训练过程最大迭代步数, 如可设 置为 -m 100, 即最多迭代 100步。 criLlearn还有其他数个参数用于控制训练效果 、 训练吋间, 具体可参看工具的帮助文档。 到此, 分词标注的 2个模型建立完毕 , 接下来就可使用该模型解决具体的地址分词、 标注问题。 使用分词标签 B、 I 、 E、 S虽然降低了速度, 但是可以提升分词标注结果的准确度。 分成分词和标 注 2个模型可以最终加快中文地址分词标注的处理速度。
[0110] 步骤 16、 对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符 以及多个连续阿拉伯数字字符或英文字母字符, 以该预先唯一指定的单个阿拉 伯数字字符或英文字母字符替换, 同吋保存替换前的阿拉伯数字字符或英文字 母字符。
[0111] 由于建立模型吋对数字字母进行了特殊处理, 相应的模型使用吋也需要对字母 数据进行处理, 即将所有连续的字母数字用 1替换, 同吋将替换了的原数字字母 按顺序保存起来, 以便后续还原。 如输入: [0112] 深圳市福田区福田村牛巷坊 89号 4层 02室;
[0113] 处理后为:
[0114] 深圳市福田区福田村牛巷坊 1号 1层 1室;
[0115] 同吋保存替换的 3个字母数字组: {"89""4""02"}。
[0116] 步骤 17、 然后使用 CRF++工具对欲分词标注的地址进行分词标注。
[0117] 地址经上一步处理后可用 CRF++工具进行分析, 用分词模型和标注模型分别获 取每个字的分词标签和标注标签, 如下:
[0118] 分词标签:
[0119] 深 /B il市 /E福 /B田 /1区 /E福 /B田 /1村 /E牛 /B巷 /1坊 /E 1/B号 /E 1/B层 /1 1/1 室 /E;
[0120] 标注标签:
[0121] 深 /市圳 /市市 /市福 /区田 /区区 /区福 /片区田 /片区村 /片区牛 /片区巷 /片区坊 / 片区 1/楼栋号 /楼栋 1/房间层 /房间 1/房间室 /房间。
[0122] 解析每个字的分词标签和标注标签, 过程如下:
[0123] a)首先建立一个字的缓存区, 初始为空, 并从头幵始按顺序处理输入地址的每 个字.
[0124] b)将字存入缓存区, 然后判断该字的分词标签;
[0125] c)如果该字的分词标签表示字在词首或词中且非最后一个字, 则继续处理下一 个字.
[0126] d)否则取出缓存区所有的字并组成一个词, 且该词的标注属性为缓存区中字的 标注标签, 将结果输出, 清空缓存区。
[0127] 按顺序处理完输入地址的每个字后, 可得中文地址的分词与标注结果, 对于示 例输入, 其解析结果如下:
[0128] 深圳市 /市福田区 /区福田村 /片区牛巷坊 /片区 1号 /楼栋 1层 1室 /房间。
[0129] 步骤 18、 在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
[0130] 获得分词标注结果后, 需将替换了的字母数字按顺序还原, 还原后结果如下: [0131] 深圳市 /市福田区 /区福田村 /片区牛巷坊 /片区 89号 /楼栋 4层 02室 /房间。
[0132] 至此得到了中文地址的最终分词标注结果。 实验证明, 本发明分词标注的准确 率可达 95%, 远高于其他方法。
[0133] 综上所述, 本发明的中文地址分词标注方法的准确率高。
[0134] 以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的精神 和原则之内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保护范 围之内。
技术问题
问题的解决方案
发明的有益效果

Claims

权利要求书
一种中文地址分词标注方法, 其特征在于, 包括:
步骤 11、 对挑选出的地址数据进行人工分词标注, 以作为训练数据; 步骤 12、 对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数 字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符
, 以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换; 步骤 13、 采用分词标签和标注标签分别将该训练数据转换成 CRF++工 具所需要的格式;
步骤 14、 定义特征模板;
步骤 15、 使用 CRF++工具分别建立分词模型和标注模型;
步骤 16、 对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文 字母字符以及多个连续阿拉伯数字字符或英文字母字符, 以该预先唯 一指定的单个阿拉伯数字字符或英文字母字符替换, 同吋保存替换前 的阿拉伯数字字符或英文字母字符;
步骤 17、 然后使用 CRF++工具对欲分词标注的地址进行分词标注; 步骤 18、 在分词标注结果中还原替换前的阿拉伯数字字符或英文字母 字符。
根据权利要求 1所述的中文地址分词标注方法, 其特征在于, 所述分 词标签包括表示字在词首的标签, 表示字在词中的标签, 表示字在词 尾的标签, 以及表示单个字成词的标签。
根据权利要求 1所述的中文地址分词标注方法, 其特征在于, 所述标 注标签包括省、 市、 区、 街道、 社区、 道路、 路号、 片区、 楼栋及房 间。
根据权利要求 1所述的中文地址分词标注方法, 其特征在于, 步骤 17 包括用该分词模型和标注模型分别获取每个字的分词标签和标注标签 以及解析每个字的分词标签和标注标签。
根据权利要求 4所述的中文地址分词标注方法, 其特征在于, 解析每 个字的分词标签和标注标签的过程包括: a)首先建立一个字的缓存区, 初始为空, 并从头幵始按顺序处理输入 地址的每个字;
b)将字存入缓存区, 然后判断该字的分词标签; c)如果该字的分词标签表示字在词首或词中且非最后一个字, 则继续 处理下一个字;
d)否则取出缓存区所有的字并组成一个词, 且该词的标注属性为缓存 区中字的标注标签, 将结果输出, 清空缓存区。
[权利要求 6] 根据权利要求 1所述的中文地址分词标注方法, 其特征在于, 所述预 先唯一指定的单个阿拉伯数字字符或英文字母字符为 1。
[权利要求 7] 根据权利要求 1所述的中文地址分词标注方法, 其特征在于, 所述步 骤 15中使用 CRF++工具提供的 criLlearn命令训练分词模型和标注模型
[权利要求 8] 根据权利要求 7所述的中文地址分词标注方法, 其特征在于, 训练分 词模型和标注模型的过程迭代 100步。
PCT/CN2015/094375 2015-05-12 2015-11-12 中文地址分词标注方法 WO2016179988A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510239133.9A CN104933023B (zh) 2015-05-12 2015-05-12 中文地址分词标注方法
CN201510239133.9 2015-05-12

Publications (1)

Publication Number Publication Date
WO2016179988A1 true WO2016179988A1 (zh) 2016-11-17

Family

ID=54120192

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/094375 WO2016179988A1 (zh) 2015-05-12 2015-11-12 中文地址分词标注方法

Country Status (2)

Country Link
CN (1) CN104933023B (zh)
WO (1) WO2016179988A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046180A (zh) * 2019-12-05 2020-04-21 竹间智能科技(上海)有限公司 一种基于文本数据的标签识别方法
CN112560478A (zh) * 2020-12-16 2021-03-26 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN113268568A (zh) * 2021-06-25 2021-08-17 江苏中堃数据技术有限公司 一种基于分词技术的电力工单重复诉求分析方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933023B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN104933024B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN105574156B (zh) * 2015-12-16 2019-03-26 华为技术有限公司 文本聚类方法、装置及计算设备
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN109408801A (zh) * 2018-08-28 2019-03-01 昆明理工大学 一种基于朴素贝叶斯算法的中文分词方法
CN111339773A (zh) * 2018-12-18 2020-06-26 富士通株式会社 信息处理方法、自然语言处理方法以及信息处理设备
CN110110327B (zh) * 2019-04-26 2021-06-22 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备
CN110516241B (zh) * 2019-08-26 2021-03-02 北京三快在线科技有限公司 地理地址解析方法、装置、可读存储介质及电子设备
CN112527933A (zh) * 2020-12-04 2021-03-19 重庆市地理信息和遥感应用中心 一种基于空间位置和文本训练的中文地址关联方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020034A (zh) * 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104598573A (zh) * 2015-01-13 2015-05-06 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN104933024A (zh) * 2015-05-12 2015-09-23 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN104933023A (zh) * 2015-05-12 2015-09-23 深圳市华傲数据技术有限公司 中文地址分词标注方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN101393544A (zh) * 2008-10-07 2009-03-25 南京师范大学 面向地址编码的中文地址语义解析方法
CN102298585B (zh) * 2010-06-24 2016-01-13 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102955833B (zh) * 2011-08-31 2015-11-25 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020034A (zh) * 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104598573A (zh) * 2015-01-13 2015-05-06 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN104933024A (zh) * 2015-05-12 2015-09-23 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN104933023A (zh) * 2015-05-12 2015-09-23 深圳市华傲数据技术有限公司 中文地址分词标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG, CHUANGCHUANG ET AL.: "Address Extraction in Chinese by Associating CRF with Rules Based on Swarm Intelligence", APPLICATION RESEARCH OF COMPUTERS, vol. 32, no. 3, 31 March 2015 (2015-03-31), pages 727 - 730, ISSN: 1001-3695 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046180A (zh) * 2019-12-05 2020-04-21 竹间智能科技(上海)有限公司 一种基于文本数据的标签识别方法
CN112560478A (zh) * 2020-12-16 2021-03-26 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN112560478B (zh) * 2020-12-16 2024-03-12 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN113268568A (zh) * 2021-06-25 2021-08-17 江苏中堃数据技术有限公司 一种基于分词技术的电力工单重复诉求分析方法
CN113268568B (zh) * 2021-06-25 2023-11-14 江苏中堃数据技术有限公司 一种基于分词技术的电力工单重复诉求分析方法

Also Published As

Publication number Publication date
CN104933023B (zh) 2017-09-01
CN104933023A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
WO2016179988A1 (zh) 中文地址分词标注方法
WO2016179987A1 (zh) 中文地址分词标注方法
WO2022134592A1 (zh) 地址信息解析方法、装置、设备及存储介质
CN101930435B (zh) 机构名称检索方法及系统
WO2015027836A1 (zh) 一种地名实体识别的方法及系统
CN105224622A (zh) 面向互联网的地名地址提取与标准化方法
CN108389577A (zh) 优化语音识别声学模型的方法、系统、设备及存储介质
CN109165273B (zh) 一种面向大数据环境的通用中文地址匹配方法
WO2015027835A1 (zh) 一种通信地址查询邮政编码的系统及终端
CN112560478A (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
WO2016112782A1 (zh) 一种用户的生活圈提取方法及系统
CN101620615A (zh) 一种基于决策树学习的自动图像标注与翻译的方法
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN108733810A (zh) 一种地址数据匹配方法及装置
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN113268568B (zh) 一种基于分词技术的电力工单重复诉求分析方法
CN101482862A (zh) 一种英文信件地址的中文自动批译方法
CN112417812B (zh) 地址标准化方法、系统及电子设备
CN101458682A (zh) 一种基于中文汉字和日文汉字的映射方法及其应用
CN115658919A (zh) 一种文化信息数字化存储方法
CN113536794A (zh) 一种基于置信度的Active-BiLSTM-CRF中文层级地址分词方法
JP6556658B2 (ja) 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム
CN111540343B (zh) 一种语料识别方法和装置
CN113935327A (zh) 一种地域实体的识别方法及装置
CN113627191A (zh) 一种气象预警样本语义自动化标注方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15891684

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15891684

Country of ref document: EP

Kind code of ref document: A1