WO2014206182A1 - 一种企业数据匹配方法和装置 - Google Patents
一种企业数据匹配方法和装置 Download PDFInfo
- Publication number
- WO2014206182A1 WO2014206182A1 PCT/CN2014/079158 CN2014079158W WO2014206182A1 WO 2014206182 A1 WO2014206182 A1 WO 2014206182A1 CN 2014079158 W CN2014079158 W CN 2014079158W WO 2014206182 A1 WO2014206182 A1 WO 2014206182A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- address
- name data
- enterprise name
- record
- pair
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 39
- 230000000903 blocking effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000005192 partition Methods 0.000 abstract description 5
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Definitions
- the present application relates to the field of data matching technology, and in particular, to an enterprise data matching method and apparatus. Background technique
- the prior art proposes a record matching method, which mainly includes: firstly, segmentation of the enterprise name data to obtain a name word; and then comparing the enterprise name data of the similar name word through a comparison and decision algorithm to obtain a matching record pair. Show to the operator.
- the technical problem to be solved by the present application is to provide an enterprise data matching method capable of forming matching matching pairs more accurately and quickly.
- the present application also provides an apparatus corresponding to the above enterprise data matching method.
- an enterprise data matching method including: Obtain company name data;
- the record is compared against the set to obtain a matching record pair.
- the obtaining, according to the address attribute word segment, the corresponding highest sub-administrative level address includes:
- the address attribute participle includes the highest sub-administrative level address in the preset dictionary, the highest sub-administrative level address is used as the enterprise name data block;
- the address attribute participle includes only the second level sub-administrative level address in the preset dictionary
- the corresponding highest sub-administrative level address is obtained in the dictionary according to the second-level sub-administrative level address as the enterprise name data block
- the obtaining the corresponding highest sub-administrative level address according to the address attribute word segment further includes:
- the enterprise name data is recorded as a blank block.
- step of forming the record pair pair according to the highest sub-administrative level address further includes:
- the enterprise name data in the same block is paired, and the enterprise name data in the blank block is paired with the enterprise name data in all the other blocks to form a record pair.
- the comparing the records to the set to obtain the matching record pairs comprises: comparing the records to the comparison algorithm to obtain an algorithm comparison record pair; The algorithm compares the record pairs to make a decision to obtain a matching record pair.
- the application also provides an enterprise data matching device, including:
- a word segmentation module configured to perform word segmentation on the enterprise name data according to a preset dictionary library to obtain an address attribute segmentation word
- An address obtaining module configured to obtain, according to the address attribute word segment, a corresponding highest sub-government level address
- a blocking module configured to block the enterprise name data according to the highest sub-administrative level address to form a record pair set
- the comparison decision module is configured to compare the records to the set to obtain a matching record pair.
- the address obtaining module is specifically configured to compare the address attribute word segment with the address word in the preset dictionary; and when the address attribute word segment includes the highest sub-administrative level address in the preset dictionary, the highest child
- the administrative level address is divided into the enterprise name data; when the address attribute participle includes only the second level sub-administrative level address in the preset dictionary, the corresponding highest child is obtained in the dictionary according to the second-level sub-administrative level address.
- the administrative level address is used as the business name data block;
- the address obtaining module is further configured to: obtain the last address word when the address attribute participle does not include the second quarter administrative level address;
- the enterprise name data is recorded as a blank block.
- the blocking module is specifically configured to pair enterprise name data in the same partition into two pairs, and pair the enterprise name data in the blank partition with the enterprise name data in all other partitions to form a record pair. .
- comparison decision module further includes:
- the present application includes the following advantages: the present application is obtained by word segmentation. According to the address attribute word, the highest sub-administrative level address is obtained as a block, and the enterprise name data of the same block can be paired to form a matching record pair, which reduces the calculation amount and provides matching precision.
- FIG. 1 is a flow chart of an embodiment of an enterprise data matching method according to an embodiment of the present invention
- FIG. 2 is a flow chart of an embodiment of an enterprise data matching method according to the present invention
- FIG. 4 is a schematic structural diagram of an apparatus for an enterprise data matching apparatus according to the present invention. detailed description
- FIG. 2 an enterprise data matching method of the present application is shown
- the highest sub-administrative level address is the highest sub-administrative level under the current application administrative level.
- the highest sub-administrative level address is a national and a municipality, A first-level administrative level such as an autonomous prefecture and a special administrative region.
- the highest sub-administrative-level address may be a name such as each country or region.
- the implementation in the Chinese region is taken as an example:
- Step S101 Obtain enterprise name data.
- the company name data in the embodiment of the present invention may be data that has been input in the database.
- Step S102 Perform word segmentation on the enterprise name data according to a preset dictionary database to obtain an address attribute word segmentation
- the enterprise name data mainly uses the industry word and the address word to segment the company name, instead of using the general word segmentation tool to segment the company name.
- the general word segmentation tool cannot meet the needs of the record matching process: 1. Its dictionary does not cover special The name of the company in the field, such as "Xi'an Guosheng Pharmacy", the result of the use of intelligent segmentation in the open source word segmentation tool IKAnalyzer is "West / Anguo / Shanda / Pharmacy", because the dictionary used in the IKAnalyzer participle failed to Covering "Guosheng" or "Guosheng Pharmacy”; 2.
- the general word segmentation tool can only give the result of its participle, such as "Tongrentang/Pharmacy" cannot provide detailed word-of-speech tagging [Tongrentang: name word] / [pharmacy: characteristic word] result. Therefore, in the specific field of enterprise name data, the embodiment of the present invention customizes a dictionary library, which includes address information, name word information, feature word information and the like. Use the Trie tree technology to organize a customized dictionary library, and use the suffix idea to improve the accuracy of the matching results.
- Step S103 Obtain a corresponding highest sub-administrative level address according to the address attribute participle;
- the obtaining, according to the address attribute word segment, the corresponding highest sub-administrative level address includes:
- the address attribute participle includes the highest sub-administrative level address in the preset dictionary, the highest sub-administrative level address is used as the enterprise name data block;
- the address attribute participle includes only the second level sub-administrative level address in the preset dictionary
- the corresponding highest sub-administrative level address is obtained in the dictionary according to the second-level sub-administrative level address as the enterprise name data block
- the obtaining the corresponding highest sub-administrative level address according to the address attribute word segment further includes:
- this step mainly uses the address information in the enterprise name data, and the information recorded on the address attribute, obtains the province corresponding to the enterprise name data through the address information, and puts the same records of the province in the same Used in the block for subsequent processing, where the province information is missing and will be set to Null.
- the information on the enterprise name data address attribute is used as the main reference information. If the province where the company is located can be obtained on the address attribute, the province information in the company name will not be extracted, otherwise the address information will be extracted from the enterprise name data.
- the detailed process of extracting provincial information from the company name is shown in Figure 3. Using the address attribute words and the province information obtained in the company name, the same records in the province are placed in the same record block, the records missing in the province are placed in the same record block, and the record blocks missing in the province are recorded as blank blocks.
- Step S104 Perform block formation on the enterprise name data according to the highest sub-administrative level address to form a record pair set
- step of forming the record pair pair according to the highest sub-administrative level address further includes:
- the enterprise name data in the same block is paired, and the enterprise name data in the blank block is paired with the enterprise name data in all the other blocks to form a record pair.
- This step is to use the generated block to generate record pairs.
- the enterprise name data in the same block is composed of two pairs, and then each enterprise name data in the blank block and all enterprise names in other blocks.
- the data consists of two pairs of record pairs. Put all generated record pairs in the same set, remove the duplicate record pairs, and make up the record pair set as input to the comparison decision process.
- Step S105 Perform a comparison decision on the records to obtain a matching record pair.
- the comparing the records to the set to obtain the matching record pairs comprises: comparing the records to the comparison algorithm to obtain an algorithm comparison record pair;
- the algorithm compares the record pairs to make a decision to obtain a matching record pair.
- the similarity is first calculated for each pair of records in the record pair set, and then compared to the preset threshold, if the threshold is exceeded, the record is considered The recorded pair is matched and output, and is not output if the record pair does not match.
- the enterprise name data address information is first obtained, and the obtaining of the address information is similar to that of obtaining the province, mainly using the address attribute information, and storing the address information into a province, a city, a county/district, a town/township/street Standardized forms such as village/community, building, and number; then obtain information about the company name and store the company name as a hierarchical organization.
- the address information such as "Shenzhen Nanshan Gaoxin Zhongyi No. 35" is divided into "Guangdong City: province / Shenzhen City: City / Nanshan District: District / Gaoxinzhong: Road / No.
- the address standardization part in addition to expanding a city name like "Shenzhen” into “Shenzhen City”, another value is emphasized by considering the city-to-province information, as mentioned above.
- Shenzhen Nanshan information, because the city of Shenzhen exists and only exists in Guangdong province, so the data similar to the lack of provinces is mapped to the province through the information about the city in the data. The realization of this part of the function depends on a city to the province. Mapping table.
- the feature words and address information words that are as full as possible are preset, and the parts that cannot be identified in the enterprise name data are often company name words, so it is necessary to treat the unidentified words as company name words.
- another auxiliary information is that the unidentified word should be located in front of a feature word and combined with the feature word to form an organization.
- the similarity of the record pairs is calculated on this basis. First, calculate the similarity of the address, and calculate whether the two enterprise name data in the record pair are calculated in the province, city, county/district, town/township/street, village/community, building, and number respectively, and use weighting calculation. Get the similarity of the two records.
- the similarity between the two enterprise name data is too low, for example, although Shenzhen and Dongguan are in the same province, but the city information exists at the same time but is different and there is no mutual abbreviation relationship, the similarity between the two enterprise name data is extremely Low, at this time, the address similarity of the two enterprise name data is directly output as the similarity of the record pair. It is only further calculated whether the minimum organizational unit matches if the record is sufficiently high in the address information.
- the method may further include:
- a record group is output according to the matched record pair.
- the decision process outputs matching record pairs, which may have ⁇ a, b> matches, ⁇ b, c> matches, but there is no ⁇ a, c> record pair matching information, for which a record group is generated.
- the matching enterprise name data can be classified into one record group by using the matching record pairs.
- the address attribute word is obtained by the word segmentation, and the highest sub-administrative level address is obtained as the block according to the address attribute word, and the enterprise name data of the same block can be paired to form a matching record pair, thereby reducing the calculation amount and providing The matching accuracy.
- FIG. 3 is a schematic structural diagram of an embodiment of an enterprise data matching apparatus according to the present invention, including:
- the obtaining module 21 is configured to obtain enterprise name data
- the word segmentation module 22 is configured to perform word segmentation on the enterprise name data according to the preset dictionary database to obtain an address attribute segmentation word;
- the address obtaining module 23 is configured to obtain a corresponding highest sub-administrative level address according to the address attribute participle;
- the blocking module 24 is configured to block the enterprise name data according to the highest sub-administrative level address to form a record pair set
- the comparison decision module 25 is configured to compare the records to the set to obtain a matching record pair.
- the address obtaining module 23 is specifically configured to compare the address attribute word segment with the address word in the preset dictionary; and when the address attribute word segment includes the highest sub-administrative level address in the preset dictionary, the highest The sub-administrative level address is divided into the enterprise name data; when the address attribute participle includes only the second-level sub-administrative level address in the preset dictionary, the corresponding highest is obtained in the dictionary according to the second-level sub-administrative level address. Subrow The political level address is used as the business name data block;
- the address obtaining module 23 is further configured to: obtain the last address word when the address attribute participle does not include the second quarter administrative level address;
- the enterprise name data is recorded as a blank block.
- the blocking module 24 is specifically configured to pair the enterprise name data in the same block by pair, and pair the enterprise name data in the blank block with the enterprise name data in all the other blocks to form a record. Correct.
- comparison decision module 25 further includes:
- a comparison module 251 configured to compare the records to the comparison algorithm obtained by the comparison algorithm
- the decision module 252 is configured to compare the record pair to perform the decision to obtain a matching record pair.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
提供了一种企业数据匹配方法,包括:获取企业名称数据;根据预置的字典库对企业名称数据进行分词获取地址属性分词;根据地址属性分词获取对应的最高子行政级别地址;根据最高子行政级别地址对企业名称数据进行分块形成记录对集合;将记录对集合进行比较决策获得匹配记录对。实施例还提供了对应的装置。实施例通过分词得到地址属性词,根据地址属性词得到最高子行政级别地址作为分块,将同一分块能的企业名称数据两两配对形成匹配记录对,减少了计算量,提供了匹配精度。
Description
一种企业数据匹配方法和装匿
技术领域
本申请涉及数据匹配技术领域,特别是涉及一种企业数据匹配方 法和装置。 背景技术
在企业的生产活动中 ,会产生大量的业务数据,事实上企业很难 确保其所积累数据的质量,其原因是多种多样的 ,如:录入错误、 完 整性约束缺失、 信息的多种描述方式等,更复杂的是,相互独立的数 据源不仅表述相同实体时使用的值不相同,甚至存储结构、关于数据 的基本假设也不相同。企业的生产活动又是以其数据为基础,大到市 场分析、 决策,小到业务查询,都是在业务数据之上的操作。 显然企 业所累积数据的质量没有保障,其所做操作也将无法保障。为了达到 企业对业务数据去重的目的,需要发明一种高效、 准确、 自动的匹配 方法,快速准确地发现描述同一实体的不同记录。
为了解决上述应用中的问题,现有技术提出一种记录匹配方法, 主要包括:首先对企业名称数据进行分词获取名称词 ;然后将相近名 称词的企业名称数据经过比较和决策算法获得匹配记录对展示给操 作员。
在现有的技术方案中 ,由于只关注名称词做匹配,在匹配过程中 可能出现两个地方相近名称的企业名称数据的比对,出现匹配不精确 的情况;还因为按照名称词进行记录对匹配,计算量过大。 发明内容
本申请所要解决的技术问题是提供一种企业数据匹配方法能够 更加精确和快速的形成匹配记录对。
相应的 ,本申请还提供了针对上述企业数据匹配方法对应的装置。 为了解决上述问题,本申请公开了一种企业数据匹配方法,包括:
获取企业名称数据;
根据预置的字典库对所述企业名称数据进行分词获取地址属性 分词 ;
根据所述地址属性分词获取对应的最高子行政级别地址; 根据所述最高子行政级别地址对所述企业名称数据进行分块形 成记录对集合;
将记录对集合进行比较决策获得匹配记录对。
进一步,所述根据地址属性分词获取对应的最高子行政级别地址 包括:
将地址属性分词与预置字典中的地址词进行比对;
当所述地址属性分词包括预置字典中最高子行政级别地址时,以 所述最高子行政级别地址作为该企业名称数据分块;
当所述地址属性分词仅包括预置字典中第二级子行政级别地址 时,根据所述第二级子行政级别地址在字典中获取对应的最高子行政 级别地址作为该企业名称数据分块;
进一步,所述根据地址属性分词获取对应的最高子行政级别地址 还包括:
当所述地址属性分词不包括第二季子行政级别地址时,获取最后 地址词;
根据所述最后地址词获取最高子行政级别地址,将所述最高子行 政级别地址作为所述企业名称数据分块;
当所述地址属性分词不包括任何地址词时,将所述企业名称数据 作为空白分块记录。
进一步,所述根据最高子行政级别地址对所述企业名称数据进行 分块形成记录对集合还包括:
将同一个分块内的企业名称数据两两配对,将空白分块内的企业 名称数据与其它所有分块内的企业名称数据两两配对形成记录对。
进一步,所述将记录对集合进行比较决策获得匹配记录对包括: 将所述记录对经过比较算法获得算法比较记录对;
将所述算法比较记录对进行决策获得匹配记录对。
本申请还提供了一种企业数据匹配装置,包括:
获取模块,用于获取企业名称数据;
分词模块,用于根据预置的字典库对所述企业名称数据进行分词 获取地址属性分词 ;
地址获取模块,用于根据所述地址属性分词获取对应的最高子行 政级别地址;
分块模块,用于根据所述最高子行政级别地址对所述企业名称数 据进行分块形成记录对集合;
比较决策模块,用于将记录对集合进行比较决策获得匹配记录对。 进一步,所述地址获取模块具体用于,将地址属性分词与预置字 典中的地址词进行比对;当所述地址属性分词包括预置字典中最高子 行政级别地址时,以所述最高子行政级别地址作为该企业名称数据分 块;当所述地址属性分词仅包括预置字典中第二级子行政级别地址时, 根据所述第二级子行政级别地址在字典中获取对应的最高子行政级 别地址作为该企业名称数据分块;
进一步,所述地址获取模块还用于,当所述地址属性分词不包括 第二季子行政级别地址时,获取最后地址词 ;
根据所述最后地址词获取最高子行政级别地址,将所述最高子行 政级别地址作为所述企业名称数据分块;
当所述地址属性分词不包括任何地址词时,将所述企业名称数据 作为空白分块记录。
进一步,所述分块模块具体用于,将同一个分块内的企业名称数 据两两配对,将空白分块内的企业名称数据与其它所有分块内的企业 名称数据两两配对形成记录对。
进一步,所述比较决策模块还包括:
比较模块,用于将所述记录对经过比较算法获得算法比较记录对; 决策模块,用于将所述算法比较记录对进行决策获得匹配记录对。 与现有技术相比,本申请包括以下优点:本申请通过分词得到地
址属性词,根据所述地址属性词得到最高子行政级别地址作为分块, 将同一分块能的企业名称数据两两配对形成匹配记录对,减少了计算 量,提供了匹配精度。 附图说明
图 1是本发明一种企业数据匹配方法一实施例的流程架构图图 ; 图 2是本发明一种企业数据匹配方法一实施例的流程示意图 ; 图 3 是本发明一种企业数据匹配方法一实施例中获取省份的流 程示意图 ;
图 4是本发明一种企业数据匹配装置一装置的结构示意图。 具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结 合附图和具体实施方式对本申请作进一步详细的说明。
参照图 2 ,示出了本申请一种企业数据匹配方法;
在本发明实施例中 ,所述最高子行政级别地址为当前应用行政级 别下的最高子行政级别 ,例如若本发明实施例应用在全国领域,则所 述最高子行政级别地址为省、 直辖市、 自治州和特别行政区等一级行 政级别,当然如果本发明实施例应用在全球范围内 ,则最高子行政级 别地址则可以是各国家、地区等名称。在本发明实施例中以在中国区 域实施为例进行表述:
步骤 S101、 获取企业名称数据;
本发明实施例中的企业名称数据可以是在已输入被记录在数据 库的数据。
步骤 S102、 根据预置的字典库对所述企业名称数据进行分词获 取地址属性分词;
在本发明实施例中 ,企业名称数据主要利用行业词、地址词对公 司名称进行分词 ,而不是使用通用的分词工具对公司名称进行分词。 通用的分词工具无法满足记录匹配过程的需要: 1.其字典涵盖不到特
定领域的公司名称,如"西安国盛大药房",在开源分词工具 IKAnalyzer 上使用智能切分的分词结果是"西 /安国 /盛大 /药房", 其原因在于 IKAnalyzer分词所使用的字典中没能涵盖"国盛"或"国盛大药房"; 2.通 用分词工具只能够给出其分词结果,如"同仁堂 /药店"无法提供 [同仁 堂:名称词 ]/ [药店:特征词]这样详细的词性标注结果。 因此本发明实施 例针对企业名称数据这一特定领域,定制化一个字典库,其中包含了 地址信息、名称词信息、特征词信息等。利用 Trie树技术组织定制化 的字典库,通过使用后缀思想来提高匹配结果的精确度。 如"西安国 盛大药房"通过从后向前搜索首先识别出"大药房"(大药房是存储在字 典中的特征词),并且没有以"大药房 "结尾的其他关键词 , 因此识别 出 [大药房:特征词] ,接下来识别出"国盛"(国盛是存储在字典中的名 称词), [国盛:名称词] ,最后识别出"西安"(西安是存储在字典中的地 址词 ) , [西安:地址]。
步骤 S103、 根据所述地址属性分词获取对应的最高子行政级别 地址;
进一步,所述根据地址属性分词获取对应的最高子行政级别地址 包括:
将地址属性分词与预置字典中的地址词进行比对;
当所述地址属性分词包括预置字典中最高子行政级别地址时,以 所述最高子行政级别地址作为该企业名称数据分块;
当所述地址属性分词仅包括预置字典中第二级子行政级别地址 时,根据所述第二级子行政级别地址在字典中获取对应的最高子行政 级别地址作为该企业名称数据分块;
进一步,所述根据地址属性分词获取对应的最高子行政级别地址 还包括:
当所述地址属性分词不包括第二季子行政级别地址时,获取最后 地址词;
根据所述最后地址词获取最高子行政级别地址,将所述最高子行 政级别地址作为所述企业名称数据分块;
当所述地址属性分词不包括任何地址词时,将所述企业名称数据 作为空白分块记录。
利用地址信息分块,这一步骤主要利用企业名称数据中的地址信 息,以及记录在地址属性上的信息,通过地址信息获得该企业名称数 据所对应的省,将省份相同的记录放在同一个块中用作后续处理,其 中省份信息缺失的将置为 Null。其中企业名称数据地址属性上的信息 作为主要参考信息,如果在地址属性上能够获取到该公司所在的省份, 将不再提取公司名称中的省份信息,否则将从企业名称数据中提取地 址信息。从公司名称中提取省份信息的详细过程如图 3所示。利用地 址属性词、公司名称中获得的省份信息,将省份相同的记录放入同一 记录块内 ,将省份缺失的记录放入同一记录块,将省份缺失的记录块 记为空白块。
步骤 S104、 根据所述最高子行政级别地址对所述企业名称数据 进行分块形成记录对集合;
进一步,所述根据最高子行政级别地址对所述企业名称数据进行 分块形成记录对集合还包括:
将同一个分块内的企业名称数据两两配对,将空白分块内的企业 名称数据与其它所有分块内的企业名称数据两两配对形成记录对。
这一步骤是利用已经产生的分块产生记录对,首先将同一分块内 的企业名称数据两两组成记录对,其次将空白块中的每一条企业名称 数据与其他分块内的所有企业名称数据两两组成记录对。将所有产生 的记录对放在同一集合内 ,去掉重复记录对,组成记录对集合,作为 比较决策流程的输入。
步骤 S105、 将记录对集合进行比较决策获得匹配记录对。
进一步,所述将记录对集合进行比较决策获得匹配记录对包括: 将所述记录对经过比较算法获得算法比较记录对;
将所述算法比较记录对进行决策获得匹配记录对。
针对分块算法的输出 ,对于记录对集合中的每一对记录对首先计 算其相似度,然后通过与预置阈值相比较,如果高于阈值则认为该记
录对是匹配的 ,并将其输出 ,如果记录对不匹配则不输出。
对于待比较的记录对,首先获取企业名称数据地址信息,地址信 息的获得与获取省份时类似,主要利用地址属性信息,并将地址信息 存储成省、市、县 /区、镇 /乡 /街道、村 /小区、楼、号等标准化的形式; 然后获取其公司名称信息,并将公司名称存储成层级组织。其中地址 信息如 "深圳南山高新中一道 35 号"分词并标准化成"广东省:省 /深圳 市:市 /南山区:区 /高新中一道:道 /35号:号",公司名称信息如"一致药店 南山同心分店 "被分词成" <_致:名称词 /药店:特征词 >南山:地址词, < 同心:名称词 /分店:特征词 >;
其中地址标准化部分,除了将类似于"深圳"这样一个城市名称扩 展成"深圳市 "之外,另一个值的强调的地方在于考虑了通过市对省信 息的补齐,如上面提到的 "深圳南山"的信息, 由于深圳这个市存在且 只存在于广东省,因此将类似缺少省份的数据通过数据中的有关市的 信息映射到该省上,这一部分功能的实现依赖于一个市到省的映射表。
在本发明实施例中 ,预置尽可能全的特征词、 地址信息词 ,企业 名称数据中不能被识别的部分往往是公司名称词,因此有必要将未识 别的词作为公司名称词处理。当然另外一个辅助信息是该未识别词应 该位于某一特征词前面,并与该特征词联合构成一个组织。
在将地址信息标准化、公司名称存储成层级组织结构后,在此基 础上计算记录对的相似度。首先计算地址的相似度,通过对记录对中 两条企业名称数据在省、 市、 县 /区、 镇 /乡 /街道、 村 /小区、 楼、 号上 分别计算是否相同 ,并利用加权计算来获得两条记录的相似度。如果 两条企业名称数据的相似度过低,比如深圳市与东莞市虽然同在一个 省,可是其市信息同时存在却不相同并且不存在相互縮写关系,则两 条企业名称数据的相似度极低,此时直接将两条企业名称数据的地址 相似度作为记录对的相似度输出。只有在记录对在地址信息上的相似 度足够高的时候才进一步计算最小组织单位是否匹配。
进一步,步骤 S105后还可以包括:
根据所述匹配的记录对输出记录组。
决策流程输出了匹配记录对,这些记录对中可能同时存在 <a, b> 匹配、 <b, c>匹配,但是并没有 <a, c>记录对的匹配信息,为此在产生 记录组的时候利用一个传递规则:
如果 <a, b>、 <b, c>匹配,则< c>匹配。
使所有能够匹配上的记录产生一个闭包 , 如上例中的 [a]=[b]=[c]={a, b, c} o
通过上述规则,利用已经匹配的记录对就可以将相互匹配的企业 名称数据归入一个记录组中。
本发明实施例通过分词得到地址属性词,根据所述地址属性词得 到最高子行政级别地址作为分块,将同一分块能的企业名称数据两两 配对形成匹配记录对,减少了计算量,提供了匹配精度。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述 的比较简单,相关之处参见方法实施例的部分说明即可。
如图 3 所述为本发明一种企业数据匹配装置一实施例的结构示 意图 ,包括:
获取模块 21 ,用于获取企业名称数据;
分词模块 22 ,用于根据预置的字典库对所述企业名称数据进行 分词获取地址属性分词 ;
地址获取模块 23 ,用于根据所述地址属性分词获取对应的最高 子行政级别地址;
分块模块 24 ,用于根据所述最高子行政级别地址对所述企业名 称数据进行分块形成记录对集合;
比较决策模块 25 ,用于将记录对集合进行比较决策获得匹配记 录对。
进一步,所述地址获取模块 23具体用于,将地址属性分词与预 置字典中的地址词进行比对;当所述地址属性分词包括预置字典中最 高子行政级别地址时,以所述最高子行政级别地址作为该企业名称数 据分块;当所述地址属性分词仅包括预置字典中第二级子行政级别地 址时,根据所述第二级子行政级别地址在字典中获取对应的最高子行
政级别地址作为该企业名称数据分块;
进一步,所述地址获取模块 23还用于,当所述地址属性分词不 包括第二季子行政级别地址时,获取最后地址词;
根据所述最后地址词获取最高子行政级别地址,将所述最高子行 政级别地址作为所述企业名称数据分块;
当所述地址属性分词不包括任何地址词时,将所述企业名称数据 作为空白分块记录。
进一步,所述分块模块 24具体用于,将同一个分块内的企业名 称数据两两配对,将空白分块内的企业名称数据与其它所有分块内的 企业名称数据两两配对形成记录对。
进一步,所述比较决策模块 25还包括:
比较模块 251 ,用于将所述记录对经过比较算法获得算法比较记 录对;
决策模块 252 ,用于将所述算法比较记录对进行决策获得匹配记 录对。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的 部分互相参见即可。
以上对本申请所提供的一种企业数据匹配方法和装置,进行了详 细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐 述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想 同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施 方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理 解为对本申请的限制。
Claims
1、 一种企业数据匹配方法,其特征在于,包括: 获取企业名称数据;
根据预置的字典库对所述企业名称数据进行分词获取地址属性 分词 ;
根据所述地址属性分词获取对应的最高子行政级别地址; 根据所述最高子行政级别地址对所述企业名称数据进行分块形 成记录对集合;
将记录对集合进行比较决策获得匹配记录对。
2、 根据权利要求 1所述的方法,其特征在于,所述根据地址属 性分词获取对应的最高子行政级别地址包括:
将地址属性分词与预置字典中的地址词进行比对;
当所述地址属性分词包括预置字典中最高子行政级别地址时,以 所述最高子行政级别地址作为该企业名称数据分块;
当所述地址属性分词仅包括预置字典中第二级子行政级别地址 时,根据所述第二级子行政级别地址在字典中获取对应的最高子行政 级别地址作为该企业名称数据分块;
3、 根据权利要求 1所述的方法,其特征在于,所述根据地址属 性分词获取对应的最高子行政级别地址还包括:
当所述地址属性分词不包括第二季子行政级别地址时,获取最后 地址词;
根据所述最后地址词获取最高子行政级别地址,将所述最高子行 政级别地址作为所述企业名称数据分块;
当所述地址属性分词不包括任何地址词时,将所述企业名称数据 作为空白分块记录。
4、 根据权利要求 2所述的方法,其特征在于,所述根据最高子 行政级别地址对所述企业名称数据进行分块形成记录对集合还包括: 将同一个分块内的企业名称数据两两配对,将空白分块内的企业 名称数据与其它所有分块内的企业名称数据两两配对形成记录对。
5、 根据权利要求 3所述的方法,其特征在于,所述根据最高子 行政级别地址对所述企业名称数据进行分块形成记录对集合还包括: 将同一个分块内的企业名称数据两两配对,将空白分块内的企业 名称数据与其它所有分块内的企业名称数据两两配对形成记录对。
6、 根据权利要求 4所述的方法,其特征在于,所述将记录对集 合进行比较决策获得匹配记录对包括:
将所述记录对经过比较算法获得算法比较记录对;
将所述算法比较记录对进行决策获得匹配记录对。
7、 根据权利要求 5所述的方法,其特征在于,所述将记录对集 合进行比较决策获得匹配记录对包括:
将所述记录对经过比较算法获得算法比较记录对;
将所述算法比较记录对进行决策获得匹配记录对。
8、 一种企业数据匹配装置,其特征在于,包括:
获取模块,用于获取企业名称数据;
分词模块,用于根据预置的字典库对所述企业名称数据进行分词 获取地址属性分词 ;
地址获取模块,用于根据所述地址属性分词获取对应的最高子行 政级别地址;
分块模块,用于根据所述最高子行政级别地址对所述企业名称数 据进行分块形成记录对集合;
比较决策模块,用于将记录对集合进行比较决策获得匹配记录对。
9、 根据权利要求 8所述的装置,其特征在于,所述地址获取模 块具体用于,将地址属性分词与预置字典中的地址词进行比对;当所 述地址属性分词包括预置字典中最高子行政级别地址时,以所述最高 子行政级别地址作为该企业名称数据分块;当所述地址属性分词仅包 括预置字典中第二级子行政级别地址时,根据所述第二级子行政级别 地址在字典中获取对应的最高子行政级别地址作为该企业名称数据 分块;
10、 根据权利要求 8所述的装置,其特征在于,所述地址获取模
块还用于,当所述地址属性分词不包括第二季子行政级别地址时,获 取最后地址词 ;
根据所述最后地址词获取最高子行政级别地址,将所述最高子行 政级别地址作为所述企业名称数据分块;
当所述地址属性分词不包括任何地址词时,将所述企业名称数据 作为空白分块记录。
11、 根据权利要求 9所述的装置,其特征在于,所述分块模块具 体用于,将同一个分块内的企业名称数据两两配对,将空白分块内的 企业名称数据与其它所有分块内的企业名称数据两两配对形成记录 对。
12、 根据权利要求 10所述的装置,其特征在于,所述分块模块 具体用于,将同一个分块内的企业名称数据两两配对,将空白分块内 的企业名称数据与其它所有分块内的企业名称数据两两配对形成记 录对。
13、 根据权利要求 11所述的装置,其特征在于,所述比较决策 模块还包括:
比较模块,用于将所述记录对经过比较算法获得算法比较记录对; 决策模块,用于将所述算法比较记录对进行决策获得匹配记录对。
14、 根据权利要求 12所述的装置,其特征在于,所述比较决策 模块还包括:
比较模块,用于将所述记录对经过比较算法获得算法比较记录对; 决策模块,用于将所述算法比较记录对进行决策获得匹配记录对。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310279896.7A CN104252507B (zh) | 2013-06-28 | 2013-06-28 | 一种企业数据匹配方法和装置 |
CN201310279896.7 | 2013-06-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014206182A1 true WO2014206182A1 (zh) | 2014-12-31 |
Family
ID=52141010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2014/079158 WO2014206182A1 (zh) | 2013-06-28 | 2014-06-04 | 一种企业数据匹配方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104252507B (zh) |
WO (1) | WO2014206182A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106155998B (zh) * | 2015-04-09 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN106354871A (zh) * | 2016-09-18 | 2017-01-25 | 长城计算机软件与系统有限公司 | 一种企业名称的相似性检索方法 |
CN106777070B (zh) * | 2016-12-12 | 2020-06-26 | 江苏师范大学 | 一种基于分块的Web记录链接的系统及方法 |
CN110083704B (zh) * | 2019-05-06 | 2020-06-09 | 重庆天蓬网络有限公司 | 一种基于主营业务的公司信息处理方法、存储介质及设备 |
CN110750509A (zh) * | 2019-10-24 | 2020-02-04 | 赛诺贝斯(北京)营销技术股份有限公司 | 一种企业名称查重方法及装置、设备、介质 |
CN111191103B (zh) * | 2019-12-30 | 2021-08-24 | 河南拓普计算机网络工程有限公司 | 从互联网中识别分析企业主体信息方法、装置及存储介质 |
CN111813819B (zh) * | 2020-07-13 | 2022-07-22 | 南通市测绘院有限公司 | 一种基于时空大数据的地名地址在线匹配方法 |
CN113626730A (zh) * | 2021-08-02 | 2021-11-09 | 同盾科技有限公司 | 相似地址筛选方法、装置、计算设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332766A (ja) * | 1993-05-19 | 1994-12-02 | Nippon Telegr & Teleph Corp <Ntt> | データベースの結合方法 |
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101996247A (zh) * | 2010-11-10 | 2011-03-30 | 百度在线网络技术(北京)有限公司 | 地址数据库的建构方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479230A (zh) * | 2010-11-29 | 2012-05-30 | 北京四维图新科技股份有限公司 | 提取地理特征词的方法和装置 |
CN102867004B (zh) * | 2011-07-06 | 2016-06-29 | 高德软件有限公司 | 一种地址匹配的方法及设备 |
CN102955832B (zh) * | 2011-08-31 | 2015-11-25 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的系统 |
US10248672B2 (en) * | 2011-09-19 | 2019-04-02 | Citigroup Technology, Inc. | Methods and systems for assessing data quality |
CN102750351A (zh) * | 2012-06-11 | 2012-10-24 | 迪尔码国际营销服务(北京)有限公司 | 基于规则的地址信息匹配方法 |
-
2013
- 2013-06-28 CN CN201310279896.7A patent/CN104252507B/zh active Active
-
2014
- 2014-06-04 WO PCT/CN2014/079158 patent/WO2014206182A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332766A (ja) * | 1993-05-19 | 1994-12-02 | Nippon Telegr & Teleph Corp <Ntt> | データベースの結合方法 |
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101996247A (zh) * | 2010-11-10 | 2011-03-30 | 百度在线网络技术(北京)有限公司 | 地址数据库的建构方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN111625732B (zh) * | 2020-05-25 | 2023-06-23 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104252507B (zh) | 2017-06-27 |
CN104252507A (zh) | 2014-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2014206182A1 (zh) | 一种企业数据匹配方法和装置 | |
CN104881424B (zh) | 一种基于正则表达式的电力大数据采集、存储及分析方法 | |
CN102567464B (zh) | 基于扩展主题图的知识资源组织方法 | |
Niu et al. | Zhishi. links results for OAEI 2011 | |
CN107657049B (zh) | 一种基于数据仓库的数据处理方法 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
US20140122455A1 (en) | Systems and Methods for Intelligent Parallel Searching | |
CN102402615B (zh) | 一种基于结构化查询语言语句的源信息追踪方法 | |
CN104239513A (zh) | 一种面向领域数据的语义检索方法 | |
CN107203640B (zh) | 通过数据库运行记录建立物理模型的方法及系统 | |
US10002142B2 (en) | Method and apparatus for generating schema of non-relational database | |
CN101986296A (zh) | 基于语义本体的噪声数据清洗方法 | |
US10997218B2 (en) | Method and system for managing associations between entity records | |
CN109472021A (zh) | 基于深度学习的医学文献中关键句筛选方法及装置 | |
TW201810093A (zh) | 使用者背景資訊的收集方法及裝置 | |
CN103246731A (zh) | 基于关联数据的Web服务语义标注方法 | |
CN115858513A (zh) | 数据治理方法、装置、计算机设备和存储介质 | |
CN104731908A (zh) | 一种基于etl的数据清洗方法 | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
CN114595302A (zh) | 空间要素的多层级空间关系构建方法、装置、介质及设备 | |
CN111241293A (zh) | 一种基于学术文献构建的知识图谱算法 | |
CN116501834A (zh) | 地址信息处理方法、装置、移动终端及存储介质 | |
CN116680445A (zh) | 基于知识图谱的电力光通信系统多源异构数据融合方法及系统 | |
Nguyen Mau et al. | Audio fingerprint hierarchy searching strategies on GPGPU massively parallel computer | |
Szymczak et al. | Coreference detection in XML metadata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14817939 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14817939 Country of ref document: EP Kind code of ref document: A1 |