KR20230092048A - System and method for collecting business information and computer program for the same - Google Patents

System and method for collecting business information and computer program for the same Download PDF

Info

Publication number
KR20230092048A
KR20230092048A KR1020210180317A KR20210180317A KR20230092048A KR 20230092048 A KR20230092048 A KR 20230092048A KR 1020210180317 A KR1020210180317 A KR 1020210180317A KR 20210180317 A KR20210180317 A KR 20210180317A KR 20230092048 A KR20230092048 A KR 20230092048A
Authority
KR
South Korea
Prior art keywords
data
operator information
business
information
items
Prior art date
Application number
KR1020210180317A
Other languages
Korean (ko)
Inventor
정원주
오은혜
최준봉
Original Assignee
주식회사쿠콘
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사쿠콘 filed Critical 주식회사쿠콘
Priority to KR1020210180317A priority Critical patent/KR20230092048A/en
Publication of KR20230092048A publication Critical patent/KR20230092048A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

사업자 정보 수집 시스템은, 하나 이상의 정보 보유기관으로부터 사업자 정보에 관련된 데이터를 수집하도록 구성된 데이터 수집부; 미리 설정된 복수 개의 데이터 항목별 인식 규칙을 이용하여 상기 데이터를 상기 복수 개의 데이터 항목에 매칭시키도록 구성된 데이터 인식부; 및 상기 복수 개의 데이터 항목에 매칭된 값을 표준화된 사업자 정보로 저장하도록 구성된 데이터 저장부를 포함한다. 상기 데이터 인식부는, 상기 복수 개의 데이터 항목에 대해 미리 설정된 순서에 기초하여 상기 복수 개의 데이터 항목의 후보데이터를 순차적으로 결정함으로써 상기 복수 개의 데이터 항목에 매칭된 값을 결정하도록 구성된다. 상기 데이터 인식부는, 상기 복수 개의 데이터 항목 각각에 대해 미리 설정된 규칙에 기초하여, 상기 매칭 순서에서 선행하는 데이터 항목의 후보데이터를 결정하고, 상기 선행하는 데이터 항목의 후보데이터 중 상기 미리 설정된 규칙에 기초하여 상기 매칭 순서에서 후행하는 데이터 항목의 값을 결정하며, 상기 후보데이터 중 상기 후행하는 데이터 항목의 값으로 결정된 데이터를 소거함으로써 상기 선행하는 데이터 항목에 매칭된 값을 결정할 수 있다. The operator information collection system includes a data collection unit configured to collect data related to operator information from one or more information holding organizations; a data recognizing unit configured to match the data to the plurality of data items using preset recognition rules for each of the plurality of data items; and a data storage unit configured to store values matched to the plurality of data items as standardized operator information. The data recognizing unit is configured to determine values matched to the plurality of data items by sequentially determining candidate data of the plurality of data items based on a preset order for the plurality of data items. The data recognizing unit determines candidate data of a data item that precedes in the matching order based on a preset rule for each of the plurality of data items, and determines candidate data of the preceding data item based on the preset rule. The value of the following data item in the matching order is determined, and a value matched to the preceding data item may be determined by erasing data determined as the value of the succeeding data item among the candidate data.

Figure P1020210180317
Figure P1020210180317

Description

사업자 정보 수집 시스템 및 방법과 이를 위한 컴퓨터 프로그램{SYSTEM AND METHOD FOR COLLECTING BUSINESS INFORMATION AND COMPUTER PROGRAM FOR THE SAME}Business operator information collection system and method and computer program for the same

실시예들은 사업자 정보 수집 시스템 및 방법과 이를 위한 컴퓨터 프로그램에 대한 것으로, 보다 구체적으로는, 사업자 정보를 보유한 복수의 기관들로부터 데이터를 수집하고 수집한 데이터를 사업자 정보만의 특징을 통해 표준화함으로써 표준화된 사업자 정보의 효용 가치가 증대될 수 있도록 하는 기술에 대한 것이다. Embodiments relate to a business operator information collection system and method and a computer program for the same, and more specifically, by collecting data from a plurality of organizations holding business operator information and standardizing the collected data through characteristics unique to business operator information. It is about a technology that can increase the utility value of the business operator information.

기업 간의 경제 활동에 있어 사업자 등록번호, 업태, 업종, 주소, 대표자명 등과 같은 사업자 정보를 이용하는 경우가 많다. 이에 따라, 거래 기업 또는 소비자에게 사업자 정보를 제공하는 서비스가 기업 또는 공공기관 등에 의하여 운영되기도 한다. 예를 들어, 공정거래위원회는 전자상거래시장에서 소비자가 정확한 사업자 정보를 가지고 안전한 거래를 할 수 있도록 전국 시, 군, 구에 신고된 통신판매업자의 신원정보를 제공하고 있다. In economic activities between companies, business information such as business registration number, business type, type of business, address, representative name, etc. is often used. Accordingly, a service providing business information to trading companies or consumers is sometimes operated by companies or public institutions. For example, the Fair Trade Commission provides "identity information" of telecommunications distributors reported to cities, counties, and districts nationwide so that consumers can conduct safe transactions with accurate business information in the e-commerce market.

그러나, 사업자 정보를 제공하는 공공기관, 정부, 기업 등 주체에 따라 사업자 정보를 제공하는 데이터 규격이 일원화되어 있지 않기 때문에, 수요 기업 또는 소비자가 다수의 기관들로부터 사업자 정보를 제공받는 경우 각 기관의 데이터가 일치하지 않거나 중복 데이터가 존재하는 등의 문제가 있다. 그러나, 서로 다른 기관들이 제공하는 사업자 정보를 수집하고 이를 표준화하기 위한 시스템은 현재까지 존재하지 않는 실정이다. However, since the data standards for providing business information are not unified according to subjects such as public institutions, governments, and companies that provide business information, when a consumer or consumer receives business information from multiple institutions, each institution There are problems such as data inconsistency or duplicate data. However, a system for collecting and standardizing operator information provided by different organizations does not exist until now.

등록특허공보 제10-0575956호Registered Patent Publication No. 10-0575956

본 발명의 일 측면에 따르면, 사업자 정보를 보유한 다수의 불특정 기관으로부터 데이터를 수집하고, 수집한 데이터를 사업자 정보만의 특징을 통해 표준화하며, 표준화된 데이터를 정제하여 표준화된 사업자 정보로 제공함으로써 사업자 정보의 효용 가치가 증대되도록 하는 사업자 정보 수집 시스템과, 사업자 정보 수집 방법 및 이를 위한 컴퓨터 프로그램을 제공할 수 있다. According to one aspect of the present invention, data is collected from a plurality of unspecified organizations holding operator information, the collected data is standardized through the characteristics of operator information, and the standardized data is refined and provided as standardized operator information. It is possible to provide a business operator information collection system that increases the utility value of information, a business operator information collection method, and a computer program therefor.

본 발명의 일 측면에 따른 사업자 정보 수집 시스템은, 하나 이상의 정보 보유기관으로부터 사업자 정보에 관련된 데이터를 수집하도록 구성된 데이터 수집부; 미리 설정된 복수 개의 데이터 항목별 인식 규칙을 이용하여 상기 데이터를 상기 복수 개의 데이터 항목에 매칭시키도록 구성된 데이터 인식부; 및 상기 복수 개의 데이터 항목에 매칭된 값을 표준화된 사업자 정보로 저장하도록 구성된 데이터 저장부를 포함한다. An operator information collection system according to an aspect of the present invention includes a data collection unit configured to collect data related to operator information from one or more information holding organizations; a data recognizing unit configured to match the data to the plurality of data items using preset recognition rules for each of the plurality of data items; and a data storage unit configured to store values matched to the plurality of data items as standardized operator information.

상기 데이터 인식부는, 상기 복수 개의 데이터 항목에 대해 미리 설정된 순서에 기초하여 상기 복수 개의 데이터 항목의 후보데이터를 순차적으로 결정함으로써 상기 복수 개의 데이터 항목에 매칭된 값을 결정하도록 더 구성될 수 있다. The data recognizing unit may be further configured to determine values matched with the plurality of data items by sequentially determining candidate data of the plurality of data items based on a preset order for the plurality of data items.

일 실시예에서, 상기 데이터 인식부는, 상기 복수 개의 데이터 항목별 인식 규칙에 기초하여, 상기 매칭 순서에서 선행하는 데이터 항목의 후보데이터를 결정하고, 상기 선행하는 데이터 항목의 후보데이터 중 후행하는 데이터 항목의 값으로 결정된 데이터를 소거함으로써 각각의 상기 데이터 항목에 매칭된 값을 결정하도록 더 구성된다. In an embodiment, the data recognizing unit determines candidate data of a data item preceding in the matching order based on the recognition rule for each of the plurality of data items, and among the candidate data of the preceding data item, the following data item and determine a value matched to each said data item by erasing the data determined to be the value of .

일 실시예에서, 상기 데이터 인식부는, 상기 복수 개의 데이터 항목 각각의 유일한 후보데이터를 상기 데이터 항목에 매칭된 값으로 결정하도록 더 구성된다. In one embodiment, the data recognizing unit is further configured to determine a unique candidate data of each of the plurality of data items as a value matched to the data item.

일 실시예에서, 상기 데이터 저장부는 미리 설정된 데이터 항목별 예외어 정보를 저장하도록 더 구성된다. 이때 상기 데이터 인식부는, 상기 예외어 정보에 기초하여 상기 후보데이터 중 상기 데이터 항목에 매칭된 값을 결정하고, 상기 데이터 항목에 매칭된 값 중 상기 예외어 정보에 포함되지 않은 단어를 상기 예외어 정보로 상기 데이터 저장부에 저장하도록 더 구성된다. In one embodiment, the data storage unit is further configured to store exception word information for each preset data item. In this case, the data recognizer determines a value matched to the data item among the candidate data based on the exceptional word information, and selects a word not included in the exceptional word information among values matched with the data item in the exceptional word information. It is further configured to store in the data storage unit.

일 실시예에서, 상기 표준화된 사업자 정보는 상기 데이터 항목에 매칭된 값이 부분적으로 동일한 중복 데이터를 포함한다. 이때 사업자 정보 제공 시스템은, 상기 데이터 항목에 매칭된 값의 유사도 또는 상기 표준화된 사업자 정보의 호출 패턴에 기초하여 상기 중복 데이터 간의 우선순위를 결정하고, 상기 우선순위에 기초하여 상기 중복 데이터를 제거하도록 구성된 데이터 정제부를 더 포함한다. In one embodiment, the standardized operator information includes redundant data in which values matched to the data items are partially identical. At this time, the operator information providing system determines the priority of the redundant data based on the similarity of values matched to the data items or the calling pattern of the standardized operator information, and removes the duplicate data based on the priority. It further includes a configured data refinement unit.

일 실시예에서, 상기 데이터 정제부는, 상기 중복 데이터에서 상기 데이터 항목에 매칭된 값에 기초하여 상기 데이터 항목에 미리 설정된 규칙에 대한 오류 데이터를 생성하도록 더 구성된다. In an embodiment, the data refining unit is further configured to generate error data for a rule set in advance for the data item based on a value matched to the data item in the redundant data.

일 실시예에 따른 사업자 정보 제공 시스템은, 상기 사업자 정보에 관련된 데이터의 신규데이터를 결정하고, 상기 신규데이터와 상기 신규데이터에 연관된 상기 표준화된 사업자 정보의 유사도 또는 상기 신규데이터에 대한 사용자들의 호출 패턴에 기반하여 상기 복수 개의 데이터 항목별 인식 규칙을 갱신하도록 구성된 신규데이터 분석부를 더 포함한다.The operator information providing system according to an embodiment determines new data of data related to the operator information, and the similarity between the new data and the standardized operator information associated with the new data or the call pattern of users for the new data. Based on the new data analysis unit configured to update the recognition rule for each of the plurality of data items further includes.

일 실시예에 따른 사업자 정보 제공 시스템은, 상기 표준화된 사업자 정보에 대한 사용자들의 호출 요청을 수신함으로써 사용자들의 호출 패턴을 결정하고, 상기 호출 패턴 및 상기 데이터 항목에 매칭된 값에 기초한 추천 데이터를 생성하도록 구성된 데이터 활용부를 더 포함한다.The operator information providing system according to an embodiment determines a call pattern of users by receiving a call request from users for the standardized operator information, and generates recommendation data based on a value matched to the call pattern and the data item. It further includes a data utilization unit configured to do so.

본 발명의 일 측면에 따른 사업자 정보 수집 방법은, 사업자 정보 수집 시스템이 하나 이상의 정보 보유기관으로부터 사업자 정보에 관련된 데이터를 수집하는 단계; 상기 사업자 정보 수집 시스템이 미리 설정된 복수 개의 데이터 항목별 인식 규칙을 이용하여 상기 데이터를 미리 설정된 복수 개의 데이터 항목에 매칭시키는 단계; 및 상기 사업자 정보 수집 시스템이 상기 복수 개의 데이터 항목에 매칭된 값을 표준화된 사업자 정보로 저장하는 단계를 포함한다. An operator information collection method according to an aspect of the present invention includes the steps of a business operator information collecting system collecting data related to business operator information from one or more information holding organizations; matching the data to a plurality of preset data items using a recognition rule for each of the plurality of data items, by the operator information collection system; and storing, by the operator information collection system, values matched with the plurality of data items as standardized operator information.

상기 복수 개의 데이터 항목에 매칭시키는 단계는, 상기 사업자 정보 수집 시스템이, 상기 복수 개의 데이터 항목에 대해 미리 설정된 순서에 기초하여 상기 복수 개의 데이터 항목의 후보데이터를 순차적으로 결정함으로써 상기 복수 개의 데이터 항목에 매칭된 값을 결정하는 단계를 포함한다.The matching with the plurality of data items may include determining candidate data of the plurality of data items sequentially based on an order set in advance for the plurality of data items by the business operator information collecting system, thereby matching the plurality of data items with the plurality of data items. and determining the matched value.

일 실시예에서, 상기 복수 개의 데이터 항목에 매칭된 값을 결정하는 단계는, 상기 사업자 정보 수집 시스템이, 상기 복수 개의 데이터 항목별 인식 규칙에 기초하여, 상기 매칭 순서에서 선행하는 데이터 항목의 후보데이터를 결정하는 단계; 및 상기 사업자 정보 수집 시스템이, 상기 선행하는 데이터 항목의 후보데이터 중 후행하는 데이터 항목의 값으로 결정된 데이터를 소거함으로써 각각의 상기 데이터 항목에 매칭된 값을 결정하는 단계를 포함한다.In one embodiment, the step of determining values matched with the plurality of data items may include, by the operator information collection system, candidate data of a data item that precedes in the matching order based on a recognition rule for each of the plurality of data items. determining; and determining, by the business operator information collection system, a value matched to each of the data items by erasing data determined as a value of a succeeding data item among candidate data of the preceding data item.

일 실시예에서, 상기 복수 개의 데이터 항목에 매칭된 값을 결정하는 단계는, 상기 사업자 정보 수집 시스템이, 상기 복수 개의 데이터 항목 각각의 유일한 후보데이터를 상기 데이터 항목에 매칭된 값으로 결정하는 단계를 포함한다.In one embodiment, the step of determining a value matched with the plurality of data items may include determining, by the operator information collection system, a unique candidate data of each of the plurality of data items as a value matched to the data item. include

일 실시예에서, 상기 후행하는 데이터 항목의 값을 결정하는 단계는, 상기 사업자 정보 수집 시스템이 미리 설정된 데이터 항목별 예외어 정보에 기초하여 상기 후보데이터 중 상기 데이터 항목에 매칭된 값을 결정하는 단계를 포함한다. 이때 상기 사업자 정보 수집 방법은, 상기 사업자 정보 수집 시스템이, 상기 데이터 항목에 매칭된 값 중 상기 예외어 정보에 포함되지 않은 단어를 상기 예외어 정보로 상기 사업자 정보 수집 시스템에 저장하는 단계를 더 포함한다.In one embodiment, the step of determining the value of the following data item may include determining a value matched to the data item among the candidate data based on exception information for each data item set in advance by the business operator information collection system. includes At this time, the operator information collection method further includes the step of the operator information collection system storing, as the exception word information, words not included in the exception word information among values matched with the data items in the operator information collection system. do.

일 실시예에서, 상기 표준화된 사업자 정보는 상기 데이터 항목에 매칭된 값이 부분적으로 동일한 중복 데이터를 포함한다. 이때 사업자 정보 제공 방법은, 상기 사업자 정보 수집 시스템이, 상기 데이터 항목에 매칭된 값의 유사도 또는 상기 표준화된 사업자 정보의 호출 패턴에 기초하여 상기 중복 데이터 간의 우선순위를 결정하는 단계; 및 상기 사업자 정보 수집 시스템이, 상기 우선순위에 기초하여 상기 중복 데이터를 제거하는 단계를 더 포함한다.In one embodiment, the standardized operator information includes redundant data in which values matched to the data items are partially identical. In this case, the operator information providing method may include determining, by the operator information collection system, a priority among the redundant data based on a similarity of values matched to the data items or a calling pattern of the standardized operator information; and removing, by the operator information collection system, the redundant data based on the priority.

일 실시예에 따른 사업자 정보 제공 방법은, 상기 사업자 정보 수집 시스템이, 상기 중복 데이터에서 상기 데이터 항목에 매칭된 값에 기초하여 상기 데이터 항목에 미리 설정된 규칙에 대한 오류 데이터를 생성하는 단계를 더 포함한다.The operator information providing method according to an embodiment further includes generating, by the operator information collecting system, error data for a rule preset in the data item based on a value matched to the data item in the redundant data. do.

일 실시예에 따른 사업자 정보 제공 방법은, 상기 사업자 정보 수집 시스템이, 상기 사업자 정보에 관련된 데이터의 신규데이터를 결정하는 단계; 및 상기 사업자 정보 수집 시스템이, 상기 신규데이터와 상기 신규데이터에 연관된 상기 표준화된 사업자 정보의 유사도 또는 상기 신규데이터에 대한 사용자들의 호출 패턴에 기반하여 상기 복수 개의 데이터 항목별 인식 규칙을 갱신하는 단계를 더 포함한다. The operator information providing method according to an embodiment includes the step of determining, by the operator information collection system, new data of data related to the operator information; and updating, by the operator information collection system, a recognition rule for each of the plurality of data items based on a similarity between the new data and the standardized operator information associated with the new data or a call pattern of users for the new data. contains more

일 실시예에 따른 사업자 정보 제공 방법은, 상기 사업자 정보 수집 시스템이, 상기 표준화된 사업자 정보에 대한 사용자들의 호출 요청을 수신함으로써 사용자들의 호출 패턴을 결정하는 단계; 및 상기 사업자 정보 수집 시스템이, 상기 호출 패턴 및 상기 데이터 항목에 매칭된 값에 기초한 추천 데이터를 생성하는 단계를 더 포함한다.A method for providing operator information according to an embodiment includes: determining, by the operator information collecting system, call patterns of users by receiving users' call requests for the standardized operator information; and generating, by the operator information collection system, recommendation data based on a value matched to the call pattern and the data item.

본 발명의 일 측면에 따른 컴퓨터 프로그램은, 하드웨어와 결합되어 전술한 실시예들에 따른 사업자 정보 수집 방법을 실행하기 위한 것으로서, 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다. The computer program according to one aspect of the present invention is for executing the operator information collection method according to the above-described embodiments in combination with hardware, and may be stored in a computer-readable recording medium.

본 발명의 일 측면에 따른 사업자 정보 수집 시스템 및 방법에 의하면, 사업자 정보와 관련하여 복수의 기관으로부터 다양한 규격의 데이터를 포용할 수 있으며, 축적된 데이터의 내용이 어떠한 의미를 갖는지 인식하고 이를 통일된 양식에 맞추어 표준화함으로써 표준화된 사업자 정보를 생성할 수 있는 이점이 있다. According to the business operator information collection system and method according to an aspect of the present invention, it is possible to embrace data of various standards from a plurality of organizations in relation to business operator information, recognize the meaning of the contents of the accumulated data, and unify it. By standardizing according to the format, there is an advantage of being able to generate standardized operator information.

본 발명의 일 측면에 따른 사업자 정보 수집 시스템 및 방법을 이용하면, 사업자 정보를 구성할 데이터들을 통일된 양식에 맞추어 표준화하고 데이터 우선순위 정의를 통해 중복 데이터를 병합 및/또는 삭제할 수 있어, 표준화된 데이터를 정제함으로써 표준화된 사업자 정보의 효용 가치를 극대화할 수 있는 이점이 있다. Using the business operator information collection system and method according to one aspect of the present invention, it is possible to standardize data constituting business operator information according to a unified form and to merge and/or delete redundant data through data priority definition. There is an advantage in maximizing the utility value of standardized operator information by refining data.

도 1은 일 실시예에 따른 사업자 정보 수집 시스템의 개략적인 블록도이다.
도 2는 일 실시예에 따른 사업자 정보 수집 방법의 각 단계를 나타내는 순서도이다.
도 3은 일 실시예에 따른 사업자 정보 수집 방법에서 사업자 정보의 각 칼럼값을 결정하는 과정을 설명하기 위한 개념도이다.
도 4는 일 실시예에 따른 사업자 정보 수집 방법에서 중복 데이터를 제거하고 오류를 탐지하는 과정의 각 단계를 나타내는 순서도이다.
도 5는 일 실시예에 따른 사업자 정보 수집 방법에서 신규데이터를 분석하여 표준 양식을 갱신하는 과정의 각 단계를 나타내는 순서도이다.
1 is a schematic block diagram of a business operator information collection system according to an embodiment.
2 is a flowchart illustrating each step of a method for collecting operator information according to an embodiment.
3 is a conceptual diagram illustrating a process of determining each column value of operator information in a method for collecting operator information according to an embodiment.
4 is a flowchart illustrating each step of a process of removing redundant data and detecting an error in a method for collecting operator information according to an embodiment.
5 is a flowchart illustrating each step of a process of updating a standard form by analyzing new data in a method for collecting business operator information according to an embodiment.

이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.Hereinafter, with reference to the drawings, look at the embodiments of the present invention in detail.

도 1은 일 실시예에 따른 사업자 정보 수집 시스템의 개략적인 블록도이다.1 is a schematic block diagram of a business operator information collection system according to an embodiment.

도 1을 참조하면, 본 실시예에 따른 사업자 정보 수집 시스템(3)은 하나 이상의 정보 보유기관(11-13)으로부터 사업자 정보를 수집하며, 수집한 사업자 정보를 소정의 기준에 따라 표준화하여 표준화한 사업자 정보를 정보 수요자의 사용자 장치(21-23)에 전송하는 기능을 한다. Referring to FIG. 1, the operator information collection system 3 according to this embodiment collects operator information from one or more information holding organizations 11-13, and standardizes the collected operator information according to a predetermined standard. It functions to transmit operator information to the information consumer's user device 21-23.

본 명세서의 정보 보유기관(11-13)은 사업자 등록번호, 업태, 업종, 주소, 대표자명 등과 같은 사업자 정보를 제공하는 임의의 기관으로서, 기업, 공공기관 또는 정부 등에 해당할 수 있다. 일 예로, 정보 보유기관(11-13)은 전자세금계산서 정보를 제공하는 국세청 서버일 수 있으나 이에 한정되는 것은 아니며, 사업자 정보를 제공하는 서비스 자체를 운영하는 기관의 서버이거나, 또는 기업의 자금관리서비스(Cash Management Service; CMS) 또는 전사적자원관리(Enterprise Resource Planning; ERP) 시스템과 같이 그 동작에 있어서 사업자 정보를 활용하는 임의의 서버일 수 있다. The information holding institutions 11 to 13 in this specification are arbitrary institutions that provide business information such as business registration number, business type, type of business, address, representative name, etc., and may correspond to companies, public institutions, or the government. For example, the information holding organization (11-13) may be, but is not limited to, a NTS server that provides electronic tax invoice information, and is a server of an organization that operates a service itself that provides business information, or a company's fund management. It may be any server that utilizes operator information in its operation, such as a Cash Management Service (CMS) or Enterprise Resource Planning (ERP) system.

또한 사용자 장치(21-23)는 사업자 정보 제공 시스템(3)으로부터 표준화된 사업자 정보를 제공받아 활용하고자 하는 정보 수요자가 사용하는 장치로서, 스마트폰(smartphone)과 같은 이동 통신 단말기, 노트북 컴퓨터 또는 개인용 컴퓨터와 같은 컴퓨팅 장치 또는 기업 내의 또는 기업이 사용하는 CMS 또는 ERP 시스템과 연계된 서버 등이 사용자 장치(21-23)에 해당될 수 있다. In addition, the user devices 21 to 23 are devices used by an information consumer who wants to receive and use standardized operator information from the operator information providing system 3, and is a mobile communication terminal such as a smartphone, a laptop computer, or a personal device. A computing device such as a computer or a server associated with a CMS or ERP system in a company or used by a company may correspond to the user devices 21 to 23 .

실시예들에 따른 사업자 정보 제공 시스템(3)은 정보 보유기관(11-13)이 각각 독자적인 양식으로 제공하는 사업자 정보를 수신하여 이를 표준화된 양식으로 변환하고, 표준화된 사업자 정보를 정보 수요자의 사용자 장치(21-23)에 전송할 수 있다. 이상의 동작을 위하여, 사업자 정보 수집 시스템(3)은 유선 및/또는 무선 네트워크를 통하여 정보 보유기관(11-13) 및 사용자 장치(21-23)에 통신 가능하게 연결되도록 구성된다. The operator information providing system 3 according to the embodiments receives operator information provided by the information holding organizations 11 to 13 in an independent format, converts it into a standardized format, and converts the standardized operator information to the user of the information consumer. It can be transmitted to devices 21-23. For the above operation, the operator information collection system 3 is configured to be communicatively connected to the information holding organization 11-13 and the user device 21-23 through a wired and/or wireless network.

본 명세서의 통신 방법은 유선 및/또는 무선 네트워크를 통하여 객체와 객체가 네트워킹 할 수 있는 모든 통신 방법을 포함할 수 있으며, 유선 통신, 무선 통신, 3G, 4G, 혹은 그 이외의 방법으로 제한되지 않는다. 예를 들어, 유선 및/또는 무선 통신 네트워크는 LAN(Local Area Network), MAN(Metropolitan Area Network), GSM(Global System for Mobile Network), EDGE(Enhanced Data GSM Environment), HSDPA(High Speed Downlink Packet Access), W-CDMA(Wideband Code Division Multiple Access), CDMA(Code Division Multiple Access), TDMA(Time Division Multiple Access), 블루투스(Bluetooth), 지그비(Zigbee), 와이-파이(Wi-Fi), VoIP(Voice over Internet Protocol), LTE Advanced, IEEE802.16m, WirelessMAN-Advanced, HSPA+, 3GPP Long Term Evolution (LTE), Mobile WiMAX (IEEE 802.16e), UMB (formerly EV-DO Rev. C), Flash-OFDM, iBurst and MBWA (IEEE 802.20) systems, HIPERMAN, Beam-Division Multiple Access (BDMA), Wi-MAX(World Interoperability for Microwave Access) 및 초음파 활용 통신으로 이루어진 군으로부터 선택되는 하나 이상의 통신 방법에 의한 통신 네트워크를 지칭할 수 있으나, 이에 한정되는 것은 아니다. The communication method of the present specification may include all communication methods capable of networking between objects through wired and / or wireless networks, and is not limited to wired communication, wireless communication, 3G, 4G, or other methods. . For example, wired and/or wireless communication networks include Local Area Network (LAN), Metropolitan Area Network (MAN), Global System for Mobile Network (GSM), Enhanced Data GSM Environment (EDGE), High Speed Downlink Packet Access (HSDPA) ), W-CDMA (Wideband Code Division Multiple Access), CDMA (Code Division Multiple Access), TDMA (Time Division Multiple Access), Bluetooth, Zigbee, Wi-Fi, VoIP ( Voice over Internet Protocol), LTE Advanced, IEEE802.16m, WirelessMAN-Advanced, HSPA+, 3GPP Long Term Evolution (LTE), Mobile WiMAX (IEEE 802.16e), UMB (formerly EV-DO Rev. C), Flash-OFDM, Refers to a communication network by one or more communication methods selected from the group consisting of iBurst and MBWA (IEEE 802.20) systems, HIPERMAN, Beam-Division Multiple Access (BDMA), Wi-MAX (World Interoperability for Microwave Access), and ultrasound-enabled communication It can be done, but is not limited thereto.

본 명세서의 도면에 도시된 정보 보유기관(11-13) 및 사용자 장치(21-23)의 개수와 사용자 장치(21-23)의 장치 종류를 단지 예시적인 것으로서, 사업자 정보 제공 시스템(3)과 통신 가능한 정보 보유기관 및 사용자 장치의 실제 수나 장치 종류를 한정하는 것이 아니라는 점이 통상의 기술자에게 용이하게 이해될 것이다. The number of information holding organizations 11-13 and user devices 21-23 and the device type of the user devices 21-23 shown in the drawings of this specification are merely exemplary, and the operator information providing system 3 and It will be readily understood by those skilled in the art that the actual number or type of communicable information holding organizations and user devices is not limited.

또한, 본 명세서에 기재된 장치들은 전적으로 하드웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대, 사업자 정보 수집 시스템(3)을 구성하는 각 부(unit) 및 이와 통신하는 각각의 시스템, 장치, 서버 등과 이들에 포함된 각 모듈 또는 부는, 특정 형식 및 내용의 데이터를 전자통신 방식으로 주고받기 위한 장치 및 이에 관련된 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부", "모듈", "서버", "시스템", "플랫폼", "장치" 또는 "단말" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 여기서 하드웨어는 CPU 또는 다른 프로세서(processor)를 포함하는 데이터 처리 기기일 수 있다. 또한, 하드웨어에 의해 구동되는 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다. Also, the devices described herein may have aspects that are entirely hardware, or partly hardware and partly software. For example, each unit constituting the business operator information collection system 3 and each module or unit included in each system, device, server, etc. communicating with it provides data in a specific format and content in an electronic communication method. Devices for receiving and related software may be collectively referred to. In this specification, terms such as "unit", "module", "server", "system", "platform", "device" or "terminal" are intended to refer to a combination of hardware and software driven by the hardware. do. For example, the hardware herein may be a data processing device including a CPU or other processor. Also, software driven by hardware may refer to a running process, an object, an executable file, a thread of execution, a program, and the like.

일 실시예에서, 사업자 정보 수집 시스템(3)은 전용선을 통하여 하나 이상의 정보 보유기관(11-13)과 통신 가능하게 연결될 수 있다. 또한 일 실시예에서, 사업자 정보 수집 시스템(3)은 URL(Uniform Resource Locator)을 이용한 호출 방식으로 사용자 장치(21-23)와 통신을 수행하도록 구성될 수 있다. 예컨대, 사업자 정보 수집 시스템(3)은 미리 정의된 API(Application Programming Interface)에 기반하여 사용자 장치(21-23)에 사업자 정보를 제공할 수 있다. In one embodiment, the operator information collection system 3 may be communicatively connected to one or more information holding organizations 11-13 through a dedicated line. Further, in one embodiment, the operator information collection system 3 may be configured to perform communication with the user devices 21-23 in a call method using a URL (Uniform Resource Locator). For example, the operator information collection system 3 may provide operator information to user devices 21 to 23 based on a predefined application programming interface (API).

그러나, 실시예들에 따른 사업자 정보 수집 시스템(3)과 정보 보유기관(11-13) 및 사용자 장치(21-23) 사이의 통신 방식은 본 명세서에 기재된 것으로 한정되는 것은 아니다.However, the communication method between the operator information collection system 3, the information holding organization 11-13, and the user device 21-23 according to the embodiments is not limited to what is described herein.

일 실시예에서, 사업자 정보 제공 시스템(3)은 데이터 수집부(31), 데이터 인식부(32) 및 데이터 저장부(33)를 포함한다. 일 실시예에서, 사업자 정보 제공 시스템(3)은 데이터 정제부(34)를 더 포함한다. 또한 일 실시예에서, 사업자 정보 제공 시스템(3)은 신규데이터 분석부(35)를 더 포함한다. 나아가 일 실시예에서, 사업자 정보 제공 시스템(3)은 데이터 활용부(36)를 더 포함한다. In one embodiment, the operator information providing system 3 includes a data collection unit 31 , a data recognition unit 32 and a data storage unit 33 . In one embodiment, the operator information providing system 3 further includes a data purification unit 34 . Also, in one embodiment, the operator information providing system 3 further includes a new data analysis unit 35 . Furthermore, in one embodiment, the operator information providing system 3 further includes a data utilization unit 36 .

본 명세서에서 사업자 정보 수집 시스템(3)을 구성하는 각각의 장치는 반드시 물리적으로 구분되는 별개의 구성요소를 지칭하는 것으로 의도되지 않는다. 즉, 도 1에서 사업자 정보 수집 시스템(3)을 구성하는 각 부(31-36)와 각 부(31-36)에 포함된 데이터베이스(database; DB) 또는 세부적인 부 등은 서로 구분되는 별개의 블록으로 도시되었으나, 이는 사업자 정보 수집 시스템(3)을 이에 의해 실행되는 동작에 의해 기능적으로 구분한 것이다. 실시예에 따라서는 전술한 각 부분 중 일부 또는 전부가 동일한 하나의 장치 내에 집적화될 수 있으며, 또는 하나 이상의 부분이 다른 부분과 물리적으로 구분되는 별개의 장치로 구현될 수도 있다. 예컨대, 사업자 정보 수집 시스템(3)을 구성하는 각각의 장치들은 분산 컴퓨팅 환경 하에서 서로 통신 가능하게 연결된 컴포넌트들일 수도 있다. In this specification, each device constituting the business operator information collection system 3 is not necessarily intended to refer to a separate physically distinct component. That is, in FIG. 1, each unit 31-36 constituting the business operator information collection system 3 and a database (DB) or detailed unit included in each unit 31-36 are separated from each other. Although shown as a block, this functionally divides the operator information collection system 3 by the operation executed by it. Depending on embodiments, some or all of the aforementioned parts may be integrated into the same device, or one or more parts may be implemented as a separate device physically separated from other parts. For example, each device constituting the business operator information collection system 3 may be components communicatively connected to each other under a distributed computing environment.

데이터 수집부(31)는 하나 이상의 정보 보유기관(11-13)으로부터 사업자 정보에 관련된 데이터를 수집하도록 구성된다. 이때 사업자 정보에 관련된 데이터란, 각각의 정보 보유기관(11-13)이 독자적인 양식에 의해 제공하는 사업자 정보로서 사업자 정보 수집 시스템(3)에 의한 표준화 등 가공이 이루어지기 전의 원시(raw) 데이터를 의미한다. The data collection unit 31 is configured to collect data related to operator information from one or more information holding organizations 11-13. At this time, data related to operator information is operator information provided by each information holding organization 11-13 in an independent form, and raw data before processing such as standardization by operator information collection system 3 is performed. it means.

데이터 인식부(32)는 데이터 수집부(31)에 수신된 사업자 정보의 원시 데이터를 미리 설정된 복수 개의 데이터 항목에 매칭시키도록 구성된다. 이때 복수 개의 데이터 항목이란 표준화된 사업자 정보를 구성하는 개별 정보 항목들의 구분을 의미하는 것으로서, 예를 들어, 데이터베이스의 각 칼럼(column)일 수 있다. 데이터 항목들은 사업자 정보를 표준화하여 저장하기 위하여 사업자 정보의 특징에 맞게 설정되며, 예를 들어, 하기 표 1에 예시된 것 중 하나 또는 복수 개를 포함할 수 있으나, 이에 한정되는 것은 아니다. The data recognition unit 32 is configured to match the raw data of the business operator information received by the data collection unit 31 with a plurality of preset data items. In this case, the plurality of data items means the division of individual information items constituting the standardized operator information, and may be, for example, each column of a database. Data items are set according to characteristics of operator information in order to standardize and store operator information, and may include, for example, one or a plurality of items exemplified in Table 1 below, but are not limited thereto.

사업자등록번호Company Registration Number 사업자휴폐업정보Business Closure Information 등록자IDRegistrant ID 사업자구분Classification of businesses 사업자휴폐업정보갱신일Date of renewal of business closure information 등록일시Registration date 사업자종사업자번호business type business number 사업자과세유형변경일Business tax type change date 수정자IDModifier ID 사업자회사명Business company name 사업자법인등록번호Business corporation registration number 수정일시date of modification 사업자대표자명Business representative name 사업자코드business code 사업자팩스번호business fax number 사업자상태business status 사업자대표사업장우편번호Postal code of representative business place 사업자알림공지Business Notice Notice 사업자대표사업장우편주소Mailing address of representative business place 사업자담당직원Business person in charge 사업자대표사업장상세주소Detailed address of representative business place 사업자부가정보Additional business information 사업자대표업종코드Business representative industry code 사업자메모business memo 사업자업종명business name 사업자위도business latitude 사업자대표업태코드Business representative business status code 사업자경도business hardness 사업자업태명business name

데이터 인식부(32)는, 각각의 정보 보유기관(11-13)이 독자적인 양식으로 제공하는 원시 데이터들을 전술한 데이터 항목들로 구성된 표준화된 사업자 정보의 양식에 매칭시킬 수 있다. 이때, 데이터 인식부(32)는, 각 데이터 항목들에 대해 미리 설정된 순서에 기초하여 각 데이터 항목의 후보데이터를 순차적으로 결정하는 방식으로 데이터 항목에 원시 데이터를 매칭시킬 수 있다. The data recognizing unit 32 may match raw data provided in an independent form by each information holding organization 11 to 13 with a form of standardized business information composed of the above-described data items. In this case, the data recognizer 32 may match raw data to data items in a manner of sequentially determining candidate data of each data item based on a preset order for each data item.

더 구체적으로는, 데이터 인식부(32)는 각 데이터 항목별 인식 규칙에 따라 원시 데이터의 각 데이터값을 데이터 항목에 매칭시키되, 선행하는 데이터 항목의 후보데이터를 결정한 후, 다음으로 후행하는 데이터 항목에 대해 후보데이터를 결정한 결과 인식 결과가 확정된 데이터를 후보데이터로부터 소거하는 방식으로 각 데이터 항목에 매칭될 값을 결정할 수 있다. 이에 대해서는 도 2 및 도 3을 참조하여 상세히 후술한다. More specifically, the data recognition unit 32 matches each data value of raw data with a data item according to a recognition rule for each data item, determines the candidate data of the preceding data item, and then determines the data item that follows the next data item. A value to be matched with each data item may be determined by deleting the data for which the recognition result is determined as a result of determining the candidate data for . This will be described later in detail with reference to FIGS. 2 and 3 .

데이터 저장부(33)는 원시 데이터로부터 복수 개의 데이터 항목에 매칭된 값들을 표준화된 사업자 정보로 저장하도록 구성된다. 이를 위하여, 데이터 저장부(33)는 표준화된 사업자 정보가 저장되는 사업자 DB(331)를 포함한다. 또한, 데이터 저장부(33)는 서로 상이한 형태의 원시 데이터를 표준화하기 위해 전술한 데이터 항목들과 이에 대한 인식 규칙들로 구성된 표준화된 사업자 정보의 양식 정보가 저장된 양식 DB(332)를 포함할 수 있다. The data storage unit 33 is configured to store values matched to a plurality of data items from raw data as standardized operator information. To this end, the data storage unit 33 includes an operator DB 331 in which standardized operator information is stored. In addition, the data storage unit 33 may include a form DB 332 in which form information of standardized operator information composed of the above-described data items and recognition rules for standardizing raw data of different forms is stored. there is.

일 실시예에서, 데이터 저장부(33)의 양식 DB(332)는 규칙에 기반하여 데이터 항목에 매칭되지 않는 표현들의 매칭을 용이하게 하기 위한 각 데이터 항목별 예외어 정보(예컨대, 예외어 사전)를 포함하며, 후보데이터의 순차적 할당과 소거를 통해 특정 데이터 항목에 매칭된 데이터 중 기존에 예외어로 등록되어 있지 않은 표현은 새롭게 예외어 정보로 저장함으로써 향후 데이터 매칭이 용이하도록 할 수도 있다. In one embodiment, the form DB 332 of the data storage unit 33 includes exception word information (eg, exception word dictionary) for each data item to facilitate matching of expressions that do not match data items based on rules. Including, among data matched to a specific data item through sequential assignment and deletion of candidate data, expressions not previously registered as exception words are newly stored as exception word information, thereby facilitating data matching in the future.

정보 보유기관(11-13)들은 각자 독자적인 양식으로 사업자 정보를 제공하기 때문에, 데이터 인식부(32)에 의한 매칭 과정을 통해 표준화된 사업자 정보는 데이터 항목들에 매칭된 값이 부분적으로만 동일한 중복 데이터를 포함하는 경우가 있다. 이 경우, 데이터 정제부(34)는 표준화된 사업자 정보 내의 중복 데이터를 탐지하고 데이터의 병합 및/또는 삭제를 통하여 중복 데이터를 제거하는 기능을 한다. 예를 들어, 데이터 정제부(34)의 중복 제거부(341)는 데이터 항목에 매칭된 값의 유사도 또는 표준화된 사업자 정보의 호출 패턴에 기초하여 중복 데이터 간의 우선순위를 결정하고 이에 따라 중복 데이터를 제거할 수 있다. Since the information holding organizations 11 to 13 provide business operator information in their own form, standardized business operator information through the matching process by the data recognition unit 32 overlaps with only partially identical values matched to data items. It may contain data. In this case, the data refiner 34 functions to detect redundant data in the standardized operator information and remove redundant data through data merging and/or deletion. For example, the duplicate removal unit 341 of the data refining unit 34 determines the priority of duplicate data based on the similarity of values matched to data items or the calling pattern of standardized operator information, and removes duplicate data accordingly. can be removed

일 실시예에서, 데이터 정제부(34)는 오류 탐지부(342)를 더 포함한다. 오류 탐지부(342)는 중복 제거부(341)에 의하여 탐지된 중복 데이터에서 각 데이터 항목에 매칭된 값들을 토대로 데이터 항목의 매칭 규칙에 대한 오류 데이터를 생성하는 기능을 한다. 사업자 정보 제공 시스템(3)은 이러한 오류 데이터를 기반으로 양식 DB(332)의 각 데이터 항목과 데이터 값 사이의 매칭 규칙을 갱신함으로써 향후 오류 가능성을 줄일 수 있다. In one embodiment, the data cleaning unit 34 further includes an error detection unit 342. The error detection unit 342 functions to generate error data for a matching rule of a data item based on values matched to each data item in the redundant data detected by the duplicate removal unit 341 . The operator information providing system 3 can reduce the possibility of future errors by updating the matching rule between each data item and data value of the form DB 332 based on such error data.

신규데이터 분석부(35)는 정보 보유기관으로부터 발생된 사업자 관련 신규 데이터에 대하여 이와 관련된 기존 사업자 정보와의 유사도 및 사업자 정보에 대한 정보 수요자들의 호출 패턴 등을 등을 토대로 신규데이터에 대한 분석을 수행할 수 있다. 또한, 신규데이터 분석부(35)는 이러한 분석 결과를 토대로 표준화된 신규데이터를 선택적으로 표준화된 사업자 정보에 추가할 수 있다. The new data analysis unit 35 analyzes the new data based on the similarity with the existing business operator information related to the new data generated from the information holding institution and the call patterns of information consumers for the business information. can do. In addition, the new data analysis unit 35 may selectively add standardized new data to the standardized operator information based on the analysis result.

데이터 활용부(36)는 사용자 장치(21-23)로부터 사업자 정보에 대한 호출 요청을 수신하고, 이에 따라 사업자 DB(331)에 저장된 표준화된 사업자 정보 중 사용자의 호출 요청에 부합하는 사업자 정보를 사용자 장치(21-23)에 제공할 수 있다. 본 명세서에서 호출 요청이란, 특정 사업자 또는 사업자 정보의 하나 이상의 정보 항목을 지정하여 검색 또는 수신할 사업자 정보를 특정하는 것을 지칭한다. The data utilization unit 36 receives a call request for operator information from the user device 21-23, and accordingly, provides operator information that meets the user's call request among standardized operator information stored in the operator DB 331 to the user. Devices 21-23 may be provided. In this specification, a call request refers to specifying operator information to be retrieved or received by designating a specific operator or one or more information items of operator information.

일 실시예에서, 데이터 활용부(36)는 정보 수요자가 특히 관심 있을 것으로 예상되는 사업자 정보들을 추천 데이터로 생성하여 이를 사용자 장치(21-23)에 제공하는 기능을 수행할 수도 있다. 예를 들어, 데이터 활용부(36)는 사업자 정보에 대한 사용자들의 호출 패턴을 분석하고, 표준화된 사업자 정보에서 이러한 호출 패턴에 부합하는 특정 데이터 항목의 값을 포함하는 사업자 정보들을 추천 데이터로 제공할 수 있다. 구체적인 추천의 종류와 과정에 대해서는 상세히 후술한다. In one embodiment, the data utilization unit 36 may perform a function of generating recommendation data of business information that is expected to be of particular interest to the information consumer and providing it to the user devices 21 to 23 . For example, the data utilization unit 36 analyzes call patterns of users for operator information, and provides operator information including a value of a specific data item corresponding to the call pattern in standardized operator information as recommendation data. can The specific type and process of recommendation will be described later in detail.

도 2는 일 실시예에 따른 사업자 정보 수집 방법의 각 단계를 나타내는 순서도이다. 설명의 편의를 위하여, 도 1 및 도 2를 참조하여 본 실시예에 따른 사업자 정보 수집 방법에 대하여 설명한다. 2 is a flowchart illustrating each step of a method for collecting operator information according to an embodiment. For convenience of explanation, a method for collecting business operator information according to the present embodiment will be described with reference to FIGS. 1 and 2 .

먼저, 사업자 정보 수집 시스템(3)의 데이터 수집부(31)는 하나 이상의 정보 보유기관(11-13)으로부터 사업자 정보 관련 데이터를 수집할 수 있다(S11). 예를 들어, 데이터 수집부(31)는 사업자 정보 수집 시스템(3)과 정보 보유기관(11-13)의 서버 간 직접 연결 방식으로 정보 보유기관(11-13)에 통신 가능하게 연결되어 데이터를 수신할 수 있으나, 이에 한정되는 것은 아니다. First, the data collection unit 31 of the operator information collection system 3 may collect operator information-related data from one or more information holding organizations 11 to 13 (S11). For example, the data collection unit 31 is communicatively connected to the information holding organization 11-13 through a direct connection method between the operator information collection system 3 and the server of the information holding organization 11-13 to collect data. It can be received, but is not limited thereto.

데이터 수집부(31)는 정보 보유기관(11-13)으로부터 수집된 데이터를 가상의 DB 테이블에 저장할 수 있다. 이때 테이블은 정보 보유기관(11-13)별로 서로 상이한 규격의 데이터들을 그대로 저장할 수 있도록 예컨대 제목 및 본문으로만 구성되어, 정보 보유기관(11-13)으로부터 수신된 각 데이터는 하나의 칼럼에 저장될 수 있다. 예를 들어, 데이터 수집부(31)는 수신된 데이터에 수신 순서대로 고유 식별자를 부여하여 데이터를 분류할 수 있다. The data collecting unit 31 may store data collected from the information holding organizations 11 to 13 in a virtual DB table. At this time, the table consists of, for example, only the title and body so that data of different specifications can be stored for each information holding organization 11-13 as it is, and each data received from the information holding organization 11-13 is stored in one column. It can be. For example, the data collection unit 31 may classify the received data by assigning unique identifiers to the received data in the order of reception.

사업자 정보 수집 시스템(3)의 데이터 인식부(32)는, 데이터 수집부(31)에 수집된 데이터의 내용을 사업자 정보의 특징을 활용하여 어떤 종류의 데이터인지 그 내용을 인식하고(S12), 인식 결과에 기반하여, 정보 보유기관(11-13)이 제공하는 원시 데이터를 양식 DB(332)의 표준화된 데이터 항목에 매칭시킬 수 있다(S13). The data recognition unit 32 of the operator information collection system 3 recognizes the contents of the data collected by the data collection unit 31 by utilizing the characteristics of the operator information to recognize what kind of data it is (S12), Based on the recognition result, raw data provided by the information holding organizations 11-13 may be matched with standardized data items of the form DB 332 (S13).

이때 인식의 정확도를 높이고 잘못된 종류의 정보로 인식되는 가능성을 줄이기 위하여, 데이터 인식부(32)는 하나의 원시 데이터를 표준 양식의 데이터 항목(예컨대, 각 칼럼)들과 순차적으로 비교하여 후보순위를 지정하고 매칭이 완료된 데이터를 삭제하는 방식으로 원시 데이터의 내용을 인식하고 이를 표준 양식에 매칭시킬 수 있다. At this time, in order to increase the accuracy of recognition and reduce the possibility of being recognized as the wrong type of information, the data recognition unit 32 sequentially compares one raw data with data items (eg, each column) of a standard format to determine candidate rankings. By designating and deleting matched data, the content of raw data can be recognized and matched to a standard form.

도 3은 일 실시예에 따른 사업자 정보 수집 방법에서 사업자 정보의 각 칼럼값을 결정하는 과정을 설명하기 위한 개념도이다. 3 is a conceptual diagram illustrating a process of determining each column value of operator information in a method for collecting operator information according to an embodiment.

도 3을 참조하면, 정보 보유기관으로부터 사업자 정보의 원시 데이터에 해당하는 데이터 패키지(400)가 수신되었으며 데이터 패키지(400)는 3078168243(401), 김가네(402), 홍길동(403), 서울시(404), 식당(405)의 문자열들을 포함하는 것으로 가정한다. 이때, 사업자 정보의 표준 양식의 각 칼럼(즉, 데이터 항목)이 사업자 번호, 업태/업종, 사업자 회사명, 대표자명, 대표주소로 구성된다고 가정하면, 실시예들에 따른 사업자 정보 수집 방법에서는 각 칼럼들의 순서를 미리 지정하여 데이터 패키지(400)에서 순차적으로 각 칼럼에 해당하는 값을 소거하면서 인식할 수 있다. 예를 들어, 사업자 번호, 업태/업종, 사업자 회사명, 대표자명, 대표주소의 순서대로 인식이 이루어지는 것으로 가정한다. Referring to FIG. 3, a data package 400 corresponding to raw data of operator information has been received from an information holding institution, and the data package 400 includes 3078168243 (401), Gane Kim (402), Gil-dong Hong (403), and Seoul City (404). ), and the strings of the restaurant 405 are assumed to be included. At this time, assuming that each column (ie, data item) of the standard form of business information is composed of business number, type of business/type of business, business company name, representative name, and representative address, in the business operator information collection method according to the embodiments, each column By designating the order of the columns in advance, values corresponding to each column can be sequentially deleted from the data package 400 and recognized. For example, it is assumed that recognition is performed in the order of business number, type of business/type of business, business company name, representative name, and representative address.

데이터 패키지(400)로부터 각 칼럼에 해당하는 문자열은 인식 후 후보데이터로 지정될 수 있다. 후보데이터를 인식하는 과정에 대하여 사업자 번호의 인식 과정을 예로 들면, 숫자 10글자, 숫자와 하이픈(-)을 포함한 12글자, 또는 "일이삼사오육칠팔구영" 중의 글자들로 이루어진 문자열을 추출함으로서 해당 문자열을 사업자 번호로 인식하도록 인식 규칙이 설정될 수 있다. A character string corresponding to each column from the data package 400 may be designated as candidate data after being recognized. For the process of recognizing candidate data, taking the business operator number recognition process as an example, extracting a string consisting of 10 numbers, 12 letters including numbers and hyphens (-), or letters among "one, three, four, six, seven eight nines", the corresponding character string Recognition rules may be set to recognize as an operator number.

일 실시예에서는, 이와 같이 추출된 문자열을 사업자 번호의 구성인 숫자 3개 - 숫자 2개 - 숫자 5개의 형태로 변환할 수도 있다. 이를 위하여, 하이픈 없이 숫자 10개로 구성된 문자열은 숫자 3개, 2개 및 5개로 분리하여 하이픈을 삽입할 수 있으며, 한글로 구성된 문자열은 숫자로 변환한 후 분리하여 하이픈을 삽입할 수 있다. 또한, 02-1234-5678처럼 숫자는 10자리이나 숫자3개 - 2개 - 5개 사이가 아닌 다른 구성으로 하이픈이 포함된 경우 하이픈을 제거한 후 숫자 3개 - 2개 - 5개로 분리할 수도 있다. In one embodiment, the string extracted in this way may be converted into a form of 3 numbers - 2 numbers - 5 numbers, which is a component of the business operator number. To this end, a string consisting of 10 numbers without a hyphen can be separated into 3, 2, and 5 numbers and hyphens can be inserted, and a string consisting of Korean characters can be converted into numbers and then separated to insert hyphens. Also, if the number contains hyphens in a configuration other than 10 digits or between 3 numbers - 2 - 5, such as 02-1234-5678, it can be separated into 3 numbers - 2 - 5 after removing the hyphen. .

일 실시예에서는, 맨 앞자리에 0이 오는 등 사업자 정보가 가질 수 없는 형식에 대해서는 이를 제외 규칙으로 지정하여, 02-1234-5678과 같이 사업자 번호가 아닌 다른 숫자 정보를 필터링할 수도 있다. In one embodiment, for a format that business information cannot have, such as a leading 0, this may be designated as an exclusion rule, and other numeric information other than business number, such as 02-1234-5678, may be filtered.

또한 업태 및 업종의 인식 과정에 대하여 설명하면, 데이터 패키지(400) 내의 문자열로부터 시스템운용및관리업, 본인신용정보관리업, 핀테크서비스업, 광고대행, 홍보대행 등과 같이 "~업", "~대행" 등으로 미리 설정된 문자가 특정 위치에 포함된 단어, 또는 의원, 서비스, 부동산, 낚시 등과 같이 단어의 의미 자체가 업종 또는 업태의 속성을 지니는 것으로 사전에 설정된 단어를 업태/업종으로 인식할 수 있다. 또한, 전자세금계산서, 사업자등록증의 업태 정보, 종목 정보 등을 이용하여 업태가 될 수 있는 단어와 업종이 될 수 있는 단어를 학습하고, 이러한 단어를 후보데이터로 지정하도록 인식 규칙을 결정할 수도 있다. In addition, when explaining the process of recognizing the type of business and type of business, from the string in the data package 400, "~ up", "~ agency" such as system operation and management, personal credit information management, fintech service, advertising agency, public relations agency, etc. It is possible to recognize a preset word as a type of business/type of business, such as a word in which a preset character is included in a specific position, or a word whose meaning itself has attributes of a type of business or type of business, such as a clinic, service, real estate, or fishing. In addition, a recognition rule may be determined to learn words that can be business types and words that can be business types using electronic tax invoices, business type information of business registration certificates, item information, and the like, and designate these words as candidate data.

일 실시예에서, 인식 규칙으로 정의되지 않더라도 과거 데이터 분석을 통해 해당 칼럼 값으로 저장된 문자열을 예외어 정보로 저장하며, 데이터 인식 과정에서 예외어 정보를 참조하여 예외어를 포함된 문자열을 후보데이터로 결정할 수도 있다. 예를 들어, 예외어 정보는 예외어 사전의 형태를 가지며, 인식 규칙에 따라 예외어 사전에 등록된 문자열을 업태/업종 등 해당 칼럼의 후보데이터로 결정할 수도 있다. In one embodiment, even if it is not defined as a recognition rule, a character string stored as a corresponding column value through past data analysis is stored as exception word information, and a character string including the exception word is used as candidate data by referring to the exception word information in the data recognition process. may decide For example, the exceptional word information has the form of an exceptional word dictionary, and a character string registered in the exceptional word dictionary according to a recognition rule may be determined as candidate data of a corresponding column such as business type/type of industry.

그러나 이상에서 설명한 사업자 정보 및 업태/업종 등의 인식 및 제외 규칙은 본 발명의 실시예가 구현되는 대상 국가 등의 제도에 따라 상이할 수 있으므로, 본 명세서에 기재된 규칙에 의하여 본 발명의 범위가 제한되는 것은 아니다. However, since the recognition and exclusion rules for business information and business type/type of business described above may differ depending on the system of the target country where the embodiment of the present invention is implemented, the scope of the present invention is limited by the rules described in this specification. It is not.

이상의 동작에 의하여 사업자 정보의 원시 데이터의 각 문자열에 대하여 이를 하나 이상의 데이터 항목으로 분류하여 그 의미를 인식할 수 있다. 이때 원시 데이터의 의미 인식을 위한 칼럼은 사업자 정보의 표준화 양식과 동일할 수 있으나, 이에 한정되는 것은 아니며, 예를 들어 표 1을 참조하여 전술한 데이터 항목의 일부를 포함할 수도 있다. Through the above operation, each character string of raw data of business information can be classified into one or more data items and its meaning can be recognized. In this case, the column for recognizing the meaning of the raw data may be the same as the standardized form of operator information, but is not limited thereto, and may include, for example, some of the data items described above with reference to Table 1.

도 3에 도시된 데이터 패키지(400)의 문자열(401-405) 중 3078168243(401)은 사업자 번호의 후보데이터로 인식되었다고 가정한다. 이 경우 사업자 번호에 대해서는 다른 후보데이터가 존재하지 않으며 단 하나의 후보데이터만 확인되므로, 3078168243(401)의 의미는 사업자 번호로 확정된다. 이때, 데이터 패키지(400)에서 데이터 항목이 확정된 문자열은 소거하고, 나머지 문자열들에 대해서는 각 데이터 항목의 해당 여부를 순차적으로 판단하는 방식으로 인식이 이루어진다. It is assumed that 3078168243 (401) of the character strings 401 to 405 of the data package 400 shown in FIG. 3 is recognized as candidate data for a business operator number. In this case, since no other candidate data exists for the business operator number and only one candidate data is confirmed, the meaning of 3078168243 (401) is determined as the business operator number. At this time, the character string for which the data item is determined in the data package 400 is deleted, and the recognition is performed in a manner of sequentially determining whether each data item corresponds to the remaining character strings.

도면의 예에서는, 데이터가 확정된 사업자 번호 다음으로 업태/업종에 대한 인식이 이루어지며, 문자 기반의 인식 결과 김가네(402) 및 식당(405)이 업태/업종의 후보데이터로 결정되었다고 가정한다. 예를 들어, 데이터 패키지(400) 내의 배치 순서에 따라 김가네(402)가 후보데이터 1로 지정되며, 식당(405)이 후보데이터 2로 지정될 수 있다. In the example of the drawing, it is assumed that recognition of the type of business/type of business is performed next to the business number for which data is confirmed, and as a result of character-based recognition, Gane Kim 402 and restaurant 405 are determined as candidate data of the type of business/type of business. For example, Gane Kim 402 may be designated as candidate data 1 and restaurant 405 may be designated as candidate data 2 according to the arrangement order in the data package 400 .

다음으로 업태/업종에 후행하는 사업자 회사명 데이터 항목의 규칙에 기반하여 해당하는 문자열을 인식하되, 선행하는 데이터 항목의 후보데이터가 후행하는 데이터 항목의 후보데이터로 인식되는지 여부를 확인할 수 있다. 사업자 회사명 인식 결과 데이터 패키지(400)에서 김가네(402)가 사업자 회사명으로 인식되었을 경우, 김가네(402)는 업태/업종의 제2 후보데이터로부터 사업자 회사명의 후보데이터로 변경되고, 업태/업종의 후보데이터에서는 김가네(402)는 삭제되고 식당(405)이 제1 후보데이터로 변경된다. 데이터 패키지(400) 전체를 확인 결과 김가네(402)만이 사업자 회사명으로 인식되었으며 그 외의 다른 사업자 회사명을 인식하지 못하였을 경우, 김가네(402)가 사업자 회사명의 후보데이터로 확정된다. Next, it is possible to recognize a corresponding character string based on the rules of the operator company name data item following the type of business/industry, and check whether the candidate data of the preceding data item is recognized as the candidate data of the following data item. When Kimgane 402 is recognized as the operator company name in the operator company name recognition result data package 400, Kimgane 402 is changed from the second candidate data of the business type/type of business to the operator company name candidate data, and the business type/type of business In the candidate data of , Gane Kim 402 is deleted and the restaurant 405 is changed to the first candidate data. As a result of checking the entire data package 400, only Kimgane 402 is recognized as the operator's company name, and when other operator's company names are not recognized, Kimgane 402 is determined as candidate data for the operator's company name.

마찬가지로, 사업자 회사명에 후행하는 데이터 항목인 대표자명에 대해서는 다른 데이터 항목의 값으로 확정된 문자열들을 소거하고 나머지에 대한 인식을 진행하되, 선행하는 데이터 항목인 사업자번호, 업태/업종 및 사업자 회사명의 후보데이터에 대해서도 인식을 진행하며, 도 3의 예에서는 그 결과 홍길동(403)이 대표자명의 후보데이터로 인식될 수 있다. Similarly, for the representative name, which is a data item following the operator company name, the character strings determined as the values of other data items are deleted and the rest is recognized, but the preceding data items, business number, business type/type of business, and operator company name Candidate data is also recognized, and in the example of FIG. 3, as a result, Hong Gil-dong 403 can be recognized as representative name candidate data.

이상에서 설명한 과정과 같이, 복수 개의 데이터 항목(도 3의 예에서는 사업자번호, 업태/업종, 사업자 회사명, 대표자명, 대표주소)에 대해 미리 설정된 순서 및 인식 규칙에 기초하여 각 항목의 후보데이터들을 순차적으로 결정하고 이를 데이터 패키지(400)에서 소거하는 방식으로 인식을 진행하되, 후행하는 데이터 항목에서는 선행하는 데이터 항목의 후보데이터에 대해서도 인식 규칙을 적용할 수 있다. 순차적인 인식 결과 선행하는 데이터 항목의 후보데이터가 후행하는 데이터 항목의 값으로 최종 결정되는 경우(예컨대, 후행하는 데이터 항목의 후보데이터가 하나인 경우), 후행하는 데이터 항목에 중복 지정된 후보데이터를 선행하는 데이터 항목의 후보데이터로부터 삭제함으로써 각 데이터 항목에 매칭된 값을 결정하고 오인식의 가능성을 줄일 수 있다.As in the process described above, candidate data for each item based on a preset order and recognition rule for a plurality of data items (in the example of FIG. Recognition is performed by sequentially determining and erasing them from the data package 400, but recognition rules may also be applied to candidate data of preceding data items in subsequent data items. As a result of sequential recognition, when the candidate data of the preceding data item is finally determined as the value of the following data item (for example, when there is only one candidate data of the following data item), the candidate data duplicated in the following data item is preceded. By deleting the candidate data of the data item to be selected, it is possible to determine a value matched to each data item and reduce the possibility of misrecognition.

일 실시예에서는, 데이터 인식 과정에서 예외어 정보를 참조하여 예외어 정보에 포함된 문자열을 후보데이터로 결정할 수도 있다. 예를 들어, 예외어 정보는 예외어 사전의 형태를 가질 수도 있다. In an embodiment, a character string included in exception word information may be determined as candidate data by referring to exception word information in a data recognition process. For example, exception word information may have a form of an exception word dictionary.

예를 들어, "아두이노 스터디" 라는 문자열을 포함하는 데이터 패키지가 수집되었으나, 인식 규칙에 기반하여 업태/업종으로 확인되는 문자열이 검색되지 않았으며, 업태/업종의 예외어에 "스터디"가 존재하는 것으로 가정한다. 이 경우 예외어를 포함하는 "아두이노 스터디"를 업태/업종의 후보데이터로 결정할 수 있다. 일 실시예에서는, 전술한 것과 같이 타 데이터 항목의 데이터를 소거하는 방식으로 매칭을 진행한 결과 최종적으로 "아두이노 스터디"가 업태명 또는 업종명으로 결정되면, 결정된 문자열 중 이미 등록된 문자열을 제외한 다른 문자열, 즉, "아두이노"를 새로운 예외어로 저장하도록 예외어 정보를 갱신할 수도 있다. For example, a data package containing the string "Arduino Study" was collected, but a string identified as a business type/industry based on the recognition rule was not searched, and "study" exists as an exception word for the business type/industry. suppose to do In this case, "Arduino study" including an exception word can be determined as the candidate data for the type of business/industry. In one embodiment, as described above, when "Arduino Study" is finally determined as the business type or industry name as a result of matching in a manner of erasing data of other data items, other than the already registered character string among the determined character strings Exception word information may be updated to store a character string, that is, "Arduino" as a new exception word.

다시 도 1 및 도 2를 참조하면, 데이터 인식부(32)는 전술한 과정에 의하여 정의된 각 데이터 항목별 데이터 값을 표준화된 사업자 정보로서 사업자 DB(331)에 저장할 수 있다. 예를 들어, 전술한 데이터 인식 과정에 의하여 사업자 번호로 결정된 10자리의 숫자를 표준화된 사업자 정보의 "사업자 번호" 칼럼에 저장할 수 있다. 이때, 10자리 숫자가 000-00-00000의 형태가 되도록 숫자 3개, 2개 및 5개 사이에 하이픈을 추가하거나, 또는 수집된 데이터의 문자열에서 설명 문구는 삭제하는 등 수집된 데이터의 문자열을 가공할 수도 있다. Referring back to FIGS. 1 and 2 , the data recognizer 32 may store data values for each data item defined by the above process in the operator DB 331 as standardized operator information. For example, a 10-digit number determined as an operator number through the above-described data recognition process may be stored in a "business operator number" column of standardized operator information. At this time, the string of the collected data is changed by adding hyphens between 3, 2, and 5 numbers so that the 10-digit number is in the form of 000-00-00000, or deleting the explanatory phrase from the string of the collected data. can also be processed.

일 실시예에서, 사업자 정보 수집 시스템(3)은 국세청 서버(미도시) 또는 통계청 서버(미도시) 등과의 통신을 통하여 사업자 업태명/업종명에 매칭된 문자열이 실제 업종 및 업태 단어가 맞는지를 국세청 표준 귀속 업종코드, 한국표준산업분류 등과 대조하여 확인할 수도 있다. In one embodiment, the business information collection system 3 determines whether the character string matched with the business type/type of business name matches the actual type of business type and word of the business type through communication with the National Tax Service server (not shown) or the National Statistical Office server (not shown). It can also be confirmed by comparing it with the standard attribute industry code, Korea Standard Industrial Classification, etc.

일 실시예에서, 사업자 정보 수집 시스템(3)의 데이터 정제부(34)는 표준화된 사업자 정보에서 데이터 항목에 매칭된 값이 부분적으로 동일한 중복 데이터를 식별하고, 데이터의 병합 또는 삭제 등을 통하여 중복 데이터를 제거할 수 있다(S14). In one embodiment, the data refining unit 34 of the operator information collection system 3 identifies redundant data in which a value matched to a data item in the standardized operator information is partially identical, and duplicates data through merging or deletion of the data. Data can be removed (S14).

도 4는 일 실시예에 따른 사업자 정보 수집 방법에서 중복 데이터를 제거하고 오류를 탐지하는 과정의 각 단계를 나타내는 순서도이다. 4 is a flowchart illustrating each step of a process of removing redundant data and detecting an error in a method for collecting operator information according to an embodiment.

도 4를 참조하면, 본 실시예에서 사업자 정보 수집 시스템은 표준화된 사업자 정보를 소정의 데이터 항목의 값을 기준으로 정렬시켜 일부 데이터 항목(예컨대, 사업자번호, 사업자명 등)은 동일하지만 다른 일부 데이터 항목의 값이 불일치하는 중복 데이터들을 도출할 수 있다(S21). Referring to FIG. 4, in this embodiment, the business operator information collection system sorts standardized business operator information based on the value of a predetermined data item, so that some data items (eg, business number, business name, etc.) are the same, but some other data items are the same. Duplicate data with inconsistent item values may be derived (S21).

이때, 사업자 정보 수집 시스템은 표준화된 사업자 정보의 기존 데이터 분포 또는 표준화된 사업자 정보의 호출 패턴 등에 기초하여 중복 데이터 간의 우선순위를 결정하고(S22), 우선순위가 가장 높은 데이터를 실 데이터(real data)로 보아(S23) 이를 기준으로 나머지 중복 데이터를 병합 및/또는 삭제함으로써 중복 데이터를 제거할 수 있다(S24). 예를 들어, 사업자 정보 수집 시스템은 하나의 사업자의 사업자 정보는 각 칼럼에 1개씩의 데이터만을 포함하도록 중복 데이터 제거를 수행할 수 있다. At this time, the operator information collection system determines the priority between redundant data based on the existing data distribution of the standardized operator information or the call pattern of the standardized operator information (S22), and the data with the highest priority is called real data (real data). ) (S23), the redundant data can be removed by merging and/or deleting the remaining redundant data based on this (S24). For example, the operator information collection system may perform redundant data removal so that operator information of one operator includes only one piece of data in each column.

더 구체적으로는, 중복 데이터들과 비교할 때 칼럼에 기재된 문구가 공통된 기존 항목들을 확인하여, 중복 데이터 중 특정 사업자의 제1 칼럼(예컨대, 업태) 값의 우선순위를 결정하는 경우, 기존 유사 항목에서 해당 사업자 데이터와 제2 칼럼(예컨대, 업종)의 값이 유사한 항목을 추출할 수 있다. 다음으로, 추출된 유사 항목들의 제1 칼럼 값에 기초하여 대상 사업자의 제1 칼럼에 기재될 값의 우선순위를 부여할 수 있다. More specifically, in the case of determining the priority of the value of the first column (eg, type of business) of a specific business operator among duplicate data by identifying existing items in which the phrases written in the column are common when compared with duplicate data, in existing similar items An item having a similar value of the business operator data and the value of the second column (eg, type of business) may be extracted. Next, based on the values of the first column of extracted similar items, it is possible to prioritize values to be described in the first column of the target business operator.

예를 들어, 사업자명이 "OO마켓"이며 업종명이 "판매업"인 사업자의 데이터를 다수의 정보 보유기관으로부터 수집한 결과, 업태명이 "도소매", "도매", "소매", "서비스업" 등으로 서로 상이한 데이터가 수집되었다고 가정한다. 이 경우, 업태명이 서로 상이한 중복 데이터 간의 우선순위를 정하기 위하여, 기존의 사업자 데이터 중 업태 칼럼의 값이 "도소매", "도매", "소매", "서비스업" 등이면서 업종 칼럼의 값이 "OO마켓"의 업종명인 "판매업"과 유사한 데이터를 유사 사업자로 추출할 수 있다. 이와 같이 추출된 유사 사업자들의 업태가 "소매"인 경우가 가장 많다면, "OO마켓"의 사업자 데이터 중 업태명이 "소매"인 것을 실 데이터로 보고 이를 기준으로 중복 데이터를 제거할 수 있다. For example, as a result of collecting data from a number of information-holding organizations with a business name of "OO Market" and a business name of "sales", the business name is "wholesale", "wholesale", "retail", "service", etc. Assume that different data are collected. In this case, in order to prioritize redundant data with different business types, the value of the business type column among the existing business operator data is "wholesale and retail", "wholesale", "retail", and "service", and the value of the industry column is "OO Data similar to “sales business,” which is the business name of “market,” can be extracted as a similar business operator. If the type of business of the similar business operators extracted in this way is "retail" in most cases, the business name of "retail" among the operator data of "OO Market" is considered as real data, and redundant data can be removed based on this.

또는, 중복 데이터로 검출된 각 데이터 패키지에 점수를 부여하고 점수에 기반하여 칼럼 값의 우선순위를 부여할 수도 있다. 이때, 데이터 패키지에 부여되는 점수는 사업자 정보의 검증 여부 및/또는 대상 사업자 데이터에 대한 호출 건 수에 기초하여 결정될 수도 있다. Alternatively, a score may be assigned to each data package detected as redundant data, and column values may be prioritized based on the score. In this case, the score given to the data package may be determined based on whether operator information is verified and/or the number of calls for target operator data.

예를 들어, 사업자 데이터의 상세 주소 누락 여부, 대표자명 누락 여부, 전화번호 누락 여부, 또는 상세 주소나 전화번호가 실제로 존재하는 정보인지 여부 등을 검증하여 검증이 완료된 데이터 패키지에 더 높은 점수를 부여할 수 있다. 또한, 각 데이터 패키지에서 가장 많은 데이터 호출건수를 보유한 정보를 기준으로 호출 건 수가 많을수록 높은 점수가 부여되도록 데이터 항목별 점수를 책정하고(예컨대, 사업자등록번호 5점, 사업자명 4점, 대표자명 3점, 대표주소 3점, 대표전화번호 1점 등), 각 데이터 패키지가 가지고 있는 칼럼 별 호출 점수를 합산한 값, 예컨대, [패키지 1 : 사업자등록번호5+사업자명4+대표자명3], [패키지 2: 사업자등록번호5+대표주소3+대표전화번호1] 등으로 패키지별 점수를 합산하여 합산점수가 더 높은 데이터 패키지를 실 데이터로 보고, 이를 기준으로 중복 데이터 제거를 진행할 수도 있다. For example, a higher score is given to a data package that has been verified by verifying whether the detailed address of the business data, whether the name of the representative is missing, whether the phone number is missing, or whether the detailed address or phone number actually exists. can do. In addition, based on the information with the largest number of data calls in each data package, scores are set for each data item so that the higher the number of calls, the higher the score (e.g., business registration number 5 points, business name 4 points, representative name 3 points) point, representative address 3 points, representative phone number 1 point, etc.), the sum of call scores for each column of each data package, e.g., [Package 1: business registration number 5 + business name 4 + representative name 3], [Package 2: business registration number 5+representative address 3+representative phone number 1], etc., the scores for each package are summed up, and the data package with the higher sum score is regarded as real data, and redundant data can be removed based on this.

한편, 전술한 것과 같은 중복 데이터가 발생하는 것은 사업자 정보의 원시 데이터로부터 오류 데이터가 수집되었기 때문이다. 이를 방지하기 위하여, 일 실시예에서, 사업자 정보 제공 시스템은 전술한 중복 데이터에서 상기 데이터 항목에 매칭된 값에 기초하여 각 데이터 항목의 인식 규칙에 대한 오류 데이터를 생성함으로써 규칙 오류를 탐지하고(S23), 오류를 제거하도록 표준화된 사업자 정보의 데이터 인식과 매칭을 위한 규칙을 갱신할 수도 있다(S24). 이상의 과정은 표준화된 사업자 정보의 각 칼럼별로 수행될 수 있다. Meanwhile, the occurrence of duplicate data as described above is because error data is collected from raw data of operator information. In order to prevent this, in one embodiment, the operator information providing system detects a rule error by generating error data for the recognition rule of each data item based on the value matched to the data item in the above-described redundant data (S23 ), rules for data recognition and matching of standardized operator information may be updated to remove errors (S24). The above process may be performed for each column of standardized operator information.

예를 들어, 특정 정보 보유기관으로부터 수집된 사업자 데이터에서 누락된 데이터 항목이 있는 경우, 사업자 데이터의 필수값인 사업자 번호를 통해 해당 사업자를 특정하고, 중복 데이터 중 실 데이터로 결정된 데이터와 다른 중복 데이터 간의 칼럼 값의 차이를 검출할 수 있다. 예를 들어, 특정한 중복 데이터를 확인한 결과 전체 칼럼 값에 "<br>" 이라는 문자열이 더 포함되어 있어 다른 데이터와의 차이가 생긴 경우, "<br>" 이라는 문자열을 오류 데이터로 생성하고, 향후 수입되는 사업자 데이터에서는 인식 시 "<br>" 이라는 문자열을 자동으로 삭제하도록 인식 규칙을 갱신할 수 있다. For example, if there is a missing data item from business operator data collected from a specific information holding institution, the business operator is specified through the business operator number, which is a mandatory value of the business operator data, and the data determined as redundant data and other redundant data Differences in column values between livers can be detected. For example, as a result of checking specific redundant data, if there is a difference with other data because the string "<br>" is further included in the entire column value, the string "<br>" is created as error data, and in the future Recognition rules can be updated to automatically delete the string "<br>" when recognizing imported business data.

다시 도 1 및 도 2를 참조하면, 일 실시예에서, 사업자 정보 수집 시스템(3)의 신규데이터 분석부(35)는 정보 보유기관(11-13)들의 사업자 관련 데이터에 신규 데이터가 발생하는 경우, 신규 데이터와 기존 표준화된 사업자 정보의 유사도 및 사업자 정보에 대한 사용자들의 호출 패턴 등에 기반하여 신규데이터를 분석하고, 신규데이터를 선택적으로 표준화된 사업자 정보에 반영할 수 있다. Referring back to FIGS. 1 and 2, in one embodiment, the new data analysis unit 35 of the operator information collection system 3 generates new data in operator-related data of the information holding organizations 11-13. , New data can be analyzed based on the similarity between new data and existing standardized operator information and users' call patterns for operator information, and the new data can be selectively reflected in standardized operator information.

도 5는 일 실시예에 따른 사업자 정보 수집 방법에서 신규데이터를 분석하여 표준 양식을 갱신하는 과정의 각 단계를 나타내는 순서도이다. 5 is a flowchart illustrating each step of a process of updating a standard form by analyzing new data in a method for collecting business operator information according to an embodiment.

도 5를 참조하면, 사업자 정보 수집 시스템은 표준화된 사업자 정보로 새로 수집되는 신규데이터를 인식하고(S31), 신규데이터를 기존 사업자 정보의 유사 데이터 항목의 값과 비교함으로써 신규로 발생하는 데이터 중 기존 데이터에 없거나 미리 설정된 횟수 이상 반복적으로 수집되는 칼럼의 값을 결정할 수 있다(S32). 또한, 사업자 정보 수집 시스템은 신규데이터에 대한 검색 패턴 및 신규데이터의 값이 가지는 의미상 유사도에 기반하여 해당 데이터의 중요도를 결정하고(S33), 중요도가 일정 수준 이상인 신규데이터를 반영하도록 표준화된 사업자 정보의 데이터 항목을 갱신할 수 있다(S34). Referring to FIG. 5, the business operator information collection system recognizes new data newly collected as standardized business operator information (S31) and compares the new data with the value of similar data items of existing business operator information. A value of a column that does not have data or is repeatedly collected more than a preset number of times may be determined (S32). In addition, the operator information collection system determines the importance of the data based on the semantic similarity of the search pattern for the new data and the value of the new data (S33), and the operator standardized to reflect the new data whose importance is a certain level or higher. Data items of information can be updated (S34).

일 실시예에서, 신규데이터에 기초한 데이터 항목의 갱신이란, 표준화된 사업자 정보의 데이터 항목의 명칭에 대한 변경을 포함할 수 있으며, 데이터 항목의 명칭을 변경할지 여부는 변경 전의 데이터 항목의 문자열과 변경 후의 데이터 항목의 문자열에 대한 호출 패턴을 기초로 결정될 수 있다.In one embodiment, updating a data item based on new data may include a change to the name of a data item of standardized operator information, and whether or not to change the name of the data item is determined by changing the character string of the data item before the change. It can be determined based on the calling pattern for the character string of the later data item.

예를 들어, 기존의 표준화된 사업자 정보의 양식에 "회사소개" 라는 칼럼이 존재하는데, 정보 보유기관에서 제공하는 사업자 데이터에서 "회사비전" 이라는 문자열이 반복적으로 등장하였다고 가정한다. 이 경우, 사업자 정보 제공 시스템은 "회사비전"과 연관하여 제공되는 텍스트의 내용이 기존 사업자 정보의 "회사소개" 칼럼의 값과 동일한지 여부를 검사하고, 양 데이터가 동일한 문단 유형(예컨대, 핵심, 제공, 회사비전 등) 및/또는 동일한 단어들을 포함하는 것으로 확인될 경우, "회사비전" 이라는 문자열의 중요도에 기초하여 "회사소개" 칼럼을 "회사비전" 칼럼으로 변경할 것인지 여부를 결정할 수 있다. 이때, "회사비전" 문자열의 중요도는, 표준화된 사업자 정보를 호출하는 사용자들의 호출 패턴에서 "회사소개"와 "회사비전"을 비교하였을 때 어느 문자열의 호출 비율이 더 높은지 여부에 기초하여 결정될 수 있으나, 이에 한정되는 것은 아니다. For example, it is assumed that a column called "Company Introduction" exists in the existing standardized business information format, but a string of "company vision" repeatedly appears in business data provided by an information holding institution. In this case, the business information providing system checks whether the content of the text provided in connection with the "company vision" is the same as the value of the "company information" column of the existing business information, and the paragraph type in which both data are the same (e.g., core , provision, company vision, etc.) and/or the same words, it is possible to determine whether to change the "company information" column to the "company vision" column based on the importance of the string "company vision". . At this time, the importance of the "company vision" string may be determined based on which string has a higher call rate when comparing "company information" and "company vision" in the call patterns of users who call standardized operator information. However, it is not limited thereto.

다른 실시예에서, 신규데이터에 기초한 데이터 항목의 갱신이란, 표준화된 사업자 정보의 데이터 항목에 새로운 값을 추가하는 변경을 포함할 수 있으며, 새로운 값을 추가할지 여부는 추가될 칼럼 값의 문자열과 기존 데이터 항목에 매칭된 값의 유사도를 기초로 결정될 수 있다. In another embodiment, updating a data item based on new data may include a change to add a new value to a data item of standardized business operator information, and whether to add a new value depends on the string of the column value to be added and the existing value. It may be determined based on similarity of values matched to data items.

예를 들어, 특정 사업자에 대해 신규데이터로 수집된 데이터에서 "NFT"라는 단어가 업종 데이터로 일정 횟수(예컨대, 5회) 이상 등장하는 경우, "NFT"가 포함된 사업자 데이터를 기존의 표준화된 사업자 정보와 비교하여 유사도를 산출할 수 있다. 유사도의 산출은 기존 사업자 정보의 회사소개, 대표자 메시지, 투자 정보 등 문자열과 "NFT"의 유사도에 기초하여 결정될 수 있다. 유사도의 산출은 공지된 또는 향후 개발될 임의의 단어 유사도 측정 기술에 기반하여 수행될 수 있으므로, 발명의 요지를 명확하게 하기 위하여 본 명세서에서 이에 대한 상세한 설명은 생략한다. 예를 들어, 기존 사업자 정보의 업종의 사전상 의미와 "NFT"의 사전상 의미의 유사도 수치가 미리 설정된 기준(예컨대, 0.8)을 넘으면 "NFT"를 새로운 업종 값의 하나로 업종 데이터 항목의 인식 규칙에 반영할 수 있다. For example, if the word "NFT" appears in the data collected as new data for a specific business operator more than a certain number of times (eg, 5 times) as industry data, operator data containing "NFT" is compared to the existing standardized data. Similarity can be calculated by comparing with operator information. Calculation of the similarity may be determined based on the similarity between the string and "NFT", such as company introduction, representative message, investment information, etc. of existing business information. Since the calculation of the similarity can be performed based on any word similarity measuring technology known or to be developed in the future, a detailed description thereof is omitted in the present specification to clarify the subject matter of the present invention. For example, if the similarity value between the dictionary meaning of the industry of existing business information and the dictionary meaning of "NFT" exceeds a preset standard (eg, 0.8), "NFT" is set as one of the new industry values Recognition rule for industry data items can be reflected in

다시 도 1을 참조하면, 일 실시예에서 사업자 정보 제공 시스템(3)의 데이터 활용부(36)는 표준화된 사업자 정보에 대한 사용자들의 호출 요청을 수신함으로써 사용자들의 호출 패턴을 결정하고, 호출 패턴 및 데이터 항목에 매칭된 값에 기초한 추천 데이터를 생성하여 정보 수요자들의 사용자 장치(21-23)에 제공할 수 있다. Referring back to FIG. 1, in one embodiment, the data utilization unit 36 of the operator information providing system 3 determines call patterns of users by receiving call requests from users for standardized operator information, and determines call patterns and Recommendation data based on values matched with data items may be generated and provided to user devices 21 to 23 of information consumers.

일 실시예에서, 사업자 정보 제공 시스템(3)은 정보 수요자들의 사용자 장치(21-23)로부터 사업자 정보에 대한 호출 시 해당 정보 수요자의 특성 정보(예컨대, 어떤 서비스를 하는 회사인지)를 수신하고, 정보 수요자의 특성 별로 사업자 정보에 대한 호출 패턴을 수집 및 분석하여, 각 정보 수요자에게 유사 분류로 구분되는 다른 정보 수요자들의 호출 패턴에 기초하여 결정된 사업자 정보를 추천 데이터로 제공할 수 있다. In one embodiment, the operator information providing system 3 receives characteristic information (eg, what kind of service the company provides) of the information consumer when calling for operator information from the user devices 21-23 of the information consumers, By collecting and analyzing call patterns for operator information for each information consumer's characteristics, operator information determined based on call patterns of other information consumers classified into similar categories can be provided to each information consumer as recommendation data.

예를 들어, 정보 수요자 중 증권사에 해당하는 A업체가 조회하는 사업자 정보의 유형을 분석한 결과 조회한 사업자 정보의 사업자들의 업태가 "서비스업"인 건 수가 80% 이상이며, 그 중 업종이 "메타버스"인 경우가 60% 이상인 것으로 가정한다. 이 경우, 사업자 정보 제공 시스템은 다른 정보 수요자들 중 A업체와 동일한 증권사 업종에 해당하는 B 업체 또는 A업체와 유사한 서비스 구조를 가진 C업체에 대하여 A업체의 호출 패턴에 기초하여 결정된 "서비스업" 업태 및 "메타버스" 업종의 사업자 정보 또는 이러한 사업자 정보에 대한 검색을 제안하는 내용을 추천 데이터로 제공할 수 있다. For example, as a result of analyzing the type of business information requested by company A, which corresponds to a securities company, among information consumers, more than 80% of the business types of business operators in the business information inquired were "service", and among them, the industry was "meta". It is assumed that the case of "bus" is more than 60%. In this case, the business information providing system determines the type of "service business" determined based on the calling pattern of company A for company B, which is in the same securities industry as company A, or company C, which has a similar service structure to company A, among other information consumers. And business information of the "metaverse" industry or contents suggesting a search for such business information may be provided as recommendation data.

또 다른 예로, 전술한 예에서 A업체는 대량의 사업자 정보를 한 번에 호출하여 부하를 유발하는 것으로 가정한다. 이 경우, A업체의 호출 패턴에 부합하는 "서비스업" 업태 및 "메타버스" 업종의 사업자 정보를 별도로 분류하여, 분류된 사업자 정보 중 변경이 발생하거나 신규로 발생된 사업자 정보를 추천 데이터로서 A업체에 제공할 수도 있다. As another example, it is assumed that company A causes load by calling a large amount of operator information at once in the above example. In this case, business information of the "service" business type and "metabus" business type matching the calling pattern of company A is separately classified, and among the classified business information, changed or newly generated business information is used as recommendation data for company A. can also be provided.

다른 실시예에서, 사업자 정보 제공 시스템은 표준화된 사업자 정보를 하나 이상의 기준에 기초하여 카테고라이징(categorizing)하고, 카테고라이징된 사업자 정보를 위치, 업종, 업태 등을 기반으로 분류하여 제공하거나, 또는 정보 수요자의 사용자 장치(21-23)로부터 정보 수요자의 위치 정보를 수신하고 이에 부합하는 사업자 정보를 추천 데이터로 제공할 수 있다. 또는/또한, 사업자 정보 제공 시스템은 이와 같이 카테고라이징된 사업자 정보의 변동 추이에 대한 정보 또는 이에 대한 호출 패턴에 대한 정보 등을 추천데이터로 제공할 수도 있다. In another embodiment, the operator information providing system categorizes standardized operator information based on one or more criteria, classifies and provides the categorized operator information based on location, type of business, type of business, etc. Alternatively, location information of the information consumer may be received from the user devices 21 to 23 of the information consumer, and business information corresponding thereto may be provided as recommendation data. Alternatively, the operator information providing system may provide recommendation data, such as information on a trend of change in the categorized operator information or information on a calling pattern thereof.

예를 들어, 사업자 정보 제공 시스템은 사업자 정보의 주소 정보를 좌표 정보로 치환하여 이를 표준화된 사업자 정보의 칼럼에 저장하고, 좌표 정보에 기초하여 사업자 정보를 지도 형태의 서비스로 제공하거나, 또는/또한 정보 수요자의 주소 또는 선택에 기반한 특정 위치로부터 미리 설정된 거리 내에 위치한 사업자들의 사업자 정보를 상권 정보의 형태로 제공할 수 있다. 예컨대, 상권 정보는, 특정 지역 내에 위치한 사업자들의 이름, 사업자 수 및 업종 등의 정보를 포함할 수 있다. For example, the operator information providing system replaces address information of operator information with coordinate information, stores it in a column of standardized operator information, and provides operator information as a service in the form of a map based on the coordinate information, or/or Business information of business operators located within a predetermined distance from a specific location based on the address or selection of the information consumer may be provided in the form of commercial district information. For example, commercial area information may include information such as the names of businesses located in a specific area, the number of businesses, and types of business.

다른 예로, 사업자 정보 제공 시스템은 업태 또는 업종에 따른 사업자 수 및/또는 사업자 정보의 변화 추이에 대한 정보를 제공하거나, 좌표를 기반으로 한 정보와 업태/업종을 기반으로 한 정보를 함께 이용하여 큐레이션된 추천 데이터를 제공할 수도 있다. 예를 들어, 예비창업자를 위하여 예비창업자가 특정 지역을 선택 또는 입력하면 해당 지역에서 사업자 수가 적은 업종이나 상권을 추출하여, 신규 사업체로 추천할만한 사업 종목을 추천 데이터로 제공할 수 있다. As another example, the operator information providing system provides information on the number of operators and/or trends in operator information according to business type or type of business, or uses coordinate-based information and business type/type of business information together to provide queue It is also possible to provide customized recommendation data. For example, if a prospective founder selects or inputs a specific region for a prospective entrepreneur, an industry or commercial district with a small number of entrepreneurs in the region may be extracted, and business items that may be recommended as new businesses may be provided as recommendation data.

또 다른 예로, 사업자 정보 제공 시스템은 시계열 흐름에 따른 사업자 정보의 호출 패턴이나 이러한 호출 패턴에 대응하기 위해 사전 검색된 사업자 정보를 추천 데이터로 제공할 수도 있다. 예를 들어, 오전 9시에는 은행의 영업이 개시되면서 대출 심사를 위하여 사업자 정보의 요청 건 수가 증가하며, 3월, 6월, 9월, 12월 등에는 분기 마감 및 연간 정산 마감으로 인해 다수 사업체에서 사업자 정보의 요청 건 수가 증가하는 등, 정보 수요자의 특성 별로 사업자 정보를 특히 필요로 하는 특정 시간 또는 시기(기간)를 갖는 경우가 있다. 이 경우, 사업자 정보 제공 시스템은 예를 들어 분기 보고서가 요구되어지는 법인 사업자 정보(사업자 번호를 통해 법인사업자만 미리 별도 분리)를 미리 데이터 셋으로 구성하는 등 시계열 흐름에 따른 데이터 호출 패턴을 파악하고 호출 패턴에 대응되는 데이터 셋을 추천 데이터로 제공할 수도 있다. As another example, the operator information providing system may provide a call pattern of operator information according to a time series flow or operator information pre-searched to correspond to the call pattern as recommendation data. For example, at 9:00 am, as banks open, the number of requests for business information for loan review increases. There is a case where there is a specific time or period (period) in which operator information is particularly required for each information consumer's characteristics, such as an increase in the number of requests for operator information. In this case, the operator information providing system identifies the data call pattern according to the time series flow, such as configuring the corporate operator information (separately separating only the corporate operator through the operator number in advance) for which a quarterly report is required as a data set in advance, A data set corresponding to a calling pattern may be provided as recommendation data.

이상에서 설명한 실시예들에 따른 사업자 정보 수집 방법에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 실시예들에 따른 방법에 의한 동작을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.Operations by the business operator information collection method according to the above-described embodiments may be at least partially implemented as a computer program and recorded on a computer-readable recording medium. Computer-readable recording media on which programs for implementing operations by methods according to embodiments are recorded include all types of recording devices in which computer-readable data is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices. In addition, computer-readable recording media may be distributed in computer systems connected through a network, and computer-readable codes may be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing this embodiment can be easily understood by those skilled in the art to which this embodiment belongs.

또한, 본 명세서의 순서도들에 도시된 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능하다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.Further, each block or each step shown in the flowcharts herein may represent a module, segment or portion of code that includes one or more executable instructions for executing specified logical function(s). Also, in some alternative embodiments, it is possible for the functions mentioned in the blocks or steps to occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially concurrently, or the blocks or steps may sometimes be performed in reverse order depending on their function.

이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해서 정해져야 할 것이다.The present invention reviewed above has been described with reference to the embodiments shown in the drawings, but this is only exemplary, and those skilled in the art will understand that various modifications and variations of the embodiments are possible therefrom. However, such modifications should be considered within the technical protection scope of the present invention. Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

Claims (17)

하나 이상의 정보 보유기관으로부터 사업자 정보에 관련된 데이터를 수집하도록 구성된 데이터 수집부;
미리 설정된 복수 개의 데이터 항목별 인식 규칙을 이용하여 상기 데이터를 상기 복수 개의 데이터 항목에 매칭시키도록 구성된 데이터 인식부; 및
상기 복수 개의 데이터 항목에 매칭된 값을 표준화된 사업자 정보로 저장하도록 구성된 데이터 저장부를 포함하되,
상기 데이터 인식부는, 상기 복수 개의 데이터 항목에 대해 미리 설정된 순서에 기초하여 상기 복수 개의 데이터 항목의 후보데이터를 순차적으로 결정함으로써 상기 복수 개의 데이터 항목에 매칭된 값을 결정하도록 더 구성된 사업자 정보 수집 시스템.
a data collection unit configured to collect data related to operator information from one or more information holding organizations;
a data recognizing unit configured to match the data to the plurality of data items using preset recognition rules for each of the plurality of data items; and
A data storage unit configured to store values matched to the plurality of data items as standardized operator information,
The data recognition unit is further configured to determine values matched to the plurality of data items by sequentially determining candidate data of the plurality of data items based on a preset order for the plurality of data items.
제1항에 있어서,
상기 데이터 인식부는,
상기 복수 개의 데이터 항목별 인식 규칙에 기초하여, 상기 매칭 순서에서 선행하는 데이터 항목의 후보데이터를 결정하고,
상기 선행하는 데이터 항목의 후보데이터 중 후행하는 데이터 항목의 값으로 결정된 데이터를 소거함으로써 각각의 상기 데이터 항목에 매칭된 값을 결정하도록 더 구성된 사업자 정보 수집 시스템.
According to claim 1,
The data recognition unit,
Based on the recognition rules for each of the plurality of data items, candidate data of a data item that precedes in the matching order is determined;
The operator information collecting system further configured to determine a value matched to each of the data items by canceling data determined as a value of a succeeding data item among candidate data of the preceding data item.
제2항에 있어서,
상기 데이터 인식부는, 상기 복수 개의 데이터 항목 각각의 유일한 후보데이터를 상기 데이터 항목에 매칭된 값으로 결정하도록 더 구성된 사업자 정보 수집 시스템.
According to claim 2,
The data recognition unit is further configured to determine unique candidate data of each of the plurality of data items as a value matched to the data item.
제2항에 있어서,
상기 데이터 저장부는 미리 설정된 데이터 항목별 예외어 정보를 저장하도록 더 구성되며,
상기 데이터 인식부는, 상기 예외어 정보에 기초하여 상기 후보데이터 중 상기 데이터 항목에 매칭된 값을 결정하고, 상기 데이터 항목에 매칭된 값 중 상기 예외어 정보에 포함되지 않은 단어를 상기 예외어 정보로 상기 데이터 저장부에 저장하도록 더 구성된 사업자 정보 수집 시스템.
According to claim 2,
The data storage unit is further configured to store exception word information for each preset data item,
The data recognizer determines a value matched with the data item among the candidate data based on the exceptional word information, and among the values matched with the data item, a word not included in the exceptional word information is used as the exceptional word information. Operator information collection system further configured to store in the data storage unit.
제1항에 있어서,
상기 표준화된 사업자 정보는 상기 데이터 항목에 매칭된 값이 부분적으로 동일한 중복 데이터를 포함하며,
상기 데이터 항목에 매칭된 값의 유사도 또는 상기 표준화된 사업자 정보의 호출 패턴에 기초하여 상기 중복 데이터 간의 우선순위를 결정하고, 상기 우선순위에 기초하여 상기 중복 데이터를 제거하도록 구성된 데이터 정제부를 더 포함하는 사업자 정보 수집 시스템.
According to claim 1,
The standardized operator information includes redundant data in which a value matched to the data item is partially identical,
Further comprising a data refining unit configured to determine a priority among the redundant data based on a similarity of values matched to the data item or a call pattern of the standardized operator information, and to remove the redundant data based on the priority Operator information collection system.
제5항에 있어서,
상기 데이터 정제부는, 상기 중복 데이터에서 상기 데이터 항목에 매칭된 값에 기초하여 상기 데이터 항목에 미리 설정된 규칙에 대한 오류 데이터를 생성하도록 더 구성된 사업자 정보 수집 시스템.
According to claim 5,
The data refiner is further configured to generate error data for a rule set in advance for the data item based on a value matched to the data item in the redundant data.
제1항에 있어서,
상기 사업자 정보에 관련된 데이터의 신규데이터를 결정하고, 상기 신규데이터와 상기 신규데이터에 연관된 상기 표준화된 사업자 정보의 유사도 또는 상기 신규데이터에 대한 사용자들의 호출 패턴에 기반하여 상기 복수 개의 데이터 항목별 인식 규칙을 갱신하도록 구성된 신규데이터 분석부를 더 포함하는 사업자 정보 수집 시스템.
According to claim 1,
Determines new data of the data related to the operator information, and recognizes rules for each of the plurality of data items based on similarity between the new data and the standardized operator information associated with the new data or a call pattern of users for the new data. Operator information collection system further comprising a new data analysis unit configured to update the.
제1항에 있어서,
상기 표준화된 사업자 정보에 대한 사용자들의 호출 요청을 수신함으로써 사용자들의 호출 패턴을 결정하고, 상기 호출 패턴 및 상기 데이터 항목에 매칭된 값에 기초한 추천 데이터를 생성하도록 구성된 데이터 활용부를 더 포함하는 사업자 정보 수집 시스템.
According to claim 1,
Operator information collection further comprising a data utilization unit configured to determine call patterns of users by receiving call requests from users for the standardized operator information, and to generate recommendation data based on values matched to the call patterns and the data items. system.
사업자 정보 수집 시스템이 하나 이상의 정보 보유기관으로부터 사업자 정보에 관련된 데이터를 수집하는 단계;
상기 사업자 정보 수집 시스템이 미리 설정된 복수 개의 데이터 항목별 인식 규칙을 이용하여 상기 데이터를 미리 설정된 복수 개의 데이터 항목에 매칭시키는 단계; 및
상기 사업자 정보 수집 시스템이 상기 복수 개의 데이터 항목에 매칭된 값을 표준화된 사업자 정보로 저장하는 단계를 포함하되,
상기 복수 개의 데이터 항목에 매칭시키는 단계는,
상기 사업자 정보 수집 시스템이, 상기 복수 개의 데이터 항목에 대해 미리 설정된 순서에 기초하여 상기 복수 개의 데이터 항목의 후보데이터를 순차적으로 결정함으로써 상기 복수 개의 데이터 항목에 매칭된 값을 결정하는 단계를 포함하는 사업자 정보 수집 방법.
Collecting, by an operator information collection system, data related to operator information from one or more information holding organizations;
matching the data to a plurality of preset data items using a recognition rule for each of the plurality of data items, by the operator information collection system; and
Including the step of the operator information collection system storing values matched with the plurality of data items as standardized operator information,
The step of matching the plurality of data items,
determining, by the operator information collection system, values matched with the plurality of data items by sequentially determining candidate data of the plurality of data items based on a preset order for the plurality of data items. How we collect information.
제9항에 있어서,
상기 복수 개의 데이터 항목에 매칭된 값을 결정하는 단계는,
상기 사업자 정보 수집 시스템이, 상기 복수 개의 데이터 항목별 인식 규칙에 기초하여, 상기 매칭 순서에서 선행하는 데이터 항목의 후보데이터를 결정하는 단계; 및
상기 사업자 정보 수집 시스템이, 상기 선행하는 데이터 항목의 후보데이터 중 후행하는 데이터 항목의 값으로 결정된 데이터를 소거함으로써 각각의 상기 데이터 항목에 매칭된 값을 결정하는 단계를 포함하는 사업자 정보 수집 방법.
According to claim 9,
Determining a value matched to the plurality of data items,
determining, by the operator information collection system, candidate data of a data item that precedes in the matching order based on the recognition rule for each of the plurality of data items; and
and determining, by the operator information collection system, a value matched to each of the data items by erasing data determined as a value of a succeeding data item among candidate data of the preceding data item.
제10항에 있어서,
상기 복수 개의 데이터 항목에 매칭된 값을 결정하는 단계는, 상기 사업자 정보 수집 시스템이, 상기 복수 개의 데이터 항목 각각의 유일한 후보데이터를 상기 데이터 항목에 매칭된 값으로 결정하는 단계를 더 포함하는 사업자 정보 수집 방법.
According to claim 10,
The determining of values matched with the plurality of data items may further include determining, by the business operator information collection system, unique candidate data of each of the plurality of data items as a value matched with the data items. collection method.
제10항에 있어서,
상기 후행하는 데이터 항목의 값을 결정하는 단계는, 상기 사업자 정보 수집 시스템이 미리 설정된 데이터 항목별 예외어 정보에 기초하여 상기 후보데이터 중 상기 데이터 항목에 매칭된 값을 결정하는 단계를 포함하며,
상기 사업자 정보 수집 방법은,
상기 사업자 정보 수집 시스템이, 상기 데이터 항목에 매칭된 값 중 상기 예외어 정보에 포함되지 않은 단어를 상기 예외어 정보로 상기 사업자 정보 수집 시스템에 저장하는 단계를 더 포함하는 사업자 정보 수집 방법.
According to claim 10,
The step of determining the value of the succeeding data item includes determining, by the operator information collection system, a value matched to the data item among the candidate data based on exception information for each data item set in advance;
The business operator information collection method,
and storing, by the operator information collection system, words not included in the exception word information among values matched with the data items in the operator information collection system as the exception word information.
제9항에 있어서,
상기 표준화된 사업자 정보는 상기 데이터 항목에 매칭된 값이 부분적으로 동일한 중복 데이터를 포함하며,
상기 사업자 정보 수집 시스템이, 상기 데이터 항목에 매칭된 값의 유사도 또는 상기 표준화된 사업자 정보의 호출 패턴에 기초하여 상기 중복 데이터 간의 우선순위를 결정하는 단계; 및
상기 사업자 정보 수집 시스템이, 상기 우선순위에 기초하여 상기 중복 데이터를 제거하는 단계를 더 포함하는 사업자 정보 수집 방법.
According to claim 9,
The standardized operator information includes redundant data in which a value matched to the data item is partially identical,
determining, by the operator information collecting system, a priority among the redundant data based on a similarity of values matched to the data items or a calling pattern of the standardized operator information; and
The operator information collection method further comprising removing, by the operator information collection system, the redundant data based on the priority.
제13항에 있어서,
상기 사업자 정보 수집 시스템이, 상기 중복 데이터에서 상기 데이터 항목에 매칭된 값에 기초하여 상기 데이터 항목에 미리 설정된 규칙에 대한 오류 데이터를 생성하는 단계를 더 포함하는 사업자 정보 수집 방법.
According to claim 13,
The method of collecting business information further comprising generating, by the business operator information collecting system, error data for a rule preset in the data item based on a value matched to the data item in the redundant data.
제9항에 있어서,
상기 사업자 정보 수집 시스템이, 상기 사업자 정보에 관련된 데이터의 신규데이터를 결정하는 단계; 및
상기 사업자 정보 수집 시스템이, 상기 신규데이터와 상기 신규데이터에 연관된 상기 표준화된 사업자 정보의 유사도 또는 상기 신규데이터에 대한 사용자들의 호출 패턴에 기반하여 상기 복수 개의 데이터 항목별 인식 규칙을 갱신하는 단계를 더 포함하는 사업자 정보 수집 방법.
According to claim 9,
determining, by the operator information collection system, new data of data related to the operator information; and
Updating, by the operator information collection system, a recognition rule for each of the plurality of data items based on a similarity between the new data and the standardized operator information associated with the new data or a call pattern of users for the new data. How business information is collected, including;
제9항에 있어서,
상기 사업자 정보 수집 시스템이, 상기 표준화된 사업자 정보에 대한 사용자들의 호출 요청을 수신함으로써 사용자들의 호출 패턴을 결정하는 단계; 및
상기 사업자 정보 수집 시스템이, 상기 호출 패턴, 및 상기 데이터 항목에 매칭된 값에 기초한 추천 데이터를 생성하는 단계를 더 포함하는 사업자 정보 수집 방법.
According to claim 9,
determining, by the operator information collection system, call patterns of users by receiving users' call requests for the standardized operator information; and
The method of collecting operator information further comprising generating, by the operator information collection system, recommendation data based on a value matched to the call pattern and the data item.
하드웨어와 결합되어 제9항 내지 제16항 중 어느 한 항에 따른 사업자 정보 수집 방법을 수행하도록 컴퓨터에 판독 가능한 기록매체에 저장된 컴퓨터 프로그램. A computer program stored in a computer-readable recording medium combined with hardware to perform the business operator information collection method according to any one of claims 9 to 16.
KR1020210180317A 2021-12-16 2021-12-16 System and method for collecting business information and computer program for the same KR20230092048A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210180317A KR20230092048A (en) 2021-12-16 2021-12-16 System and method for collecting business information and computer program for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210180317A KR20230092048A (en) 2021-12-16 2021-12-16 System and method for collecting business information and computer program for the same

Publications (1)

Publication Number Publication Date
KR20230092048A true KR20230092048A (en) 2023-06-26

Family

ID=86947788

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210180317A KR20230092048A (en) 2021-12-16 2021-12-16 System and method for collecting business information and computer program for the same

Country Status (1)

Country Link
KR (1) KR20230092048A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100575956B1 (en) 1998-05-14 2006-08-30 삼성전자주식회사 Generation of Standardized Subscriber Information for Wireless Mobile Communication Service and Conversion into Specific Operator Information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100575956B1 (en) 1998-05-14 2006-08-30 삼성전자주식회사 Generation of Standardized Subscriber Information for Wireless Mobile Communication Service and Conversion into Specific Operator Information

Similar Documents

Publication Publication Date Title
US8768914B2 (en) System and method for searching and matching databases
TWI709927B (en) Method and device for determining target user group
US8468167B2 (en) Automatic data validation and correction
US10140664B2 (en) Resolving similar entities from a transaction database
CN111125343A (en) Text analysis method and device suitable for human-sentry matching recommendation system
US9025890B2 (en) Information classification device, information classification method, and information classification program
JP2019502979A (en) Automatic interpretation of structured multi-field file layouts
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
US20160132830A1 (en) Multi-level score based title engine
CN113342976B (en) Method, device, storage medium and equipment for automatically acquiring and processing data
CN106649557B (en) Semantic association mining method for defect report and mail list
CN110728453B (en) Policy automatic matching analysis system based on big data
CN112149387A (en) Visualization method and device for financial data, computer equipment and storage medium
JP2015118498A (en) Program, apparatus, and method, for creating similar sentences of same intent
CN110019542B (en) Generation of enterprise relationship, generation of organization member database and identification of same name member
CN111209753A (en) Entity naming identification method and device
CN113836316B (en) Processing method, training method, device, equipment and medium for ternary group data
CN114398315A (en) Data storage method, system, storage medium and electronic equipment
CN114265957A (en) Multiple data source combined query method and system based on graph database
US11880377B1 (en) Systems and methods for entity resolution
KR20230092048A (en) System and method for collecting business information and computer program for the same
CN108520012A (en) Mobile Internet user comment method for digging based on machine learning
CN114742043A (en) Work order classification method and device and computer readable storage medium
CN109919811B (en) Insurance agent culture scheme generation method based on big data and related equipment
JP6664306B2 (en) Similar document extracting device, similar document extracting method and similar document extracting program

Legal Events

Date Code Title Description
E902 Notification of reason for refusal