KR20180097892A - 데이터의 도메인을 판별하는 장치 및 그 방법 - Google Patents
데이터의 도메인을 판별하는 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20180097892A KR20180097892A KR1020170024634A KR20170024634A KR20180097892A KR 20180097892 A KR20180097892 A KR 20180097892A KR 1020170024634 A KR1020170024634 A KR 1020170024634A KR 20170024634 A KR20170024634 A KR 20170024634A KR 20180097892 A KR20180097892 A KR 20180097892A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- domain
- type
- name
- classification
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003066 decision tree Methods 0.000 claims abstract description 39
- 238000001514 detection method Methods 0.000 description 13
- 238000007726 management method Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013479 data entry Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G06F17/30424—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G06F17/2755—
-
- G06F17/30327—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 본원의 일 실시예에 따른 도메인 판별 장치(10)의 구성을 나타내는 도면이다.
도 3a 내지 도3b는 본원의 일 실시예에 따른 데이터의 도메인을 판별하는 과정을 나타내는 도면이다.
도 4는 본원의 일 실시예에 따른 데이터의 도메인을 판별하는 과정을 나타내는 흐름도이다.
도 5는 본원의 일 실시예에 따른 데이터의 도메인을 판별하는 흐름을 나타내는 동작 흐름도이다.
No | 출력명 | 출력 설명 |
1 | DB_NM | 공공정보그룹명 |
2 | DT_NM | 공공정보명 |
3 | INF_ID | 서비스ID |
4 | INF_NM | 서비스명 |
5 | PAR_INFO_TYPE_ID | 상위분류체계ID |
6 | INFO_TYPE_ID | 분류체계ID |
7 | PAR_INFO_TYPE_NM | 상위분류체계명 |
8 | INFO_TYPE_NM | 분류체계명 |
9 | INF_TAG | 태그 |
10 | MNG_ORGAN_NAME | 제공기관 |
11 | MNG_STATION_NAME | 제공부서 |
No | 도메인 | 도메인 예시 |
1 | 금액 | 매출액, 판매액, 원가, 금액, 세금, 가격, 단가, 비용, 요금, 잔액, 총액 |
2 | 수 | 고객수, 상품수, 관객수, 건수, 매수, 회차, 개수, 거리, 규모, 길이, 무게, 속도, 횟수, 평형, 면적, 온도 |
3 | 율 | 달성율, 정확도, 원가율, 금리, 이율, 비율, 환율, 백분율 |
4 | 코드 | 성별코드, 약자코드, 등급코드 |
5 | ID | USER ID |
6 | 명칭 | 고객명, 상품명, 주소, 장소 |
7 | 내용 | 자기소개서, 게시글, 내용, 비고, 설명, 정보, 요약 |
8 | 날짜 | 연, 월, 연월일, 연월, 시, 분, 초, 일, 반기, 분기 |
9 | 플래그 | True, False |
10 | 번호 | 고객번호, 상품번호, 게시번호 |
11 | 연락처 | 주소, 이메일, 연락처 |
도메인 | 사용 알고리즘 | 분류 기준 예시 |
금액 | 의사결정 트리 알고리즘 | 데이터 타입, 데이터 국문명, 데이터 영문명 숫자 타입 데이터만 포함 가능 |
수 | 의사결정 트리 알고리즘 | 데이터 타입, 데이터 국문명 숫자 타입 데이터만 포함 가능 |
율 | 의사결정 트리 알고리즘 규칙기반 알고리즘 |
데이터 타입, 데이터 국문명, 데이터 영문명 숫자 타입 데이터만 포함 가능 |
코드 | 의사결정 트리 알고리즘 규칙기반 알고리즘 |
데이터 타입, 데이터 국문명, 데이터 영문명 자릿수가 변경될 수 없음 |
ID | 의사결정 트리 알고리즘 | 데이터 타입, 데이터 국문명, 데이터 영문명 |
명칭 | 의사결정 트리 알고리즘 규칙기반 알고리즘 |
데이터 타입, 데이터 국문명, 데이터 영문명 데이터가 200자를 넘을 수 없음 |
내용 | 의사결정 트리 알고리즘 규칙기반 알고리즘 |
데이터 타입, 데이터 국문명, 데이터 영문명 데이터가 200자를 초과할 수 있음 |
날짜 | 의사결정 트리 알고리즘 규칙기반 알고리즘 |
데이터 타입, 데이터 국문명, 데이터 영문명 |
플래그 | 의사결정 트리 알고리즘 규칙기반 알고리즘 |
데이터 타입, 데이터 국문명, 데이터 영문명 |
번호 | 의사결정 트리 알고리즘 규칙기반 알고리즘 |
데이터 타입, 데이터 국문명, 데이터 영문명 자릿수가 변경될 수 없음 |
연락처 | 의사결정 트리 알고리즘 | 데이터 타입, 데이터 국문명, 데이터 영문명 |
110: 데이터베이스
120: 도메인 판별부
30: 탐지 대상 데이터베이스
Claims (12)
- 데이터의 도메인을 판별하는 방법에 있어서,
데이터 타입, 데이터 국문명 및 데이터 영문명을 포함하는 복수의 분류 기준 중 제 1 분류 기준 및 제 2 분류 기준에 기초하여 의사결정 트리 알고리즘을 통해 제 1 데이터의 도메인을 제 1 도메인으로 판별하는 단계;
상기 제 1 데이터의 도메인을 제 1 도메인으로 저장하는 단계; 및
상기 데이터 타입, 상기 데이터 국문명 및 상기 데이터 영문명을 포함하는 복수의 분류 기준 중 상기 제 2 분류 기준 및 제 3 분류 기준과 상기 저장 결과에 기초하여 의사결정 트리 알고리즘을 통해 제 2 데이터의 도메인을 제 2 도메인으로 판별하는 단계를 포함하는 도메인 판별 방법. - 제 1 항에 있어서,
상기 제 2 도메인으로 판별하는 단계 이후에,
상기 데이터 타입, 상기 데이터 국문명 및 상기 데이터 영문명을 포함하는 복수의 분류 기준 중 상기 제 1 분류 기준 및 상기 제 3 분류 기준과 상기 저장 결과에 기초하여 상기 의사결정 트리 알고리즘을 통해 제 3 데이터의 도메인을 제 3 도메인으로 판별하는 단계를 더 포함하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 데이터 타입은 상기 데이터의 컬럼의 타입(Type)에 따라 숫자 타입, 문자 타입 및 문자열 타입 중 어느 하나로 분류하는 것이고,
상기 제 1 도메인으로 판별하는 단계는
상기 데이터 타입에 기초하여 상기 의사결정 트리 알고리즘을 통해 상기 제 1 데이터의 도메인을 제 1 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 데이터 국문명은 상기 데이터의 컬럼이 국문인 경우, 상기 컬럼을 형태소 단위로 분리하고, 상기 분리된 형태소 중 어느 하나를 선정하는 것이고,
상기 제 1 도메인으로 판별하는 단계는
상기 데이터 국문명에 기초하여 상기 의사결정 트리 알고리즘을 통해 상기 제 1 데이터의 도메인을 제 1 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 데이터 영문명은 상기 데이터의 컬럼이 영문인 경우, 상기 컬럼 중 소정 기호를 기준으로 일정 부분을 선정하는 것이고,
상기 제 1 도메인으로 판별하는 단계는
상기 데이터 영문명에 기초하여 상기 의사결정 트리 알고리즘을 통해 상기 제 1 데이터의 도메인을 제 1 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 제 1 도메인으로 판별하는 단계는,
상기 제 1 분류 기준이 상기 데이터 타입이고, 상기 제 2 분류 기준이 상기 데이터 국문명인 경우, 상기 데이터 타입이 숫자 타입이고, 상기 데이터 국문명이 금액을 의미하는 형태소를 포함하면, 상기 의사결정 트리 알고리즘을 통해 상기 제 1 데이터를 금액 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 제 2 도메인으로 판별하는 단계는,
상기 제 2 분류 기분이 상기 데이터 타입이고, 상기 제 3 분류 기분이 데이터 영문명인 경우, 상기 데이터 타입이 숫자 타입이고, 상기 데이터 영문명이 번호를 의미하는 약어, 코드 중 적어도 하나를 포함하면, 상기 의사결정 트리 알고리즘을 통해 상기 제2 데이터를 번호 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 2 항에 있어서,
상기 제 3 도메인으로 판별하는 단계는,
상기 제 1 분류 기준이 데이터 타입이고, 상기 제 3 분류 기준이 날짜 여부인 경우, 상기 데이터 타입이 문자 또는 숫자 타입 중 어느 하나이고, 상기 날짜 여부가 참 값을 가지면, 상기 의사결정 트리 알고리즘을 통해 상기 제 3 데이터를 날짜 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 제 2 도메인으로 판별하는 단계는,
상기 제 2 분류 기준이 데이터 타입이고, 상기 제 3 분류 기준이 200자 이상 여부인 경우, 상기 데이터 타입이 문자열 타입이고, 상기 200자 이상 여부가 참 값을 가지면, 상기 의사결정 트리 알고리즘을 통해 상기 제 2 데이터를 내용 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 제 2 도메인으로 판별하는 단계는,
상기 제 1 분류 기준이 데이터 타입이고, 상기 제 2 분류 기준이 200자 이상 여부이고, 상기 제 3 분류 기준이 데이터 국문명인 경우, 상기 데이터 타입이 문자 타입 또는 문자열 타입이고, 상기 제 200자 이상 여부가 거짓 값을 가지고, 상기 국문 명이 이름을 의미하는 형태소를 포함하면, 상기 의사결정 트리 알고리즘을 통해 상기 제 2 데이터를 명칭 도메인으로 판별하는 것인, 도메인 판별 방법. - 제 1 항에 있어서,
상기 제 2 도메인으로 판별하는 단계 이후에,
상기 제 2 데이터의 도메인을 제 2 도메인으로 저장하는 단계를 더 포함하는 것인, 도메인 판별 방법. - 데이터의 도메인을 판별하는 장치에 있어서,
데이터 타입, 데이터 국문명 및 데이터 영문명을 포함하는 복수의 분류 기준 중 제 1 분류 기준 및 제 2 분류 기준에 기초하여 의사결정 트리 알고리즘을 통해 제 1 데이터의 도메인을 제 1 도메인으로 판별하는 도메인 판별부; 및
상기 제 1 데이터의 도메인을 제 1 도메인으로 저장하는 데이터베이스를 포함하되,
상기 도메인 판별부는 상기 데이터 타입, 상기 데이터 국문명 및 상기 데이터 영문명을 포함하는 복수의 분류 기준 중 상기 제 2 분류 기준 및 제 3 분류 기준과 상기 저장 결과에 기초하여 의사결정 트리 알고리즘을 통해 제 2 데이터의 도메인을 제 2 도메인으로 판별하는 것인, 도메인 판별 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170024634A KR101930034B1 (ko) | 2017-02-24 | 2017-02-24 | 데이터의 도메인을 판별하는 장치 및 그 방법 |
PCT/KR2018/000580 WO2018155816A1 (ko) | 2017-02-24 | 2018-01-12 | 데이터의 도메인을 판별하는 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170024634A KR101930034B1 (ko) | 2017-02-24 | 2017-02-24 | 데이터의 도메인을 판별하는 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180097892A true KR20180097892A (ko) | 2018-09-03 |
KR101930034B1 KR101930034B1 (ko) | 2019-03-14 |
Family
ID=63253899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170024634A KR101930034B1 (ko) | 2017-02-24 | 2017-02-24 | 데이터의 도메인을 판별하는 장치 및 그 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101930034B1 (ko) |
WO (1) | WO2018155816A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020051053A1 (en) * | 2018-09-06 | 2020-03-12 | Nec Laboratories America, Inc. | Domain adaptation for instance detection and segmentation |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815085B (zh) * | 2018-12-29 | 2021-10-22 | 北京城市网邻信息技术有限公司 | 告警数据的分类方法、装置和电子设备及存储介质 |
CN110795335A (zh) * | 2019-09-24 | 2020-02-14 | 北京首钢自动化信息技术有限公司 | 一种为参数设定的参数域校验方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009244950A (ja) * | 2008-03-28 | 2009-10-22 | Internatl Business Mach Corp <Ibm> | 情報分類システム、情報処理装置、情報分類方法およびプログラム |
JP2010039593A (ja) * | 2008-08-01 | 2010-02-18 | Mitsubishi Electric Corp | テーブル分類装置、テーブル分類方法及びテーブル分類プログラム |
US20150161743A1 (en) * | 2013-12-06 | 2015-06-11 | Mastercard International Incorporated | System and method for automatically classifying transaction information |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4902863B2 (ja) * | 2007-01-26 | 2012-03-21 | 三菱電機株式会社 | テーブル分類装置 |
JP2009217499A (ja) * | 2008-03-10 | 2009-09-24 | Fuji Xerox Co Ltd | 文書分類プログラム及び文書分類装置 |
-
2017
- 2017-02-24 KR KR1020170024634A patent/KR101930034B1/ko active IP Right Grant
-
2018
- 2018-01-12 WO PCT/KR2018/000580 patent/WO2018155816A1/ko active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009244950A (ja) * | 2008-03-28 | 2009-10-22 | Internatl Business Mach Corp <Ibm> | 情報分類システム、情報処理装置、情報分類方法およびプログラム |
JP2010039593A (ja) * | 2008-08-01 | 2010-02-18 | Mitsubishi Electric Corp | テーブル分類装置、テーブル分類方法及びテーブル分類プログラム |
US20150161743A1 (en) * | 2013-12-06 | 2015-06-11 | Mastercard International Incorporated | System and method for automatically classifying transaction information |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020051053A1 (en) * | 2018-09-06 | 2020-03-12 | Nec Laboratories America, Inc. | Domain adaptation for instance detection and segmentation |
Also Published As
Publication number | Publication date |
---|---|
WO2018155816A1 (ko) | 2018-08-30 |
KR101930034B1 (ko) | 2019-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6301516B2 (ja) | ファジーなデータ操作 | |
US11514096B2 (en) | Natural language processing for entity resolution | |
KR101965598B1 (ko) | 이상탐지시스템 내의 데이터에 대한 이상을 탐지하는 장치 및 그 방법 | |
Chi et al. | A new attribute-linked residential property price dataset for England and Wales, 2011–2019 | |
KR101930034B1 (ko) | 데이터의 도메인을 판별하는 장치 및 그 방법 | |
US20240411737A1 (en) | Records matching techniques for facilitating database search and fragmented record detection | |
US20240411753A1 (en) | Records matching techniques for facilitating database search and fragmented record detection | |
US20240419653A1 (en) | Fragmented record detection based on records matching techniques | |
Plaue | Data science | |
Mutemaringa et al. | Record linkage for routinely collected health data in an African health information exchange | |
KR102110350B1 (ko) | 비표준화 데이터베이스를 위한 도메인 판별 장치 및 방법 | |
Gellatly | Reconstructing historical populations from genealogical data files | |
Potin et al. | Foppa: A database of french open public procurement award notices | |
AU2017201787B2 (en) | Fuzzy data operations | |
CN116561345A (zh) | 一种基于多模态数据公司情报知识图谱构建方法 | |
Mohammed | Evaluation of Automation Techniques for Data Quality Assessment for Party and Product Master Data | |
CN117077674A (zh) | 一种准确率高的企业高效去重名方法 | |
Hamzaj et al. | ASSESSMENT OF THE IMPACT OF DATA QUALITY FOR IMPROVEMENT OF E-SERVICES IN GOVERNMENT INSTITUTIONS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170224 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20180518 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20181130 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20181211 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20181212 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20211222 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20231017 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20241007 Start annual number: 7 End annual number: 7 |