KR102483584B1 - 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치 - Google Patents

표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치 Download PDF

Info

Publication number
KR102483584B1
KR102483584B1 KR1020210172117A KR20210172117A KR102483584B1 KR 102483584 B1 KR102483584 B1 KR 102483584B1 KR 1020210172117 A KR1020210172117 A KR 1020210172117A KR 20210172117 A KR20210172117 A KR 20210172117A KR 102483584 B1 KR102483584 B1 KR 102483584B1
Authority
KR
South Korea
Prior art keywords
management table
item name
column
standard
synonym
Prior art date
Application number
KR1020210172117A
Other languages
English (en)
Inventor
황윤영
신수미
문영수
육진희
최기석
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020210172117A priority Critical patent/KR102483584B1/ko
Application granted granted Critical
Publication of KR102483584B1 publication Critical patent/KR102483584B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시예에 따른 컴퓨팅 장치에 의해 수행되는 방법은, 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 단계, 기 저장되어 있는 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하지 않는 경우, 상기 컬럼 항목 데이터를 복수의 단어로 분리하는 단계, 및 상기 표준 항목형 관리 테이블에 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 표준 항목명 관리 테이블에 등록하는 단계를 포함한다.

Description

표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치{METHOD FOR MANAGING DATA SET USING STANDARD ITEM NAMES AND APPARATUS IMPLEMENTING THE SAME METHOD}
본 발명은 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치에 관한 것으로서, 보다 자세하게는, 서로 다른 컬럼명을 가지는 데이터셋 간의 연관성을 추출하기 위해 표준 항목명을 기준으로 데이터셋을 관리하기 위한 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치에 관한 것이다.
종래에는 이질적이고 다양한 컬럼명을 가지는 데이터셋 간 연관성을 추출하기 위해, 데이터의 수집 시 중복성 제거를 통해 연계 형식을 정의하는 방식을 사용해왔다. 또한, 데이터 중에서 공간 및 시간 데이터에 대한 태깅을 통해 데이터의 연관성을 도출하는 방법을 사용하였다.
그러나, 이러한 방식은 데이터 정제 및 전처리 작업에 많은 리소스를 소모하게 되고, 데이터의 사용자마다 이러한 소모적인 작업을 반복하게 되는 문제점이 있다.
또한, 기존의 한정된 도메인 영역에서 구축된 데이터는 새로운 산업 분야에서 활용하는데 한계가 있기 때문에 공공데이터를 비롯한 다양한 분야의 데이터들을 연계하는 것이 필요하다.
따라서, 여러 분야의 데이터를 이용하여 고부가가치를 가지는 데이터를 구축하기 위해서는 다양한 정보원으로부터 수집된 데이터의 정제, 표준화, 및 이종의 데이터들 간 연계가 필요하다.
이를 위해, 데이터들 간 이질적이고 다양한 컬럼들 중에서 유사한 컬럼들을 파악하고, 이를 표준화 함에 의해 데이터들 간 연계성을 추출하는 기술이 요구된다.
특허등록공보 제10-2046640호(2019.11.13. 등록)
본 발명이 해결하고자 하는 기술적 과제는, 대표어 및 유사어로 구성된 표준 항목명 관리 테이블을 활용하여 데이터셋으로부터 추출되는 서로 다른 컬럼명들을 표준화할 수 있는 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 데이터셋으로부터 추출되는 서로 다른 컬럼명들로부터 단어를 분리 및 조합하는 방식으로 컬럼명들간 연관성을 추출할 수 있는 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는, 신규 데이터셋이 입력되는 경우, 신규 데이터셋에 포함된 컬럼명을 기존에 구축되어 있는 데이터셋과 연관시킬 수 있는 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 컴퓨팅 장치에 의해 수행되는 방법은, 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 단계, 기 저장되어 있는 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하지 않는 경우, 상기 컬럼 항목 데이터를 복수의 단어로 분리하는 단계, 및 상기 표준 항목형 관리 테이블에 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 표준 항목명 관리 테이블에 등록하는 단계를 포함한다.
일 실시예로서, 상기 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 단계는, 상기 추출된 컬럼 항목 데이터에서 문자, 숫자, 및 기호에 해당되지 않는 부분을 제거하는 전처리 동작을 수행하는 단계, 및 상기 전처리된 컬럼 항목 데이터를 표준 항목명 관리 대상으로 등록하는 단계를 포함할 수 있다.
일 실시예로서, 상기 표준 항목명 관리 테이블은, 대표어 관리 테이블, 유사어 관리 테이블, 및 연계 관리 테이블을 포함하고, 상기 대표어 관리 테이블에는 복수의 대표어가 저장되고, 상기 유사어 관리 테이블에는 상기 복수의 대표어 각각에 매핑되는 복수의 유사어가 저장되고, 상기 연계 관리 테이블에는 상기 컬럼 항목 데이터에 매핑되는 상기 대표어 및 상기 유사어가 저장될 수 있다.
일 실시예로서, 상기 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하는 경우, 상기 유사어에 대응하는 대표어를 조회하는 단계, 및 상기 컬럼 항목 데이터를 상기 조회된 대표어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 단계를 더 포함할 수 있다.
일 실시예로서, 상기 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 대표어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 대표어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 단계를 더 포함할 수 있다.
일 실시예로서, 상기 컬럼 항목 데이터를 복수의 단어로 분리하는 단계는, 상기 컬럼 항목 데이터로부터 특수문자 및 공백을 제외한 최소 단위의 단어들을 추출하는 단계를 포함할 수 있다.
일 실시예로서, 상기 컬럼 항목 데이터를 상기 표준 항목명 관리 테이블에 등록하는 단계는, 상기 표준 항목명 관리 테이블에 상기 분리된 복수의 단어 각각에 대응하는 유사어가 존재하는 경우, 상기 분리된 복수의 단어 각각을 조합한 항목명을 생성하는 단계를 포함할 수 있다.
일 실시예로서, 상기 분리된 복수의 단어 각각을 조합한 항목명을 생성하는 단계는, 상기 분리된 복수의 단어를 띄어 쓰기 없이 순서대로 이어 붙인 형태로 상기 조합된 항목명을 생성하는 단계를 포함할 수 있다.
일 실시예로서, 상기 표준 항목형 관리 테이블에 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어가 존재하지 않는 경우, 상기 분리된 단어 각각에 대응하는 대표어가 존재하는 지 조회하는 단계, 상기 분리된 단어 각각에 대응하는 대표어가 존재하는 경우, 복수의 단어 각각에 대응하는 대표어를 조합한 조합 항목명을 생성하는 단계, 및 상기 조합 항목명에 대응하는 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 표준 항목명 관리 테이블에 등록하는 단계를 더 포함할 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 컴퓨터 판독 가능한 비일시적 기록 매체는, 컴퓨터로 하여금 상기 방법을 수행하도록 하는 컴퓨터 프로그램이 저장된 것이다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치는, 외부 장치와 통신하는 통신부, 상기 외부 장치로부터 수신되는 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 항목명 추출부, 기 저장되어 있는 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하지 않는 경우, 상기 컬럼 항목 데이터를 복수의 단어로 분리하고, 상기 표준 항목형 관리 테이블에서 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어를 조회하는 제2 유사어 매칭부, 및 상기 조합한 항목명에 대응하는 유사어가 조회되는 경우, 상기 컬럼 항목 데이터를 상기 표준 항목명 관리 테이블에 등록하는 표준 항목명 등록부를 포함한다.
일 실시예로서, 상기 항목명 추출부에서 추출된 컬럼 항목 데이터에서 문자, 숫자, 및 기호에 해당되지 않는 부분을 제거하는 전처리 동작을 수행하는 항목명 전처리부를 더 포함할 수 있다.
일 실시예로서, 상기 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하는 경우, 상기 유사어에 대응하는 대표어를 조회하는 제1 유사어 매칭부를 더 포함하고, 상기 표준 항목명 등록부는, 상기 컬럼 항목 데이터를 상기 제1 유사어 매칭부에서 조회된 대표어와 연관시켜 상기 표준 항목명 관리 테이블에 등록할 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서. 외부장치와 통신하는 통신 인터페이스, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리, 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 동작, 기 저장되어 있는 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하지 않는 경우, 상기 컬럼 항목 데이터를 복수의 단어로 분리하는 동작, 및 상기 표준 항목형 관리 테이블에 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 표준 항목명 관리 테이블에 등록하는 동작을 수행하기 위한 인스트럭션을 포함한다.
도 1은 본 발명의 실시예에 따른 개념도이다.
도 2는 본 발명의 일 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치의 세부 구성을 도시한 블록도이다.
도 4는 본 발명의 다른 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 몇몇 실시예에 따른 연계 관리 테이블의 구조를 도시한 예이다.
도 6은 본 발명의 몇몇 실시예에 따른 대표어 관리 테이블 및 유사어 관리 테이블의 구조를 도시한 예이다.
도 7 및 도 8은 본 발명의 몇몇 실시예에 따른 1차 유사어 매칭을 위한 프로세스를 도시한 예이다.
도 9는 본 발명의 몇몇 실시예에 따른 2차 유사어 매칭을 위한 프로세스를 도시한 예이다.
도 10은 본 발명의 몇몇 실시예에 따른 3차 유사어 매칭을 위한 프로세스를 도시한 예이다.
도 11 내지 도 13은 본 발명의 몇몇 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치의 세부 구성별 기능을 설명한 예이다.
도 14는 본 발명의 몇몇 실시예에 따른 방법들을 구현할 수 있는 예시적인 컴퓨팅 장치의 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시 예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 개념도이다. 도 1을 참조하면, 본 발명의 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치(1)는 데이터셋(50)으로부터 컬럼 항목명(51)을 추출하고, 추출된 컬럼 항목명(51)을 유사어 매칭 프로세스(52)에 적용하여 표준화 하는 일련의 과정을 수행한다.
구체적으로, 표준 항목명을 이용한 데이터셋 관리 장치(1)는 데이터셋(50)으로부터 추출된 컬럼 항목명(51)을 유사어 매칭 프로세스(52)에 적용하여 컬럼 항목명(51)에 대응하는 표준 항목명(53)을 조회하고, 조회된 결과를 이용하여 컬럼 항목명(51)을 표준 항목명 관리 DB(도 2의 부호 '300' 참조)에 등록할 수 있다.
이 때, 표준 항목명 관리 DB(300)는 대표어 관리 테이블, 유사어 관리 테이블, 및 연계 관리 테이블을 포함할 수 있다. 대표어 관리 테이블은 데이터셋의 컬럼명들과 관련된 복수의 대표어를 저장하고, 유사어 관리 테이블은 대표어 관리 테이블에 저장되어 있는 각각의 대표어에 매칭되는 복수의 유사어들을 저장할 수 있다. 또한, 연계 관리 테이블은, 데이터셋의 컬럼명들과 관련된 복수의 대표어 및 각각의 대표어에 대응하는 유사어들을 연계하여 저장할 수 있다.
예로서, 컬럼 항목명(51)으로 추출된 '연월', '년월', '시 군 구', '년 도'는 유사어 매칭 프로세스(52)를 통해 각각 표준 항목명(53) 중 '연월', '연월', '국문시군구명', '연도'에 매칭될 수 있다. 여기서, 표준 항목명(53)은 표준 항목명 관리 DB(300)의 대표어 관리 테이블에 저장되어 있는 대표어이거나, 유사어 관리 테이블에 저장되어 있는 유사어일 수 있다.
이러한 과정을 통해, 표준 항목명(53)에 매칭된 컬럼 항목명(51)은 표준 항목명(53)과 연관시켜 표준 항목명 관리 DB(300)의 연계 관리 테이블에 등록될 수 있다.
상기와 같은 본 발명의 실시예에 따라, 대표어 및 유사어로 구성된 표준 항목명 관리 테이블을 활용하여 데이터셋으로부터 추출되는 서로 다른 컬럼명들을 표준화할 수 있다. 이에 따라, 신규 데이터셋이 입력되는 경우, 신규 데이터셋에 포함된 컬럼명을 기존에 구축되어 있는 데이터셋과 연관시킬 수 있다.
도 2는 본 발명의 일 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치의 구성을 도시한 블록도이다. 도 2를 참조하면, 본 발명의 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치(1)는 항목명 추출부(100), 항목명 전처리부(200), 표준 항목명 관리 DB(300), 유사어 매칭부(400, 500, 600), 및 표준 항목명 등록부(700)를 포함하고, 네트워크를 통해 사용자 단말(10) 및 외부 장치(20)와 연결될 수 있다. 표준 항목명을 이용한 데이터셋 관리 장치(1)는 컴퓨팅 장치로 구현되고, 예컨대 서버 또는 PC로 구현될 수 있다.
표준 항목명을 이용한 데이터셋 관리 장치(1)는 사용자 단말(10)의 요청에 따라 외부 장치(20)로부터 수신되는 데이터셋으로부터 컬럼 항목명을 추출하고, 추출된 항목명을 표준 항목명 관리 DB(300)에 저장되어 있는 유사어 또는 대표어와 매칭시킨다. 이에 따라, 매칭된 결과를 이용하여 컬럼 항목명을 매칭된 유사어 또는 대표어와 연관시켜 등록할 수 있다.
외부 장치(20)는 다양한 정보원으로부터 제공되는 단일 또는 복수의 데이터셋을 저장하는 서버로 구현될 수 있고, 사용자 단말(10)의 요청에 따라 선택되는 데이터셋을 표준 항목명을 이용한 데이터셋 관리 장치(1)로 제공할 수 있다.
도 3은 본 발명의 일 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치의 세부 구성을 도시한 블록도이다. 도 3에 도시된 구성은, 도2의 구성을 좀더 세분화한 것으로, 각 구성에 대해서는 도 11 내지 도 13의 표에 기재된 내용을 참조하여 설명하도록 한다.
도시된 구성에서, 표준 항목명을 이용한 데이터셋 관리 장치(1)는 항목명 추출부(100), 항목명 전처리부(200), 표준 항목명 관리 DB(300), 제1 유사어 매칭부(400), 제2 유사어 매칭부(500), 제3 유사어 매칭부(600), 및 표준 항목명 등록부(700)를 포함한다.
항목명 추출부(100)는 외부 장치(20)로부터 수신되는 데이터셋인 메타 데이터(51)로부터 계층 구조로 구성되는 파일 데이터 또는 OPEN-API 데이터를 수집한다. 이 외에도, xls, xlsx, csv 등의 파일 형식을 가지고 복수 개의 컬럼으로 구분될 수 있는 타입의 원시 데이터인 반 구조화 데이터(semi-structured data)가 수집될 수 있다.
항목명 추출부(100)는 수집된 파일 데이터, OPEN-API 데이터, 또는 반 구조화 데이터로부터 컬럼으로 식별되는 컬럼 항목명을 추출할 수 있다.
항목명 전처리부(200)는 항목명 추출부(100)에서 추출된 컬럼 항목명에 대한 전처리 작업을 수행한다. 이 때, 전처리 작업은, 예컨대 좌우 공백 제거, 줄바꿈 문자 제거, 캐리지 리턴(Carriage Return) 제거, 특수문자 제거 등과 같은 클린 업 처리를 포함할 수 있다.
항목명 전처리부(200)는 상기와 같이 전처리된 컬럼 항목명을 전처리 항목명(250)으로 생성하고, 이를 전처리 항목명 관리 테이블(250)에 신규 등록할 수 있다. 이 때, 전처리 항목명 관리 테이블(250)에 저장되는 데이터는 전처리된 컬럼 항목명 중 대표어 또는 유사어에 매칭되지 않은 데이터를 포함할 수 있다.
표준 항목명 관리 DB(300)는 대표어 관리 테이블, 유사어 관리 테이블, 및 연계 관리 테이블을 포함할 수 있다. 대표어 관리 테이블은 데이터셋의 컬럼 항목명들과 관련된 복수의 대표어를 저장하고, 유사어 관리 테이블은 대표어 관리 테이블에 저장되어 있는 각각의 대표어에 매칭되는 복수의 유사어들을 저장할 수 있다.
또한, 연계 관리 테이블은, 데이터셋의 컬럼 항목명들과 관련된 복수의 대표어 및 각각의 대표어에 대응하는 복수의 유사어들을 연계하여 저장할 수 있다. 즉, 연계 관리 테이블에 저장되는 대표어와 유사어는 1 대 N의 관계로 연계될 수 있다. 이 때, 대표어 관리 테이블 및 유사어 관리 테이블은 각각의 관리 키값을 저장하고, 각 관리 키값을 이용하여 상호 간 연계될 수 있다.
제1 유사어 매칭부(400)는 항목명 전처리부(200)에서 전처리된 컬럼 항목명을 표준 항목명 관리 DB(300)의 유사어 관리 테이블에 조회하여 매칭되는 유사어가 존재하는지 여부를 판단하는 유사어 1차 매칭기 모듈을 포함한다.
이 때, 제1 유사어 매칭부(400)는 전처리된 컬럼 항목명이 유사어 관리 테이블에 저장된 유사어들 중 어느 하나의 유사어에 매칭되면, 전처리된 컬럼 항목명을 표준 항목명 등록부(700)로 전송하여 등록되도록 하고, 매칭되지 않으면 전처리된 컬럼 항목명을 제2 유사어 매칭부(500)로 전송한다.
제2 유사어 매칭부(500)는 단어 분리기(510), 분리단어 유사어 매칭기(520), 유사어 매칭 단어 조합기(530), 및 조합 단어 유사어 2차 매칭기(540) 등의 모듈을 포함한다.
단어 분리기(510)는 제1 유사어 매칭부(400)에서 유사어 매칭에 실패한 컬럼 항목명을 복수의 단어로 분리한다. 이 때, 컬럼 항목명을 특수문자 및 공백 등을 제외한 최소 단위의 단어들로 분리할 수 있다.
분리단어 유사어 매칭기(520)는 단어 분리기(510)에서 최소 단위로 분리된 단어들 각각을 유사어 관리 테이블에 조회하여 각 단어에 매칭되는 유사어가 존재하는지 판단한다. 이 때, 분리된 모든 단어가 매칭되는 유사어가 존재하는 경우 분리된 모든 단어를 유사어 매칭 단어 조합기(530)로 전송한다.
유사어 매칭 단어 조합기(530)는 분리단어 유사어 매칭기(520)에서 유사어가 매칭된 모든 단어를 순서대로 조합하고, 조합된 항목명을 조합 단어 유사어 2차 매칭기(540)로 전송한다. 이 때, 조합된 항목명은 유사어가 매칭된 모든 단어를 띄어쓰기 없이 이어 붙인 형태로 조합한 것이다.
조합 단어 유사어 2차 매칭기(540)는 조합된 항목명을 유사어 관리 테이블에 조회하여 매칭되는 유사어가 존재하는지 판단한다. 이 때, 조합된 항목명이 매칭되는 유사어가 존재하면 전처리 항목명 관리 테이블(250)에 등록된 전처리된 컬럼 항목명을 표준 항목명 등록부(700)로 전송하여 등록되도록 한다. 또한, 조합된 항목명이 매칭되는 유사어가 존재하지 않으면, 전처리된 컬럼 항목명을 제3 유사어 매칭부(600)로 전송한다.
제3 유사어 매칭부(600)는 분리 단어별 대표어 조회기(610), 대표 단어 조합기(620), 유사어 3차 매칭기(630) 등의 모듈을 포함한다.
분리 단어별 대표어 조회기(610)는 제2 유사어 매칭부(500)에서 유사어 매칭에 실패한 조합된 항목명을 복수의 단어로 분리한다. 이 때, 조합된 항목명을 특수문자 및 공백 등을 제외한 최소 단위의 단어들로 분리할 수 있다.
분리 단어별 대표어 조회기(610)는 조합된 항목명으로부터 최소 단위로 분리된 단어들 각각을 대표어 관리 테이블에 조회하여 각 단어에 매칭되는 대표어가 존재하는지 판단한다. 이 때, 분리된 모든 단어가 매칭되는 대표어가 존재하는 경우 분리된 모든 단어를 대표 단어 조합기(620)로 전송한다.
대표 단어 조합기(620)는 분리 단어별 대표어 조회기(610)에서 대표어가 매칭된 모든 단어를 순서대로 조합하고, 조합된 항목명을 유사어 3차 매칭기(630)로 전송한다. 이 때, 조합된 항목명은 대표어가 매칭된 모든 단어를 순서대로 공백 없이 이어 붙인 형태로 조합한 것이다.
표준 항목명 등록부(700)는 유사어 등록기(710), 유사어 관리 번호 등록기(720), 및 대표어/유사어 연계기(730)를 포함한다.
표준 항목명 등록부(700)는 제1 유사어 매칭부(400), 제2 유사어 매칭부(500), 및 제3 유사어 매칭부(600)로부터 유사어 또는 대표어가 매칭된 컬럼 항목명의 등록 요청을 수신한다. 이에 따라, 유사어 등록기(710)에서 유사어 또는 대표어가 매칭된 컬럼 항목명을 유사어 관리 테이블에 등록하고, 유사어 관리 번호 등록기(720)에서 유사어 관리 테이블에 등록된 컬럼 항목명에 대한 관리 번호를 부여하여 저장할 수 있다.
또한, 대표어/유사어 연계기(730)에서 유사어 관리 테이블에 등록된 컬럼 항목명을 대표어와 연관시켜 연계 관리 테이블에 저장할 수 있다.
상기와 같은 본 발명의 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 장치(1)는 대표어 및 유사어로 구성된 표준 항목명 관리 테이블을 활용하여 데이터셋으로부터 추출되는 서로 다른 컬럼명들을 표준화할 수 있다. 이 때, 데이터셋으로부터 추출되는 서로 다른 컬럼명들로부터 단어를 분리 및 조합하는 방식으로 컬럼명들 간 연관성을 추출할 수 있다.
도 4는 본 발명의 다른 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 방법을 설명하기 위한 순서도이다.
본 실시예에 따른 표준 항목명을 이용한 데이터셋 관리 방법은 컴퓨팅 장치(100)에 의하여 실행될 수 있고, 예컨대 표준 항목명을 이용한 데이터셋 관리 장치(1)에 의해 실행될 수 있다. 본 실시예에 따른 방법을 실행하는 상기 컴퓨팅 장치(100)는 응용 프로그램 실행 환경을 구비한 컴퓨팅 장치일 수 있다. 본 실시예에 따른 방법에 포함되는 일부 동작의 수행 주체에 대한 기재가 생략될 수 있으며, 그러한 경우 그 주체는 상기 컴퓨팅 장치(100)임을 유의한다.
도 4를 참조하면, 먼저, 동작 S41에서, 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터가 추출된다.
이 때, 동작 S41은, 추출된 컬럼 항목 데이터에서 문자, 숫자, 및 기호에 해당되지 않는 부분을 제거하는 전처리 동작을 수행하는 동작, 및 전처리된 컬럼 항목 데이터를 표준 항목명 관리 대상으로 등록하는 동작을 포함할 수 있다.
다음으로, 동작 S42에서, 기 저장되어 있는 표준 항목명 관리 테이블에 컬럼 항목 데이터에 대응하는 유사어가 존재하지 않는 경우, 컬럼 항목 데이터가 복수의 단어로 분리된다. 여기서, 표준 항목명 관리 테이블은, 대표어 관리 테이블, 유사어 관리 테이블, 및 연계 관리 테이블을 포함하고, 대표어 관리 테이블에는 복수의 대표어가 저장되고, 유사어 관리 테이블에는 복수의 대표어 각각에 매핑되는 복수의 유사어가 저장되고, 연계 관리 테이블에는 컬럼 항목 데이터에 매핑되는 대표어 및 유사어가 저장될 수 있다.
예로서, 도 5 및 도 6을 참조하면, 연계 관리 테이블(STD_HEADER)(300)은 데이터셋 관리 번호(DATASET_SEQ), 메타 관리 번호(META_SEQ), 대표어 관리 번호(STD_SEQ), 유사어 관리 번호(SYN_SEQ) 등의 데이터를 저장할 수 있다. 대표어 관리 테이블(STD_DICTIONARY)(310)은 대표어 관리 번호(STD_SEQ), 대표어(STD_NAME) 등의 데이터를 저장하고, 유사어 관리 테이블(STD_SYNONYMS)(320)는 유사어 관리 번호(SYN_SEQ), 대표어 관리 번호(STD_SEQ), 유사어(SYN_NAME) 등의 데이터를 저장할 수 있다.
상기와 같은 구조를 가지는 연계 관리 테이블(300), 대표어 관리 테이블(310), 및 유사어 관리 테이블(320)을 이용하여 컬럼 항목 데이터에 매칭되는 유사어 또는 대표어가 존재하는 지를 조회할 수 있다.
동작 S42는, 컬럼 항목 데이터로부터 특수문자 및 공백을 제외한 최소 단위의 단어들을 추출하는 동작을 포함할 수 있다.
마지막으로, 동작 S43에서, 동작 S42에서 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어가 표준 항목형 관리 테이블에 존재하는 경우, 컬럼 항목 데이터가 표준 항목명 관리 테이블에 등록된다.
동작 S43은, 표준 항목명 관리 테이블에 분리된 복수의 단어 각각에 대응하는 유사어가 존재하는 경우, 분리된 복수의 단어 각각을 조합한 항목명을 생성하는 동작을 포함할 수 있다. 이 때, 조합한 항목명은 분리된 복수의 단어를 띄어 쓰기 없이 순서대로 이어 붙인 형태로 생성될 수 있다.
일 실시예로서, 상기 방법은, 표준 항목명 관리 테이블에 컬럼 항목 데이터에 대응하는 유사어가 존재하는 경우, 상기 유사어에 대응하는 대표어를 조회하는 동작, 및 상기 컬럼 항목 데이터를 상기 조회된 대표어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 동작을 더 포함할 수 있다.
다른 실시예로서, 상기 방법은, 표준 항목명 관리 테이블에 컬럼 항목 데이터에 대응하는 대표어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 대표어와 연관시켜 표준 항목명 관리 테이블에 등록하는 동작을 더 포함할 수 있다.
또 다른 실시예로서, 상기 방법은, 표준 항목형 관리 테이블에 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어가 존재하지 않는 경우, 분리된 단어 각각에 대응하는 대표어가 존재하는 지 조회하는 동작, 상기 분리된 단어 각각에 대응하는 대표어가 존재하는 경우, 복수의 단어 각각에 대응하는 대표어를 조합한 조합 항목명을 생성하는 동작, 및 상기 조합 항목명에 대응하는 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 표준 항목명 관리 테이블에 등록하는 동작을 더 포함할 수 있다.
상기와 같은 본 발명의 실시예에 따른 방법에 의하면, 데이터셋으로부터 추출되는 서로 다른 컬럼명들로부터 단어를 분리 및 조합하는 방식으로 컬럼명들간 연관성을 추출할 수 있다. 또한, 신규 데이터셋이 입력되는 경우, 신규 데이터셋에 포함된 컬럼명을 기존에 구축되어 있는 데이터셋과 연관시킬 수 있다.
도 7 및 도 8은 본 발명의 몇몇 실시예에 따른 1차 유사어 매칭을 위한 프로세스를 도시한 예이다. 도 7은 수집 항목명이 대표어와 동일한 경우 항목명을 표준화 하는 프로세스에 관한 것이고, 도 8은 수집 항목명이 유사어와 동일한 경우 항목명을 표준화 하는 프로세스에 관한 것이다.
도 7을 참조하면, 표준 항목명을 이용한 데이터셋 관리 장치(1)는 데이터셋으로부터 추출된 수집 항목명(70)으로부터 전처리 작업을 거쳐 연계 관리 테이블(STD_HEADER)에 저장된 정제 항목명(71)이 '연월'인 경우, 정제 항목명(71)이 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(72)할 수 있다. 이 때, 정제 항목명(71)과 동일한 유사어(SYN_NAME)가 존재하는 경우, 유사어(SYN_NAME)인 '연월'에 대응하는 대표어(STD_NAME)를 대표어 관리 테이블(STD_DICTIONARY)에서 조회(73)할 수 있다.
이에 따라 유사어(SYN_NAME)인 '연월'에 대응하는 대표어(STD_NAME)가 조회되면, 정제 항목명(71)을 연계 관리 테이블(74)에 등록함에 의해 연계 관리 테이블(74)을 업데이트할 수 있다. 이 때, 연계 관리 테이블(74)에는 정제 항목명(71)에 대응하는 대표어 '연월'이 표준 항목명으로 저장되고, 이와 함께 표준 항목명에 매칭되는 유사어 관리 시퀀스 및 대표어 관리 시퀀스가 저장될 수 있다.
도 8을 참조하면, 표준 항목명을 이용한 데이터셋 관리 장치(1)는 데이터셋으로부터 추출된 수집 항목명(80)으로부터 전처리 작업을 거쳐 연계 관리 테이블(STD_HEADER)에 저장된 정제 항목명(81)이 '년월'인 경우, 정제 항목명(81)이 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(82)할 수 있다. 이 때, 정제 항목명(81)과 동일한 유사어(SYN_NAME)가 존재하는 경우, 유사어(SYN_NAME)인 '년월'에 대응하는 대표어(STD_NAME)를 대표어 관리 테이블(STD_DICTIONARY)에서 조회(83)할 수 있다.
이에 따라 유사어(SYN_NAME)인 '년월'에 대응하는 대표어(STD_NAME)가 조회되면, 정제 항목명(81)을 연계 관리 테이블(84)에 등록함에 의해 연계 관리 테이블(84)을 업데이트할 수 있다. 이 때, 연계 관리 테이블(84)에는 정제 항목명(81)에 대응하는 대표어 '연월'이 표준 항목명으로 저장되고, 이와 함께 표준 항목명에 매칭되는 유사어 관리 시퀀스 및 대표어 관리 시퀀스가 저장될 수 있다.
도 9는 본 발명의 몇몇 실시예에 따른 2차 유사어 매칭을 위한 프로세스를 도시한 예이다. 도 9를 참조하면, 표준 항목명을 이용한 데이터셋 관리 장치(1)는 데이터셋으로부터 추출된 수집 항목명(90)으로부터 전처리 작업을 거쳐 연계 관리 테이블(STD_HEADER)에 저장된 정제 항목명(91)이 '시 군 구'인 경우, 정제 항목명(91)이 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(92)할 수 있다. 이 때, 정제 항목명(91)과 동일한 유사어(SYN_NAME)가 존재하지 않는 경우, 정제 항목명(91)을 공백 및 특수문자 등을 제외하고 복수의 단어로 분리(93)할 수 있다.
다음으로, 분리된 단어 '시', '군', '구'가 각각 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(94)하고, 분리된 각 단어와 동일한 유사어(SYN_NAME)가 모두 존재하면, 유사어(SYN_NAME)인 '시', '군', '구'를 띄어 쓰기 없이 조합하여 '시군구'라는 조합된 항목명을 생성(95)할 수 있다. 이 때, 조합된 항목명인 '시군구'가 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(96)하고, 조합된 항목명과 동일한 유사어(SYN_NAME)가 존재하는 경우, 정제 항목명(91)인 '시 군 구'를 유사어 관리 테이블(STD_SYNONYM)에 등록(97)하여 유사어 관리 테이블(STD_SYNONYM)을 업데이트할 수 있다.
또한, 조합된 항목명과 동일한 유사어(SYN_NAME)인 '시군구'에 대응하는 대표어(STD_NAME)를 대표어 관리 테이블(STD_DICTIONARY)에서 조회(98)할 수 있다.
이에 따라 유사어(SYN_NAME)인 '시군구'에 대응하는 대표어(STD_NAME)가 조회되면, 정제 항목명(91)을 연계 관리 테이블(99)에 등록함에 의해 연계 관리 테이블(99)을 업데이트할 수 있다. 이 때, 연계 관리 테이블(99)에는 정제 항목명(91)에 대응하는 대표어 '국문시군구명'이 표준 항목명으로 저장되고, 이와 함께 표준 항목명에 매칭되는 유사어 관리 시퀀스 및 대표어 관리 시퀀스가 저장될 수 있다.
도 10은 본 발명의 몇몇 실시예에 따른 3차 유사어 매칭을 위한 프로세스를 도시한 예이다. 도 10을 참조하면, 표준 항목명을 이용한 데이터셋 관리 장치(1)는 데이터셋으로부터 추출된 수집 항목명(1001)으로부터 전처리 작업을 거쳐 연계 관리 테이블(STD_HEADER)에 저장된 정제 항목명(1002)이 '년 도'인 경우, 정제 항목명(1002)이 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(1003)할 수 있다. 이 때, 정제 항목명(1002)과 동일한 유사어(SYN_NAME)가 존재하지 않는 경우, 정제 항목명(1002)을 공백 및 특수문자 등을 제외하고 복수의 단어로 분리(1004)할 수 있다.
다음으로, 분리된 단어 '년', '도'가 각각 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(1005)하고, 분리된 각 단어와 동일한 유사어(SYN_NAME)가 모두 존재하면, 유사어(SYN_NAME)인 '년', '도'를 띄어 쓰기 없이 조합하여 '년도'라는 조합된 항목명을 생성(1006)할 수 있다. 이 때, 조합된 항목명인 '년도'가 유사어 관리 테이블(STD_SYNONYM)에 존재하는지 여부를 조회(1007)하고, 조합된 항목명과 동일한 유사어(SYN_NAME)가 존재하지 않는 경우, 분리된 단어인 '년', '도' 각각을 대표어 관리 테이블(STD_DICTIONARY)에서 조회(1008)할 수 있다.
이에 따라, 대표어 관리 테이블(STD_DICTIONARY)에서 분리된 단어인 '년', '도' 각각에 대응하는 대표어인 '연', '도'가 조회되면, 조회된 대표어 '연', '도'를 조합하여 조합된 항목명인 '연도'를 생성(1009)하고, 조합된 항목명이 유사어 관리 테이블(STD_SYNONYM)에 존재(1010)하면, 정제 항목명(1002)을 유사어 관리 테이블(STD_SYNONYM)에 등록(1011)할 수 있다.
또한, 조합된 항목명과 동일한 유사어(SYN_NAME)인 '연도'에 대응하는 대표어(STD_NAME)를 대표어 관리 테이블(STD_DICTIONARY)에서 조회(1012)할 수 있다.
이에 따라 유사어(SYN_NAME)인 '연도'에 대응하는 대표어(STD_NAME)가 조회되면, 정제 항목명(1002)을 연계 관리 테이블(1013)에 등록함에 의해 연계 관리 테이블(1013)을 업데이트할 수 있다. 이 때, 연계 관리 테이블(1013)에는 정제 항목명(1002)에 대응하는 대표어 '연도'가 표준 항목명으로 저장되고, 이와 함께 표준 항목명에 매칭되는 유사어 관리 시퀀스 및 대표어 관리 시퀀스가 저장될 수 있다.
도 14는 본 발명의 몇몇 실시예에 따른 방법들을 구현할 수 있는 예시적인 컴퓨팅 장치의 하드웨어 구성도이다. 도 14에 도시된 바와 같이, 컴퓨팅 장치(100)는 하나 이상의 프로세서(101), 버스(107), 네트워크 인터페이스(102), 프로세서(101)에 의하여 수행되는 컴퓨터 프로그램(105)을 로드(load)하는 메모리(103)와, 컴퓨터 프로그램(105)를 저장하는 스토리지(104)를 포함할 수 있다. 다만, 도 14에는 본 발명의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 14에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(101)는 컴퓨팅 장치(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(101)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(101)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(100)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(103)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(103)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(104)로부터 하나 이상의 프로그램(105)을 로드(load) 할 수 있다. 예를 들어, 컴퓨터 프로그램(105)이 메모리(103)에 로드 되면, 로직(또는 모듈)이 메모리(103) 상에 구현될 수 있다. 메모리(103)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.
버스(107)는 컴퓨팅 장치(100)의 구성 요소 간 통신 기능을 제공한다. 버스(107)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
네트워크 인터페이스(102)는 컴퓨팅 장치(100)의 유무선 인터넷 통신을 지원한다. 네트워크 인터페이스(102)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 네트워크 인터페이스(102)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
스토리지(104)는 하나 이상의 컴퓨터 프로그램(105)을 비임시적으로 저장할 수 있다. 스토리지(104)는 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(105)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 컴퓨터 프로그램(105)이 메모리(103)에 로드 되면, 프로세서(101)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
지금까지 도 1 내지 도 14를 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (14)

  1. 컴퓨팅 장치에 의해 수행되는 방법에 있어서,
    데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 단계;
    기 저장되어 있는 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 제1 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 제1 유사어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하고, 상기 컬럼 항목 데이터에 대응하는 제1 유사어가 존재하지 않는 경우, 상기 컬럼 항목 데이터를 복수의 단어로 분리하는 단계; 및
    상기 표준 항목명 관리 테이블에 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 제2 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 제2 유사어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 단계를 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  2. 제1 항에 있어서,
    상기 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 단계는,
    상기 추출된 컬럼 항목 데이터에서 문자, 숫자, 및 기호에 해당되지 않는 부분을 제거하는 전처리 동작을 수행하는 단계; 및
    상기 전처리된 컬럼 항목 데이터를 표준 항목명 관리 대상으로 등록하는 단계를 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  3. 제1 항에 있어서,
    상기 표준 항목명 관리 테이블은, 대표어 관리 테이블, 유사어 관리 테이블, 및 연계 관리 테이블을 포함하고,
    상기 대표어 관리 테이블에는 복수의 대표어가 저장되고,
    상기 유사어 관리 테이블에는 상기 복수의 대표어 각각에 매핑되는 복수의 유사어가 저장되고,
    상기 연계 관리 테이블에는 상기 컬럼 항목 데이터에 매핑되는 상기 대표어 및 상기 유사어가 저장되는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  4. 제1 항에 있어서,
    상기 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하는 경우, 상기 유사어에 대응하는 대표어를 조회하는 단계; 및
    상기 컬럼 항목 데이터를 상기 조회된 대표어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 단계를 더 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  5. 제1 항에 있어서,
    상기 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 대표어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 대표어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 단계를 더 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  6. 제1 항에 있어서,
    상기 컬럼 항목 데이터를 복수의 단어로 분리하는 단계는,
    상기 컬럼 항목 데이터로부터 특수문자 및 공백을 제외한 최소 단위의 단어들을 추출하는 단계를 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  7. 제1 항에 있어서,
    상기 표준 항목명 관리 테이블에 등록하는 단계는,
    상기 표준 항목명 관리 테이블에 상기 분리된 복수의 단어 각각에 대응하는 유사어가 존재하는 경우, 상기 분리된 복수의 단어 각각을 조합한 항목명을 생성하는 단계를 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  8. 제7 항에 있어서,
    상기 분리된 복수의 단어 각각을 조합한 항목명을 생성하는 단계는,
    상기 분리된 복수의 단어를 띄어 쓰기 없이 순서대로 이어 붙인 형태로 상기 조합된 항목명을 생성하는 단계를 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  9. 제1 항에 있어서,
    상기 표준 항목명 관리 테이블에 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 유사어가 존재하지 않는 경우, 상기 분리된 단어 각각에 대응하는 대표어가 존재하는 지 조회하는 단계;
    상기 분리된 단어 각각에 대응하는 대표어가 존재하는 경우, 복수의 단어 각각에 대응하는 대표어를 조합한 조합 항목명을 생성하는 단계; 및
    상기 조합 항목명에 대응하는 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 표준 항목명 관리 테이블에 등록하는 단계를 더 포함하는,
    표준 항목명을 이용한 데이터셋 관리 방법.
  10. 컴퓨터로 하여금 제1 항 내지 제9 항 중 어느 한 항의 방법을 수행하도록 하는 컴퓨터 프로그램이 저장된,
    컴퓨터 판독 가능한 비일시적 기록 매체.
  11. 외부 장치와 통신하는 통신부;
    상기 외부 장치로부터 수신되는 데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 항목명 추출부;
    기 저장되어 있는 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 제1 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 제1 유사어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하고, 상기 컬럼 항목 데이터에 대응하는 제1 유사어가 존재하지 않는 경우, 상기 컬럼 항목 데이터를 복수의 단어로 분리하고, 상기 표준 항목명 관리 테이블에서 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 제2 유사어를 조회하는 제2 유사어 매칭부; 및
    상기 조합한 항목명에 대응하는 상기 제2 유사어가 조회되는 경우, 상기 컬럼 항목 데이터를 상기 제2 유사어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 표준 항목명 등록부를 포함하는,
    표준 항목명을 이용한 데이터셋 관리 장치.
  12. 제11 항에 있어서,
    상기 항목명 추출부에서 추출된 컬럼 항목 데이터에서 문자, 숫자, 및 기호에 해당되지 않는 부분을 제거하는 전처리 동작을 수행하는 항목명 전처리부를 더 포함하는,
    표준 항목명을 이용한 데이터셋 관리 장치.
  13. 제11 항에 있어서,
    상기 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 유사어가 존재하는 경우, 상기 유사어에 대응하는 대표어를 조회하는 제1 유사어 매칭부를 더 포함하고,
    상기 표준 항목명 등록부는, 상기 컬럼 항목 데이터를 상기 제1 유사어 매칭부에서 조회된 대표어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는,
    표준 항목명을 이용한 데이터셋 관리 장치.
  14. 하나 이상의 프로세서;
    외부장치와 통신하는 통신 인터페이스;
    상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리; 및
    상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    데이터셋으로부터 복수 개의 컬럼으로 식별되는 컬럼 항목 데이터를 추출하는 동작,
    기 저장되어 있는 표준 항목명 관리 테이블에 상기 컬럼 항목 데이터에 대응하는 제1 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 제1 유사어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하고, 상기 컬럼 항목 데이터에 대응하는 제1 유사어가 존재하지 않는 경우, 상기 컬럼 항목 데이터를 복수의 단어로 분리하는 동작, 및
    상기 표준 항목명 관리 테이블에 상기 분리된 복수의 단어 각각을 조합한 항목명에 대응하는 제2 유사어가 존재하는 경우, 상기 컬럼 항목 데이터를 상기 제2 유사어와 연관시켜 상기 표준 항목명 관리 테이블에 등록하는 동작을 수행하기 위한 인스트럭션을 포함하는,
    컴퓨팅 장치.
KR1020210172117A 2021-12-03 2021-12-03 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치 KR102483584B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210172117A KR102483584B1 (ko) 2021-12-03 2021-12-03 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210172117A KR102483584B1 (ko) 2021-12-03 2021-12-03 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치

Publications (1)

Publication Number Publication Date
KR102483584B1 true KR102483584B1 (ko) 2023-01-02

Family

ID=84925780

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210172117A KR102483584B1 (ko) 2021-12-03 2021-12-03 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치

Country Status (1)

Country Link
KR (1) KR102483584B1 (ko)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
KR20140073775A (ko) * 2012-12-07 2014-06-17 문영천 제품명 유사 검색 시스템
JP2017187901A (ja) * 2016-04-05 2017-10-12 株式会社日立製作所 データベース登録装置
KR20170133584A (ko) * 2016-05-26 2017-12-06 주식회사 햄파트너스 인재 데이터 베이스 이력서 데이터 정규화를 통한 세그멘테이션 자동화 솔루션
KR101893090B1 (ko) * 2017-11-15 2018-08-29 한국인터넷진흥원 취약점 정보 관리 방법 및 그 장치
KR20190053616A (ko) * 2017-11-10 2019-05-20 (주)위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법
KR102046640B1 (ko) 2019-07-22 2019-12-02 (주)위세아이텍 빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법
CN111949828A (zh) * 2019-05-17 2020-11-17 南京农业大学 一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法
JP2021086362A (ja) * 2019-11-27 2021-06-03 株式会社東芝 情報処理装置、情報処理方法及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162008A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
KR20140073775A (ko) * 2012-12-07 2014-06-17 문영천 제품명 유사 검색 시스템
JP2017187901A (ja) * 2016-04-05 2017-10-12 株式会社日立製作所 データベース登録装置
KR20170133584A (ko) * 2016-05-26 2017-12-06 주식회사 햄파트너스 인재 데이터 베이스 이력서 데이터 정규화를 통한 세그멘테이션 자동화 솔루션
KR20190053616A (ko) * 2017-11-10 2019-05-20 (주)위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법
KR101893090B1 (ko) * 2017-11-15 2018-08-29 한국인터넷진흥원 취약점 정보 관리 방법 및 그 장치
CN111949828A (zh) * 2019-05-17 2020-11-17 南京农业大学 一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法
KR102046640B1 (ko) 2019-07-22 2019-12-02 (주)위세아이텍 빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법
JP2021086362A (ja) * 2019-11-27 2021-06-03 株式会社東芝 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
CN110633292B (zh) 一种异构数据库的查询方法、装置、介质、设备及系统
KR102407510B1 (ko) 데이터 저장 및 조회 방법, 장치, 기기 및 매체
JP7089605B2 (ja) データ変形システムおよび方法
CN111258966A (zh) 一种数据去重方法、装置、设备及存储介质
US9864776B2 (en) Intelligently utilizing non-matching weighted indexes
CN104346479A (zh) 一种数据库同步方法及装置
WO2011079415A1 (en) Generating related input suggestions
US20140067853A1 (en) Data search method, information system, and recording medium storing data search program
Newman et al. Scalable Semantics–the Silver Lining of Cloud Computing
CN110263021B (zh) 一种基于个性化标签体系的主题库生成方法
CN105843899A (zh) 一种可简化编程的大数据自动化解析方法及系统
CN113407565B (zh) 跨库数据查询方法、装置和设备
CN110069489B (zh) 一种信息处理方法、装置、设备及计算机可读存储介质
KR102483584B1 (ko) 표준 항목명을 이용한 데이터셋 관리 방법, 그리고 이를 구현하기 위한 장치
CN111125216B (zh) 数据导入Phoenix的方法及装置
CN110674262B (zh) 词语识别方法、装置、电子设备和介质
US11645299B2 (en) Data management device and data management method
JP6787755B2 (ja) 文書検索装置
CN112380445B (zh) 数据查询方法、装置、设备和存储介质
US11003647B2 (en) Multidimensional data management system and multidimensional data management method
JPH10162008A (ja) 情報検索方法及び装置
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP2019200582A (ja) 検索装置、検索方法及び検索プログラム
CN111309704B (zh) 数据库操作方法和数据库操作系统
KR101679011B1 (ko) 데이터베이스에서 데이터 이동을 처리하는 방법 및 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant