KR102453425B1 - 이종 데이터 통합 관리 방법 및 장치 - Google Patents

이종 데이터 통합 관리 방법 및 장치 Download PDF

Info

Publication number
KR102453425B1
KR102453425B1 KR1020210175606A KR20210175606A KR102453425B1 KR 102453425 B1 KR102453425 B1 KR 102453425B1 KR 1020210175606 A KR1020210175606 A KR 1020210175606A KR 20210175606 A KR20210175606 A KR 20210175606A KR 102453425 B1 KR102453425 B1 KR 102453425B1
Authority
KR
South Korea
Prior art keywords
data
database
heterogeneous
processing
plug
Prior art date
Application number
KR1020210175606A
Other languages
English (en)
Inventor
송광헌
이금탁
이우성
양승남
이은희
신명지
Original Assignee
주식회사 피씨엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피씨엔 filed Critical 주식회사 피씨엔
Application granted granted Critical
Publication of KR102453425B1 publication Critical patent/KR102453425B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/184Distributed file systems implemented as replicated file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24528Standardisation; Simplification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 이종 데이터 통합 관리 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 데이터 소스로부터 IoT, 텍스트, 이미지 및 비디오를 포함하는 이종 데이터를 수집하여 이종 데이터베이스에 저장하고, 상기 수집된 이종 데이터에 대한 메타데이터를 생성하고, API를 통해 사용자의 질의 요청을 수신하고, 상기 메타데이터를 참조하여 상기 질의 요청된 데이터의 데이터베이스 종류 및 테이블 종류를 확인하고, SQL 엔진을 통해 상기 사용자의 질의 요청을 상기 데이터베이스 종류 및 테이블 종류에 상응하는 명령어로 변환하고, 상기 변환된 명령어를 통해 상기 질의 요청된 데이터에 대한 전처리, 증강분석 프로파일링 및 시각화 중 하나를 수행하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 이종 데이터 통합 관리 장치가 제공된다.

Description

이종 데이터 통합 관리 방법 및 장치{Method and apparatus for integrated management of heterogeneous data}
본 발명은 이종 데이터 통합 관리 방법 및 장치에 관한 것이다.
빅데이터 분석은 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 비정형 데이터의 집합에서 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석 가능하게 하며 과거에는 불가능했던 기술을 실현시키기도 한다.
이와 같이 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.
일반적으로 빅데이터 분석은 데이터 수집/저장, 데이터 전처리, 데이터 정제(프로파일링), 데이터 분석 및 데이터 시각화를 거친다.
최근 빅데이터 수집을 위한 데이터 소스는 음성, 문서, SNS 데이터와 같은 비정형 데이터, 로그 데이터, 머신 데이터 및 운용 데이터와 같은 반정형 데이터와 DB/DW와 같은 정형 데이터를 포함한다.
현대 정보의 급속한 발전과 함께 데이터 소스는 복잡한 구조와 다양성을 띄고 있으며, 수집된 데이터가 서로 다른 패턴이나 규칙성이 각기 다른 이종 데이터가 많기 때문에 분석이 어려운 문제점이 있다.
특히 이종 데이터는 누락된 데이터, 범위가 다른 데이터, 중복성과 오류로 인한 데이터 등 다양한 품질적 오류를 포함하고 있기 때문에 융합 분석이 어려운 문제점이 있다.
또한, 종래에는 이종 데이터가 데이터베이스 종류에 따라 사용자의 정확한 질의어를 입력해야 하는 번거로움이 있었다.
한국등록특허 10-2297592
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 이종 데이터를 효율적으로 관리하며 이종 데이터의 종류에 관계없이 질의 요청의 쉽게 할 수 있는 이종 데이터 관리 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 이종 데이터 통합 관리 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 데이터 소스로부터 IoT, 텍스트, 이미지 및 비디오를 포함하는 이종 데이터를 수집하여 이종 데이터베이스에 저장하고, 상기 수집된 이종 데이터에 대한 메타데이터를 생성하고, API를 통해 사용자의 질의 요청을 수신하고, 상기 메타데이터를 참조하여 상기 질의 요청된 데이터의 데이터베이스 종류 및 테이블 종류를 확인하고, SQL 엔진을 통해 상기 사용자의 질의 요청을 상기 데이터베이스 종류 및 테이블 종류에 상응하는 명령어로 변환하고, 상기 변환된 명령어를 통해 상기 질의 요청된 데이터에 대한 전처리, 증강분석 프로파일링 및 시각화 중 하나를 수행하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 이종 데이터 통합 관리 장치가 제공된다.
상기 이종 데이터베이스는, 오라클 데이터베이스, MySQL 데이터베이스, MSSQL 데이터베이스, 그래프 데이터베이스, Mongo 데이터베이스 및 Hdfs 중 적어도 하나를 포함할 수 있다.
상기 메타데이터는, 엔티티 종류의 인스턴트를 포함하는 로우(Row)와 상기 인스턴스의 복수의 속성을 포함하는 컬럼(column)으로 구성될 수 있다.
상기 프로그램 명령어들은, 상기 질의 요청이 소정 데이터셋의 전처리인 경우, 미리 학습된 전처리 플러그인 추천 모델을 이용하여 상기 이종 데이터베이스에 저장된 데이터의 오류를 식별하고, 상기 오류를 개선하기 위한 복수의 전처리 플러그인을 선택하고, 상기 선택된 복수의 전처리 플러그인을 순차적으로 배치한 최적의 파이프라인을 결정하고, 상기 결정된 파이프라인을 통해 상기 하나 이상의 데이터베이스에 저장된 데이터의 전처리를 수행할 수 있다.
상기 프로그램 명령어들은, 상기 전처리 플러그인 추천 모델을 이용하여 csv(comma-separated values) 필터링, 공백 제거, 결측값 처리, 이상값 처리, 노이즈 제거, 정렬 및 변수 변환을 위한 개별 플러그인 모듈을 하나 이상 선택할 수 있다.
상기 프로그램 명령어들은, 과거에 수집 데이터에 대한 전처리 플러그인 내역을 이용하여 상기 전처리 플러그인 추천 모델을 학습할 수 있다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록매체가 제공된다.
본 발명에 따르면, 이종 데이터를 효율적으로 관리하고 질의 요청의 편의성을 높일 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 이종 데이터 통합 관리 장치의 구성을 도시한 도면이다.
도 2는 본 발명의 바람직한 일 실시예에 따른 데이터 수집 모듈의 데이터 수집 과정을 설명하기 위한 도면이다.
도 3은 본 실시예에 따른 메타데이터를 예시적으로 도시한 도면이다.
도 4는 본 발명의 바람직한 일 실시예에 따른 질의 요청의 처리 과정을 도시한 도면이다.
도 5는 본 실시예에 따른 데이터 전처리 모듈의 아키텍쳐를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 인공지능 기반 동적 플러그인 추천 방식의 전처리 과정을 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 증강분석 프로파일링 모듈의 구성을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 이종 데이터 통합 관리 장치의 구성을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 이종 데이터 통합 관리 장치는, 데이터 수집 모듈(100), 메타데이터 생성 모듈(102), 데이터 전처리 모듈(104) 및 증강분석 프로파일링 모듈(106)을 포함할 수 있다.
데이터 수집 모듈(100)은 빅데이터 분석을 위한 데이터를 지능적으로 수집하고 분류한다.
도 2는 본 발명의 바람직한 일 실시예에 따른 데이터 수집 모듈의 데이터 수집 과정을 설명하기 위한 도면이다.
도 2에 도시된 바와 같이, 본 실시예에 따른 데이터 수집 모듈(100)은 원천 데이터인 데이터 소스(200)와 네트워크를 통해 연결되며, 데이터 소스로부터 수집된 이종 데이터를 하나 이상의 이종 데이터베이스(202)에 저장한다.
여기서, 이종 데이터베이스(202)는 오라클 데이터베이스, MySQL 데이터베이스, MSSQL 데이터베이스, 그래프 데이터베이스, Mongo 데이터베이스, Hdfs 등을 포함할 수 있다.
여기서, 오라클 데이터베이스, MySQL 데이터베이스, MSSQL 데이터베이스는 RDB(관계형 데이터베이스)로 정의될 수 있다.
데이터 소스(200)로부터 수집되는 이종 데이터는, 정형 데이터(Structured Data), 반정형 데이터(Semistructured-Data) 및 비정형 데이터(Unstructured-Data)를 포함할 수 있다.
정형 데이터는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 필드(컬럼)에 저장되는 데이터와 파일, 그리고 지정된 행과 열에 의해 데이터의 속성이 구별되는 스프레드시트 형태의 데이터이다.
정형 데이터의 경우, 스키마 구조를 가지고 있기 때문에 데이터를 탐색하는 과정이 테이블 탐색, 컬럼 구조 탐색, 로우 탐색 순으로 정형화되어 있다.
반정형 데이터는 데이터 내부에 정형데이터의 스키마에 해당되는 메타데이터를 갖고 있으며. 일반적으로 파일 형태로 저장되는 데이터로서, 로그 데이터, 머신 데이터 및 운용 데이터를 포함한다.
반정형 데이터의 경우 데이터 내부에 데이터 구조에 대한 메타데이터를 갖고 있기 때문에 어떤 형태를 가진 데이터인지를 파악하는 것이 필요하다. 데이터 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있는 파싱 규칙을 적용한다.
비정형 데이터는 음성, 문서 및 SNS 데이터와 같이 언어 분석이 가능한 텍스트 데이터, 음성, 이미지 및 동영상과 같은 멀티미디어 데이터를 포함한다.
본 실시예에 따른 데이터 수집 모듈(100)은 네트워크를 통해 연결되는 데이터 소스(200)로부터 정형, 반정형 및 비정형 데이터를 포함하는 데이터를 입력 받아 이종 데이터베이스에 저장한다.
메타데이터 생성 모듈(102)은 수집된 이종 데이터에 대해 엔티티 종류의 인스턴트를 포함하는 로우(Row)와 인스턴스의 복수의 속성을 포함하는 컬럼(column)으로 구성되는 메타데이터를 생성한다.
도 3은 본 실시예에 따른 메타데이터를 예시적으로 도시한 도면이다.
도 3에 도시된 바와 같이, 본 실시예에 따른 메타데이터는 이종 데이터 각각의 인스턴트를 포함하는 로우와 각 이종 데이터의 엔티티 식별자(set), 데이터베이스 종류 속성(source), 객체 속성(object), 객체 범위 속성(range)을 포함하는 컬럼을 포함할 수 있다.
본 실시예에 따른 메타데이터는 데이터 전처리, 증강분석 프로파일링 및 시각화를 위해 사용자가 질의 요청을 하는 경우 활용될 수 있으며, 이를 위해 본 실시예에 따르면 SQL 엔진이 제공된다.
도 4는 본 발명의 바람직한 일 실시예에 따른 질의 요청의 처리 과정을 도시한 도면이다.
도 4에서는 이종 데이터베이스가 오라클 데이터베이스, 그래프 데이터베이스, Mongo 데이터베이스 및 Hdfs를 포함하는 경우를 예시적으로 도시한 것이다.
도 4를 참조하면, API를 통해 사용자의 질의 요청을 수신한다.
API는 사용자가 질의 요청 Data1인 경우, 메타데이터를 참조하여 질의 요청된 데이터의 데이터베이스 종류 및 테이블 종류를 확인하고, SQL 엔진을 통해 사용자의 질의 요청을 데이터베이스 종류 및 테이블 종류에 상응하는 명령어로 변환한다.
본 실시예에 따른 API는 Data1의 데이터 소스가 RDB 중 오라클 데이터베이스인 것을 확인하여, 사용자 질의 요청을 오라클 데이터베이스에 상응하는 명령어로 변환한다.
또한, 사용자가 질의 요청 Data5인 경우, 본 실시예에 따른 API는 Data5의 데이터 소스가 Mongo 데이터베이스인 것을 확인하여, 사용자 질의 요청을 Mongo 데이터베이스에 상응하는 명령어로 변환한다.
본 실시예에 따르면, 이종 데이터베이스에 따른 데이터 어댑터가 제공되며, 데이터 어댑터는 변환된 명령어를 실행하여 사용자의 질의 요청에 따른 결과를 반환한다.
이때, 변환된 명령어를 통해 상기 질의 요청된 데이터에 대한 전처리, 증강분석 프로파일링 및 시각화 중 하나가 수행될 수 있다.
도 4에서는 데이터베이스의 종류가 관계형 데이터베이스인 오라클 데이터베이스인 경우를 예시적으로 설명하였으나, 오라클과 MSSQL도 기본적인 구문 형식도 아래와 같은 차이가 있을 수 있다.
쿼리구문 ORACLE MS-SQL
갯수 선택 select *from 테이블명
where rownum <=100
select top 100
from 테이블명
문자열 자르기 select substr(컬럼명,1,2)from 테이블명 select substring(컬럼명,1,2)
from 테이블명
널값 제어 select nvl(컬럼명,대체값)from 테이블명 select isnull(컬럼명,대체값)
from 테이블명
값 대체 select decode(컬럼명,비교값,대체값)from 테이블명 select case when 컬럼명='비교값' then 대체값
from 테이블명
길이 확인 select length(컬럼명)from 테이블명 select len(컬럼명)
from 테이블명
문자열 합치기 select '가나다'||'마바사'from 테이블명 select '가나다'+'마바사'
from 테이블명
형태변환 select to_char(컬럼명), to_number(컬럼명)from 테이블명 select convert(varchar, 컬럼명), convert(int, 컬럼명)
from 테이블명
본 실시예에 따른 API는 사용자가 질의 요청이 있는 경우, 메타데이터를 참조하여 질의 요청된 데이터의 데이터베이스 종류 및 테이블 종류를 확인하고, SQL 엔진을 통해 관계형 데이터베이스라고 하더라도 세부 종류에 따른 명령어로 변환한다.
도 5는 본 실시예에 따른 데이터 전처리 모듈의 아키텍쳐를 도시한 도면이다.
도 5를 참조하면, 본 실시예에 따른 데이터 전처리 모듈(104)은 파일기반(Comma-Separated Values, CSV) 데이터 전처리 용량의 제약사항을 개선하기 위해 데이터를 분할하고, 분할된 데이터 동시 전처리를 위한 멀티-스레드 기법을 적용하여 노드 당 데이터 처리 가능량을 개선한다.
데이터 전처리 모듈(104)의 메모리 캐시(Memory Cache)는 전처리 대상 리스트, 전처리 정의 템플릿(Recipe), 데이터 분할 처리 등 대용량의 데이터 전처리를 위한 메타정보 공유 관리 기능을 제공한다.
데이터 전처리 모듈(104)의 Split 모듈은 전처리 대상 데이터를 분할하고, 분할된 데이터의 전처리를 위한 스레드를 생성하고 회수하는 멀티-스레드 관리 기능을 수행한다.
데이터 전처리 모듈(104)의 통합 모듈(Integration)은 Split 모듈로부터 전처리가 완료된 데이터를 통합하고 저장한다.
데이터 전처리 모듈(104)의 DFS(Distribute File Storage)는 원격지 분산 파일 스토리지를 이용하여 데이터 전처리 저장소를 지원한다.
본 실시예에 따른 데이터 전처리 모듈(104)은 데이터 처리 속도 향상을 위해 메모리 기반 "key-value" 구조로 데이터 관리가 가능하고, In-memory store를 통한 빠른 데이터 액세스가 가능한 Redis(REmote Dictionary Server)를 적용하여 데이터 분할 및 데이터 동시 처리에 필요한 메타정보를 공유한다.
여기서, Redis는 모든 데이터를 메모리에 저장하고 조회하기에 빠른 Read, Write 속도를 보장하는 비관계형 데이터베이스이며, 5가지< String, Set, Sorted Set, Hash, List >의 데이터 형식을 지원한다.
또한, 데이터 전처리 모듈(104)은 로컬 스토리지 이외에 외부 저장소를 통해 데이터 전처리가 가능하도록 HDFS 기반의 원격지 분산 파일 스토리지를 이용한다.
그리고, 데이터 전처리 모듈(104)은 자바 스레딩 기법을 적용하여 HDFS로부터 데이터스트림(DataStream)의 메인 메모리 공유가 가능하도록 volatile을 적용하여 분할 데이터의 전처리 및 통합 시 데이터 무결성을 확보한다.
도 6은 본 발명의 일 실시예에 따른 인공지능 기반 동적 플러그인 추천 방식의 전처리 과정을 도시한 도면이다.
도 6에 도시된 바와 같이, 이종 데이터베이스에 저장되는 수집 데이터는 센서 데이터(Sensor data), JSON(JavaScript Object Notation) 데이터, DB 데이터, 텍스트 데이터와 같이 다양한 데이터 소스로부터 수집된 데이터일 수 있다.
수집 데이터를 빅데이터 분석에 활용하기 위해서는 다양한 전처리 과정이 필요한다.
데이터 전처리는 빅데이터 분석에서 가장 많은 시간이 소요되는 단계로서, 수집 데이터를 분석하여 결측값, 이상값 등을 탐색하고, 이를 처리하는 과정을 의미한다.
데이터 전처리는 csv(comma-separated values) 필터링, 공백 제거, 결측값 처리, 이상값 처리, 노이즈 제거 및 정렬을 위한 개별 플러그인 모듈에 의해 수행될 수 있다.
본 실시예에 따르면, 이종 데이터에 따른 전처리 플러그인 추천 모델이 제공되며, 전처리 플러그인 추천 모델을 학습 데이터를 통해 미리 기계학습한다.
학습 데이터에는 수집된 이종 데이터에 따라 발생할 수 있는 다양한 오류가 포함된 과거에 수집된 데이터이며, 지도학습 또는 비지도 학습 방식으로 전처리 플러그인 추천 모델을 학습하여 오류를 개선하기 위한 전처리 플러그인을 추천하도록 하고, 미리 설정된 성능에 도달할때까지 학습을 반복 수행한다.
전처리 플러그인 추천 모델을 학습하기 위해, 과거 수집 데이터에 대한 전처리 플러그인 내역이 활용될 수 있다.
사전 학습이 완료된 이후, 이종 데이터가 입력되면 전처리 플러그인 추천 모델은 이종 데이터를 분석하여 이의 전처리를 위한 복수의 전처리 플러그인을 선택하고, 복수의 전처리 플러그인을 순차적으로 배치한 최적의 파이프라인을 결정한다.
예를 들어, 전처리 플러그인 추천 모델은 단변수 분석, 다변수 분석 수행하여 결측값을 탐색하고, 식별된 결측값에 대해 삭제, 대체(평균/최빈값/중간값), 예측값 삽입 등을 위한 개별 전처리 플러그인을 선택할 수 있다.
또한, 이상값이 식별되는 경우, 삭제, 대체, 변수화(변환), 리샘플링 등을 위한 개별 전처리 플러그인을 선택할 수 있다.
상기한 바와 같이, 데이터 오류 처리 이후, 연속형 변수를 범주형 변수로 만드는 비닝(BINING), 기존 존재하는 변수의 성질을 이용해 다른 변수를 만드는 변환(TRANSFORMATION), 정규화(Normalization)와 같은 변수 변환을 위한 전처리 플러그인 모듈을 추천할 수 있다.
본 발명의 바람직한 일 실시예에 따르면, 복수의 전처리 플러그인 모듈을 포함하는 최적의 파이프라인은 사용자에게 미리 출력될 수 있으며, 사용자는 GUI를 통해 전처리 플러그인의 순서를 변경하거나 삭제 및 추가하는 편집 과정을 수행할 수도 있다.
도 7은 본 발명의 일 실시예에 따른 증강분석 프로파일링 모듈의 구성을 도시한 도면이다.
본 실시예에 따른 증강분석 프로파일링 모듈(106)은 사용자 목적에 맞게 증강분석 프로파일 단계가 실행되도록 워크플로우(Workflow)를 구성하며, 기계학습 기반으로 프로파일링 모듈의 독립적 실행과 유기적 결합을 위한 런타임(run-time) 환경을 제공할 수 있는 프레임워크로 개발된다.
도 6을 참조하면, service pool은 기계학습 기반 증강분석 프로파일링 실행을 위한 pool을 제공한다.
증강분석 프로파일링 모듈(106)은 증강분석 프로파일링 실행 플로우를 정의하고, 데이터 로딩, 저장 등 모든 실행에 필요한 Config를 생성한다. 또한, 파이프라인을 구성하여 배포하는 기능을 수행한다.
파이프라인은 증강분석 프로파일링의 실행 순서, 반복 주기와 같은 미리 정의된 워크플로우의 일괄 실행, 중지 및 회수 등의 관리 기능을 수행한다.
본 실시예에 따르면, 단독 모듈로 개발된 증강분석 프로파일링 모듈을 파이프라인 내 스트리밍 처리가 가능하도록 Apache Beam으로 Wrapping한다.
Apache Beam은 Google Dataflow, Spark 등과 같은 다양한 런타임에 배포하여 실행할 수 있다. 또한 Data Read/Write, 모듈 간 인터페이스와 같은 공통 기능 제공을 위한 다양한 Artifacts를 제공한다.
파이프라인의 런타임을 위해 Direct Runner와 Apache Spark Runner, 2 종류의 실행 환경을 제공할 수 있다.
Direct Runner는 별도의 외부 분석 Cluster를 구성할 필요가 없기 때문에 개발/테스트 단계에서의 활용할 수 있으며, 실제 Production의 실행환경에서는 Apache Spark를 활용할 수 있도록 Stand-Alone 형태로 제공한다.
Apache Spark를 통해 실행된 파이프라인은 증강분석 프로파일링 모듈(106)이 외부에 구성된 HDFS, RDBMS 로부터 데이터를 Read하거나 분석결과를 Write할 수 있도록 기능을 제공한다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (8)

  1. 이종 데이터 통합 관리 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    데이터 소스로부터 IoT, 텍스트, 이미지 및 비디오를 포함하는 이종 데이터를 수집하여 이종 데이터베이스에 저장하고,
    상기 수집된 이종 데이터에 대한 메타데이터를 생성하고,
    API를 통해 사용자의 질의 요청을 수신하고,
    상기 메타데이터를 참조하여 상기 질의 요청된 데이터의 데이터베이스 종류 및 테이블 종류를 확인하고,
    SQL 엔진을 통해 상기 사용자의 질의 요청을 상기 데이터베이스 종류 및 테이블 종류에 상응하는 명령어로 변환하고,
    상기 변환된 명령어를 통해 상기 질의 요청된 데이터에 대한 전처리, 증강분석 프로파일링 및 시각화 중 하나를 수행하도록,
    상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되,
    상기 프로그램 명령어들은,
    상기 질의 요청이 소정 데이터셋의 전처리인 경우, 미리 학습된 전처리 플러그인 추천 모델을 이용하여 상기 이종 데이터베이스에 저장된 데이터의 오류를 식별하고,
    상기 오류를 개선하기 위한 복수의 전처리 플러그인을 선택하고,
    상기 선택된 복수의 전처리 플러그인을 순차적으로 배치한 파이프라인을 GUI에 출력하고,
    상기 GUI를 통한 편집 과정을 통해 입력된 사용자의 요청에 따라 상기 복수의 전처리 플러그인의 순서 변경, 삭제 및 추가를 수행하여 최적의 파이프라인을 결정하고,
    상기 결정된 파이프라인을 통해 상기 하나 이상의 데이터베이스에 저장된 데이터의 전처리를 수행하고,
    상기 전처리 플러그인 추천 모델을 이용하여 csv(comma-separated values) 필터링, 공백 제거, 결측값 처리, 이상값 처리, 노이즈 제거, 정렬 및 변수 변환을 위한 개별 플러그인 모듈을 하나 이상 선택하고,
    과거에 수집 데이터에 대한 전처리 플러그인 내역을 이용하여 상기 전처리 플러그인 추천 모델을 학습하며,
    상기 이종 데이터베이스는,
    오라클 데이터베이스, MySQL 데이터베이스, MSSQL 데이터베이스, 그래프 데이터베이스, Mongo 데이터베이스 및 Hdfs 중 적어도 하나를 포함하며,
    상기 메타데이터는,
    엔티티 종류의 인스턴스를 포함하는 로우(Row)와 상기 인스턴스의 복수의 속성을 포함하는 컬럼(column)으로 구성되는 이종 데이터 통합 관리 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 프로세서 및 메모리를 포함하는 장치에서 이종 데이터를 통합 관리하는 방법으로서,
    데이터 소스로부터 IoT, 텍스트, 이미지 및 비디오를 포함하는 이종 데이터를 수집하여 이종 데이터베이스에 저장하는 단계;
    상기 수집된 이종 데이터에 대한 메타데이터를 생성하고, API를 통해 사용자의 질의 요청을 수신하는 단계;
    상기 메타데이터를 참조하여 상기 질의 요청된 데이터의 데이터베이스 종류 및 테이블 종류를 확인하는 단계;
    SQL 엔진을 통해 상기 사용자의 질의 요청을 상기 데이터베이스 종류 및 테이블 종류에 상응하는 명령어로 변환하는 단계; 및
    상기 변환된 명령어를 통해 상기 질의 요청된 데이터에 대한 전처리, 증강분석 프로파일링 및 시각화 중 하나를 수행하는 단계를 포함하되,
    상기 질의 요청이 소정 데이터셋의 전처리인 경우, 미리 학습된 전처리 플러그인 추천 모델을 이용하여 상기 이종 데이터베이스에 저장된 데이터의 오류를 식별하는 단계;
    상기 오류를 개선하기 위한 복수의 전처리 플러그인을 선택하는 단계;
    상기 선택된 복수의 전처리 플러그인을 순차적으로 배치한 파이프라인을 GUI에 출력하는 단계;
    상기 GUI를 통한 편집 과정을 통해 입력된 사용자의 요청에 따라 상기 복수의 전처리 플러그인의 순서 변경, 삭제 및 추가를 수행하여 최적의 파이프라인을 결정하는 단계; 및
    상기 결정된 파이프라인을 통해 상기 하나 이상의 데이터베이스에 저장된 데이터의 전처리를 수행하는 단계를 더 포함하되,
    복수의 전처리 플러그인을 선택하는 단계는 상기 전처리 플러그인 추천 모델을 이용하여 csv(comma-separated values) 필터링, 공백 제거, 결측값 처리, 이상값 처리, 노이즈 제거, 정렬 및 변수 변환을 위한 개별 플러그인 모듈을 하나 이상 선택하는 단계를 포함하고,
    상기 전처리 플러그인 추천 모델의 학습은 과거에 수집 데이터에 대한 전처리 플러그인 내역을 이용하여 이루어지며,
    상기 이종 데이터베이스는,
    오라클 데이터베이스, MySQL 데이터베이스, MSSQL 데이터베이스, 그래프 데이터베이스, Mongo 데이터베이스 및 Hdfs 중 적어도 하나를 포함하며,
    상기 메타데이터는,
    엔티티 종류의 인스턴스를 포함하는 로우(Row)와 상기 인스턴스의 복수의 속성을 포함하는 컬럼(column)으로 구성되는 이종 데이터 통합 관리 방법.
  8. 제7항에 따른 방법을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.
KR1020210175606A 2021-10-15 2021-12-09 이종 데이터 통합 관리 방법 및 장치 KR102453425B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210137035 2021-10-15
KR20210137035 2021-10-15

Publications (1)

Publication Number Publication Date
KR102453425B1 true KR102453425B1 (ko) 2022-10-12

Family

ID=83598232

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210175606A KR102453425B1 (ko) 2021-10-15 2021-12-09 이종 데이터 통합 관리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102453425B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102675553B1 (ko) * 2023-07-10 2024-06-17 스마트마인드 주식회사 워크스페이스 백업 방법 및 이러한 방법을 수행하는 장치
CN118210862A (zh) * 2024-04-12 2024-06-18 云南腾建科技有限公司 一种异构数据源融合处理方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020191353A1 (en) * 2019-03-20 2020-09-24 Promethium, Inc. Natural language based processing of data stored across heterogeneous data sources
KR102297592B1 (ko) 2019-01-30 2021-09-03 펜타시큐리티시스템 주식회사 블록체인을 이용한 빅데이터 공유 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102297592B1 (ko) 2019-01-30 2021-09-03 펜타시큐리티시스템 주식회사 블록체인을 이용한 빅데이터 공유 방법 및 장치
WO2020191353A1 (en) * 2019-03-20 2020-09-24 Promethium, Inc. Natural language based processing of data stored across heterogeneous data sources

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bharat Kumar Padhi 외, "Machine Learning for Big Data Processing: A Literature Review"(2018.12.)* *
이미영 외, "빅데이터 분석을 위한 빅데이터 처리 기술 동향"(2012.03.)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102675553B1 (ko) * 2023-07-10 2024-06-17 스마트마인드 주식회사 워크스페이스 백업 방법 및 이러한 방법을 수행하는 장치
CN118210862A (zh) * 2024-04-12 2024-06-18 云南腾建科技有限公司 一种异构数据源融合处理方法、系统及存储介质

Similar Documents

Publication Publication Date Title
US11995073B2 (en) One-shot learning for text-to-SQL
US11334548B2 (en) Index sharding
US11789945B2 (en) Clause-wise text-to-SQL generation
KR102453425B1 (ko) 이종 데이터 통합 관리 방법 및 장치
US9141666B2 (en) Incremental maintenance of range-partitioned statistics for query optimization
US20230177078A1 (en) Conversational Database Analysis
DE112011101200T5 (de) Spaltenorientierte Speicher-Darstellungen von Datensätzen
KR102541934B1 (ko) 빅데이터 증강분석 프로파일링 시스템
US11461333B2 (en) Vertical union of feature-based datasets
US11809468B2 (en) Phrase indexing
Kalna et al. A scalable business intelligence decision-making system in the era of big data
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
Song et al. Haery: a Hadoop based query system on accumulative and high-dimensional data model for big data
CN111078705A (zh) 基于Spark平台建立数据索引方法及数据查询方法
Moussa Tpc-h benchmark analytics scenarios and performances on hadoop data clouds
US20210109974A1 (en) Query Execution On Compressed In-Memory Data
KR102640444B1 (ko) 빅데이터 신뢰성과 활용성 극대화를 위한 빅데이터 증강분석 프로파일링 방법 및 장치
Sinthong et al. AFrame: Extending DataFrames for large-scale modern data analysis (Extended Version)
KR20230125587A (ko) 인과관계 추론을 위한 빅데이터 관리 방법 및 장치
CN115292347A (zh) 一种基于规则的主动式sql算法性能检查装置及方法
Dayal et al. Optimization of analytic data flows for next generation business intelligence applications
KR20240075404A (ko) 복잡계 기반 인과관계 추론을 위한 빅데이터 관리 방법 및 장치
CN111813777B (zh) Olap自动创建并写入mq数据的方法及系统
CN117349359B (zh) 一种多源异构数据库导入导出方法及系统
KR20230054217A (ko) 빅데이터 마켓 서비스 제공 방법 및 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant