KR102543749B1 - 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템 - Google Patents

데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템 Download PDF

Info

Publication number
KR102543749B1
KR102543749B1 KR1020230021779A KR20230021779A KR102543749B1 KR 102543749 B1 KR102543749 B1 KR 102543749B1 KR 1020230021779 A KR1020230021779 A KR 1020230021779A KR 20230021779 A KR20230021779 A KR 20230021779A KR 102543749 B1 KR102543749 B1 KR 102543749B1
Authority
KR
South Korea
Prior art keywords
unit
data
target server
server unit
artificial intelligence
Prior art date
Application number
KR1020230021779A
Other languages
English (en)
Inventor
서달원
차순범
Original Assignee
주식회사 헤카톤에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 헤카톤에이아이 filed Critical 주식회사 헤카톤에이아이
Priority to KR1020230021779A priority Critical patent/KR102543749B1/ko
Priority to KR1020230074299A priority patent/KR102569185B1/ko
Application granted granted Critical
Publication of KR102543749B1 publication Critical patent/KR102543749B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Environmental & Geological Engineering (AREA)

Abstract

본 발명은 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템에 관한 것으로 구체적으로는 인공지능 기반으로 프로세스 수를 지능적으로 처리하고 자동으로 데이터 마이그레이션이 진행될 수 있도록 하기 위한 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템에 관한 것이다.
본 발명은 기존의 수작업으로 진행되는 데이터 마이그레이션을 자동화하도록 하고 인공지능 기능을 추가하여 프로세스 작업수를 지능적으로 처리할 수 있도록 하며 소스와 타겟 데이터 검증시 인공지능 기능을 통해 자동으로 검증 및 샘플링이 가능할 수 있도록 구현하는 함으로서 작업의 신속성,편리성, 안정성 등을 도모할 수 있다.

Description

데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템{A Artificial Intelligence-Based Automation System for Data Lake Migration}
본 발명은 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템에 관한 것으로 구체적으로는 인공지능 기반으로 프로세스 수를 지능적으로 처리하고 자동으로 데이터 마이그레이션이 진행될 수 있도록 하기 위한 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템에 관한 것이다.
데이터 마이그레이션은 데이터를 한 종류의 스토리지에서 다른 종류의 스토리지로 이동하는 것이다. 이러한 이동은 스토리지 용량 확장, 성능 향상, 데이터 관리 간소화, 비용 절감, 물리적 설치 공간 축소, 새로운 기능 추가를 위한 업그레이드의 일부로 수행된다.
데이터 마이그레이션은 계획, 실행, 검증이라는 세 단계에 걸쳐 진행된다.이 과정에서 네트워크를 통해 대량의 데이터를 전송하거나 드라이브를 한 장소에서 다른 장소로 물리적으로 이동하는 작업이 수반될 수 있다. 각 마이그레이션은 이동할 데이터의 양, 마이그레이션을 완료해야 하는 기간, 이동할 워크로드의 유형, 보안 고려 사항에 따라 달라진다.
경우에 따라서 데이터 마이그레이션은 온프레미스 데이터 스토리지에서 클라우드 스토리지로, 또는 하나의 데이터 플랫폼에서 다른 데이터 플랫폼으로 이동하는 것을 뜻한다.
하지만 현재 모든 빅데이터 플랫폼은 오픈소스 플랫폼으로 구성되어 상용 빅데이터 플랫폼으로 구성 및 구축이 되어야하며, 발전하는 오픈소스를 따라잡기 어려운 문제가 있다. 또한 빅데이터 플랫폼의 패치와 버전을 업그레이드 할 때 무중단으로 고속처리로 빅데이터 마이그레이션이 진행되어야 하나, 작업이 원활하게 진행되지 않을 뿐더러 현재 마이그레이션 작업이 수작업으로 진행되어 불편함이 따르는 문제가 있다.
한국등록특허공보 제10-2029053호 (2019.09.30) 한국등록특허공보 제10-1631039호 (2016.06.09)
본 발명은 기존의 수작업으로 진행되는 데이터 마이그레이션을 자동화하도록 하고 인공지능 기능을 추가하여 프로세스 작업수를 지능적으로 처리할 수 있도록 하는 것이 목적이다.
또한 소스와 타겟 데이터 검증시 인공지능 기능을 통해 자동으로 검증 및 샘플링이 가능할 수 있도록 구현하는 것이 목적이다.
상기와 같은 문제를 해결하기 위해 본 발명은 하나 또는 복수개로 구성되되 서버들이 통신망(200)을 통해 연결된 형태로 구현되는 수집대상서버부(100)와, 수집대상서버부(100)를 구성하는 서버와 각종 네트워크 지원 모듈을 연결하는 기능을 수행하는 통신망(200)과, 인공지능기반으로 수집대상서버부(100) 내의 데이터를 자동으로 마이그레이션하기 위한 마이그레이션부(300)와, 하나 또는 복수개로 구성되되 서버들이 통신망(200)을 통해 연결된 형태로 구현되며, 마이그레이션부(300)로부터 샘플링된 데이터를 이관받기 위한 이관대상서버부(400)를 포함하는 것을 특징으로 하는 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템을 제공한다.
본 발명은 기존의 수작업으로 진행되는 데이터 마이그레이션을 자동화하도록 하고 인공지능 기능을 추가하여 프로세스 작업수를 지능적으로 처리할 수 있도록 하며 소스와 타겟 데이터 검증시 인공지능 기능을 통해 자동으로 검증 및 샘플링이 가능할 수 있도록 구현하는 함으로서 작업의 신속성, 편리성, 안정성 등을 도모할 수 있다.
도 1은 본 발명을 구현하는 전체시스템의 개략적인 도면이다.
도 2는 본 발명의 마이그레이션부에 대한 블록 예시도면이다.
도 3은 본 발명의 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템의 아키텍쳐이다.
도 4는 본 발명의 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템의 흐름도이다.
실시 예들에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "…부", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
이하에서는 도면을 참조하여 본 발명의 실시 예들을 상세히 설명한다.
본 발명은 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템에 관한 것으로 구체적으로는 인공지능 기반으로 프로세스 수를 지능적으로 처리하고 자동으로 데이터 마이그레이션이 진행될 수 있도록 하기 위한 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템에 관한 것이다.
도 1은 본 발명을 구현하는 전체시스템의 개략적인 도면이다.
본 발명의 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템은 수집대상서버부(100), 통신망(200), 마이그레이션부(300), 이관대상서버부(400)를 포함하여 구성된다.
수집대상서버부(100)는 하나 또는 복수개로 구성되되 서버들이 통신망(200)을 통해 연결된 형태로 구현되는 것이다.
상기 수집대상서버부(100)는 하둡(Hadoop)과 S3을 지원하는 오브젝트 스토리지가 될 수 있으며 단종된 OS, 구형 플랫폼, 오픈소스플랫폼 등이 될 수 있다.
이때, 수집대상서버부(100)는 그 수집대상서버부(100)를 운용하는 기업이 사용하는 공간 중 일정한 공간을 물리적으로 차지하는 전통적인 개념의 데이터센터를 의할 수 있으며, 클라우드 환경으로 마이그레이션(migration)되기 전의 모습을 나타낸 것이다.
수집대상서버부(100) 내의 데이터를 마이그레이션부(300)를 통해 마이그레이션하여 이관대상서버부(400)로 옮길 수 있다.
통신망(200)은 수집대상서버부(100)를 구성하는 서버와 각종 네트워크 지원 모듈을 연결하는 기능을 수행하는 것이다.
상기 통신망(200)은 수집대상서버부(100), 마이그레이션부(300), 이관대상서버부(400)를 구성하는 서버와 각종 네트워크 지원 모듈을 연결하는 기능을 수행하고, 인트라넷(intranet), VPN(virtual private network)뿐만 아니라, 실시예에 따라 인터넷으로 구현될 수도 있다. 도 1에서는 생략되었으나, 도 1의 전체 시스템에 ISP(Internet Service Provider)에서 할당해주는 하나의 IP를 이용하여 여러 대의 서버가 인터넷(30)에 접속할 수 있도록 해 주는 공유기(router) 및 패킷을 감시하고 선택적으로 차단하는 방화벽(firewall)과 같은 일반적인 구성이 포함된다는 것을 이 분야의 통상의 지식을 가진 자에게 자명할 것이다.
마이그레이션부(300)는 인공지능기반으로 수집대상서버부(100) 내의 데이터를 자동으로 마이그레이션하기 위한 것이다.
인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인 지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시 각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.
도 2는 본 발명의 마이그레이션부에 대한 블록 예시도면으로 상기 마이그레이션부(300)는 시간대별접속숫자처리부(310), 데이터학습및변환부(320), 변동접속숫자처리부(330), 이관대상서버복사부(340)를 포함하되, 모든 구성은 빅데이터 분석 알고리즘(데이터마이닝 기법)을 적용하여 인공지능(AI) 학습과정을 통해 처리될 수 있다.
시간대별접속숫자처리부(310)는 수집대상서버부(100) 내에 시간대 별로 접속하는 시간대별접속숫자를 학습하기 위한 것다.
데이터학습및변환부(320)는 인공지능 기반으로 수집대상서버부(100) 내의 데이터정보를 학습시키고 이관대상서버부(400)에 복사되도록 데이터정보를 변환시키되, 시간대별접속숫자처리부(210)를 통해 학습된 시간대별접속숫자에 따라 실시간으로 데이터정보 학습 및 변환되는 숫자가 변동되는 것이다.
상기 데이터학습및변환부(320)는 데이터정보학습부(321)와 데이터분석및변환부(322)로 구성된다.
데이터정보학습부(321)는 수집대상서버부(100) 내에 저장된 서버들의 데이터정보를 인공지능기반으로 학습하는 것이다.
또학 데이터정보학습부(321)를 통해 수집된 데이터정보로 가동중인 마이그레이션 대상 소프트웨어를 파악할 수 있다.
데이터분석및변환부(322)는 데이터정보수집부(321)에서 수집된 데이터정보의 스키마정보와 파일데이터를 조회하고, 이관대상서버부(400)에 맞도록 데이터정보를 변환하는 것이다.
변동접속숫자처리부(330)는 시간대별접속숫자처리부(310)를 통해 이전에 학습되어 저장된 시간대별접속숫자와 새롭게 학습된 시간대별접속숫자가 설정된 값 이상 차이가 나는 경우 기학습된 시간대별접속숫자와 새롭게 학습된 시간대별접속숫자의 비교결과값을 도출하고 도출된 비교결과값을 데이터학습및변환부(320)로 전송하는 것이다.
또한 상기 변동접속숫자처리부(330)는 푸아송(poisson) 분포 분석을 이용하여 직전 요일의 접속횟수를 토대로 요일별 평균 접속횟수로부터 해당요일 접속횟수확률을 산출할 수 있으며, 추정된 접속횟수확률을 통해 데이터분석및변환부(322)에서 데이터정보를 변환하는 수를 조절할 수 있다.
푸아송(poisson) 분포 분석을 이용한 요일별 평균 접속횟수로부터 해당요일 접속횟수확률을 산출하는 방법은 다음과 같다.
Figure 112023019127021-pat00001
f(n)= 해당요일평균 접속횟수가 n일 확률
-n=해당요일과 동일한 직전요일의 접속횟수
-λ=시간별 평균 접속확률
-t=1 (관심 기간의 수이며 보통 1로 둔다.)
-평균=λt
-분산=λt
-e=자연대수의 밀
상기 [수학식 1]로 계산된 확률값 f(n)이 설정된 확률값보다 큰 경우 직전요일의 접속횟수와 유사한 숫자가 접속되는 것으로 판단하고 직전요일의 데이터 작업수와 동일한 작업량을 수행할 수 있으며, 만약 설정된 확률값보다 작은 경우 변동접속숫자처리부(330)를 통해 시간대별접속숫자를 새롭게 학습하여 데이터 작업수를 결정할 수 있다.
이를 통해 서버를 사용하는 중에는 작업량을 줄여서 서버 사용에 영향을 끼치지 않도록 함으로서 효율적으로 데이터 이관 작업이 진행될 수 있다.
이관대상서버복사부(340)는 데이터학습및변환부(320)에 의해 자동화로 분류된 정보를 이관대상서버부(400)로 복사하는 것이다.
상기 이관대상서버복사부(340)는 하기 수학식2에 의해 계산된 이관서버결정점수값(SCORE)에 의해 복수의 이관대상서버부(400) 중 어느 서버로 분류된 정보를 복사할지 선택할 수 있다. 즉 이관대상서버부(400)의 접속시간, 시간대별 접속인원, 전체접속인원을 고려하여 아래 수학식 2의 이관서버결정점수값(SCORE)을 도출할 수 있다.
Figure 112023019127021-pat00002
이때, SCORE은 이관서버결정점수값을 의미하고, K는 점수가중치, T는 다수개 중 선택된 이관대상서버부(400) 하나의 접속시간을 의미하며, M은 전체 이관대상서버부(400)의 접속시간 평균을 의미하고, P는 해당 시간대에서 선택된 이관대상서버부(400)의 접속인원을 의미하고, q는 전체 이관대상서버부(400)의 해당 시간 대 접속인원평균을 의미할 수 있다.
상기 K는 시간대에 따라 점수가중치가 다르게 설정되어 적용될 수 있다.
이를 통하여, 상기 이관대상서버부(400) 개별 및 전체 이관대상서버부(400)의 접속 기간이 길수록 점수값이 낮아질 수 있고, 이관대상서버부(400) 개별의 접속인원이 많아질수록 점수값을 낮게 설정하여, 선택된 이관대상서버부(400)로의 전송을 딜레이 시킬 수 있으며, 상기 전체 이관대상서버부(400)의 해당 시간 대 접속인원평균이 많은 경우, 이관대상서버부(400) 전체적으로 접속인원이 많음을 의미하여 이관대상서버로 분류된 정보가 복사되는 것을 딜레이시킬 수 있다.
이관대상서버부(400)는 하나 또는 복수개로 구성되되 서버들이 통신망(200)을 통해 연결된 형태로 구현되며, 마이그레이션부(300)로부터 변환된 데이터정보를 이관받기 위한 것이다.
클라우드부(500)는 사용자 단말의 요청에 따라 수집대상서버부(100) 및 이관대상서버부(400)에 대한 정보를 수신받기 위한 것이다. 여기서, 상기 수집대상서버부(100)에 대한 정보는 해당 수집대상서버부(100)와 관련한 IP 정보, 웹 호스팅 정보 등을 포함하고, 상기 이관대상서버부(400)에 대한 정보는 해당 이관대상서버부(400)와 관련한 IP 정보, 웹 호스팅 정보 등을 포함한다.
도 3은 본 발명의데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템의 아키텍쳐이다.
M1은 스토리지디바이스(Storage Devices)로서 본 발명의 수집대상서버부(100)에 해당되는 것이다. 스토리지디바이스(Storage Devices)는 물리적 저장 장치가 될 수 있으며, Hadoop/Hive, S3, NAS, FTP/WebDAV 등이 될 수 있다.
또한 스토리지디바이스(M1)는 다양한 스토리지 유형을 제공할 수 있다. 스토리지 유형은 오브젝트 기반 스토리지, 파일 기반 스토리지 및 블록 기반 스토리지 등에 상응할 수 있다.
M2는 마이그레이션(Migration)으로서 본 발명의 마이그레이션부(300)에 해당한다. 마이그레이션(Migration)은 Load, Deliver, Access, Process and Manage, Repository Database, Store 을 포함할 수 있다.
M3은 하둡/하이브(Hadoop/Hive)로서, 하둡은 데이터 복제본을 저장하기 때문에 데이터의 유실이나 장애가 발생했을 경우 복구가 가능하다는 장점이 있다. 하둡의 데이터 처리방식은 여러 대의 서버에 데이터를 저장하고 데이터가 저장된 각 서버에서 동시에 데이터를 처리하는 분산 컴퓨팅 시스템이다.
단순히 데이터를 나누어 처리하는 맵(Map) 단계와 처리된 데이터를 모아주는 리듀스(Reduce) 단계로 나뉘어 작업하는 맵-리듀스(Map-Reduce)는 하둡의 서브 프로젝트로서 대용량 데이터를 다수의 서버로 구성된 클러스터에서 병렬 처리하는 연산 프로그래밍 모델이다.
하이브(Hive)란 하둡(Hadoop)에서 동작하는 데이터웨어하우스(Data Wearhouse) 인프라 구조로서, 데이터 요약, 질의 및 분석기능을 제공한다. 하이브는 일반적인 하둡 생태계에서 맵-리듀스(Map-Reduce) 작성을 통해 수행해야만 했던 데이터 검색 및 분석 작업을 SQL과 비슷한 하이브큐엘(HiveQL)를 이용하여 손쉽게 수행할 수 있도록 도와주는 중요한 기능을 가지고 있다. 이를 통해, 하이브는 빅 데이터에 질의 처리를 가능하게 함으로써, 상대적으로 하둡의 데이터에 쉽게 접근하고 분석할 수 있도록 한다. 하이브큐엘(HiveQL)은 조인, 테이블 생성, 조회 및 삽입 등과 같은 SQL 형태의 질의를 지원함으로써, 사용자들이 쉽게 데이터를 조회할 수 있다.
하이브의 데이터는 관계형 데이터베이스(Relational Database) 시스템과 같은 테이블 형태로 표현된다. 테이블 스키마는 메타데이터(Metadata)로서 메타스토어(Metastore)에 저장 및 관리된다.
M4는 퍼블릭 클라우드(Public Cloud)로서, 다수의 대중들을 위해 인터넷 기반으로 운영되는 클라우드이다.
M5는 유저(User) 로서 물리적 장치가 해당될 수 있으며, 이관대상서버부(400)가 될 수 있다.
즉 도 3은 오브젝트 스토리지 등 다양한 데이터 소스에서 파일 및 메타데이터를 추출하여 다양한 컴포넌트를 통해 온프레미스와 퍼블릭 클라우드 환경으로 자동이관 할 수 있는 것을 보여주기 위한 것이다.
도 4는 본 발명의 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템의 흐름도로서, 이의 흐름을 설명하면 아래와 같다.
① Source 플랫폼은 수집대상서버부(100)가 될 수 있으며 하이브, 하둡, 단종 OS , 구형플랫폼, 오픈소스플랫폼 등이 해당된다.
② Source 플랫폼 내의 하이브(Hive)에서 스키마를 조회한다. 데이터학습및변환부(320)에서 실행되는 것으로 스키마 정보를 조회하여 분석하기 위한 데이터정보의 참조자료로 활용될 수 있다.
③ Source 플랫폼 내의 하둡분산파일시스템(HDFS)에서 데이터 파일을 조회한다.
④ ②번에서 조회된 스키마 정보를 Target 플랫폼에 맞게 데이터정의언어(DDL)가 변경된다.
⑤ ③번에서 조회된 데이터를 Target 플랫폼에 전송하기 위해 복사한다.
⑥ ④번에서 데이터언어가 변경된 스키마정보를 적용하고, ⑤번에서 복사된 데이터를 전송받는다.
본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
100 수집대상서버부
200 통신망
300 마이그레이션부
310 시간대별접속숫자처리부
320 데이터학습및변환부
330 변동접속숫자처리부
340 이관대상서버복사부
400 이관대상서버부

Claims (3)

  1. 하나 또는 복수개로 구성되되 서버들이 통신망(200)을 통해 연결된 형태로 구현되는 수집대상서버부(100)와,
    수집대상서버부(100)를 구성하는 서버와 각종 네트워크 지원 모듈을 연결하는 기능을 수행하는 통신망(200)과,
    인공지능기반으로 수집대상서버부(100) 내의 데이터를 자동으로 마이그레이션하기 위한 마이그레이션부(300)와,
    하나 또는 복수개로 구성되되 서버들이 통신망(200)을 통해 연결된 형태로 구현되며, 마이그레이션부(300)로부터 샘플링된 데이터를 이관받기 위한 이관대상서버부(400)와,
    사용자 단말의 요청에 따라 수집대상서버부(100) 및 이관대상서버부(400)에 대한 정보를 수신하기 위한 클라우드부(500)를 포함하고,

    상기 마이그레이션부(300)는
    수집대상서버부(100) 내에 시간대 별로 접속하는 시간대별접속숫자를 인공지능 기반으로 학습하는 시간대별접속숫자처리부(310)와,
    수집대상서버부(100) 내의 데이터정보를 학습시키고 이관대상서버부(400)에 복사되도록 데이터정보를 변환시키되, 시간대별접속숫자처리부(210)를 통해 학습된 시간대별접속숫자에 따라 실시간으로 데이터정보 학습 및 변환 숫자가 변동되는 데이터학습및변환부(320)와,
    시간대별접속숫자처리부(310)를 통해 이전에 학습되어 저장된 시간대별접속숫자와 새롭게 학습된 시간대별접속숫자가 설정된 값 이상 차이가 나는 경우 기학습된 시간대별접속숫자와 새롭게 학습된 시간대별접속숫자의 비교결과값을 도출하고 도출된 비교결과값을 데이터학습및변환부(320)로 전송하는 변동접속숫자처리부(330)와,
    데이터학습및변환부(320)에 의해 변환된 데이터정보를 이관대상서버부(400)로 복사하는 이관대상서버복사부(340)를 포함하고,

    상기 변동접속숫자처리부(330)는 수학식 1의 푸아송(poisson) 분포 분석을 이용하여 직전 요일의 접속횟수를 토대로 요일별 평균 접속횟수로부터 해당요일 접속횟수확률을 산출하는 것을 특징으로 하는 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템.
    [수학식 1]
    Figure 112023039892763-pat00003


    f(n)= 해당요일평균 접속횟수가 n일 확률, n=해당요일과 동일한 직전요일의 접속횟수,λ=시간별 평균 접속확률, t=1로 둔다.
  2. 삭제
  3. 삭제
KR1020230021779A 2023-02-17 2023-02-17 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템 KR102543749B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020230021779A KR102543749B1 (ko) 2023-02-17 2023-02-17 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템
KR1020230074299A KR102569185B1 (ko) 2023-02-17 2023-06-09 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템을 이용한 데이터 레이크 이관 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230021779A KR102543749B1 (ko) 2023-02-17 2023-02-17 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020230074299A Division KR102569185B1 (ko) 2023-02-17 2023-06-09 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템을 이용한 데이터 레이크 이관 방법

Publications (1)

Publication Number Publication Date
KR102543749B1 true KR102543749B1 (ko) 2023-06-14

Family

ID=86744676

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020230021779A KR102543749B1 (ko) 2023-02-17 2023-02-17 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템
KR1020230074299A KR102569185B1 (ko) 2023-02-17 2023-06-09 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템을 이용한 데이터 레이크 이관 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020230074299A KR102569185B1 (ko) 2023-02-17 2023-06-09 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템을 이용한 데이터 레이크 이관 방법

Country Status (1)

Country Link
KR (2) KR102543749B1 (ko)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066767A1 (en) * 2009-09-14 2011-03-17 International Business Machines Corporation Data migration to high speed storage in accordance with i/o activity over time
KR101631039B1 (ko) 2015-11-30 2016-06-24 (주)클로닉스 컴퓨터 시스템의 운영체제 및 데이터 중 불필요한 파일은 제외하는 마이그레이션 시스템 및 방법
US20190026290A1 (en) * 2016-03-22 2019-01-24 Alibaba Group Holding Limited Optimization method, evaluation method, and processing method and apparatuses for data migration
US20190079790A1 (en) * 2017-09-08 2019-03-14 Fujitsu Limited Information processing apparatus and information processing system
KR102029053B1 (ko) 2017-08-28 2019-10-07 아주대학교산학협력단 가상 머신 마이그레이션 장치 및 방법
JP2021504795A (ja) * 2017-11-24 2021-02-15 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited クラウドサービス移行のための方法、装置、及び電子デバイス
JP2021140430A (ja) * 2020-03-04 2021-09-16 九電ビジネスソリューションズ株式会社 データベースマイグレーション方法、データベースマイグレーションシステム、及びデータベースマイグレーションプログラム
KR102403522B1 (ko) * 2021-06-29 2022-05-31 주식회사 에이텍 컴퓨터의 사전 탐지를 이용한 장애 예방장치 및 방법
KR102483361B1 (ko) * 2022-02-28 2022-12-30 주식회사 디노아이티 PaaS 지능형 마이그레이션 시스템 및 그 방법
US20230051103A1 (en) * 2021-08-16 2023-02-16 Micron Technology, Inc. Data migration schedule prediction using machine learning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066767A1 (en) * 2009-09-14 2011-03-17 International Business Machines Corporation Data migration to high speed storage in accordance with i/o activity over time
KR101631039B1 (ko) 2015-11-30 2016-06-24 (주)클로닉스 컴퓨터 시스템의 운영체제 및 데이터 중 불필요한 파일은 제외하는 마이그레이션 시스템 및 방법
US20190026290A1 (en) * 2016-03-22 2019-01-24 Alibaba Group Holding Limited Optimization method, evaluation method, and processing method and apparatuses for data migration
KR102029053B1 (ko) 2017-08-28 2019-10-07 아주대학교산학협력단 가상 머신 마이그레이션 장치 및 방법
US20190079790A1 (en) * 2017-09-08 2019-03-14 Fujitsu Limited Information processing apparatus and information processing system
JP2021504795A (ja) * 2017-11-24 2021-02-15 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited クラウドサービス移行のための方法、装置、及び電子デバイス
JP2021140430A (ja) * 2020-03-04 2021-09-16 九電ビジネスソリューションズ株式会社 データベースマイグレーション方法、データベースマイグレーションシステム、及びデータベースマイグレーションプログラム
KR102403522B1 (ko) * 2021-06-29 2022-05-31 주식회사 에이텍 컴퓨터의 사전 탐지를 이용한 장애 예방장치 및 방법
US20230051103A1 (en) * 2021-08-16 2023-02-16 Micron Technology, Inc. Data migration schedule prediction using machine learning
KR102483361B1 (ko) * 2022-02-28 2022-12-30 주식회사 디노아이티 PaaS 지능형 마이그레이션 시스템 및 그 방법

Also Published As

Publication number Publication date
KR102569185B1 (ko) 2023-08-22

Similar Documents

Publication Publication Date Title
US10685283B2 (en) Demand classification based pipeline system for time-series data forecasting
CN109564568B (zh) 用于分布式数据集索引的装置、方法和机器可读存储介质
US10803024B2 (en) Techniques for reading from and writing to distributed data stores
Zhang et al. Network-aware virtual machine migration in an overcommitted cloud
CN113632074A (zh) 用于数据库迁移的机器学习预测
Matallah et al. Towards a new model of storage and access to data in big data and cloud computing
CA3055826C (en) Machine learning worker node architecture
CN116134448A (zh) 使用局部敏感散列的联合机器学习
US20220318202A1 (en) Method and subsystem of a distributed log-analytics system that automatically determine the source of log/event messages
Perri et al. Implementing a scalable and elastic computing environment based on cloud containers
D’Aniello et al. Designing a multi-agent system architecture for managing distributed operations within cloud manufacturing
KR102543749B1 (ko) 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템
Dai Application and functional simulation of data mining technology in Hadoop cloud platform based on improved algorithm
Jena et al. Improvising name node performance by aggregator aided HADOOP framework
Belov et al. Architecture of a compact data grid cluster for teaching modern methods of data mining in the virtual computer lab
Liang et al. Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey
Zhang et al. HotML: A DSM-based machine learning system for social networks
Parekh et al. Analytical modelling of distributed file systems (GlusterFS and CephFS)
Chaffai et al. Real-Time Analysis of Students’ Activities on an E-Learning Platform based on Apache Spark
Lu et al. MSA vs. MVC: Future trends for big data processing platforms
Shi et al. Service chain orchestration based on deep reinforcement learning in intent-based IoT
Kundu et al. Swarm intelligence in cloud environment
Bhushan et al. Cost based model for big data processing with hadoop architecture
Wang et al. Efficient data persistence and data division for distributed computing in cloud data center networks
Chawla et al. Data ingestion

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant