KR101769848B1

KR101769848B1 - 상용 인터프리터를 이용한 스크립트 기반 데이터 처리 시스템

Info

Publication number: KR101769848B1
Application number: KR1020150189774A
Authority: KR
Inventors: 배영근; 박민규; 정성훈
Original assignee: (주)비아이매트릭스
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2017-08-22
Also published as: JP2017120611A; KR20170080789A; JP6248137B2

Abstract

본 발명은 다수 종류의 데이터베이스에 저장된 데이터를 순차적으로 처리하기 위한 스크립트를 정의하고, 정의된 스크립트로 작성된 데이터 처리 프로그램을 해석하여 데이터 처리를 순차적으로 수행하는 스크립트 기반 데이터 처리 시스템에 관한 것으로서, 스크립트 구문에 의해 작성된 스크립트 코드를 수신하는 스크립트 수신부; 상기 스크립트 구문에 따라 상기 스크립트 코드를 중간코드로 변환하여 생성하는 중간코드 생성부; 상기 중간코드를 실행시키는 상용 인터프리터; 데이터베이스의 데이터들을 데이터셋으로 처리하는 API 함수를 정의하고, 상기 스크립트 코드에 포함된 API 함수를 실행시켜주는 함수처리부; 및, 상기 API 함수에 의해 호출되어, 상기 데이터셋을 필터링, 결합, 또는 집계의 데이터 처리 기능을 수행하는 패키지 관리부를 포함하고, 상기 중간코드는 상기 상용 인터프리터의 코드 구문에 따라 작성되는 프로그램 코드이고, 상기 API 함수는 상기 상용 인터프리터의 코드 구문에 의해 작성된 함수인 구성을 마련한다.
상기와 같은 데이터 처리 시스템에 의하여, 단계적인 분석이나 복잡한 분석을 위한 데이터 처리를 보다 용이하게 작성할 수 있고, 작성된 처리 단계(스크립트 프로그램 등)에 대하여 가독성도 높일 수 있다.

Description

상용 인터프리터를 이용한 스크립트 기반 데이터 처리 시스템 { A data processing system using scripts by using commercial interpreter }

본 발명은 다수 종류의 데이터베이스에 저장된 데이터를 순차적으로 처리하기 위한 스크립트를 정의하고, 정의된 스크립트로 작성된 데이터 처리 프로그램을 해석하여 데이터 처리를 순차적으로 수행하는 스크립트 기반 데이터 처리 시스템에 관한 것이다.

본 발명은 다수 종류의 데이터베이스에 저장된 데이터를 처리하기 위한 API 함수를 상용 인터프리터의 구문에 따라 생성하고, 상기 API 함수를 호출하는 명령문들로 구성되는 스크립트 코드를 상기 상용 인터프리터의 구문의 중간 코드로 변환하여 실행시키는, 스크립트 기반 데이터 처리 시스템에 관한 것이다.

일반적으로, 대용량 데이터를 처리하기 위해서, 데이터베이스에 해당 데이터들을 저장하고, 데이터베이스 관리 시스템(DBMS)을 이용하여 데이터를 조회하거나 갱신한다. 이때, 데이터베이스 처리를 위한 언어인 SQL(structured query language)을 이용하여, 자신이 원하는 데이터들을 하나의 데이터셋으로 조회하거나 갱신한다.

SQL은 데이터베이스를 구축하고 활용하기 위해 사용하는 표준화된 언어로서, 관계형 데이터 모델로 표현되는 데이터베이스를 처리한다. 즉, 데이터베이스를 다수의 테이블로 구성하고, 각 테이블은 다수의 필드(또는 컬럼)로 구성된다. 하나의 데이터는 각 필드에 해당하는 필드값들을 갖는다. SQL은 상기와 같은 테이블 내의 데이터 또는 데이터의 필드값들을 조회하기 위하여, SELECT FROM WHERE 구조로 구성된 구조적인 언어이다. 그외에도 데이터들을 집계(aggregate)하거나 정렬을 하기 위한 함수나 기능들, 또는, 테이블들을 결합하기 위한 조인 함수 등의 기본적인 데이터 처리 기능들을 가지고 있다.

따라서 데이터베이스에 저장된 데이터를 필터링(filtering)하거나, 데이터셋 또는 테이블들을 결합하거나, 집계(aggregate)하는 경우에는, 간단하게 데이터베이스 관리 시스템(DBMS)을 이용하여 효과적으로 처리할 수 있었다.

그러나 기업의 방대한 데이터를 처리하는 비즈니스 인텔리전스(BI, Business Intelligence) 분야에서는 SQL기반 DBMS만으로는 부족한 실정이다. 즉, 비즈니스 인텔리전스(BI)는 기업의 빅데이터를 통계분석과 같은 정형 또는 비정형적인 방법으로 다양하게 분석하여 주거나 분석된 정보를 이해하기 쉽고 보기 좋은 보고서 형태로 가공하여, 비즈니스를 보다 합리적으로 진행시킬 수 있도록 지원하는 일련의 도구들을 말한다. 기업이 비즈니스를 하면서 쌓이는 데이터는 수없이 많다. 이러한 데이터는 비즈니스 현장의 생생한 내용을 전달하는 것으로서, 제대로 분석된다면 그 안에서 비즈니스에 필요한 정보를 뽑아낼 수 있다. 그러나 현장에서 축적된 상당량의 데이터로부터 의미가 있는 분석결과를 도출한다는 것은 그리 쉬운 작업이 아니다.

이러한 분석을 위해 많은 도구들이 개별적으로 개발되어 왔다. 예를 들어, 데이터 추출 및 변형(ETT) 도구, 다차원 데이터 분석을 위한 온라인 분석처리(OLAP) 도구, 보고서 작성을 위한 리포팅 도구, 데이터간의 숨겨진 연관성을 찾아주는 데이터 마이닝 도구 등이 대표적이다. 이들 일련의 도구들을 하나의 소프트웨어 제품군으로 형성한 것이 일종의 비즈니스 인텔리전스(BI)이다.

BI 데이터 처리 업무를 수행하다 보면 DBMS을 이용하거나 프로그램으로 업무 로직을 구현하는 방법 외에는 이용할 수 있는 데이터 처리 도구가 부재한 상황이다.

또한, 종래 DBMS는 데이터 처리 속도가 BI 데이터 업무에 최적화되지 못하였기 때문에, 현장에서 체감하는 처리 속도가 빠르지 못한 문제점이 있다. 즉, 종래 DBMS는 구조적인 언어인 SQL을 기반으로 하는 범용적인 데이터 처리 시스템이므로, 빅데이터와 같이 대용량의 데이터를 처리하는데는 많은 시간과 비용을 소요하고 있다. 특히, BI의 현장에서는 빈번히 사용하는 데이터들은 빅데이터 중 일부일 수 있고, 중복적으로 사용하는 데이터들도 많이 있다. 그러나 종래 DBMS는 범용적이기 때문에 중복으로 사용하는 데이터들도 처음부터 처리하여 많은 시간이 소요된다.

또한, 종래 DBMS의 속도를 개선하기 위해 고속의 DBMS 기술이나 상용화된 제품들이 개발되고 있다. 그러나 고속의 내장 DBMS는 만족할만한 응답속도나 처리용량을 보여줄 수 있으나, 상당히 고가이기 때문에 일반 업체들이 도입하기 쉽지 않다. 즉, 고속의 내장 DBMS는 범용적으로 개발된 제품이기 때문에, 그 사용 정도에 비하여 불필요한 기능도 많아 비효율적이다.

또한, 고속으로 데이터를 처리하기 위한 데이터처리 프레임워크들(예를 들어 guava나 pandas 등)이 개발되고 있으나, 역시 범용적으로 개발되었기 때문에 API가 너무 방대하다. 따라서 개발자들이 이러한 방대한 API를 이용하여 자바(java)나 판다(pandas)로 작성해야 하기 때문에 사용하기 어렵다.

그 외에도 종래 DBMS 기술만으로 BI 데이터 처리 업무를 구현하기 위해서는 많은 문제점이 있다.

일례로서, BI 데이터 처리 업무에서는 다양한 종류(또는 서로 다른 종류)의 데이터베이스를 이용하는 경우가 많다. SQL이 표준화된 데이터 처리 언어라도, DBMS는 각 제품별로 고유의 처리방식이나 인터페이스를 구성하기 때문에, 완벽한 호환성을 갖지 않는다. 따라서 종래의 DBMS 등은 서로 다른 종류의 데이터베이스로 존재하거나, 일반 파일 형태로 존재하는 등 다양한 형태의 데이터들을 통일적으로 처리하지 못하는 문제점이 있다.

또한, 주기적 또는 비주기적으로 반복되는 작업(job)을 수행하는 경우가 많다. 주로 ETL 툴 등 배치작업을 수행하는 도구를 이용하거나 프로그램으로 직접 구현해서 사용한다. ETL 툴 등의 단점은 주어진 기능 내에서 이용하기 때문에, 원하는 데이터 처리 기능이 없을 수도 있다. 직접 프로그램을 개발하여 스케줄링을 수행하는 방식은 어떠한 요건도 구현이 가능한 장점도 있으나 구현된 프로그램은 유연성이 떨어진다. 또한, 업무요건에 따라 다시 개발해야 하거나, 업무요건이 복잡할 경우 많은 비용과 시간이 필요하다는 단점이 있다.

또한, BI 데이터 처리 업무는 데이터를 가공하여 다양한 분석을 하기 때문에, 데이터를 단계적으로 분석하거나 복잡한 단계로 분석하는 경우가 많다. 그런데, 종래 SQL로 작성된 쿼리가 복잡해지면 그 쿼리를 처리하는 속도는 급격히 저하된다. 따라서 고속의 DBMS를 이용하더라도 속도 저하를 방지하기 어렵다. 또한, BI 데이터 처리 업무에서 대용량의 데이터를 처리해서 사용자(client)에게 수초 단위의 응답을 해야 하는 요건들이 종종 있다. 또한, 사용자들이 처리량이 많은 요청(request)를 한꺼번에 많이 요청하게 된다면 DBMS는 처리 부하로 인해 응답속도가 급격히 저하된다.

[특허문헌 1] 한국공개특허 제10-1999-0038698호 (1999.06.05.공개) [특허문헌 2] 한국공개특허 제10-2008-0031202호 (2008.04.08.공개) [특허문헌 3] 한국공개특허 제10-2004-0053254호 (2004.06.23.공개) [특허문헌 4] 한국공개특허 제10-2012-0052301호 (2012.05.23.공개) [특허문헌 5] 한국공개특허 제10-2014-0027128호 (2014.03.06.공개)

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 다수 종류의 데이터베이스에 저장된 데이터를 처리하기 위한 API 함수를 상용 인터프리터의 구문에 따라 생성하고, 상기 API 함수를 호출하는 명령문들로 구성되는 스크립트 코드를 상기 상용 인터프리터의 구문의 중간 코드로 변환하여 실행시키는, 스크립트 기반 데이터 처리 시스템을 제공하는 것이다.

또한, 본 발명의 목적은 데이터베이스의 데이터를 쿼리문에 의해 처리하는 API 함수를 제공하고, 처리된 데이터들을 하나의 데이터셋의 데이터 형식으로 조회하고, 조회된 데이터셋 단위로 결합(join 등), 집계, 필터링을 수행하는 API 함수를 제공하는, 스크립트 기반 데이터 처리 시스템을 제공하는 것이다.

상기 목적을 달성하기 위해, 본 발명은 스크립트 코드를 수신하여, 상기 스크립트 코드를 해석하여 실행시키는 스크립트 기반 데이터 처리 시스템에 관한 것으로서, 스크립트 구문에 의해 작성된 스크립트 코드를 수신하는 스크립트 수신부; 상기 스크립트 구문에 따라 상기 스크립트 코드를 중간코드로 변환하여 생성하는 중간코드 생성부; 상기 중간코드를 실행시키는 상용 인터프리터; 데이터베이스의 데이터들을 데이터셋으로 처리하는 API 함수를 정의하고, 상기 스크립트 코드에 포함된 API 함수를 실행시켜주는 함수처리부; 및, 상기 API 함수에 의해 호출되어, 상기 데이터셋을 필터링, 결합, 또는 집계의 데이터 처리 기능을 수행하는 패키지 관리부를 포함하고, 상기 중간코드는 상기 상용 인터프리터의 코드 구문에 따라 작성되는 프로그램 코드이고, 상기 API 함수는 상기 상용 인터프리터의 코드 구문에 의해 작성된 함수인 것을 특징으로 한다.

또한, 본 발명은 스크립트 기반 데이터 처리 시스템에 있어서, 상기 API 함수는 데이터베이스의 쿼리문에 의해 상기 데이터베이스에 접근하여 데이터를 처리하는 함수이고, 상기 API 함수의 인수에는 상기 쿼리문을 포함하는 것을 특징으로 한다.

또한, 본 발명은 스크립트 기반 데이터 처리 시스템에 있어서, 상기 스크립트 구문에는 데이터셋을 참조하는 데이터프레임 형식의 변수를 사용할 수 있고, 상기 데이터베이스에서 참조하는 데이터셋은 상기 데이터프레임 변수로 가져와서 처리되는 것을 특징으로 한다.

또한, 본 발명은 스크립트 기반 데이터 처리 시스템에 있어서, 상기 데이터베이스는 다수 종류의 DB(database) 형식의 데이터 또는, 파일 형식으로 저장되는 데이터이더라도, 상기 데이터베이스를 참조하기 위하여 공통적으로 상기 데이터프레임 형식의 변수들이 사용되는 것을 특징으로 한다.

또한, 본 발명은 스크립트 기반 데이터 처리 시스템에 있어서, 상기 API 함수는 상기 데이터프레임 형식의 데이터셋에 대하여, 적어도 2개의 데이터셋을 결합하거나, 적어도 1개의 데이터셋을 집계하거나, 적어도 1개의 데이터셋을 필터링하는 함수인 것을 특징으로 한다.

또한, 본 발명은 스크립트 기반 데이터 처리 시스템에 있어서, 상기 스크립트 구문은 반복문이나 분기문을 허용하지 않는 것을 특징으로 한다.

또한, 본 발명은 스크립트 기반 데이터 처리 시스템에 있어서, 상기 스크립트 구문에는 상기 상용 인터프리터의 구문을 모두 사용할 수 있는 구간을 지정하는 지시문을 포함하고, 상기 중간코드 생성부는 해당 지시문에 의해 지정된 구간은 원문 그대로 중간코드로 생성하는 것을 특징으로 한다.

상술한 바와 같이, 본 발명에 따른 스크립트 기반 데이터 처리 시스템에 의하면, 일반 파일 또는 데이터베이스의 데이터셋을 순차적으로 처리하기 위한 스크립트를 사용함으로써, 단계적인 분석이나 복잡한 분석을 위한 데이터 처리를 보다 용이하게 작성할 수 있고, 작성된 처리 단계(스크립트 프로그램 등)에 대하여 가독성도 높일 수 있는 효과가 얻어진다. 또한, 순차적인 스크립트를 이용함으로써, 주기적 또는 비주기적인 배치 작업 등을 보다 용이하게 작성할 수 있고, 작성된 배치작업에 대한 가독성이 높아지기 때문에 갱신 등 유지 보수도 용이하다.

또한, 본 발명에 따른 스크립트 기반 데이터 처리 시스템에 의하면, 데이터베이스 또는 파일 등에서 조회한 데이터를 데이터셋의 데이터 타입으로 저장하여 처리함으로써, 서로 다른 종류의 데이터베이스의 데이터라도 함께 처리하여 호환성을 높일 수 있는 효과가 얻어진다.

또한, 본 발명에 따른 스크립트 기반 데이터 처리 시스템에 의하면, 종래의 상용 인터프리터를 이용하여 스크립트 구문을 정의하고 처리함으로써, 스크립트를 해석하기 위한 별도의 인터프리터를 개발하지 않아도 되는 효과가 얻어진다.

도 1은 본 발명에 따른 스크립트 기반 데이터 처리 시스템을 실시하기 위한 전체 시스템의 구성에 대한 블록도.
도 2는 본 발명의 일실시예에 따른 스크립트 구문의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 스크립트 구문에 따른 명령문을 나타낸 예시 코드.
도 4는 본 발명의 일실시예에 따른 스크립트 구문에 따른 데이터 타입을 나타낸 예시 코드.
도 5는 본 발명의 일실시예에 따른 스크립트 구문에 따른 데이터프레임 형식의 데이터 타입을 나타낸 예시 코드.
도 6은 본 발명의 일실시예에 따른 스크립트 기반 데이터 처리 시스템의 구성에 대한 블록도.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

먼저, 본 발명에 따른 스크립트 기반 데이터 처리 시스템을 실시하기 위한 전체 시스템을 도 1을 참조하여 설명한다.

도 1에서 보는 바와 같이, 본 발명을 실시하기 위한 전체 시스템은 데이터 처리를 요청하는 클라이언트(20), 클라이언트(20)와 네트워크로 연결되어 데이터 처리에 대한 서비스를 제공하는 서비스 서버(30), 스크립트를 해석하여 해석된 작업을 수행시켜주는 스크립트 서버(40), 및 데이터를 저장하는 데이터베이스(60)로 구성된다. 또한, 데이터베이스(60)로부터 가져온 데이터를 임시로 저장하는 스크립트 캐시(50)를 더 포함하여 구성될 수 있다.

클라이언트(20)는 사용자 단말(10)에 설치되는 클라이언트용 프로그램 시스템으로서, 웹브라우저를 통해 사용자 인터페이스를 갖는다. 즉, 사용자는 웹브라우저 또는 웹브라우저와 같은 화면의 인터페이스를 통해, 온라인상으로 데이터 처리 작업을 수행한다. 이때, 사용자 단말(10)은 사용자의 명령 등을 입력받아 해당 명령을 수행하고, 처리 결과를 화면 상 또는 웹브라우저 상에 표시한다. 한편, 사용자 단말(10)은 개인용 컴퓨터(PC), 노트북, 태블릿PC, 패블릿, PDA, 스마트폰 등 컴퓨팅 기능을 가지는 컴퓨터 단말이다. 사용자 단말(10)과 서비스 서버(30)는 네트워크로 연결되어, 사용자 단말(10) 상의 클라이언트(20)는 온라인 상으로 데이터 처리 작업을 수행할 수 있다.

또한, 클라이언트(20)는 데이터 요청, 데이터 갱신 등 온라인 상으로 처리하는 작업을 서비스 서버(30)에 요청하고, 그 결과를 서버(30)로부터 가져와서 웹브라우저 상에 표시한다. 또는 처리된 데이터를 서비스 서버(30)로 전송한다. 특히, 클라이언트(20)가 처리하려는 작업은 스크립트로 구성된 작업을 포함한다.

또 다른 실시예로서, 클라이언트(20)는 다른 서버로서, 스크립트 등이 포함된 데이터 처리 작업을 서비스 서버(30)에 요청할 수 있다.

다음으로, 서비스 서버(30)는 클라이언트(20)로부터 데이터 처리에 대한 요청을 수신하여, 해당 요청을 처리하여 그 결과를 클라이언트(20)로 전송하는 서버이다. 즉, 서비스 서버(30)는 데이터베이스(60)로부터 데이터를 가져와서 직접 처리하여 클라이언트(20)로 전송하거나, 처리된 데이터를 데이터베이스(60)에 갱신한다.

또한, 서비스 서버(30)는 클라이언트(20)로부터 요청받은 내용(또는 작업) 중에서 스크립트가 포함된 경우, 스크립트 서버(40)에 해당 스크립트 해석과 그 실행을 요청한다. 스크립트는 데이터 처리에 대한 내용(또는 명령, 작업)을 포함한다. 즉, 스크립트는 데이터베이스(60)로부터 데이터를 가져오거나 갱신하는 등 데이터베이스(60)의 데이터 처리를 위한 명령문을 포함한다.

한편, 앞서 설명한 클라이언트(20)와 서비스 서버(30)의 기능은 일례이고, 서버와 클라이언트의 구현 기술에 따라 다양하게 구현될 수 있다. 즉, 클라이언트(20)와 서비스 서버(30)는 하나의 갱신 시스템으로서, 그 기능들이 성능에 따라 서로 분배될 수 있다. 일례로서, 클라이언트(20)는 단순히 웹브라우저 기능만 가지고 있고, 모든 기능은 서비스 서버(30)에서 구축될 수 있다. 즉, 서비스 서버(30)는 데이터베이스(60)에 대한 처리 명령이나, 스크립트를 포함하는 명령(또는 작업) 등을 수행해야 하거나 이를 위해 스크립트 해석을 요청하는 기능을 모두 가질 수 있다.

다음으로, 스크립트 서버(40)는 데이터 처리 요청하는 스크립트(Script)를 해석하고, 해석된 내용을 처리해서 결과를 반환하는 서비스를 수행한다.

데이터 처리를 위한 스크립트(또는 데이터 처리 스크립트)는 사전에 정해진 구문의 규칙에 따라 작성된다. 스크립트의 구문은 수행할 작업의 옵션을 나타내는 작업 옵션, API 함수, 할당문 등으로 표현되는 명령문으로 구성된다.

작업 옵션은 작업에 다양한 옵션이 있을 경우 어떤 작업 형태로 진행할 것인지를 나타내는 구문이다. 예를 들어, 조회한 데이터셋을 스크립트 캐시(50)를 저장하여 사용한다는 지시, 명령문의 실행 여부에 대한 지시 등에 대한 구문이다.

또한, API(Application Program Interface) 함수는 통상의 함수(function)으로 표현되는 구문으로서, 데이터 처리를 수행하는 함수들로서 정의된다. API 함수는 각 데이터베이스 또는 파일의 종류에 따라 해당 데이터셋을 가져오거나 저장하거나, 데이터셋의 결합, 필터링, 집계 등의 데이터 처리를 수행하는 함수이다.

구체적으로, API 함수는 데이터를 처리하는 기능을 정의한 함수들을 라이브러리 형태로 구성하여 제공된다. 즉, API 함수들은 데이터베이스 또는 파일로부터 데이터를 가져오거나 저장, 갱신하는 기능을 갖는 함수, 또는, 가져온 데이터를 스크립트 캐시(50)에 기록하고 기록된 데이터를 가공하는 함수, 또는, 통계, 데이터 마이닝 등을 수행하는 패키지 또는 외부 라이브러리를 이용하여 데이터를 집계하는 함수 등이다. 바람직하게는, R(오픈소스 통계/데이터마이닝 패키지)을 사용한다.

그 외에도, 변수 등에 데이터를 할당하는 할당 구문, 상수나 변수, 데이터 형식(또는 데이터 타입) 등을 정의하는 선언 구문, 또는, 작성된 스크립트에 대한 설명을 기재하는 주석 구문 등도 포함된다.

한편, 스크립트 서버(40)는 상용화된 인터프리터를 이용하여, 스크립트를 수행시킨다. 즉, 스크립트 서버(40)는 스크립트를 상용 인터프리터가 사용하는 구문으로 표현되는 중간 코드를 생성하고, 생성된 중간 코드를 상기 상용 인터프리터로 실행하게 한다.

또한, 스크립트 서버(40)는 상용 인터프리터의 구문으로 스크립트 명령문(또는 스크립트 코드)들을 작성할 수 있게 하여, 상용 인터프리터의 구문으로 작성된 스크립트를 그대로 중간코드로 생성하여, 상용 인터프리터로 실행하게 할 수 있다. 즉, 기 정의된 API로 처리하기 힘든 데이터 처리 요구사항이 있을 때 파이썬(python native) 언어 등 상용 인터프리터의 구문을 이용한다.

또한, 스크립트 서버(40)는 스크립트 캐시(50)를 구비하여, 데이터베이스(60)로부터 가져온 데이터셋 전체 또는 일부를 임시로 저장한다. 스크립트 캐시(50)는 스크립트 서버(40)의 메모리(RAM 등) 상에 구현되어 캐시 메모리로서 구성되거나, 하드 디스크 또는 SSD(solid state disk) 디스크 등으로 구현되어 캐시 디스크로 구성될 수 있다. 또는 모든 데이터를 디스크로 저장하고, 일부의 데이터, 즉, 필요한 데이터를 캐시 메모리로 올려놓고 사용할 수 있다.

다음으로, 데이터베이스(60)는 데이터를 저장하기 위한 통상의 데이터베이스(DB) 또는 일반적인 파일 형식으로 데이터를 저장하는 파일 등이다. 파일 형식으로서는, 텍스트 파일, 워드프로세서 파일, 스프레드쉬트 파일 등을 포함한다. 또한, 액세스 등 파일 형식의 DB 파일도 적용될 수 있다. 그외 하나의 파일 형태로 데이터를 저장하는 다양한 형식이 모두 적용될 수 있다.

DB형식의 데이터베이스(60)는 데이터를 관리하기 위한 DBMS를 구비하고, 데이터의 저장, 삭제, 검색 등의 작업들을 쿼리를 통해 수행한다. 특히, 데이터베이스(60)는 상용화된 데이터베이스로서, 데이터를 처리하기 위한 일반적인 쿼리 기능을 이용하여, 데이터 쿼리 서비스를 수행한다.

바람직하게는, 데이터베이스(60)는 관계형 데이터베이스(RDB)로 구성된다. 또는, 데이터베이스(60)는 빅데이터를 저장하는 데이터베이스일 수 있다. 또는, 데이터베이스(60)는 데이터 큐드, 데이터웨어 하우스 등 보다 대량 데이터를 쉽게 처리하기 위한 데이터베이스일 수 있다.

다음으로, 본 발명의 일실시예에 따른 데이터 처리 스크립트의 구문에 대하여 도 2 내지 도 5를 참조하여, 보다 구체적으로 설명한다.

도 2에서 보는 바와 같이, 본 발명에 따른 스크립트 또는 스크립트 코드는 스크립트 구문에 의하여 작성된 프로그램 코드이다. 또한, 스크립트는 중간코드로 해석되어, 상용 인터프리터에 의해 실행된다. 따라서 중간코드는 상용 인터프리터에 의해 실행될 수 있는 프로그램 코드로서, 상용 인터프리터의 구문에 의해 작성되는 코드이다.

바람직하게는, 상용 인터프리터는 파이썬(python) 인터프리터를 이용하고, 상용 인터프리터의 구문은 파이썬 구문 및 파이썬 라이브러리를 이용한다.

한편, 스크립트 구문은 상용 인터프리터의 구문 중 일부의 구문과, 상용 인터프리터의 구문에 포함되지 않은 고유의 구문으로 구성된다. 도 2에서 B 부분의 구문이 전자이고, A 부분의 구문이 후자이다.

스크립트 고유 구문(A)은 해석되어, 상용 인터프리터 구문에 의한 중간코드로 새로 작성되어 생성된다.

스크립트 구문에서 사용하는 상용 인터프리터 구문(B)은 데이터 타입 등이다. 또한, 스크립트를 해석할 때, 스크립트 구문에 의해 허용되는 상용 인터프리터 구문은 원문 자체가 중간코드로 생성된다.

또한, 스크립트 구문에서 허용되지 않은 상용 인터프리터 구문(C)은 스크립트 해석시 허용되지 않고 에러로 처리된다.

또한, 도 3에서 보는 바와 같이, 데이터 처리 스크립트는 다수의 명령문(또는 명령 구문, 명령 코드)으로 구성된다. 명령문은 지시문, 할당문, 함수 호출문, 및, 주석문으로 구성된다.

도 3a에서 보는 바와 같이, 지시문은 직접 작업을 수행하지 않으나, 캐시 사용 여부 등 작업 옵션을 설정하거나, 코드의 흐름을 제어하기 위하여 사용되는 명령문이다. 바람직하게는, 특수문자(@ 등)를 이용하여 지시문을 구별한다. 지시문은 스크립트에 고유한 명령문이므로, 스크립트 해석시 지시문에 해당되는 중간코드를 모두 새롭게 생성한다.

또한, 도 3b에서 보는 바와 같이, 할당문은 변수에 상수값이나 객체를 할당하는 명령문이다. 할당문의 구문은 상용 인터프리터의 구문과 동일하나 할당문이 표시되는 위치 등 형태에서 약간 차이가 난다. 따라서 스크립트 해석시 위치 등만 조정해두고, 원래 할당문을 나타낸 수식은 그대로 중간코드로 사용된다.

또한, 도 3c 및 도 3d에서 보는 바와 같이, 함수 호출문은 함수를 호출하는 명령문이다. 함수 호출은 도 3c와 같이 API 함수를 호출하거나, 도 3d와 같이 객체의 인스턴스 함수를 호출하는 경우를 포함한다.

API 함수는 별도의 라이브러리로 구성하여, 구성된 라이브러리를 상용 인터프리터에 참조시켜, 상용 인터프리터가 상기 라이브러리를 참조하여 해당 API 함수를 실행시키도록 한다. 다만, 스크립트의 구문에서는 API 함수의 인수(argument)들을 보다 편리하게 사용하도록 정의된다. 따라서 스크립트 해석시, API 함수의 인수를 라이브러리의 원래 API 함수의 인수로 맞게 변환시키거나 보완시켜준다.

특히, API 함수의 인수에는 데이터베이스를 처리하는 쿼리문을 전달하는 인수가 포함된다. 이를 통해, 사용자는 통상의 쿼리문으로 데이터베이스에 저장된 데이터를 참조하거나 갱신 하는 등 데이터 처리 작업을 수행할 수 있다.

또한, API 함수는 상용 인터프리터의 구문에 의해 작성된 함수로서, 데이터셋을 처리하기 위한 함수이다. 특히, API 함수는 데이터베이스 또는 파일에서 참조한 데이터셋을 데이터 프레임 형식의 변수로 가져오거나, 데이터 프레임 형식의 변수에 저장된 데이터셋을 데이터베이스 또는 파일에 저장하는 함수들로 구성된다. 또한, API 함수는 데이터 프레임 형식의 변수에 저장된 데이터셋을 집계하거나 적어도 2개의 데이터셋들을 조인(join, 결합)하는 등 데이터셋의 가공 또는 처리 함수들로 구성된다.

또한, API 함수는 데이터베이스의 데이터를 가져올 때에는 쿼리문을 통해 데이터셋을 가져오는 함수이다.

여기서, 데이터셋이란 동일한 필드들로 구성되는 다수의 레코드들로 구성되는 데이터들의 집합을 의미한다. 즉, 하나의 레코드는 다수의 필드값으로 구성되는데, 모든 레코드의 필드는 동일한 필드를 갖는다.

또한, 객체의 인스턴스 함수에 대한 구문은 상용 인터프리터의 구문을 그대로 사용하므로, 별도 번역 없이(해석 없이) 원문 그대로 중간 코드로 생성된다.

또한, 도 3c의 첫번째 함수 호출문과 같이, 할당문 내에 함수 호출문이 포함될 수 있다. 또한, 도 3d와 같은 API 함수 호출은 함수에 인수(argument)를 넣어 호출하나, 객체의 인스턴스 함수는 객체(self, this)를 인자(argument)로 암묵적으로 전달한다.

또한, 도 3e와 같은 주석문은 명령문을 설명하기 위한 것으로서, 실제 아무 작업을 수행하지 않는다. 따라서 중간코드로 변환되지 않는다.

한편, 본 발명에 따른 스크립트 구문에서는 분기문과 반복문은 기본적으로 허용되지 않는다. 즉, 스크립트 구문에는 분기문이나 반복문에 대한 구문을 갖지 않는다. 구체적으로, 상용 인터프리터 구문에서 허용되는 분기문(if 구문 등)이나 반복문(while, for 구문 등) 등은 허용되지 않는다.

상용 인터프리터는 분기문이나 반복문에 대한 구문을 갖는다. 이 경우, 스크립트 내에 상용 인터프리터에 허용되는 분기문이나 반복문이 기재되어 있더라도, 해당 분기문이나 반복문을 해석하여 중간코드로 생성되지 않는다. 즉, 스크립트 내에 기재된 분기문이나 반복문은 스크립트 해석시 중간코드로 생성되지 않아, 실행되지 않는다. 또한, 스크립트 해석시 에러로 발생된다.

본 발명에 따른 데이터 처리 시스템은 주로 대용량 데이터를 처리하기 위한 것으로서, API 함수를 통한 작업시 데이터셋의 집합처리를 수행한다. 따라서 반복문이나 분기문을 사용하지 않고, 이를 통해, 스크립트 학습이나 사용성이 용이하다. 또한, 스크립트에 대한 가독성도 뛰어나므로, 유지보수도 편리해진다.

다음으로, 본 발명에 따른 스크립트 구문의 데이터 타입을 설명한다.

도 4에서 보는 바와 같이, 본 발명에 따른 스크립트 구문의 데이터 타입은 문자열(string), 정수형, 실수형(float 형), 날짜형을 갖는다. 이들 데이터 타입은 상용 인터프리터의 구문을 그대로 사용한다. 또한, 상용 인터프리터(또는 상용 인터프리터의 라이브러리)에서 정의하는 모든 객체를 이용할 수 있다.

또한, 도 5에서 보는 바와 같이, 스크립트 구문은 데이터프레임 형식을 사용한다. 데이터프레임 형은 DBMS 등 데이터베이스(60)의 테이블 형태의 컬럼(또는 필드)과 레코드를 가지는 2차원 데이터셋을 갖는 객체를 선언하는 형식이다. 데이터프레임 형식으로 선언된 변수에는 데이터베이스 또는 파일로부터 읽어온 데이터셋이 저장된다.

다음으로, 본 발명의 일실시예에 따른 스크립트 기반 데이터 처리 시스템을 도 6을 참조하여 보다 구체적으로 설명한다. 앞서 설명한 바와 같이, 데이터 처리 시스템은 클라이언트(20)와 네트워크에 연결된 서버(40)로 구현되는 서버-클라이언트 시스템이다. 그러나 이하에서는 서버(40)에서 구현되는 시스템으로 설명한다.

도 6에서 보는 바와 같이, 본 발명의 일실시예에 따른 스크립트 기반 데이터 처리 시스템(40)은 스크립트를 수신하는 스크립트 수신부(41), 스크립트 코드가 스크립트 구문에 맞는지를 검사하고, 검사된 스크립트 코드를 인터프리터에 의해 실행될 수 있는 중간 코드로 생성하는 중간코드 생성부(46), 데이터베이스(60)로부터 가져오거나 갱신한 데이터를 스크립트 캐시(50)에 저장하는 캐시관리부(47), 및, 중간코드를 실행시키는 인터프리터(48)로 구성된다.

먼저, 스크립트 수신부(41)는 클라이언트(20)에서 요청한 스크립트로서, 데이터를 처리하기 위한 요청을 포함하는 스크립트를 수신한다. 앞서 설명한 바와 같이, 스크립트는 스크립트 구문에 의해 작성된 코드로서, 지시문, 할당문, 함수 호출문 등 일련의 명령문으로 구성된다.

다음으로, 중간코드 생성부(44)는 스크립트에 대하여 스크립트 구문에 맞는지를 판단하고, 구문에 따른 스크립트를 상용 인터프리터의 구문에 따르는 중간 코드로 변환하여 생성한다. 이때, 중간코드 생성부(44)는 스크립트에 작성된 지시문이나 함수 등을 해석한다.

중간코드 생성부(44)는 스크립트에 대하여 스크립트 구문에 의한 코드인지를 검사하고, 스크립트 구문에 맞지 않는 코드를 출력하거나 구문 오류의 내용을 출력한다. 이때, 중간코드 변환 과정은 수행되지 않는다.

앞서 설명한 바와 같이, 스크립트 코드는 상용 인터프리터의 구문과, 스크립트의 고유 구문에 의해 작성된 코드이다. 즉, 스크립트 코드는 상용 인터프리터의 구문에 따른 코드일 수 있다. 그러나 스크립트 구문에 포함되는 상용 인터프리터의 구문은 일부의 구문이다. 따라서 스크립트 코드(또는 코드의 일부)가 상용 인터프리터의 구문에 따라 작성된 코드라도, 스크립트 구문에 의해 허용되지 않은 구문이면, 해당 코드는 중간 코드로 변환되지 않는다.

또한, 중간코드 생성부(44)는 스크립트 구문에 맞는 코드이면, 해당 스크립트 코드를 중간 코드로 변환하여, 중간 코드를 생성한다. 특히, 스크립트 고유 구문인 경우, 스크립트 구문에 따라 상용 인터프리터의 구문으로 변환한다. 또한, 스크립트 코드가 상용 인터프리터의 구문인 경우, 원래의 코드를 중간 코드로 생성한다.

또한, 중간코드 생성부(44)는 지시문의 내용을 해석하여, 해석된 지시 내용에 따라 명령문의 흐름을 제어하거나, API 함수를 지시에 따른 함수로 대체하거나 함수 인수를 변환한다. 예를 들어, 데이터베이스를 참조하는 API 함수에 대하여 캐시를 이용하도록 하는 지시문이 있으면, 캐시를 참조하는 API 함수로 대체하여 중간코드를 생성한다.

다음으로, 인터프리터(45)는 중간 코드를 실행시켜 데이터 처리 작업을 수행한다. 인터프리터(45)는 상용 인터프리터로서, 바람직하게는, 파이썬 인터프리터이다.

다음으로, 함수 처리부(46)는 API 함수를 처리한다. API 함수는 데이터셋을 처리하는 함수로서, 상용 인터프리터에 의해 작성된 함수이다. API 함수들은 라이브러리 등으로 구현되어, 상용 인터프리터에 참조시킨다. 따라서 상용 인터프리터는 중간 코드 내에 API 함수가 있으면, 라이브러리 등을 참조하여 API 함수를 호출하여 실행시킨다.

앞서 설명한 바와 같이, API 함수는 데이터베이스 또는 파일에 저장된 데이터셋을 가져오거나 저장하거나, 해당 데이터셋을 가공 처리하는 함수들을 포함한다. 이때, 데이터프레임 형식을 갖는 변수를 생성하고, 생성된 변수에 데이터셋을 저장하여 처리한다. API 함수는 데이터셋의 입력, 처리, 출력 함수들로 구성된다.

구체적으로, 입력 API 함수는 데이터베이스 또는 파일에 저장된 데이터셋을 읽어와서 참조하여, 생성된 변수에 데이터셋을 저장한다. 파일의 종류나 데이터베이스의 종류에 따라 각기 다른 읽어오기의 API 함수들이 사전에 만들어진다. 이들이 데이터베이스 또는 파일을 입력하는 함수들이다. 또한, 처리 API 함수는, 생성된 변수(데이터프레임형식의 데이터 변수)에 저장된 데이터셋들을 필터링하거나 집계하거나, 다른 데이터셋과 결합하는 등 데이터셋을 가공한다. 즉, 처리 API 함수는 데이터셋을 처리하는 함수(API 함수)들이다. 또한, 출력 API 함수는 데이터프레임 형식의 변수에 저장된 데이터셋을 데이터베이스 또는 파일에 저장하는 함수들이다.

다음으로, 캐시관리부(47)는 데이터베이스 또는 파일로부터 읽어온 데이터들을 스크립트 캐시(50)에 임시로 저장한다. 입력 API 함수나 출력 API 함수가 데이터베이스나 파일에 저장된 데이터셋을 참조할 때, 해당 데이터가 스크립트 캐시(50)에 저장되어 있으면, 스크립트 캐시(50)를 참조한다.

다음으로, 패키지 관리부(48)는 데이터셋에 대하여 집계하거나 필터링하는 기능들을 구비한 패키지를 구비하고, API 함수의 호출에 따라 상기 패키지의 집계 또는 필터링 기능을 수행시켜준다. 바람직하게는, 패키지는 오픈소스 R 패키지가 이용된다. 즉, 패키지 관리부(48)는 API 함수로부터 요청되는 데이터셋을 상기 패키지로 전송하고, 해당 패키지는 집계 또는 필터링 등 기능을 수행하고 그 결과를 패키지 관리부(48)에 반환한다.

이때, 집계필터 패키지와 API 함수 간에는 데이터프레임 형식의 변수들을 이용하여 데이터셋 등 데이터를 주고 받는다.

다음으로, 본 발명의 일실시예에 따른 스크립트 구문에 의해 작성된 데이터 처리를 위한 스크립트의 예를 도 7 및 도 8을 참조하여 설명한다.

도 8은 고객별 거래횟수가 3회 이상이고, 고객별 거래금액 평균이 거래지점별 거래금액평균 대비 20%가 큰 고객의 신상정보를 구하기 위한 스크립트의 예이다. 그리고 도 7은 거래내역 데이터와, 고객신상 데이터의 테이블을 표시한 것이다. 이때, 도 7a의 거래내역 데이터는 DB형식의 데이터베이스에 저장된 데이터이고, 도 7b의 고객신상 데이터는 엑셀파일의 파일 형식으로 저장된 데이터이다.

도 8에서 보는 바와 같이, 거래데이터를 로딩하고, 고객별 거래횟수가 3회, 고객별 거래금액 평균, 거래지점별 거래금액평균을 구한다. 그리고 필터링을 수행한다. 그리고 조인으로 고객의 신상 레코드를 가져온다.

이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

10 : 사용자 단말 20 : 클라이언트
30 : 서비스 서버
40 : 스크립트 서버 41 : 스크립트 수신부
42 : 제1 해석부
44 : 중간코드 생성부 45 : 인터프리터
46 : 함수처리부 47 : 캐시관리부
48 : 패키지 관리부
50 : 스크립트 캐시 60 : 데이터베이스

Claims

스크립트 코드를 수신하여, 상기 스크립트 코드를 해석하여 실행시키는 스크립트 기반 데이터 처리 시스템에 있어서,
스크립트 구문에 의해 작성된 스크립트 코드를 수신하는 스크립트 수신부;
상기 스크립트 구문에 따라 상기 스크립트 코드를 중간코드로 변환하여 생성하는 중간코드 생성부;
상기 중간코드를 실행시키는 상용 인터프리터;
데이터베이스의 데이터들을 데이터셋으로 처리하는 API 함수를 정의하고, 상기 스크립트 코드에 포함된 API 함수를 실행시켜주는 함수처리부; 및,
상기 API 함수에 의해 호출되어, 상기 데이터셋을 필터링, 결합, 또는 집계의 데이터 처리 기능을 수행하는 패키지 관리부를 포함하고,
상기 중간코드는 상기 상용 인터프리터의 코드 구문에 따라 작성되는 프로그램 코드이고, 상기 API 함수는 상기 상용 인터프리터의 코드 구문에 의해 작성된 함수이고,
상기 스크립트 구문은 상기 상용 인터프리터의 구문 중 일부의 구문과, 상기 상용 인터프리터의 구문에 포함되지 않은 고유 구문으로 구성되고,
상기 중간코드 생성부는 상기 고유구문을 상기 상용 인터프리터의 구문에 따른 중간코드로 새로 작성하여 생성하고, 상기 스크립트 구문에 의해 허용되는 상용 인터프리터 구문을 스크립트 원문 자체를 중간코드로 변환하여 생성하고,
상기 API 함수는 별도의 라이브러리로 구성되고, 상기 상용 인터프리터가 상기 라이브러리를 참조하여 상기 API 함수를 실행하도록 구성되고,
상기 API 함수는 데이터베이스의 쿼리문에 의해 상기 데이터베이스에 접근하여 데이터를 처리하는 함수이고, 상기 API 함수의 인수에는 상기 쿼리문을 포함하는 것을 특징으로 하는 스크립트 기반 데이터 처리 시스템.
삭제
제1항에 있어서,
상기 스크립트 구문에는 데이터셋을 참조하는 데이터프레임 형식의 변수를 사용할 수 있고, 상기 데이터베이스에서 참조하는 데이터셋은 상기 데이터프레임 형식의 변수로 가져와서 처리되는 것을 특징으로 하는 스크립트 기반 데이터 처리 시스템.
제3항에 있어서,
상기 데이터베이스는 다수 종류의 DB(database) 형식의 데이터 또는, 파일 형식으로 저장되는 데이터이더라도, 상기 데이터베이스를 참조하기 위하여 공통적으로 상기 데이터프레임 형식의 변수들이 사용되는 것을 특징으로 하는 스크립트 기반 데이터 처리 시스템.
제3항에 있어서,
상기 API 함수는 상기 데이터프레임 형식의 데이터셋에 대하여, 적어도 2개의 데이터셋을 결합하거나, 적어도 1개의 데이터셋을 집계하거나, 적어도 1개의 데이터셋을 필터링하는 함수인 것을 특징으로 하는 스크립트 기반 데이터 처리 시스템.
제1항에 있어서,
상기 스크립트 구문은 반복문이나 분기문을 허용하지 않는 것을 특징으로 하는 스크립트 기반 데이터 처리 시스템.
제1항에 있어서,
상기 스크립트 구문에는 상기 상용 인터프리터의 구문을 모두 사용할 수 있는 구간을 지정하는 지시문을 포함하고,
상기 중간코드 생성부는 해당 지시문에 의해 지정된 구간은 원문 그대로 중간코드로 생성하는 것을 특징으로 하는 스크립트 기반 데이터 처리 시스템.