KR20200095593A

KR20200095593A - 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템

Info

Publication number: KR20200095593A
Application number: KR1020190009857A
Authority: KR
Inventors: 황선민; 정성훈; 박상우; 공현규; 박민규
Original assignee: (주)비아이매트릭스
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-08-11

Abstract

작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것으로서, 다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부; 각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부; 상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및, 상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 실시간으로 수집되는 이종의 빅데이터를 전처리하여 균일한 구조로 저장함으로써, 딥러닝 학습이 지속적으로 수행될 때 반복적인 전처리 작업을 생략할 수 있어 학습의 효율성을 제고할 수 있다.

Description

이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 { A system of pretreatment and storage of heterogenous big-data for deep-learning of big-data }

본 발명은 작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것이다.

일반적으로, 이종 빅데이터 딥러닝 학습을 위한 데이터를 만들거나 가져올 때는 이진 배열 형태로 변환하여 학습 모델에 넣어주는 것이 효과적이다.

하지만, 상용 데이터베이스에 BLOB 형태로 저장하는 것은 비용과 검색 속도 등에 문제가 발생한다. 그리고 저장되는 이미지 량이 급속도로 증가하고 있어 효과적인 저장 방법이 필요하다.

한국등록특허 제1609816호(2016.04.06.공고) 한국공개특허 제2017-0123368호(2017.11.08.공개) 한국공개특허 제2017-0089067호(2017.08.03.공개) 한국등록특허 제1802866호(2017.11.29.공고)

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템을 제공하는 것이다.

제조 현장에서는 실시간으로 수많은 이미지 데이터가 생성되고 작업중에 발생하는 센서 데이터와 소리 등을 생성되고 있고 의료 현장에서는 CT, MRI 데이터가 실시간으로 생성되고 있다. 생성된 이종 빅데이터를 업무 목적(결함 발견 등)에 맞게 CNN(Convolutional Neural Network) 기법 등을 이용해서 학습을 진행하고 있다. 본 발명의 목적은 비정형 데이터를 딥러닝 학습에 맞게 포맷을 정의하여 저장하여 학습에 용이하게 하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템을 제공하는 것이다.

상기 목적을 달성하기 위해 본 발명은 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것으로서, 다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부; 각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부; 상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및, 상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 것을 특징으로 한다.

또, 본 발명은 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 있어서, 상기 전처리부는 각 이종 데이터의 종류에 따라 사전에 정해진 전처리 필터를 구비하고, 해당 이종 데이터의 전처리 작업시 상기 전처리 필터를 이용하여 필터링 작업을 수행하는 것을 특징으로 한다.

상술한 바와 같이, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 의하면, 실시간으로 수집되는 이종의 빅데이터를 전처리하여 균일한 구조로 저장함으로써, 딥러닝 학습이 지속적으로 수행될 때 반복적인 전처리 작업을 생략할 수 있어 학습의 효율성을 제고할 수 있는 효과가 얻어진다.

또한, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 의하면, 전처리하여 균일한 구조로 저장할 때 메타 정보를 생성함으로써, 딥러닝 학습에 필요한 데이터를 추출할 때 메타 정보를 활용하여 보다 적확한 데이터를 추출하여 학습의 정확성을 제고할 수 있는 효과가 얻어진다.

도 1은 본 발명의 일실시예에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템의 전체 과정을 나타낸 도면.
도 2는 본 발명의 일실시예에 따른 2차원 이미지의 전처리 과정을 예시한 도면.
도 3은 본 발명의 일실시예에 따른 2차원 이미지의 전처리를 하여 생성되는 데이터를 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 전처리 데이터의 구조에 사용되는 표준 데이터 포맷을 나타낸 도면.
도 5는 본 발명의 일실시예에 따른 이종 데이터의 전처리 데이터의 구조를 나타낸 도면.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

먼저, 본 발명을 실시하기 위한 전체 시스템의 구성에 대하여 설명한다.

제조 현장에서는 실시간으로 수많은 이미지 데이터가 생성되고 작업중에 발생하는 센서 데이터와 소리 등을 생성되고 있고 의료 현장에서는 CT, MRI 데이터가 실시간으로 생성되고 있다. 생성된 이종 빅데이터를 업무 목적(결함 발견 등)에 맞게 CNN(Convolutional Neural Network) 기법 등을 이용해서 학습을 진행하고 있다. 본 발명은 비정형 데이터를 딥러닝 학습에 맞게 포맷을 정의하여 저장하여 학습에 용이하게 사용될 수 있도록 구성된다.

도 1에서 보는 바와 같이, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템은 다음과 같은 기능을 구비한다.

1. 이미지 저장을 위한 효과적인 파일 저장 시스템 구성

2. 이미지 조회(메타데이터, 속성(attribute))

3. 딥러닝 학습을 위한 메모리 맵핑 기술을 이용한 고속 조회

먼저, 데이터는 크게 정형데이터와 비정형데이터로 구성된다. 이미지데이터, 영상데이터, 음성데이터는 크게 고차원 배열로 나타낼 수 있다.

일례로서, 도 2 및 도 3에서 보는 바와 같이, 이미지 데이터인 경우 이미지 특성을 고려하여 R,G,B로 분해한 수 이진 배열 혹은 실수 배열로 각각 계층적으로 저장할 수 있고 RGB로 분해 후 Flatten하게 펼친 후 저장한다.

또한, 영상데이터는 이미지데이터에서 1차원을 더한 데이터이고 음성데이터로 narray 형태로 변환할 수 있다. 이렇게 되면 딥러닝 학습을 위한 조회 및 변환 시간을 크게 단축할 수 있다.

다음으로, 본 발명에서 사용하는 데이터 구조에 대하여 설명한다.

도 4에서 보는 바와 같이, 메타데이터를 이용한 조회 기능과 메모리 맵핑 기술을 이용한 고속 조회를 위해 HDF5로 저장한다. HDF(Hierarchical Data Format)는 대용량 데이터를 저장하고 구성하기 위해 고안된 일련의 파일 형식이다.

HDF5 파일은 데이터셋과 그룹이라는 두 종류의 객체를 담기 위한 컨테이너이다. 데이터셋은 배열과 유사한 형태의 데이터 모음(collection)이고, 그룹은 폴더와 유사한 형태의 컨테이너인데 데이터셋과 다른 그룹을 담을 수 있다.

도 5에서 보는 바와 같이, 본 발명에 따른 시스템에서는 시간당이나 일단위로 HDF5 파일을 생성한다.

이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

이 특허출원은 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단-차세대정보·컴퓨팅기술개발사업의 지원을 받아 수행된 연구임

(No. 2017M3C4A7083282 )

10 : 사용자 단말 30 : 서버

Claims

이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 있어서,
다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부;
각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부;
상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및,
상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 것을 특징으로 하는 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템.
제1항에 있어서,
상기 전처리부는 각 이종 데이터의 종류에 따라 사전에 정해진 전처리 필터를 구비하고, 해당 이종 데이터의 전처리 작업시 상기 전처리 필터를 이용하여 필터링 작업을 수행하는 것을 특징으로 하는 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템.