KR20200095593A - 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 - Google Patents

이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 Download PDF

Info

Publication number
KR20200095593A
KR20200095593A KR1020190009857A KR20190009857A KR20200095593A KR 20200095593 A KR20200095593 A KR 20200095593A KR 1020190009857 A KR1020190009857 A KR 1020190009857A KR 20190009857 A KR20190009857 A KR 20190009857A KR 20200095593 A KR20200095593 A KR 20200095593A
Authority
KR
South Korea
Prior art keywords
data
heterogeneous
learning
big data
preprocessing
Prior art date
Application number
KR1020190009857A
Other languages
English (en)
Inventor
황선민
정성훈
박상우
공현규
박민규
Original Assignee
(주)비아이매트릭스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)비아이매트릭스 filed Critical (주)비아이매트릭스
Priority to KR1020190009857A priority Critical patent/KR20200095593A/ko
Publication of KR20200095593A publication Critical patent/KR20200095593A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것으로서, 다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부; 각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부; 상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및, 상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 실시간으로 수집되는 이종의 빅데이터를 전처리하여 균일한 구조로 저장함으로써, 딥러닝 학습이 지속적으로 수행될 때 반복적인 전처리 작업을 생략할 수 있어 학습의 효율성을 제고할 수 있다.

Description

이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 { A system of pretreatment and storage of heterogenous big-data for deep-learning of big-data }
본 발명은 작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것이다.
일반적으로, 이종 빅데이터 딥러닝 학습을 위한 데이터를 만들거나 가져올 때는 이진 배열 형태로 변환하여 학습 모델에 넣어주는 것이 효과적이다.
하지만, 상용 데이터베이스에 BLOB 형태로 저장하는 것은 비용과 검색 속도 등에 문제가 발생한다. 그리고 저장되는 이미지 량이 급속도로 증가하고 있어 효과적인 저장 방법이 필요하다.
한국등록특허 제1609816호(2016.04.06.공고) 한국공개특허 제2017-0123368호(2017.11.08.공개) 한국공개특허 제2017-0089067호(2017.08.03.공개) 한국등록특허 제1802866호(2017.11.29.공고)
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템을 제공하는 것이다.
제조 현장에서는 실시간으로 수많은 이미지 데이터가 생성되고 작업중에 발생하는 센서 데이터와 소리 등을 생성되고 있고 의료 현장에서는 CT, MRI 데이터가 실시간으로 생성되고 있다. 생성된 이종 빅데이터를 업무 목적(결함 발견 등)에 맞게 CNN(Convolutional Neural Network) 기법 등을 이용해서 학습을 진행하고 있다. 본 발명의 목적은 비정형 데이터를 딥러닝 학습에 맞게 포맷을 정의하여 저장하여 학습에 용이하게 하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것으로서, 다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부; 각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부; 상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및, 상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 것을 특징으로 한다.
또, 본 발명은 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 있어서, 상기 전처리부는 각 이종 데이터의 종류에 따라 사전에 정해진 전처리 필터를 구비하고, 해당 이종 데이터의 전처리 작업시 상기 전처리 필터를 이용하여 필터링 작업을 수행하는 것을 특징으로 한다.
상술한 바와 같이, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 의하면, 실시간으로 수집되는 이종의 빅데이터를 전처리하여 균일한 구조로 저장함으로써, 딥러닝 학습이 지속적으로 수행될 때 반복적인 전처리 작업을 생략할 수 있어 학습의 효율성을 제고할 수 있는 효과가 얻어진다.
또한, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 의하면, 전처리하여 균일한 구조로 저장할 때 메타 정보를 생성함으로써, 딥러닝 학습에 필요한 데이터를 추출할 때 메타 정보를 활용하여 보다 적확한 데이터를 추출하여 학습의 정확성을 제고할 수 있는 효과가 얻어진다.
도 1은 본 발명의 일실시예에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템의 전체 과정을 나타낸 도면.
도 2는 본 발명의 일실시예에 따른 2차원 이미지의 전처리 과정을 예시한 도면.
도 3은 본 발명의 일실시예에 따른 2차원 이미지의 전처리를 하여 생성되는 데이터를 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 전처리 데이터의 구조에 사용되는 표준 데이터 포맷을 나타낸 도면.
도 5는 본 발명의 일실시예에 따른 이종 데이터의 전처리 데이터의 구조를 나타낸 도면.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성에 대하여 설명한다.
제조 현장에서는 실시간으로 수많은 이미지 데이터가 생성되고 작업중에 발생하는 센서 데이터와 소리 등을 생성되고 있고 의료 현장에서는 CT, MRI 데이터가 실시간으로 생성되고 있다. 생성된 이종 빅데이터를 업무 목적(결함 발견 등)에 맞게 CNN(Convolutional Neural Network) 기법 등을 이용해서 학습을 진행하고 있다. 본 발명은 비정형 데이터를 딥러닝 학습에 맞게 포맷을 정의하여 저장하여 학습에 용이하게 사용될 수 있도록 구성된다.
도 1에서 보는 바와 같이, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템은 다음과 같은 기능을 구비한다.
1. 이미지 저장을 위한 효과적인 파일 저장 시스템 구성
2. 이미지 조회(메타데이터, 속성(attribute))
3. 딥러닝 학습을 위한 메모리 맵핑 기술을 이용한 고속 조회
먼저, 데이터는 크게 정형데이터와 비정형데이터로 구성된다. 이미지데이터, 영상데이터, 음성데이터는 크게 고차원 배열로 나타낼 수 있다.
일례로서, 도 2 및 도 3에서 보는 바와 같이, 이미지 데이터인 경우 이미지 특성을 고려하여 R,G,B로 분해한 수 이진 배열 혹은 실수 배열로 각각 계층적으로 저장할 수 있고 RGB로 분해 후 Flatten하게 펼친 후 저장한다.
또한, 영상데이터는 이미지데이터에서 1차원을 더한 데이터이고 음성데이터로 narray 형태로 변환할 수 있다. 이렇게 되면 딥러닝 학습을 위한 조회 및 변환 시간을 크게 단축할 수 있다.
다음으로, 본 발명에서 사용하는 데이터 구조에 대하여 설명한다.
도 4에서 보는 바와 같이, 메타데이터를 이용한 조회 기능과 메모리 맵핑 기술을 이용한 고속 조회를 위해 HDF5로 저장한다. HDF(Hierarchical Data Format)는 대용량 데이터를 저장하고 구성하기 위해 고안된 일련의 파일 형식이다.
HDF5 파일은 데이터셋과 그룹이라는 두 종류의 객체를 담기 위한 컨테이너이다. 데이터셋은 배열과 유사한 형태의 데이터 모음(collection)이고, 그룹은 폴더와 유사한 형태의 컨테이너인데 데이터셋과 다른 그룹을 담을 수 있다.
도 5에서 보는 바와 같이, 본 발명에 따른 시스템에서는 시간당이나 일단위로 HDF5 파일을 생성한다.
이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
이 특허출원은 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단-차세대정보·컴퓨팅기술개발사업의 지원을 받아 수행된 연구임
(No. 2017M3C4A7083282 )
10 : 사용자 단말 30 : 서버

Claims (2)

  1. 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 있어서,
    다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부;
    각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부;
    상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및,
    상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 것을 특징으로 하는 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템.
  2. 제1항에 있어서,
    상기 전처리부는 각 이종 데이터의 종류에 따라 사전에 정해진 전처리 필터를 구비하고, 해당 이종 데이터의 전처리 작업시 상기 전처리 필터를 이용하여 필터링 작업을 수행하는 것을 특징으로 하는 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템.
KR1020190009857A 2019-01-25 2019-01-25 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 KR20200095593A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190009857A KR20200095593A (ko) 2019-01-25 2019-01-25 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190009857A KR20200095593A (ko) 2019-01-25 2019-01-25 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템

Publications (1)

Publication Number Publication Date
KR20200095593A true KR20200095593A (ko) 2020-08-11

Family

ID=72048571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190009857A KR20200095593A (ko) 2019-01-25 2019-01-25 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템

Country Status (1)

Country Link
KR (1) KR20200095593A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220069229A (ko) * 2020-11-20 2022-05-27 주식회사 와이즈넛 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법
CN114880690A (zh) * 2022-06-08 2022-08-09 浙江省交通运输科学研究院 一种基于边缘计算的源数据时序精化方法
KR102470731B1 (ko) 2021-07-22 2022-11-25 한국과학기술정보연구원 온톨로지를 이용한 데이터셋 제공 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101609816B1 (ko) 2014-09-11 2016-04-06 경희대학교 산학협력단 헬스케어 데이터 통합모델을 기반으로 한 데이터 융합장치 및 그 방법
KR20170089067A (ko) 2016-01-25 2017-08-03 한국전자통신연구원 빅데이터 처리 시스템 및 처리 방법
KR20170123368A (ko) 2016-04-28 2017-11-08 제이예스주식회사 이종의 데이터 수집을 이용한 건강 관리 예측 서비스 제공 방법
KR101802866B1 (ko) 2015-12-30 2017-11-29 주식회사 솔리드웨어 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101609816B1 (ko) 2014-09-11 2016-04-06 경희대학교 산학협력단 헬스케어 데이터 통합모델을 기반으로 한 데이터 융합장치 및 그 방법
KR101802866B1 (ko) 2015-12-30 2017-11-29 주식회사 솔리드웨어 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법
KR20170089067A (ko) 2016-01-25 2017-08-03 한국전자통신연구원 빅데이터 처리 시스템 및 처리 방법
KR20170123368A (ko) 2016-04-28 2017-11-08 제이예스주식회사 이종의 데이터 수집을 이용한 건강 관리 예측 서비스 제공 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220069229A (ko) * 2020-11-20 2022-05-27 주식회사 와이즈넛 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법
KR102470731B1 (ko) 2021-07-22 2022-11-25 한국과학기술정보연구원 온톨로지를 이용한 데이터셋 제공 방법 및 장치
CN114880690A (zh) * 2022-06-08 2022-08-09 浙江省交通运输科学研究院 一种基于边缘计算的源数据时序精化方法

Similar Documents

Publication Publication Date Title
CN113762028B (zh) 从文本文档进行数据驱动的结构提取
US10521513B2 (en) Language generation from flow diagrams
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
US9053386B2 (en) Method and apparatus of identifying similar images
KR20200095593A (ko) 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템
US20170364563A1 (en) Efficient merging and filtering of high-volume metrics
CN111611266A (zh) 知识驱动的联合大数据查询和分析平台
US20170039192A1 (en) Language generation from flow diagrams
CN102902826A (zh) 一种基于基准图像索引的图像快速检索方法
CN114138784B (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
Phan et al. Content-based video big data retrieval with extensive features and deep learning
CN116361487A (zh) 一种多源异构政策知识图谱构建和存储方法及系统
Kalaiarasi et al. Clustering of near duplicate images using bundled features
Béjar-Martos et al. Strategies for the Storage of Large LiDAR Datasets—A Performance Comparison
Benny et al. Hadoop framework for entity resolution within high velocity streams
Chen et al. Deep feature learning with manifold embedding for robust image retrieval
WO2022221079A2 (en) Inferring structure information from table images
US20090164482A1 (en) Methods and systems for optimizing projection of events
Vo et al. A 6-dimensional Hilbert approach to index full waveform LiDAR data in a distributed computing environment
CN112417220A (zh) 一种异构数据的整合方法
Adefowoke Ojokoh et al. Automated document metadata extraction
CN115587140B (zh) 基于大数据的电子工程项目数据可视化管理方法及装置
Hast et al. TexT-Text Extractor Tool for Handwritten Document Transcription and Annotation
Hadzic et al. XML document clustering using structure-preserving flat representation of XML content and structure
Farooqi Tackling Approach for Transferring Database to Knowledge Base via Practical Algorithm