KR20200095593A - 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 - Google Patents
이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 Download PDFInfo
- Publication number
- KR20200095593A KR20200095593A KR1020190009857A KR20190009857A KR20200095593A KR 20200095593 A KR20200095593 A KR 20200095593A KR 1020190009857 A KR1020190009857 A KR 1020190009857A KR 20190009857 A KR20190009857 A KR 20190009857A KR 20200095593 A KR20200095593 A KR 20200095593A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- heterogeneous
- learning
- big data
- preprocessing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것으로서, 다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부; 각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부; 상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및, 상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 실시간으로 수집되는 이종의 빅데이터를 전처리하여 균일한 구조로 저장함으로써, 딥러닝 학습이 지속적으로 수행될 때 반복적인 전처리 작업을 생략할 수 있어 학습의 효율성을 제고할 수 있다.
상기와 같은 시스템에 의하여, 실시간으로 수집되는 이종의 빅데이터를 전처리하여 균일한 구조로 저장함으로써, 딥러닝 학습이 지속적으로 수행될 때 반복적인 전처리 작업을 생략할 수 있어 학습의 효율성을 제고할 수 있다.
Description
본 발명은 작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것이다.
일반적으로, 이종 빅데이터 딥러닝 학습을 위한 데이터를 만들거나 가져올 때는 이진 배열 형태로 변환하여 학습 모델에 넣어주는 것이 효과적이다.
하지만, 상용 데이터베이스에 BLOB 형태로 저장하는 것은 비용과 검색 속도 등에 문제가 발생한다. 그리고 저장되는 이미지 량이 급속도로 증가하고 있어 효과적인 저장 방법이 필요하다.
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 작업 현장에서 다양한 센서로부터 생성되는 이종 빅데이터를 수집하되, 모두 딥러닝 학습에 바로 적용할 수 있도록, 비정형의 이종 빅데이터를 전처리하여 균일한 구조를 가지는 형식으로 저장하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템을 제공하는 것이다.
제조 현장에서는 실시간으로 수많은 이미지 데이터가 생성되고 작업중에 발생하는 센서 데이터와 소리 등을 생성되고 있고 의료 현장에서는 CT, MRI 데이터가 실시간으로 생성되고 있다. 생성된 이종 빅데이터를 업무 목적(결함 발견 등)에 맞게 CNN(Convolutional Neural Network) 기법 등을 이용해서 학습을 진행하고 있다. 본 발명의 목적은 비정형 데이터를 딥러닝 학습에 맞게 포맷을 정의하여 저장하여 학습에 용이하게 하는, 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 관한 것으로서, 다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부; 각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부; 상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및, 상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 것을 특징으로 한다.
또, 본 발명은 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 있어서, 상기 전처리부는 각 이종 데이터의 종류에 따라 사전에 정해진 전처리 필터를 구비하고, 해당 이종 데이터의 전처리 작업시 상기 전처리 필터를 이용하여 필터링 작업을 수행하는 것을 특징으로 한다.
상술한 바와 같이, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 의하면, 실시간으로 수집되는 이종의 빅데이터를 전처리하여 균일한 구조로 저장함으로써, 딥러닝 학습이 지속적으로 수행될 때 반복적인 전처리 작업을 생략할 수 있어 학습의 효율성을 제고할 수 있는 효과가 얻어진다.
또한, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 의하면, 전처리하여 균일한 구조로 저장할 때 메타 정보를 생성함으로써, 딥러닝 학습에 필요한 데이터를 추출할 때 메타 정보를 활용하여 보다 적확한 데이터를 추출하여 학습의 정확성을 제고할 수 있는 효과가 얻어진다.
도 1은 본 발명의 일실시예에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템의 전체 과정을 나타낸 도면.
도 2는 본 발명의 일실시예에 따른 2차원 이미지의 전처리 과정을 예시한 도면.
도 3은 본 발명의 일실시예에 따른 2차원 이미지의 전처리를 하여 생성되는 데이터를 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 전처리 데이터의 구조에 사용되는 표준 데이터 포맷을 나타낸 도면.
도 5는 본 발명의 일실시예에 따른 이종 데이터의 전처리 데이터의 구조를 나타낸 도면.
도 2는 본 발명의 일실시예에 따른 2차원 이미지의 전처리 과정을 예시한 도면.
도 3은 본 발명의 일실시예에 따른 2차원 이미지의 전처리를 하여 생성되는 데이터를 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 전처리 데이터의 구조에 사용되는 표준 데이터 포맷을 나타낸 도면.
도 5는 본 발명의 일실시예에 따른 이종 데이터의 전처리 데이터의 구조를 나타낸 도면.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성에 대하여 설명한다.
제조 현장에서는 실시간으로 수많은 이미지 데이터가 생성되고 작업중에 발생하는 센서 데이터와 소리 등을 생성되고 있고 의료 현장에서는 CT, MRI 데이터가 실시간으로 생성되고 있다. 생성된 이종 빅데이터를 업무 목적(결함 발견 등)에 맞게 CNN(Convolutional Neural Network) 기법 등을 이용해서 학습을 진행하고 있다. 본 발명은 비정형 데이터를 딥러닝 학습에 맞게 포맷을 정의하여 저장하여 학습에 용이하게 사용될 수 있도록 구성된다.
도 1에서 보는 바와 같이, 본 발명에 따른 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템은 다음과 같은 기능을 구비한다.
1. 이미지 저장을 위한 효과적인 파일 저장 시스템 구성
2. 이미지 조회(메타데이터, 속성(attribute))
3. 딥러닝 학습을 위한 메모리 맵핑 기술을 이용한 고속 조회
먼저, 데이터는 크게 정형데이터와 비정형데이터로 구성된다. 이미지데이터, 영상데이터, 음성데이터는 크게 고차원 배열로 나타낼 수 있다.
일례로서, 도 2 및 도 3에서 보는 바와 같이, 이미지 데이터인 경우 이미지 특성을 고려하여 R,G,B로 분해한 수 이진 배열 혹은 실수 배열로 각각 계층적으로 저장할 수 있고 RGB로 분해 후 Flatten하게 펼친 후 저장한다.
또한, 영상데이터는 이미지데이터에서 1차원을 더한 데이터이고 음성데이터로 narray 형태로 변환할 수 있다. 이렇게 되면 딥러닝 학습을 위한 조회 및 변환 시간을 크게 단축할 수 있다.
다음으로, 본 발명에서 사용하는 데이터 구조에 대하여 설명한다.
도 4에서 보는 바와 같이, 메타데이터를 이용한 조회 기능과 메모리 맵핑 기술을 이용한 고속 조회를 위해 HDF5로 저장한다. HDF(Hierarchical Data Format)는 대용량 데이터를 저장하고 구성하기 위해 고안된 일련의 파일 형식이다.
HDF5 파일은 데이터셋과 그룹이라는 두 종류의 객체를 담기 위한 컨테이너이다. 데이터셋은 배열과 유사한 형태의 데이터 모음(collection)이고, 그룹은 폴더와 유사한 형태의 컨테이너인데 데이터셋과 다른 그룹을 담을 수 있다.
도 5에서 보는 바와 같이, 본 발명에 따른 시스템에서는 시간당이나 일단위로 HDF5 파일을 생성한다.
이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
이 특허출원은 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단-차세대정보·컴퓨팅기술개발사업의 지원을 받아 수행된 연구임
(No.
2017M3C4A7083282
)
10 : 사용자 단말 30 : 서버
Claims (2)
- 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템에 있어서,
다양한 센서로부터 이종 데이터를 수집하는 데이터 수집부;
각 이종 데이터에 대하여 각 이종 데이터의 전처리 방식에 따라 수집된 데이터를 변환하여 전처리 데이터를 생성하는 전처리부;
상기 전처리 데이터를 사전에 정해진 구조의 형식에 따라 저장하는 데이터 저장부; 및,
상기 전처리 데이터에 대한 메타 데이터를 생성하여 삽입하는 메타정보 삽입부를 포함하는 것을 특징으로 하는 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템.
- 제1항에 있어서,
상기 전처리부는 각 이종 데이터의 종류에 따라 사전에 정해진 전처리 필터를 구비하고, 해당 이종 데이터의 전처리 작업시 상기 전처리 필터를 이용하여 필터링 작업을 수행하는 것을 특징으로 하는 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190009857A KR20200095593A (ko) | 2019-01-25 | 2019-01-25 | 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190009857A KR20200095593A (ko) | 2019-01-25 | 2019-01-25 | 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200095593A true KR20200095593A (ko) | 2020-08-11 |
Family
ID=72048571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190009857A KR20200095593A (ko) | 2019-01-25 | 2019-01-25 | 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200095593A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220069229A (ko) * | 2020-11-20 | 2022-05-27 | 주식회사 와이즈넛 | 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법 |
CN114880690A (zh) * | 2022-06-08 | 2022-08-09 | 浙江省交通运输科学研究院 | 一种基于边缘计算的源数据时序精化方法 |
KR102470731B1 (ko) | 2021-07-22 | 2022-11-25 | 한국과학기술정보연구원 | 온톨로지를 이용한 데이터셋 제공 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101609816B1 (ko) | 2014-09-11 | 2016-04-06 | 경희대학교 산학협력단 | 헬스케어 데이터 통합모델을 기반으로 한 데이터 융합장치 및 그 방법 |
KR20170089067A (ko) | 2016-01-25 | 2017-08-03 | 한국전자통신연구원 | 빅데이터 처리 시스템 및 처리 방법 |
KR20170123368A (ko) | 2016-04-28 | 2017-11-08 | 제이예스주식회사 | 이종의 데이터 수집을 이용한 건강 관리 예측 서비스 제공 방법 |
KR101802866B1 (ko) | 2015-12-30 | 2017-11-29 | 주식회사 솔리드웨어 | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 |
-
2019
- 2019-01-25 KR KR1020190009857A patent/KR20200095593A/ko unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101609816B1 (ko) | 2014-09-11 | 2016-04-06 | 경희대학교 산학협력단 | 헬스케어 데이터 통합모델을 기반으로 한 데이터 융합장치 및 그 방법 |
KR101802866B1 (ko) | 2015-12-30 | 2017-11-29 | 주식회사 솔리드웨어 | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 |
KR20170089067A (ko) | 2016-01-25 | 2017-08-03 | 한국전자통신연구원 | 빅데이터 처리 시스템 및 처리 방법 |
KR20170123368A (ko) | 2016-04-28 | 2017-11-08 | 제이예스주식회사 | 이종의 데이터 수집을 이용한 건강 관리 예측 서비스 제공 방법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220069229A (ko) * | 2020-11-20 | 2022-05-27 | 주식회사 와이즈넛 | 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법 |
KR102470731B1 (ko) | 2021-07-22 | 2022-11-25 | 한국과학기술정보연구원 | 온톨로지를 이용한 데이터셋 제공 방법 및 장치 |
CN114880690A (zh) * | 2022-06-08 | 2022-08-09 | 浙江省交通运输科学研究院 | 一种基于边缘计算的源数据时序精化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113762028B (zh) | 从文本文档进行数据驱动的结构提取 | |
US10521513B2 (en) | Language generation from flow diagrams | |
CN109446344B (zh) | 一种基于大数据的智能分析报告自动生成系统 | |
US9053386B2 (en) | Method and apparatus of identifying similar images | |
KR20200095593A (ko) | 이종 빅데이터의 딥러닝 학습을 위한 이종 빅데이터의 전처리 저장 시스템 | |
US20170364563A1 (en) | Efficient merging and filtering of high-volume metrics | |
CN111611266A (zh) | 知识驱动的联合大数据查询和分析平台 | |
US20170039192A1 (en) | Language generation from flow diagrams | |
CN102902826A (zh) | 一种基于基准图像索引的图像快速检索方法 | |
CN114138784B (zh) | 基于存储库的信息溯源方法、装置、电子设备及介质 | |
Phan et al. | Content-based video big data retrieval with extensive features and deep learning | |
CN116361487A (zh) | 一种多源异构政策知识图谱构建和存储方法及系统 | |
Kalaiarasi et al. | Clustering of near duplicate images using bundled features | |
Béjar-Martos et al. | Strategies for the Storage of Large LiDAR Datasets—A Performance Comparison | |
Benny et al. | Hadoop framework for entity resolution within high velocity streams | |
Chen et al. | Deep feature learning with manifold embedding for robust image retrieval | |
WO2022221079A2 (en) | Inferring structure information from table images | |
US20090164482A1 (en) | Methods and systems for optimizing projection of events | |
Vo et al. | A 6-dimensional Hilbert approach to index full waveform LiDAR data in a distributed computing environment | |
CN112417220A (zh) | 一种异构数据的整合方法 | |
Adefowoke Ojokoh et al. | Automated document metadata extraction | |
CN115587140B (zh) | 基于大数据的电子工程项目数据可视化管理方法及装置 | |
Hast et al. | TexT-Text Extractor Tool for Handwritten Document Transcription and Annotation | |
Hadzic et al. | XML document clustering using structure-preserving flat representation of XML content and structure | |
Farooqi | Tackling Approach for Transferring Database to Knowledge Base via Practical Algorithm |