KR20190130949A

KR20190130949A - 빅데이터를 이용한 농생명 기반 플랫폼 시스템

Info

Publication number: KR20190130949A
Application number: KR1020180084404A
Authority: KR
Inventors: 박성진; 김동일
Original assignee: 농업회사법인 렛츠팜 주식회사; 전주대학교 산학협력단; 재단법인 전주정보문화산업진흥원
Priority date: 2018-05-15
Filing date: 2018-07-20
Publication date: 2019-11-25
Also published as: KR102219955B9; KR102219955B1

Abstract

본 발명의 빅데이터를 이용한 농생명 기반 플랫폼 시스템은 기후, 양계, 토양, 행태기반, 및 생활치유 분야의 농업생명공학 ICT 융합 환경으로부터 센싱 데이터와 공공기관을 모니터링하여 추출된 빅데이터를 수집하고, ETL(Extraction/Transformation/Loading) 도구를 통해 데이터를 추출, 노이즈 제거, 정규화, 및 보정하고 데이터웨어하우스에 업로드하는 빅데이터 수집 플랫폼; 상기 수집된 빅데이터를 독립된 형태로 분할하고, 이를 병렬적으로 분산 처리하기 위하여 저장하며, 수집된 빅데이터 중 비정형/반정형 데이터는 NoSQL에 저장하고, 정형화된 데이터는 NewSQL에 저장하는 빅데이터 저장 플랫폼; 상기 저장된 빅데이터를 초고속 분산 처리, 데이터 가공, 추출, 및 데이터 분석 전처리용으로 처리하며, 상기 수집된 빅데이터의 유형을 분류하고, 분류별 데이터 저장 구조 및 프로세스를 처리하는 빅데이터 처리 플랫폼; 및, 상기 처리된 빅데이터를 요구분석하는 빅데이터 분석 플랫폼;을 포함한다.
이에 따라, 본 발명은 농민·농업·농촌과 농산업과 관련하여 급격히 진행되고 있는 개인의 ‘삶의 변화’에 대응하는 개인 맞춤형 복지 정책 발굴에 필요한 데이터를 제공할 수 있다.

Description

빅데이터를 이용한 농생명 기반 플랫폼 시스템{BEHAVIOR-BASED PLATFORM SYSTEM USING THE BIGDATA}

본 발명은 빅데이터를 이용한 농생명 기반 플랫폼 시스템에 관한 것으로, 보다 상세하게는 농민·농업·농촌과 농산업과 관련하여 급격히 진행되고 있는 개인의 ‘삶의 변화’에 대응하는 개인 맞춤형 복지 정책 발굴에 필요한 데이터를 제공하는 농생명 기반 플랫폼 시스템에 관한 것이다.

농업은 먹거리를 생산하는 것임에 따라 인류생존에 필수적인 산업이지만, 전통적인 농업기술이 유지되고 있어 혁신이 가장 느린 산업이기도 하다. 이와 더불어 현재 농업 생산인구의 감소와 고령화로 미래 먹거리 생산에 대한 불안이 증대되고 있기도 하다.

이러한, 농업선진국을 중심으로 제조농업에서 데이터농업으로 농산업 분야 패러다임 전환(paradigm shift)이 진행되고 있다.

이에, 농업생명공학(이하, 농생명) 인프라와 유망 농생명 소프트웨어 기업과의 연구개발 등의 협업에 의한 데이터 기반의 플랫폼 수요가 증가하고 있다.

종래 구축된 플랫폼들은 센서, 통신, 분석, 제어 기술이 융합된 것이지만, 식물에 대한 전문적인 이해도를 기반으로 식물의 생육 및 성장 특성 등이 잘 반영된 융합기술로 보기 어려운 면이 있다.

선행기술 국내공개특허 제2017-0110243호를 살펴보면, 재배지에 마련되어 적어도 하나의 생육 환경을 변경하는 환경 조절 장치와 재배자 단말에 정보를 작물 재배에 필요한 정보를 제공하고, 재배 모델에 대응되는 생육 환경이 제공되도록 환경 조절 장치를 제어하는 농업 관리 장치를 제공한다.

이러한 선행기술은 센싱된 정보에 따라 생육 환경을 분석하고 분석된 정보(재배지의 수확 변동 정보, 및 재배지의 예상 수확량 정보)를 재배자에게 제공하기 때문에 그 이외의 다양한 서비스 정보를 제공하기 어려운 문제점이 있다.

이에, 농생명 분야에서의 이종기술, 이종산업간 융합을 통해 혁신 농제품 및 맞춤형 서비스를 창출하는‘농생명 산업의 대전환, 지속 가능한 성장 동력원'인 서비스 플랫폼 시스템이 필요한 실정이다.

국내공개특허공보 제2017-0110243호(2017.10.11)

위와 같은 요구에 부응하기 위하여 안출된 것으로, 본 발명의 목적은 농민·농업·농촌과 농산업과 관련하여 급격히 진행되고 있는 개인의 ‘삶의 변화’에 대응하는 개인 맞춤형 복지 정책 발굴에 필요한 데이터를 제공하는 농생명 기반 플랫폼 시스템을 제공하는 것이다.

또한, 빅 데이터 검색 서비스를 이용한 멘토링, 사업협의, 농작물 관리(재배현황, 맞춤형 작물, 질병관리, 유통 등), 생활치유등의 서비스를 제공하는 농생명 기반 플랫폼 시스템을 제공하는 것이다.

본 출원의 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않는 또 다른 과제는 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

위와 같은 과제를 해결하기 위하여 본 발명에 따른 빅데이터를 이용한 농생명 기반의 플랫폼 시스템은 기후, 양계, 토양, 행태기반 및 생활치유 분야의 농업생명공학 ICT 융합 환경으로부터 센싱 데이터와 공공기관을 모니터링하여 추출된 빅데이터를 수집하고, ETL(Extraction/Transformation/Loading) 도구를 통해 데이터를 추출, 노이즈 제거, 정규화 및 보정하고 데이터웨어하우스에 업로드하는 빅데이터 수집 플랫폼; 상기 수집된 빅데이터를 독립된 형태로 분할하고, 이를 병렬적으로 분산 처리하기 위하여 저장하며, 수집된 빅데이터 중 비정형/반정형 데이터는 NoSQL에 저장하고, 정형화된 데이터는 NewSQL에 저장하는 빅데이터 저장 플랫폼; 상기 저장된 빅데이터를 초고속 분산 처리, 데이터 가공, 추출, 및 데이터 분석 전처리용으로 처리하며, 상기 수집된 빅데이터의 유형을 분류하고, 분류별 데이터 저장 구조 및 프로세스를 처리하는 빅데이터 처리 플랫폼; 및, 상기 처리된 빅데이터를 요구분석하는 빅데이터 분석 플랫폼;을 포함한다.

또한, 상기 빅데이터 저장 플랫폼은 상기 분석된 빅데이터를 저장하고 관리하기 위하여 데이터베이스 RDB와 연동할 수 있다.

또한, 상기 빅데이터 저장 플랫폼은 문서 지향 저장 구조, 키-값(value) 방식의 저장 구조, 칼럼 스토어 저장 방식의 저장 구조, 그래프 저장 방식의 저장 구조들 중 어느 하나의 저장 구조의 유형으로 상기 빅데이터를 저장할 수 있다.

또한, 상기 빅데이터 처리 플랫폼은, 상기 빅데이터를 배치 분산 처리, 실시간 스트리밍 처리 및 반복 연산 처리를 수행할 수 있다.

또한, 상기 빅데이터 처리 플랫폼은, 하둡 환경의 맵리듀스를 통해 상기 배치 분산 처리를 수행하고, 스파크를 통해 상기 실시간 스트리밍 처리를 수행하며, 얀(YARN)관리를 통해 상기 반복 연산 처리를 수행할 수 있다.

그리고, 상기 빅데이터 처리 플랫폼과 상기 빅데이터 분석 플랫폼은, 하둡 환경에서 스파크를 처리 플랫폼으로 하고 NewSQL 및 관계형 데이터베이스 DBMS를 연동할 수 있다.

또한, 상기 빅데이터 처리 플랫폼은 SQL코딩을 하지 않고도 데이터베이스 질의어를 지원할 수 있다.

그리고, 상기 빅데이터 처리 플랫폼은 Hbase, MAPR-DB, Mongo DB 등의 NoSQL과 API를 통해 샤딩을 지원할 수 있다.

또한, 상기 빅데이터 분석 플랫폼은 NewSQL 기반의 고수준 API를 제공하여 상기 요구분석된 빅데이터를 레포팅할 수 있다.

또한, 상기 빅데이터 분석 플랫폼은 Java, Python, Scala 프로그램을 내포(embedding)시켜 호출하여 요구분석을 실행할 수 있다.

한편, 상기 빅데이터 분석 플랫폼은 상기 분석된 빅데이터 결과를 저장 및 분류하고 폐쇄형 소셜 네트워크에 공유할 수 있다.

본 발명은 농민·농업·농촌과 농산업과 관련하여 급격히 진행되고 있는 개인의 ‘삶의 변화’에 대응하는 개인 맞춤형 복지 정책 발굴에 필요한 데이터를 제공할 수 있다.

또한, 본 발명은 빅 데이터 검색 서비스를 이용한 멘토링, 사업협의, 농작물 관리(재배현황, 맞춤형 작물, 질병관리, 유통 등), 생활치유 등 서비스를 제공할 수 있다.

본 출원의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않는 또 다른 효과는 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 빅데이터를 이용한 농생명 기반 플랫폼 시스템을 나타내는 개념도이다.
도 2는 본 발명의 빅데이터 처리 플랫폼을 나타내는 개념도이다.
도 3은 본 발명의 빅데이터를 이용한 농생명 기반 플랫폼 시스템을 나타내는 블럭 구성도이다.
도 4는 소셜 플랫폼과 본발명의 농생명 기반 플랫폼 시스템이 연동된 예시도이다.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 도면을 참조하여 설명하기에 앞서, 본 발명의 요지를 드러내기 위해서 필요하지 않은 사항 즉 통사의 지식을 가진 당업자가 자명하게 부가할 수 있는 공지 구성에 대해서는 도시하지 않거나, 구체적으로 기술하지 않았음을 밝혀둔다.

명세서 전문에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지칭한다. 따라서, 동일한 참조 부호 또는 유사한 참조 부호들은 해당 도면에서 언급 또는 설명되지 않았더라도, 다른 도면을 참조하여 설명할 수 있다. 또한, 참조 부호가 표시되지 않았더라도, 다른 도면들을 참조하여 설명할 수 있다.

본문에 들어가기에 앞서, 하둡과 스파크에 대하여 설명한다.

하둡(Hadoop)은 방대한 데이터를 처리하기 위한 환경으로 오픈 소스인 하둡은 비싼 외부 저장장치 또는 데이터웨어하우스(data warehouse)를 사용하는 것에 비하여 설치 및 사용의 편의성이 높고, 비용 절감이 유리하여 많은 기업에서 채택하고 있다.

또한, 맵리듀스 모델은 구글 사에서 저비용 대규모 노드로 구성된 클러스터 상에 저장된 대용량 데이터에 대한 분산 병렬 연산을 위하여 제안된 분산 병렬 처리 프로그래밍 모델이다.

맵리듀스 기반 작업 수행은 대규모 데이터를 처리하는 작업을 여러 개의 작은 단위의 세부 작업으로 분할하여, 이를 여러 대의 컴퓨터에 적재하여 병렬적으로 처리하고, 그 수행 결과를 합하여 최종 결과물을 생성하는 방식이다.

이러한 맵리듀스 작업은 하나의 작업을 여러 대의 일반 컴퓨터를 이용하여 병렬적으로 수행하므로, 기존의 방식으로 처리하지 못한 대규모의 데이터 처리가 가능하여, 최근 빅데이터 분석, 기계 학습 분야 등에서 활발히 사용되고 있다.

뿐만 아니라, 보다 복잡한 작업은 하나의 맵리듀스 작업을 다시 여러 단위의 맵리듀스 작업으로 분할하고, 이를 순차적 또는 병렬적으로 실행하는 복합 맵리듀스 작업 방식으로 처리되고 있다.

이러한 방식의 작업 처리를 위하여, Pig, Hive와 같이 다양한 복합 맵리듀스 작업 처리와 관련한 기술이 등장하고 있다.

일반적으로 하나의 맵리듀스 작업은 수행에 필요한 데이터를 하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System)에 저장된 파일로부터 읽기(read)하여 처리하고, 그 결과를 다시 하둡 분산 파일 시스템에 쓰기(write)하는 방식으로 구현된다.

하둡 환경에서 맵리듀스 작업 수행의 뛰어난 성능은 다양한 분야에서 맵리듀스 기반의 작업 처리 방식이 활용되는 이유이다.

그러나, 단일 맵리듀스 작업은 대규모 자료를 배치 형식으로 처리함에 있어 많은 장점이 있으나, 이러한 맵리듀스 작업 방식이 여러 단계에 걸쳐 구성되는 다단계 복합 작업에 적용되는 경우, 각 단위 단계에서 발생되는 파일의 읽기 및 쓰기 작업의 부하가 발생하여, 시스템 성능에 많은 제약을 가하는 문제점이 있다.

특히, 단위 맵리듀스 작업이 단순 연산인 경우, 실제 맵리듀스 작업 수행에 소요되는 시간보다 이에 필요한 입출력에 소요되는 시간의 비중이 더욱 커져, 전체 작업 수행 성능을 저해하는 요인이 된다.

이러한 문제점을 해결하기 위하여 얀(YARN), 아파치 스파크(Apache Spark), 스톰(Storm)등이 제안되고 있으나, 이러한 방법은 전통적인 맵리듀스 방식을 탈피한 새로운 프로그램 방식을 사용한다.

여기서, 아파치 스파크는 University of California, Berkeley의 AMPLab에서 개발되었으며, 이 후에 Apache Software Foundation에 기증하여 이 기관에서 관리하고 있다.

스파크 아키텍처의 특징은 읽기 전용의 분산된 데이터셋인 RDD(Resilient Distributed Dataset) 기반의 처리 방식으로 분산 처리에 사용되는 서버 클러스터에 할당되어 신뢰도 있는 실행결과를 보장한다.

스파크 1.x에서는 RDD가 주된 API였으나, 스파크 2.x부터는 RDD API를 기반으로 하는 데이터셋 API를 주로 사용된다. 원하는 경우 RDD API는 서브로 사용이 권장된다.

스파크와 RDD는 맵리듀스의 단점인 분산 처리 프로그램의 선형 데이터흐름 구조의 한계를 극복하기 위해 개발되었다. 맵리듀스는 디스크로부터 데이터를 읽고, 데이터에 맵(map) 함수를 적용한 후, 맵 함수 결과를 병합, 정렬, 공유하는 리듀스(reduce) 함수를 수행한다. 그 결과를 디스크에 저장한다.

스파크의 분산 프로그램에서 현재 작동하는 데이터셋을 생성하는 RDD API는 분산 공유 메모리를 제한된 형태로 제공한다는 의미가 있다.

스파크는 루프 알고리즘에서 이 데이터 집합의 반복 접근을 용이하게 하면서 동시에 상호작용식/탐사식으로 분석한다. 즉, 데이터베이스 방식의 반복 질의 또한 가능하게 한다. 이 방식에 의해 맵리듀스 비교 인메모리 작업의 경우 100배 정도의 작업 지연 시간이 줄어들었다고 보고되었다.

머신 러닝에서의 학습 알고리즘이 대부분 이러한 반복 알고리즘을 요구하고 있기 때문에 스파크는 특히 현존하는 최적의 딥러닝 플랫폼으로 평가받고 있다.

스파크는 클러스터 관리자와 분산 저장 시스템을 포함한다. 분산 관리에 있어서 스파크는 단독 또는 하둡의 자원 관리자인 YARN의 통제하에 작동된다.

분산 저장 관리에 있어서는 HDFS를 포함해서, NoSQL MapR, 카산드라, 오픈스택 Swift, 아마존 S3 등과 인터페이스를 통해 통합 가능하다.

스파크는 최근 분산 저장 대신 단독 파일 저장구조를 사용해서 CPU가 하나 있는 개별 컴퓨터나 서버에서도 작동된다.

도 1은 본 발명의 빅데이터를 이용한 농생명 기반 플랫폼 시스템의 개념도이다. 도 1을 참조하면, 본 발명에 따른 빅데이터를 이용한 농생명 기반 플랫폼 시스템은 빅데이터 수집 플랫폼(10), 빅데이터 저장 플랫폼(20), 빅데이터 처리 플랫폼(30) 및 빅데이터 분석 플랫폼(40)을 포함할 수 있다.

빅데이터 수집 플랫폼(10)은 기후, 양계, 토양, 행태기반, 및 생활치유 분야의 농업생명공학 ICT 융합 환경으로부터 센싱 데이터와 공공기관을 모니터링하여 추출된 빅데이터를 수집할 수 있다.

여기서, 빅데이터는 스마트팜에서 다양한 센서들로부터 수집되는 센싱 데이터, 수년간 각 기관에서 수집하여 공개된 농생명관련 정보 데이터, 그리고 분석의 결과 추출된 지식 등을 의미할 수 있다. 이러한 빅데이터는 무정형(schemaless), 반정형(semi-schema), 그리고 정형(schema) 구조를 가진다

여기서, 추출된 지식은 통계 분석, 딥러닝 결과, 예측 모델 등으로 소셜 환경에서 사용자 공유를 위한 데이터일 수 있다.

또한, 빅데이터 수집 플랫폼(10)은 사물인터넷(IoT) 기반의 스마트 센싱과 모니터링을 통해 추출된 비정형 자료를 분석 가능한 형식으로 변환 및 업로드할 수 있다. 즉, 빅데이터 수집 플랫폼(10)은 ETL(Extraction/Transformation/Loading) 도구를 통해 데이터를 추출, 노이즈 제거, 정규화, 및 보정하고 데이터웨어하우스에 업로드할 수 있다.

또한, 빅데이터 수집 플랫폼(10)은 하둡 환경에서 지원하는 Hbase, 복합 데이터구조를 지원하는 NoSQL인 mongoDB등 과의 데이터 교환과 스파크와 호환되는 ETL 도구를 통해 정형/비정형/반정형 데이터들이 일관되고 손쉽게 스파크에서 처리 가능한 형태로 업로드 되고 저장관리 되도록 설계될 수 있다.

빅데이터 수집 플랫폼(10)은 스파크의 데이터셋에 로드하기 위한 통합 커넥터 API를 사용하거나 필요한 경우 사용자가 직접 정의하는 ETL 기능 개발(User Defined Function, UDF)이 가능하도록 지원할 수 있다.

ETL 입력 데이터는 무정형/반정형 데이터로 JSON, CSV.text 등일 수 있고, 정형데이터로 JDBC, ORC, Hbase 테이블, Parquet 등일 수 있다. 여기서, 무정형/ 비정형 데이터는 테이터가 사전 정의된 스키마에 따라 생성되는 것이 아니므로 생성된 데이터를 먼저 스캔한 후, 저장할 스키마를 유추할 수 있다.

ETL 출력 데이터는 스파크 SQL로 질의할 수 있는 수준의 정형화된 변환 데이터일 수 있다. 이러한 데이터는 스파크 인메모리 데이터 집합에 업로드 후 분산 처리될 수 있다.

빅데이터 저장 플랫폼(20)은 수집된 빅데이터를 독립된 형태로 분할하고, 이를 병렬적으로 분산 처리하기 위하여 저장할 수 있다.

또한, 빅데이터 저장 플랫폼(20)은 NoSQL(Not only SQL)를 이용하여 수집된 빅데이터를 저장할 수 있다.

여기서, NoSQL은 비정형이나 반정형 데이터를 용이하게 저장하기 위한 빅데이터용 저장구조를 가진 단순한 DBMS이며, 기존의 관계형 DBMS가 지원하지 못하는 scale-out 을 지원한다. 여기서, scale-out은 서버를 늘릴수록 성능이 비례해서 향상되는 특성을 의미한다. 반면, scale-up은 한 서버의 사양을 높여 고성능화하는 것을 의미한다.

또한, NoSQL에는 하둡 환경의 Hbase, 관계성 중심의 실시간 분석을 위한 그래프 DB, 복합 객체 저장을 위한 Mongo DB, 온라인 분석(OLAP) 등을 위한 칼럼 기반 저장구조, 인메모리 저장 등을 고려하여 저장할 수 있다.

빅데이터 저장 플랫폼(20)은 빅데이터 분석 데이터를 저장하고 관리하기 위한 데이터베이스 RDB 또는 NewSQL과 연동할 수 있다.

빅데이터 저장 플랫폼(20)은 정형데이터 또는 키-값 쌍으로 이루어진 무정형 입력 데이터들로부터 스키마를 생성하고 이를 키값 영역에 따라 독립적으로 처리할 수 있는 테이블들로 나눌 수 있다. 이 후, 스파크의 인메모리 데이터 블록에 각각 할당할 수 있다. 그리고, 다음의 처리를 위해 NoSQL 의 해당 테이블에 저장할 수 있다.

빅데이터 저장 플랫폼(20)은 비정형, 반정형 빅데이터를 NoSQL에 저장할 수 있다. 그리고, 정형화된 빅데이터를 NewSQL에 저장할 수 있다. 즉, 분석의 결과로 추출된 지식 정보 등은 정형화된 데이터이므로 기존 관계형 DBMS 또는 NewSQL에 저장할 수 있다. 여기서, NewSQL은 서버를 늘릴수록 성능이 비례해서 향상되도록 설계되어 빅데이터 처리가 가능한 현대식 관계형 DBMS이다.

빅데이터 저장 플랫폼(20)은 문서 지향 저장 구조, 키-값(value) 방식의 저장 구조, 칼럼 스토어 저장 방식의 저장 구조, 그래프 저장 방식의 저장 구조들 중 어느 하나의 저장 구조의 유형으로 빅데이터를 저장할 수 있다.

빅데이터 저장 플랫폼(20)의 NoSQL의 저장 구조의 유형을 상세하게 살펴보면 다음과 같다.

첫번째는 문서(Document)지향 저장 구조이다.

이 구조는 객체가 복합 구조로 된 문서로 저장된 방식으로, 한 객체의 데이터를 여러 관계 테이블들에 나누어 저장할 필요가 없으므로 조인이 필요없으며 객체가 아무리 많아도 독립적으로 분할, 분산 처리가 용이하다. 즉, 관계형 DBMS와 달리 scale-out이 가능하다.

또한, 이 구조는 자바 자료형 JSON(복합 객체 구조) 및 동적 스키마를 지원하고, 자동 샤딩(sharding)을 지원한다. 여기서, 샤딩은 동일한 형식의 문서 빅데이터를 자동으로 독립된 블록으로 나눈 뒤 다수의 서버에 할당 및 분산처리가 가능하게 하는 기능을 의미한다.

또한, 이 구조는 배치 방식에 적합한 저장 구조로써, 하둡 환경에서의 통합이 용이하다. 그리고, 저장한 뒤 수정없이 계속 판독만 하면 되는 응용에 적합하고, 인덱스가 잘되어 있다. 또한, 인메모리 DBMS를 포함할 수 있다. 단, 복합 트랜젝션은 지원하지 않는다.

두번째는 키-값(value) 방식의 저장 구조이다. 대표적인 예로는 페이스북의 저장 구조로 사용되는 카산드라, Hbase등을 들 수 있다.

이 구조는 객체 ID에 해당 객체의 가장 단순한 속성을 연관시켜 저장하는 방식으로, 키-값 저장 방식의 이 단순한 속성을 칼럼에 저장하고자 할 때 칼럼 지향 저장 방식이 결합되어 사용이 가능하다.

이 구조는 작업과정에서는 일관성이 보장되지 못하나 작업 후에는 일관성이 보장된다. 특히, 읽기/쓰기가 동시다발적으로 발생하는 SNS 등에 특화된 저장구조이다. 그리고, 농생명 빅데이터를 가장 단순한 형식으로 저장하는 경우 사용되는 구조이다.

세번째는 칼럼 스토어 저장 방식의 저장 구조이다. 대표적인 예로는 Hbase, MAPR-DB등을 들 수 있다.

이 구조는 빅데이터를 관계 테이블 스키마에 맞게 저장하는 경우 데이터가 반정형이어서 발생할 수 있는 방대한 널 값(null value)들을 제거하여 저장할 수 있는 방식이다.

이 구조는 HDFS 상에 칼럼 단위 빅데이터 저장이 가능하다. 모든 레코드들을 다 읽어들일 필요없이 칼럼 단위로 접근하기 때문에 OLAP(OnLine Analytical Processing)에 특히 효율적이다. 그리고, 전 적업과정에서 일관성이 유지된다.

칼럼스토어 저장 방식은 NoSQL의 저장 유형에는 포함되지 않으나 칼럼단위의 빅데이터 분석을 효율적으로 하기 위한 저장방식이다. 하둡 환경에서 온라인 OLAP 처리도 가능하게 되었던 주된 이유가 Hbase의 이 칼럼스토어 기술이다. NewSQL 또한 이 칼럼스토어 저장 방식을 기본적으로 지원한다.

네번째는 그래프 저장 방식의 저장 구조이다. 대표적인 예로는 스파크 GraphX, Neo4j등을 들 수 있다.

이 구조는 페이스북의 소셜 그래프처럼 상호 연관된 빅데이터를 그래프 기반으로 저장하는 방식을 의미한다. 농생명 빅데이터 분석 자료를 저장, 큐레이션하고 이를 관심 커뮤니티 별로 분류할 수 있다. 연관성에 따라 공유 및 유통하고자할 때 사용할 수 있다.

이 구조는 객체간 관계성을 추적하기 위해서는 객체간의 상관성을 지어주는 포인터의 개념이 필요한데, 관계 모델에서는 이를 관계 테이블간의 조인으로 처리한다. 이에 따라 몇 단계의 상관관계 추적 시에도 엄청난 양의 조인이 필요함으로 비효율적이다.

그래프 저장 방식은 객체를 노드로 객체들간의 관계성을 노드와 노드의 순서쌍인 에지로 저장한다. 즉 한 노드를 투플로 보면, 투플간에 에지라는 포인터가 존재하는 방식이다.

다섯번째는 관계형 테이블 빅데이터 저장 방식의 저장 구조이다. 대표적인 예로는 Volt DB를 들 수 있다.

이 구조는, MongoDB의 모든 기능을 동등하게 지원하며, 표준 SQL을 지원하는 인메모리 DBMS를 포함할 수 있다.

또한, 이 구조는 OLTP(Online Transaction Processing)과 OLAP 모두를 지원할 수 있다.

또한, 이 구조는 복합 트랜젝션이 가능하며, 데이터간 관계성 지원하며, 기존 관계형 DBMS의 장점인 ACID를 지원할 수 있다. 여기서, ACID는 트랜젝션이 처리되지 않던지 종료되는 것을 보장하고: Atomicity, 처리 동안 항상 일관성이 보장되며: Consistency, 트랜젝션들이 서로 섞이지 않음을 보장하고: Isolation, 트랜젝션의 결과 보존이 보장됨:Durability 을 의미한다.

빅데이터 처리 플랫폼(30)은 수집되어 저장된 빅데이터를 초고속 분산 처리, 데이터 가공, 추출, 데이터 분석 전처리용으로 처리할 수 있다.

빅데이터 처리 플랫폼(30)은 농생명 빅데이터 처리방식을 다음과 같은 세 가지 경우에 따라 요구 분석하고 이를 기반으로 빅데이터를 처리할 수 있다.

첫 번째는 배치 방식의 농생명 빅데이터 처리를 위한 하둡 환경의 맵리듀스를 통해 처리하는 방식이고, 두 번째는 온라인 스트리밍 및 온라인 트랜젝션 처리(OLTP)를 위한 NewSQL를 통해 처리하는 방식이고, 세 번째는 딥러닝 및 지능형 응용 빅데이터 처리에 최적화된 스파크를 통해 처리하는 방식일 수 있다.

빅데이터 처리 플랫폼(30)은 하둡 환경의 맵리듀스를 통해 스파크와 연동할 수 있다.

상세한 설명은 도 2의 빅데이터 처리 플랫폼의 개념도를 통해 설명한다.

빅데이터 분석 플랫폼(40)은 사용자의 요구사항을 분석하여 농생명 기반의 빅데이터를 분석할 수 있다.

또한, 빅데이터 분석 플랫폼(40)은 SQL 기반의 기존의 BI(Business Intelligence) 도구들을 제안하는 빅데이터 분석 플랫폼(40)상에서 재사용하기 위한 통합 분석을 제공할 수 있다.

빅데이터 분석 플랫폼(40)은 NewSQL 기반의 고수준 API를 제공하며, 고수준 API를 이용하여 분석된 빅데이터를 레포팅할 수 있다.

빅데이터 분석 플랫폼(40)은 Java, Python, Scala 프로그램을 내포(embedding)시켜 호출하여 요구분석을 실행할 수 있다.

빅테이터 분석 플랫폼(40)은 스파크 notebook용 분석 환경인 Zeppelin을 지원할 수 있다.

빅데이터 분석 플랫폼(40)은 지식 큐레이션 기술을 적용한 강설량 또는 강우량 정보를 제공할 수 있다.

빅데이터 분석 플랫폼(40)은 빅데이터 분석 결과를 저장 및 분류하고 폐쇄형 소셜 네트워크에 공유할 수 있다.

빅데이터 분석 플랫폼(40)은 NewSQL을 통해 표준 SQL을 지원할 수 있다. 이에, 모든 데이터베이스 응용프로그램들이 빅데이터에 대해서도 scale-out을 이용하여 실행될 수 있다. 또한, 관계형 DBMS 상에서 개발되었던 BI 응용프로그램들이 모두 빅데이터에 대해서도 재사용할 수 있다.

빅데이터 분석 플랫폼(40)은 그래프 지향의 NoSQL, 스파크의 GraphX를 통해 사용자 관심 커뮤니티 간의 분석 정보 및 큐레이션 콘텐츠를 소셜 네트워크에 그래프 방식으로 공유할 수 있다.

빅데이터 분석 플랫폼(40)은 딥러닝을 위한 반복 연산 처리를 하기 위하여 딥러닝용 API를 제공할 수 있다.

빅데이터 분석 플랫폼(40)은 스파크의 MLib(Machine Learnig)의 R을 통해 머신러닝 알고리즘 API를 제공할 수 있다.

도 2는 본 발명의 빅데이터 처리 플랫폼의 개념도를 나타낸다.

도 1 및 도 2를 참조하면, 빅데이터 처리 플랫폼(30)은 수집된 빅데이터의 유형을 분류하고, 분류별 데이터 저장 구조 및 효율적으로 프로세스를 처리할 수 있다.

빅데이터 처리 플랫폼(30)은 배치 분산 처리를 할 수 있다. 즉, 배치 분산 처리는 다년간 지역별 작황 상황, 기후의 변화 등의 빅데이터를 배치 방식으로 분석하여 향후 수확량 예측을 통한 규형된 작황 정책 수립 또는 기후 패턴, 재배 패턴, 동식물 생육 패턴등을 예측하기 위한 빅데이터를 처리할 수 있다.

빅데이터 처리 플랫폼(30)은 실시간 스트리밍 처리를 할 수 있다. 즉, 실시간 스트리밍 처리는 토양 온도, 기온, 습도 등 농사 환경 및 상태, 농작물 생육 계측 등을 실시간으로 관측하기 위한 처리 기술로 실시간 센서들로부터 수집되는 스트리밍 데이터들간의 개별 또는 조합으로 상관성 등을 분석하여 처리할 수 있다.

빅데이터 처리 플랫폼(30)은 딥러닝을 위한 반복 연산 처리를 할 수 있다. 즉, 반복 연산 처리는 빅데이터를 분석한 후, 지능적 처방, 지능형 방역, 효율적 스마트팜 운영을 위한 에너지 관리, 생장 개화 착과, 품질, 시기 예측 등을 위한 딥러닝용 API를 제공하여 처리할 수 있다.

빅데이터 처리 플랫폼(30)은 하둡 환경의 맵리듀스를 통해 상기 배치 분산 처리를 수행하고, 스파크를 통해 상기 실시간 스트리밍 처리를 수행하고, 얀(YARN)관리를 통해 상기 반복 연산 처리를 수행할 수 있다.

빅데이터 처리 플랫폼(30)은 배치 분산 처리를 하기 위하여 하둡 환경에서 맵리듀스를 통해 처리를 수행할 수 있다. 즉, 빅데이터의 배치 분산 처리는 하둡 환경의 Hbase 상에서 구동되는 HiveQL와 PigLatin으로 작성된 응용프로그램에 의해 맵리듀스 코드로 변환되어 실행되며 최종결과는 HDFS에 저장된다.

빅데이터 처리 플랫폼(30)은 빅데이터를 처리하기 위하여 하둡 환경에서 OLAP과 OLTP를 동시에 지원하도록 ORC(Optimized Rw Columnar) 파일로 저장될 수 있다. 한편, 배치 분산 처리는 스파크를 통해서도 지원할 수 있다.

빅데이터 처리 플랫폼(30)은 실시간 스트리밍 처리를 하기 위하여 다수 개의 저성능 서버를 연결하여 분산 처리하는 HPC(High Performance Computer)에 적합한 처리 기술로, 스파크의 스트리밍을 처리하고, 상호 대화용(interactive) 스트리밍을 처리할 수 있다. 또한, 빅데이터 처리 플랫폼(30)은 NewSQL을 통해 초당 수십만건 이상의 트랜젝션을 처리할 수 있다.

빅데이터 처리 플랫폼(30)은 SQL코딩을 하지 않고도 스트립트 수준의 데이터베이스 질의어를 지원할 수 있다.

또한, 빅데터이 처리 플랫폼(30)은 반복 연산 처리 및 분산 처리를 위하여 Hbase, MAPR-DB, Mongo DB 등 NoSQL과 API를 통해 샤딩을 지원할 수 있다. 여기서, 샤딩은 동일한 형식의 문서 빅데이터를 자동으로 독립된 블록으로 나눈 뒤 다수의 서버에 할당 및 분산 처리가 가능하게 하는 기능이다.

빅데이터 처리 플랫폼(30)과 빅데이터 분석 플랫폼(40)은 하둡 환경에서 스파크를 처리 플랫폼으로 하고 NewSQL 또는 관계형 데이터베이스 DBMS를 연동하여 실행하는 하이브리드 빅데이터 플랫폼 시스템을 의미한다.

이러한, 빅데이터 처리 플랫폼(30)과 빅데이터 분석 플랫폼(40)은 RDD(Resilient Distributed Data set)에 의한 인메모리상에서의 반복 연산 처리 등의 분산 처리를 수행할 수 있다.

한편, 하둡 환경에서 분산 처리시 같은 작업이 반복되면서 분산처리 시간이 짧을 경우에 HDFS에서 네임노드와 데이터노드에 작업할 블록을 할당하고 관리하는 오버헤드가 급속하게 증가한다. 따라서 딥러닝 작업시 발생하는 HDFS 접근 빈도를 인메모리 작업을 통해 줄여줌으로써 획기적으로 성능을 개선할 수 있다.

여기서, RDD기술은 HDFS에서 네임노드와 데이터노드가 할당되는 하드 디스크블록을 RDD라는 인메모리 데이터 블럭으로 대체하고 이들을 관리하는 얀(YARN) 관리를 통해 수행할 수 있다.

빅데이터 처리 플랫폼(30)과 빅데이터 분석 플랫폼(40)은 초고속 시각화 기술을 처리할 수 있다. 수천 개의 GPU들을 이용한 병렬처리가 가능하게 함으로써, 대용량의 분석 데이터의 시각화를 온라인으로 지원할 수 있다.

빅데이처 처리 플랫폼(30)과 빅데이터 분석 플랫폼(40)은 단독 또는 하둡 환경에서 작동되므로 대부분의 빅데이터 솔루션과 자연스럽게 연동할 수 있다.

또한, 빅데이처 처리 플랫폼(30)과 빅데이터 분석 플랫폼(40)은 배치방식, 실시간 스트리밍, 그래프 데이터 스토어, 인메모리 칼럼 스토어, ORC 포맷 지원등 토털 솔루션을 제공할 수 있다.

도 3은 본 발명의 빅데이터를 이용한 농생명 기반 플랫폼 시스템을 나타내는 블럭 구성도이다.

도 1 및 도 3을 참조하면 빅데이터를 이용한 농생명 기반 플랫폼 시스템은 데이터 수집 모듈(110), 데이터 저장 모듈(120) 및 데이터 처리/분석 모듈(130)을 포함할 수 있다.

빅데이터를 이용한 농생명 기반 플랫폼 시스템은 농생명 응용분야에서 기후, 양계, 토양 행태기반으로 구성된 아르고(Argo)-ICT 융합 테스트 베드를 통해 구축된 농생명 스마트팜으로부터 정형 데이터뿐만아니라 센싱 데이터와 모니터링을 통해 발생하는 무정형/비정형의 스트리밍 데이터 및 농생명 분야 공공정보를 수집, 저장한 후 이를 독립된 형태로 분할/분산 처리하고, 이를 요구분석하여 수요자 중심의 맞춤 서비스를 제공할 수 있도록 구성된다.

이러한 빅데이터에 다양한 알고리즘을 적용하여 농생명 애널리틱스 및 큐레이션을 활용한 농생명 기반 다양한 정보를 분석하도록 구성된다.

이하, 세부적인 구성에 대하여 설명한다.

데이터 수집 모듈(110)은 센서 네트워크(sensor network)로부터 센싱 데이터를 실시간 수집하고, 공공기관의 농생명 관리 데이터베이스로부터 농생명 관리 데이터를 실시간 수집하도록 구성될 수 있다.

여기서, 센서 네트워크의 센싱 데이터는 예를 들면 스마트팜의 광량, PH측정, 토양 온도, 기온, 습도 등 농사 환경 및 상태, 농작물 생육 계측 등의 센서에 의한 수집되는 센싱 데이터를 의미한다.

여기서, 농생명 관리 데이터는 다년간 지역별 작황 상황, 기후의 변화 등의 빅데이터를 의미한다.

데이터 저장 모듈(120)은 데이터 수집 모듈(110)에서 실시간 수집된 센싱 데이터, 농생명 관리 데이터를 실시간 저장하도록 구성될 수 있다.

데이터 저장 모듈(120)은 데이터를 카테고리 및 시간, 지역에 따라 실시간 검색 가능하도록 저장하는 것으로 구성될 수 있다.

데이터 처리/분석 모듈(130)은 데이터 저장 모듈(120)에 저장된 센싱 데이터, 농생명 관리 데이터에 대하여 빅데이터 분석을 수행하여 지능적 처방, 지능형 방역, 효율적 스마트팜 운영을 위한 에너지 관리, 생장 개화 착과, 품질, 시기 예측 등을 예측하거나 실시간 감지하는 것은 물론 실시간 분석하도록 구성될 수 있다.

데이터 처리/분석 모듈(130)은 실시간 센서들로부터 수집되는 스트리밍 데이터들간의 개별 또는 조합으로 상관성 등을 분석하도록 구성될 수 있다.

데이터 처리/분석 모듈(130)은 반복 연산 처리를 통해 향후 수확량 예측을 통한 규형된 작황 정책 수립 또는 기후 패턴, 재배 패턴, 동식물 생육 패턴등을 예측하도록 빅데이터를 분석하도록 구성될 수 있다.

데이터 처리/분석 모듈(130)은 사용자의 요구사항을 분석하여 농생명 기반의 빅데이터를 분석하고, 지식 큐레이션 기술을 적용한 강설량 또는 강우량 정보를 제공할 수 있다.

또한, 데이터 처리/분석 모듈(130)은 빅데이터 분석 결과를 저장 및 분류하고 폐쇄형 소셜 네트워크에 공유할 수 있다.

도 4는 소셜 플랫폼과 본발명의 농생명 기반 플랫폼 시스템이 연동된 예시도이다. 도 4를 참조하면, 본 발명의 농생명 기반의 플랫폼 시스템은 소셜 플랫폼 기반의 지식 관리 시스템과 연계되어 서비스를 제공할 수 있다.

또한, 본 발명의 농생명 기반의 플랫폼 시스템은 소셜 플랫폼 상에서 농생명 빅쿼리 서비스, 농생명 애널리틱스를 이용하여 멘토링, 사업협의, 및 농작물 관리등의 서비스를 제공할 수 있다.

또한, 본 발명의 농생명 기반의 플랫폼 시스템을 통해 처리되고 분석되는 지식 정보들은 소셜 네트워크상에서 관심 커뮤니티별로 공유되고 큐레이션되고 유통되는 환경을 고려하여 활용한 빅데이터 분석 지식 정보 유통 인프라를 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영체제(OS) 및 운영체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.

이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개가 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(emgody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 및 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(Otpical media), 플롭티컬 디스크(floOTPical disk)와 같은 자기-광 매체(magneto-OTPical media), 및 롬(ROM), 램(RAM), DDR 메모리, USB 메모리, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상술한 기재로부터 다양한 수정 및 변형이 가능하다.

예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

한편, 도 1 내지 도 4를 이용하여 서술한 것은 본 발명의 주요 사항만을 서술한 것으로, 그 기술적 범위 내에서 다양한 설계가 가능한 만큼 본 발명이 도 1 내지 도 4의 구성에 한정되는 것이 아님은 자명하다.

10: 빅데이터 수집 플랫폼 20: 빅데이터 저장 플랫폼
30: 빅데이터 처리 플랫폼 40: 빅데이터 분석 플랫폼
110: 데이터 수집 모듈 120: 데이터 저장 모듈
130: 데이터 처리/분석 모듈

Claims

기후, 양계, 토양, 행태기반 및 생활치유 분야의 농업생명공학 ICT 융합 환경으로부터 센싱 데이터와 공공기관을 모니터링하여 추출된 빅데이터를 수집하고, ETL(Extraction/Transformation/Loading) 도구를 통해 데이터를 추출, 노이즈 제거, 정규화 및 보정하고 데이터웨어하우스에 업로드하는 빅데이터 수집 플랫폼;
상기 수집된 빅데이터를 독립된 형태로 분할하고, 이를 병렬적으로 분산 처리하기 위하여 저장하며, 수집된 빅데이터 중 비정형/반정형 데이터는 NoSQL에 저장하고, 정형화된 데이터는 NewSQL에 저장하는 빅데이터 저장 플랫폼;
상기 저장된 빅데이터를 초고속 분산 처리, 데이터 가공, 추출 및 데이터 분석 전처리용으로 처리하며, 상기 수집된 빅데이터의 유형을 분류하고, 분류별 데이터 저장 구조 및 프로세스를 처리하는 빅데이터 처리 플랫폼; 및,
상기 처리된 빅데이터를 요구분석하는 빅데이터 분석 플랫폼;을 포함하는 빅데이터를 이용한 농생명 기반 플랫폼 시스템.
제1항에 있어서,
상기 빅데이터 저장 플랫폼은 상기 분석된 빅데이터를 저장하고 관리하기 위하여 데이터베이스 RDB와 연동하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반 플랫폼 시스템.
제1항에 있어서,
상기 빅데이터 저장 플랫폼은
문서 지향 저장 구조, 키-값(value) 방식의 저장 구조, 칼럼 스토어 저장 방식의 저장 구조, 그래프 저장 방식의 저장 구조들 중 어느 하나의 저장 구조의 유형으로 상기 빅데이터를 저장하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반 플랫폼 시스템.
제1항에 있어서,
상기 빅데이터 처리 플랫폼은,
상기 빅데이터를 배치 분산 처리, 실시간 스트리밍 처리, 및, 반복 연산 처리를 수행하는 것 특징으로 하는 빅데이터를 이용한 농생명 기반 플랫폼 시스템.
제4항에 있어서,
상기 빅데이터 처리 플랫폼은,
하둡 환경의 맵리듀스를 통해 상기 배치 분산 처리를 수행하고,
스파크를 통해 상기 실시간 스트리밍 처리를 수행하며,
얀(YARN)관리를 통해 상기 반복 연산 처리를 수행하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반 플랫폼 시스템.
제5항에 있어서,
상기 빅데이터 처리 플랫폼과 상기 빅데이터 분석 플랫폼은,
하둡 환경에서 스파크를 처리 플랫폼으로 하고 NewSQL 및 관계형 데이터베이스 DBMS를 연동하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반 플랫폼 시스템.
제1항에 있어서,
상기 빅데이터 처리 플랫폼은 SQL코딩을 하지 않고도 데이터베이스 질의어를 지원하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반의 플랫폼 시스템.
제1항에 있어서,
상기 빅데이터 처리 플랫폼은 Hbase, MAPR-DB, Mongo DB 등의 NoSQL과 API를 통해 샤딩을 지원하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반의 플랫폼 시스템.
제1항에 있어서,
상기 빅데이터 분석 플랫폼은 NewSQL 기반의 고수준 API를 제공하여 상기 요구분석된 빅데이터를 레포팅하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반의 플랫폼 시스템.
제9항에 있어서,
상기 빅데이터 분석 플랫폼은 Java, Python, Scala 프로그램을 내포(embedding)시켜 호출하여 요구분석을 실행하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반의 플랫폼 시스템.
제1항에 있어서,
상기 빅데이터 분석 플랫폼은 상기 분석된 빅데이터 결과를 저장 및 분류하고 폐쇄형 소셜 네트워크에 공유하는 것을 특징으로 하는 빅데이터를 이용한 농생명 기반의 플랫폼 시스템.