KR20150077669A - 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템 - Google Patents

맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템 Download PDF

Info

Publication number
KR20150077669A
KR20150077669A KR1020130166394A KR20130166394A KR20150077669A KR 20150077669 A KR20150077669 A KR 20150077669A KR 1020130166394 A KR1020130166394 A KR 1020130166394A KR 20130166394 A KR20130166394 A KR 20130166394A KR 20150077669 A KR20150077669 A KR 20150077669A
Authority
KR
South Korea
Prior art keywords
data
pattern
analysis
similarity
input
Prior art date
Application number
KR1020130166394A
Other languages
English (en)
Inventor
강지훈
장서윤
Original Assignee
충남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충남대학교산학협력단 filed Critical 충남대학교산학협력단
Priority to KR1020130166394A priority Critical patent/KR20150077669A/ko
Publication of KR20150077669A publication Critical patent/KR20150077669A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 빅데이터 분석에 있어서 중소 규모의 입력 데이터를 처리하기 위하여 불필요한 데이터를 사전 처리를 통해 제거하여 성능 및 속도를 개선하고 정확도를 보장하며 비용을 줄일 수 있는 맵리듀스 방식을 이용한 데이터 분석 방법 및 장치에 관한 것으로, 데이터 분석 시스템은, 입력 데이터와 유사도 군집을 통해 준비된 비교데이터 간의 사전 유사도를 분석하고, 사전 유사도 분석을 통해 유사도가 높은 제1비교데이터를 준비하는 유사도 판별부와, 유사도 판별부에서 선택된 제1비교데이터와 외부에서 입력되는 분산데이터를 가공하여 입력 스플릿을 생성하는 입력 스플릿 생성부와, 제1비교데이터를 토대로 입력 스플릿 생성부로부터 입력되는 분석데이터의 패턴을 연산하고 분석데이터의 패턴 연산을 통해 유사패턴을 검출하고 유사패턴의 제1분석데이터를 리듀스 연산하고 리듀스 연산을 통해 출력 파일을 생성하는 패턴 분석부를 포함하여 구성된다.

Description

맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템{Data Analysis Method and System Using MapReduce Approach}
본 발명은 중소 규모의 분석데이터를 처리할 때 불필요한 데이터를 사전 처리를 통해 제거하여 성능 및 속도를 개선하고 정확도를 보장하며 비용을 줄일 수 있는 맵리듀스 방식을 이용한 데이터 분석 방법 및 장치에 관한 것이다.
하둡(Hadoop)은 너치(Nutch)의 분산처리를 지원하기 위해 개발된 것으로, 수백 기가바이트 내지 페타바이트 크기의 데이터를 처리할 수 있는 애플리케이션을 제작하고 운영할 수 있는 기반을 제공해 주는 데이터 처리 플랫폼이다. 하둡이 처리하는 데이터의 크기가 통상 최소 수백 기가바이트 수준이기 때문에 데이터는 하나의 컴퓨터에 저장되는 것이 아니라 여러 개의 블록으로 나누어져 여러 개의 컴퓨터에 분산 저장된다. 따라서 하둡은 입력 데이터를 나누어 처리하는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)을 구비하며, 여기서 분산 저장되는 대용량 데이터는 통상 클러스터 환경에서 병렬 처리하기 위해 개발된 맵리듀스(MapReduce) 과정에 의해 처리된다.
하둡은 웹 크롤링의 특성에 맞게 텍스트 데이터의 처리를 위한 다양한 형태의 입력 포맷과 출력 포맷을 제공하며, 그 중 시퀀스 파일 포맷은 텍스트 이외의 데이터 포맷에 대한 입력과 출력을 제공한다. 예컨대, deflate, gzip, ZIP, bzip2, and LZO 등의 압축파일의 입출력도 지원하며, 이러한 압축파일포맷은 저장공간의 효율을 높일 수 있다는 장점이 있다.
그러나, 대부분의 하둡은 분산 저장되는 데이터를 모두 분석하거나 클러스터링을 적용한다. 따라서, 데이터 처리 및 분석에 많은 자원과 시간이 소요되므로 중소 규모의 데이터에 적용하기에는 불필요한 자원의 낭비가 발생한다. 이와 같이, 빅데이터가 아닌 중소 규모의 데이터와 같이 데이터 규모에 따라 효율적인 데이터 분석 방안이 요구된다.
대한민국 공개특허공보 제10-2012-0084100호(2012.07.27)
본 발명은 맵리듀스 과정을 통하여 패턴 처리시의 불필요한 작업을 사전에 처리하여 필요한 부분만을 분석하고 분석 시에 실제 패턴 연산을 적용하여 패턴 결과를 얻어냄으로써 처리 속도를 향상시킬 수 있는 데이터 분석 방법 및 장치를 제공하고자 한다.
또한, 본 발명은 전술한 실제 패턴 연산의 적용과 함께 맵리듀스의 분산 방식을 적용한 효율적인 패턴 연산을 통해 정확도를 높일 수 있는 데이터 분석 방법 및 장치를 제공하고자 한다.
상기 기술적 과제를 해결하기 위하여 본 발명의 일 측면에 따른 데이터 분석 시스템은, 입력 데이터와 유사도 군집을 통해 준비된 비교데이터 간의 사전 유사도를 분석하고, 사전 유사도 분석을 통해 유사도가 높은 제1비교데이터를 준비하는 유사도 판별부와, 유사도 판별부에서 선택된 제1비교데이터와 외부에서 입력되는 분산데이터를 가공하여 입력 스플릿을 생성하는 입력 스플릿 생성부와, 제1비교데이터를 토대로 입력 스플릿 생성부로부터 입력되는 분석데이터의 패턴을 연산하고 분석데이터의 패턴 연산을 통해 유사패턴을 검출하고 유사패턴의 제1분석데이터를 리듀스 연산하고 리듀스 연산을 통해 출력 파일을 생성하는 패턴 분석부를 포함하여 구성된다.
일실시예에서, 패턴 분석부는, 패턴 연산을 수행하기 위하여 미리 학습되어 작성된 패턴들을 사용하는 패턴 연산 매퍼를 포함할 수 있다.
일실시예에서, 패턴 분석부는, 분석데이터를 필터링하여 비유사패턴의 제2분석데이터를 제거하는 필터검사부를 더 포함하여 구성될 수 있다.
일실시예에서, 패턴 분석부는, 필터 검사부에서 불필요한 값이 제거된 패턴을 리듀서로 보내는 셔플, 및 셔플로부터 얻은 값을 기반으로 패턴을 취합하는 리듀서를 더 포함하여 구성될 수 있다.
본 발명의 일 측면에 따른 데이터 분석 방법은, 입력 데이터와 유사도 군집을 통해 준비된 비교데이터 간의 사전 유사도를 분석하는 단계와, 사전 유사도의 분석을 통해 유사도가 높은 비교데이터를 준비하는 단계와, 비교데이터를 토대로 외부에서 입력되는 분석데이터의 패턴을 연산하는 단계와, 분석데이터의 패턴 연산을 통해 유사패턴을 검출하는 단계와, 분석데이터를 필터링하여 비유사패턴의 제2분석데이터를 제거하는 단계와, 유사패턴의 제1분석데이터를 리듀스 연산하는 단계와, 리듀스 연산을 통해 출력 파일을 생성하는 단계를 포함하여 구성된다.
일실시예에서, 분석데이터의 패턴을 연산하는 단계는, 패턴 연산을 수행하기 위하여 미리 학습되어 작성된 패턴들을 사용하는 패턴 연산 매퍼를 이용하는 것을 포함할 수 있다.
본 발명에 의하면, 대용량 데이터의 분석을 위하여 하둡이라는 오픈 소스 맵리듀스 프레임워크의 방법을 이용하는데 있어서, 분석을 효율적으로 실행하기 위하여 데이터들을 먼저 클러스터링을 통하여 유사도 군집을 사전에 만들어 놓고, 이러한 사전 작업을 마친 비교 데이터 클러스터링과 입력 데이터 간의 사전 유사도 분석을 통해 유사도가 높은 군집만을 이용하여 분석 데이터를 입력할 준비하고, 즉 분산 할당된 데이터들 중 유사도가 높은 비교데이터만을 메모리에 저장하고 이를 이용하여 분석데이터의 패턴 연산을 수행하여 유사 패턴을 검출하고, 얻어진 유사 패턴을 검사하여 필터를 통해 불필요한 패턴을 삭제한 후, 리듀스 연산을 통하여 분석에 대한 결과 값을 얻어낸다. 이러한 데이터 분석 과정에 의하면, 유사한 패턴만을 수집하여 연산함으로써 패턴 연산 처리 속도를 향상시킬 수 있으며, 필터링 작업을 통하여 관심없는 값들을 미리 제거함으로써 정확성을 확보할 수 있다.
도 1은 본 발명의 일실시예에 따른 데이터 분석 시스템의 블록도
도 2는 본 발명의 일실시예에 따른 데이터 분석 방법의 순서도
도 3은 도 1의 데이터 분석 시스템의 상세 구성에 대한 부분 블록도
도 4는 도 3의 데이터 분석 시스템의 작동 방법에 대한 순서도
이하에서는 첨부한 도면을 참조하여 바람직한 실시 형태들에 대해서 상세히 설명한다. 다만, 실시형태를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙여 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 데이터 분석 시스템의 블록도이다.
도 1을 참조하면, 본 실시예에 따른 데이터 분석 시스템(10)은, 유사도 판별부(11), 입력 스플릿 생성부(12) 및 패턴분석부(13)를 포함하여 구성된다.
유사도 판별부(11)는 입력된 데이터와 사전에 클러스터링을 통하여 군집화를 이루고 있는 비교데이터 간의 유사도 측정을 통하여 실제 분석에 적용하기 위한 클러스터를 선택하여 준비하는 구성부이다.
유사도 판별부(11)는 데이터베이스 등에 적재되어 유사도 군집을 이루고 있는 비교데이터와 일부 입력데이터 간의 유사도 분석을 수행하여 적합한 군집을 추출한다. 본 실시예에서는 유사도 판별 시 입력데이터의 규모가 크지 않다는 전제하에 네트워크의 거리나 클러스터의 거리를 고려하지 않는다.
즉, 유사도 판별부(11)는 사전에 군집화 작업에 의해 분류되어 저장되며 분석에 사용할 비교데이터와 외부에서 입력되는 입력데이터 간의 유사도를 분석하여 본 뒤, 입력 스플릿에 적용할 유사도가 높은 두 개 이상의 군집을 선택한다. 이러한 연산을 통해 유사도 판별부(11)은 선택된 군집의 레코드가 속한 클러스터 식별 번호를 얻을 수 있다. 즉, 유사도 판별부(11)에서는 클러스터링 위치를 확인할 수 있는 선택된 군집의 레코드가 속한 클러스터 식별 번호를 얻는다. 이 군집은 적어도 두 개 이상이 선택될 수 있다. 유사도 판별부(11)에서 사용 가능한 군집화 대상 데이터의 저장소는 하둡분산파일시스템(HDFS) 등을 포함할 수 있다.
또한, 유사도 판별부(11)는 이미 유사도 분석이 끝난 군집을 이루고 있는 클러스터링 데이터를 필요로 한다. 유사도 판별부(11)는 일실시예에서 하둡 분산 파일 시스템을 사용하지만, 이에 한정되지 않고, 군집화 데이터를 저장할 수 있는 데이터 적재 방법을 이용하는 데이터베이스라면, 어떠한 데이터베이스라도 사용할 수 있다.
입력된 데이터와 기존의 클러스터링을 통하여 군집화가 완료된 데이터 간의 유사도 판별을 수행하여 얻은 군집 간 유사도가 높은 데이터만을 이용하여 입력 스플릿을 생성하게 되면, 이상치(Outline)에 대한 적용도가 낮아지게 되어 데이터에 대한 신뢰성을 얻을 수 있으며, 이미 한차례의 전처리를 거침으로서 필요없는 분석 작업을 생략할 수 있다. 다만, 이는 대규모의 입력이 들어오는 분석 방법에는 적합하지 않으며 중소 규모의 입력(Short-jobs)이 들어오는 분석 방법에 적합하다.
입력 스플릿 생성부(12)는 유사도 판별부(11)에서 선택된 군집 데이터 즉 비교데이터와 외부에서 입력되는 분산데이터를 가공하여 이후의 패턴 분석에 이용되는 매퍼에 적합한 입력 스플릿을 생성한다.
입력 스플릿 생성부(12)는 유사도 판별을 한 군집과 입력받은 분산데이터를 조합하여 입력 스플릿을 생성할 수 있다. 또한, 입력 스플릿 생성부(12)는 선택된 군집과 입력받은 분산데이터를 패턴 연산 매퍼가 처리할 수 있도록 연산 가능한 사이즈로 분할하여 블록을 생성할 수 있다. 이와 같이, 입력 스플릿 생성부(12)는 패턴 분석을 수행하기 원하는 입력 데이터(분산데이터)와 기 저장된 유사도가 높은 데이터 군집(비교데이터)을 매퍼에서 처리할 수 있는 크기로 분할하여 준비할 수 있다.
입력 스플릿 생성부(12)는 입력 블록과 파일을 인풋슬릿(inputSplit) 타입의 논리 단위로 분할하고 이를 각각 맵 태스크에 할당하도록 구현될 수 있다. 그 경우, 만일 가공되지 않는 인풋슬릿이 있다면, 키(Key)와 값(Value)의 쌍을 생성하기 위하여 레코드리더(RecordReader) 구현체를 생성할 수 있다. 레코드리더는 내부에서 스키마를 정의하여 키와 값의 쌍을 생성한다.
패턴 분석부(13)는 생성된 입력 스플릿을 이용하여 입력데이터에 대한 패턴 분석을 진행한다. 패턴 분석을 통해 분석 패턴 값이 도출될 수 있다. 패턴 분석부(13)는 입력 스플릿을 할당받고 입력 스플릿의 레코드의 각 레코드별 패턴을 연산하기 위하여 복수의 패턴분석부(131, 132, 133)를 포함한다. 각 패턴분석부는 매퍼를 포함한다. 매퍼 즉, 패턴 연산 매퍼는 얻어진 입력 스플릿을 기반으로 패턴 연산을 수행한다.
패턴분석부(13)는 얻고자 하는 학습 데이터를 기학습한 학습 패턴을 기반으로 작성하며 학습 패턴을 토대로 할당받은 입력데이터로부터 패턴을 도출하는 기능을 갖출 수 있다. 학습 패턴을 기반으로 할당받은 입력데이터의 패턴 분석을 수행하면, 패턴 연산 매퍼는 사용자가 원하는 데이터에 적합하도록 할당받은 입력데이터에 대한 패턴 연산을 수행할 수 있다.
패턴 연산이 완료되면, 패턴 분석부(13)로부터 얻어진 결과(출력 파일)를 바탕으로 패턴 결과를 확인한다(결과 분석). 각 사용자는 원하는 외부 소스에 패턴 결과 또는 그 결과 값을 저장할 수 있다.
본 실시예에 의하면, 맵리듀스 방식을 이용하여 빅데이터에서 패턴을 사전 유사도 분석을 통해 분석 범위를 좁히고, 패턴 인식이 적용된 매퍼를 이용한 분석으로 실제 패턴을 도출해내며, 도출된 패턴을 필터링을 통하여 분류한 후, 적절한 분석 결과를 도출해 낼 수 있다.
도 2는 본 발명의 일실시예에 따른 데이터 분석 방법에 대한 순서도이다.
도 2를 참조하면, 본 실시예에 따른 데이터 분석 방법에 있어서, 데이터 분석 시스템(도 1의 10 참조)은 입력 데이터와 유사도 군집을 통해 준비된 비교데이터 간의 사전 유사도를 분석한다(S21).
다음, 데이터 분석 시스템은 사전 유사도의 분석을 통해 유사도가 높은 비교데이터를 준비한다(S22).
다음, 데이터 분석 시스템은 비교데이터를 토대로 외부에서 입력되는 분석데이터의 패턴을 연산한다(S23 및 S24). 분석데이터의 패턴을 연산하는 단계(S24)는, 패턴 연산을 수행하기 위하여 미리 학습되어 작성된 패턴들을 사용하는 패턴 연산 매퍼를 이용하도록 구현될 수 있다.
다음, 데이터 분석 시스템은 분석데이터의 패턴 연산을 통해 유사패턴을 검출한다(S25).
다음, 데이터 분석 시스템은 분석데이터를 필터링하여 비유사패턴의 제2분석데이터를 제거한다(S26).
다음, 데이터 분석 시스템은, 유사패턴의 제1분석데이터를 리듀스 연산한다(S27). 그리고, 데이터 분석 시스템은 리듀스 연산을 통해 출력 파일을 생성한다(S28). 생성된 출력 파일은 분석 결과값으로 출력될 수 있다.
도 3은 도 1의 데이터 분석 시스템의 상세 구성에 대한 부분 블록도이다.
도 3을 참조하면, 본 실시예에 따른 데이터 분석 시스템은, 입력 스플릿 생성부(12) 및 패턴 분석부(13)를 포함하여 구성된다. 여기서, 입력 스플릿 생성부(12)는 복수의 입력 스플릿(121, 122)을 포함한 데이터 셋(data sets)을 구비하고, 패턴 분석부(13)는 구축된 패턴 연산(134)을 수행하는 복수의 패턴 연산 매퍼(135), 필터 검사부(136), 셔플(Shuffle, 137) 및 리듀서(Reducer, 138)를 구비한다.
입력 스플릿(121, 122)을 통하여 각각 맵 태스크에 할당된 데이터들을 패턴 분석부(13)의 패턴 연산 매퍼(135)가 패턴 인식을 하기 위하여 매핑 작업을 시작한다. 이때 사용되는 패턴 인식 매핑 작업은 기존의 데이터들을 통하여 사전에 적합한 패턴을 얻을 수 있도록 사전에 훈련을 통하여 만들어져 있는 것이 바람직하다. 이러한 작업을 통하여 인식된 패턴들이 각 키에 알맞은 값으로 나오게 된다.
본 실시예에 있어서, 구축된 패턴 연산(134)은 인공신경회로망(Artificial Neural Network)일 수 있으며, 그 중에서도 Hopfield Network 알고리즘을 사용하여 구축한 패턴 연산일 수 있다. 이러한 학습을 통하여 얻은 가중치 행렬을 완성하고 알고리즘 인식을 위한 공식을 매퍼에 적용하여 본 실시예에 따른 패턴 연산을 수행할 수 있다.
전술한 패턴 연산 구축 방법은 다른 패턴을 필요로 하는 사용자들에게도 용이하게 사용될 수 있다. 또한, 패턴 연산에 필요하여 도출된 결과 값들은 별도의 저장소에서 관리하여 차후 매퍼를 재구성할 때 사용될 수 있다.
패턴 연산 매퍼(135)의 결과로 생성된 각 키의 인식된 패턴들은 각각 필터 검사부(136)에서의 검사를 통해 필요없는 패턴들이 삭제되도록 처리된다. 불필요한 패턴은 사전에 정의된 것들이며, 이것은 사용자의 결정에 따른다.
추가적으로 본 실시예에 따른 데이터 분석 시스템에서는 결과 값을 앞서 나온 값들 중 불필요한 값과 이상치를 분석해 내어 필터링에 이용할 수 있다. 이러한 삭제 작업은 불필요한 리듀서 작업을 제거하여 데이터 분석 속도를 빠르게 만들고 리듀스 작업의 비용을 줄이며, 분석 결과의 정확도를 향상시킨다.
필터 검사부(136)는 매퍼(135)에서 얻어진 결과 값을 필터링한다. 필터 검사를 마친 패턴 연산의 결과는 셔플(Shuffle, 137)의 작업을 통하여 리듀서(138)에 입력된다. 셔플(137)은 필터 검사부(136)에서 불필요한 값이 제거된 패턴을 리듀서(138)로 보내준다. 리듀서(138)에서는 각 패턴이 선택된 횟수를 통합하여 결과 파일(출력 파일)을 작성한다.
리듀서(138)는 셔플(137)로부터 얻은 값을 기반으로 패턴들을 취합한다. 리듀스 작업이 완료되고 난 뒤 작성된 결과 파일은 레코드롸이트(RecordWriter)를 통해 출력(139)되어 외부 소스에 적용되며, 이러한 외부 소스의 구현은 각 데이터 소스에 따라 다르다.
도 4는 본 발명의 일실시예에 따른 데이터 분석 방법의 순서도이다.
도 4를 참조하면, 본 실시예에 따른 데이터 분석 방법은 먼저 입력된 파일의 유사도를 측정한다(S41).
다음, 유사도 측정 대상으로 분석 입력 데이터 셋(Input data sets)을 준비한다(S42).
다음, 데이터 분할 후 매퍼에서 패턴 분석 작업을 수행한다(S43).
다음, 필터 검사를 통해 불필요한 데이터를 버린다(S44).
필터 검사 후, 분석 결과에 대한 리듀서 작업을 수행한다(S45).
마지막으로, 리듀서 작업을 마친 출력 파일을 RecordWriter를 통해 출력한다(S46).
전술한 실시예들에 의하면, 하둡에서 분산되는 데이터를 모두 분석하거나 클러스터링을 적용하는 기존의 시스템과 달리, 미리 유사도를 분석하여 군집된 데이터를 선택하고, 선택된 데이터를 분산하여 입력 데이터와 패턴 인식을 통한 분석을 진행한 후 필터링 작업을 통해 불필요한 패턴을 삭제하고 리듀서 작업을 통해 얻어진 결과를 결과 분석하는 새로운 방식의 데이터 분석 방법 및 시스템을 제공할 수 있다.
또한, 미리 유사도를 분석하여 얻은 군집 데이터를 분석에 이용하여 데이터에 대한 유사도 및 불필요한 연산을 감소시키고, 분산된 데이터를 교차 분석 연산하여 결과 값에 대한 타당성을 높일 수 있으며, 게다가 패턴 인식을 실제 매퍼에 적용하여 분석에 필요한 비용 및 불필요한 과정을 생략하여 비용을 절감하고 효율을 증대시킬 수 있다.
또한, 빅데이터를 다루는 거대 기업체보다는 중소 규모의 데이터를 다루는 기업체에 더욱 유용하며, 이러한 중소 규모의 회사들에서는 짧은 시간 내에 입력된 데이터를 가지고 효율이 높고 타당한 결과 분석 자료를 얻을 수 있다. 특히, 패턴 인식을 적절히 이용하는 경우, 기업의 소비자 패턴 및 판매 실적 패턴 분석 등의 분야에서 활용될 수 있다.
또한, 전술한 실시예들에 의하면, 중소 규모의 데이터를 짧은 시간에 효율적으로 처리할 수 있다. 즉, 기존의 데이터 분석 기술은 빅데이터를 다루기 때문에 전처리를 적용하는데 문제가 있지만, 본 실시예의 데이터 분석 기술은 중소 규모의 데이터를 전처리한 후 짧은 처리 규모의 데이터 분석에 대한 숏잡(short-jobs) 기법을 응용하여 효과적으로 분석할 수 있다. 즉, 기존의 대부분의 빅데이터 분석 작업에 이용되는 숏잡 기법을 활용하여 중소 규모의 데이터를 효율적으로 분석할 수 있다.
또한, 본 실시예는 회사의 상품 등에 관련된 키워드 검색과 평판 분석 및 소비자 패턴 연산 등에 사용될 수 있다. 즉, 빅데이터 분석 사업은 크게 발전하고 있으며, 최근 가드너 등의 조사 기관에 따르면 빅데이터 산업은 수년 내 약 10배 이상 발전 가능성이 있다고 밝히고 있고, 최근의 연구 결과에 따르면, 빅데이터를 처리하는 작업은 실제로 작은 규모의 데이터만을 이용하여도 되는 작업들이며, 여러 번 처리되는 것을 확인할 수 있지만, 현실적으로 사용되는 시스템들은 모든 데이터를 한꺼번에 처리하도록 되어 있어 비용적인 문제가 크다. 하지만, 본 실시예에 의하면, 필요한 데이터를 선별하여 사용하므로 비용에 큰 절감 효과를 가져 올 수 있다.
이상에서와 같이 실시 예들을 중심으로 본 발명을 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시 예의 본질적인 기술내용을 벗어나지 않는 범위에서 실시예에 예시되지 않은 여러 가지의 조합 또는 변형과 응용이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 실시 예들로부터 용이하게 도출가능한 변형과 응용에 관계된 기술내용들은 본 발명에 포함되는 것으로 해석되어야 할 것이다.
10: 데이터 분석 시스템
11: 유사도 판별부
12: 입력 스플릿 생성부
13: 패턴 분석부

Claims (6)

  1. 입력 데이터와 유사도 군집을 통해 준비된 비교데이터 간의 사전 유사도를 분석하고, 사전 유사도 분석을 통해 유사도가 높은 제1비교데이터를 준비하는 유사도 판별부;
    상기 유사도 판별부에서 선택된 제1비교데이터와 외부에서 입력되는 분산데이터를 가공하여 입력 스플릿을 생성하는 입력 스플릿 생성부;
    상기 제1비교데이터를 토대로 상기 입력 스플릿 생성부로부터 입력되는 분석데이터의 패턴을 연산하고, 상기 분석데이터의 패턴 연산을 통해 유사패턴을 검출하고, 상기 유사패턴의 제1분석데이터를 리듀스 연산하고, 상기 리듀스 연산을 통해 출력 파일을 생성하는 패턴 분석부;
    를 포함하는 데이터 분석 시스템.
  2. 청구항 1에 있어서,
    상기 패턴 분석부는, 상기 패턴 연산을 수행하기 위하여 미리 학습되어 작성된 패턴들을 사용하는 패턴 연산 매퍼를 포함하는 데이터 분석 시스템.
  3. 청구항 2에 있어서,
    상기 패턴 분석부는, 상기 분석데이터를 필터링하여 비유사패턴의 제2분석데이터를 제거하는 필터검사부를 더 포함하는 데이터 분석 시스템.
  4. 청구항 3에 있어서,
    상기 패턴 분석부는, 상기 필터 검사부에서 불필요한 값이 제거된 패턴을 리듀서로 보내는 셔플, 및 상기 셔플부로부터 얻은 값을 기반으로 패턴을 취합하는 리듀서를 더 포함하는 데이터 분석 시스템.
  5. 입력 데이터와 유사도 군집을 통해 준비된 비교데이터 간의 사전 유사도를 분석하는 단계;
    상기 사전 유사도의 분석을 통해 유사도가 높은 비교데이터를 준비하는 단계;
    상기 비교데이터를 토대로 외부에서 입력되는 분석데이터의 패턴을 연산하는 단계;
    상기 분석데이터의 패턴 연산을 통해 유사패턴을 검출하는 단계;
    상기 분석데이터를 필터링하여 비유사패턴의 제2분석데이터를 제거하는 단계;
    상기 유사패턴의 제1분석데이터를 리듀스 연산하는 단계; 및
    상기 리듀스 연산을 통해 출력 파일을 생성하는 단계;
    를 포함하는 데이터 분석 방법.
  6. 청구항 5에 있어서,
    상기 분석데이터의 패턴을 연산하는 단계는, 상기 패턴 연산을 수행하기 위하여 미리 학습되어 작성된 패턴들을 사용하는 패턴 연산 매퍼를 이용하는 것을 포함하는 데이터 분석 방법.
KR1020130166394A 2013-12-30 2013-12-30 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템 KR20150077669A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130166394A KR20150077669A (ko) 2013-12-30 2013-12-30 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130166394A KR20150077669A (ko) 2013-12-30 2013-12-30 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20150077669A true KR20150077669A (ko) 2015-07-08

Family

ID=53790375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130166394A KR20150077669A (ko) 2013-12-30 2013-12-30 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20150077669A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093675A1 (ko) * 2017-11-10 2019-05-16 (주) 위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법
KR20230159130A (ko) 2022-05-13 2023-11-21 한전케이디엔주식회사 데이터 포맷 변환 장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093675A1 (ko) * 2017-11-10 2019-05-16 (주) 위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법
KR20190053616A (ko) * 2017-11-10 2019-05-20 (주)위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법
KR20230159130A (ko) 2022-05-13 2023-11-21 한전케이디엔주식회사 데이터 포맷 변환 장치 및 그 방법

Similar Documents

Publication Publication Date Title
Bharill et al. Fuzzy based scalable clustering algorithms for handling big data using apache spark
US9361343B2 (en) Method for parallel mining of temporal relations in large event file
CN103620601B (zh) 在映射缩减过程中汇合表
CN107123047B (zh) 基于债券交易的数据采集系统及其数据采集方法
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
Baldán et al. Distributed fastshapelet transform: a big data time series classification algorithm
US20150032759A1 (en) System and method for analyzing result of clustering massive data
US11182364B2 (en) Data analysis support apparatus and data analysis support method
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
JP7098327B2 (ja) 情報処理システム、関数作成方法および関数作成プログラム
Suvarnamukhi et al. Big data concepts and techniques in data processing
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN113965389B (zh) 一种基于防火墙日志的网络安全管理方法、设备及介质
CN114817243A (zh) 数据库联合索引的建立方法、装置、设备及存储介质
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
WO2016093839A1 (en) Structuring of semi-structured log messages
Zada et al. Performance Evaluation of Simple K‐Mean and Parallel K‐Mean Clustering Algorithms: Big Data Business Process Management Concept
Benny et al. Hadoop framework for entity resolution within high velocity streams
KR20150077669A (ko) 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템
CN112860850A (zh) 人机交互方法、装置、设备及存储介质
US20150066947A1 (en) Indexing apparatus and method for search of security monitoring data
US11709798B2 (en) Hash suppression
CN108062395A (zh) 一种轨道交通大数据分析方法及系统
CN113407495A (zh) 一种基于simhash的文件相似度判定方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal