KR20220090360A - 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법 - Google Patents

하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법 Download PDF

Info

Publication number
KR20220090360A
KR20220090360A KR1020210031379A KR20210031379A KR20220090360A KR 20220090360 A KR20220090360 A KR 20220090360A KR 1020210031379 A KR1020210031379 A KR 1020210031379A KR 20210031379 A KR20210031379 A KR 20210031379A KR 20220090360 A KR20220090360 A KR 20220090360A
Authority
KR
South Korea
Prior art keywords
analysis
big data
visualization
unit
data
Prior art date
Application number
KR1020210031379A
Other languages
English (en)
Inventor
하광림
강인지
전혜경
조용학
강인호
Original Assignee
주식회사 씨에스리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨에스리 filed Critical 주식회사 씨에스리
Publication of KR20220090360A publication Critical patent/KR20220090360A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법으로, 보다 상세하게는 GUI기반 블록 연결 방식으로 빅데이터를 다양한 분석 모델로 분석하고, 결과에 적합한 시각화 정보를 제공하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 하이퍼파라미터를 추천하여 최적의 성능으로 분석 모델을 수행할 수 있다.

Description

하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법{DEVICE AND METHOD FOR ANALYZING AND VISUALIZING BIG DATA BY CONTROLLING HYPERPARAMETERS}
본 발명은 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법으로, 보다 상세하게는 클라우드 기반의 블록 연결 방식으로 코딩없이 빅데이터를 다양한 분석 모델로 분석하고, 결과에 적합한 시각화 정보를 제공하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법에 관한 것이다.
빅데이터는 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고 수치 데이터 같이 정형화된 데이터뿐 아니라 문자와 영상 데이터와 같이 비정형화된 데이터도 포함하는 대규모 데이터를 말한다. 정보 통신 기술의 발전으로 인해 클라우드 서비스가 상용화되면서, 대용량의 빅 데이터를 효율적으로 처리하는 기술에 대한 관심이 증대되고 있다. 특히, 사물인터넷의 부흥에 힘입어 상상할 수 없을 정도로 방대한 양과 다양한 종류의 데이터가 시시각각 생성되고 있다.
이러한 빅데이터는 종래의 데이터 처리 방식과는 다른 새로운 알고리즘이나 패러다임을 통해 처리될 필요가 있으며, 수요자의 요구에 맞는 처리 및 분석 과정을 통해서 빅데이터를 통한 다양한 가치 창출이 가능하게 된다.
최근 PC 이외에 태블릿(tablet), 스마트폰(smart phone)과 같은 고성능의 휴대용 기기들이 등장하면서, 데스크탑 PC를 통한 인터넷 접속뿐만 아니라 모바일 접속을 통해 모바일 쇼핑, 검색, 메일 확인 등을 즐기는 인구가 크게 증가하고 있다. 이러한 휴대용 기기의 보급화 및 모바일 인터넷 기술의 발달로, 인터넷 상에 존재하는 많은 데이터들이 웹로봇, 웹크롤러, 스파이더 등을 통해 수집되고 있으며, 수집된 빅 데이터를 원하는 목적에 따라 분석하여 이용하고 있다.
기존의 데이터 분석 시스템은 스칼라(scala), 파이썬(python) 등의 프로그래밍 언어를 이용하여 작성된 데이터 분석 코드를 기반으로 빅 데이터를 분석하였다. 다시 말해, 스칼라, 파이썬 등의 프로그래밍 언어를 학습한 사용자는 데이터 분석 코드를 작성할 수 있으나, 해당 프로그래밍 언어를 학습하지 않은 사용자는 데이터 분석 코드를 작성하기 어려워, 다른 사용자에 의해 작성된 데이터 분석 플로우를 직관적으로 이해하는데 어려움이 존재하며, 유지 보수가 어려워진다.
이에 따라, 파이썬, 스칼라 등의 프로그래밍 언어를 학습하지 못한 사용자라 할지라도, 특정 데이터 파일과 관련하여 자신이 제어 또는 수정하고자 데이터 분석 플로우를 쉽게 작성하도록 도와주는 데이터 분석 기술이 요구된다.
본 발명의 배경기술은 대한민국 공개특허 제10-2013-0155808 호에 게시되어 있다.
본 발명은 클라우드 기반의 블록 연결 방식으로 프로그램 코딩없이 빅데이터를 다양한 분석 모델로 분석하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 기능 블록들을 적합한 위치와 순서에 맞게 연결하여 워크플로우를 손쉽게 생성할 수 있는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 동종 빅데이터 분석에 재사용이 가능한 빅데이터 분석 워크플로우 또는 분석 시나리오를 템플릿으로 제공하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 GUI 기반으로 각 과정을 블록 단위로 실행하고 확인할 수 있는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 다양한 분석 결과에 대한 적합한 시각화 방법을 추천하고, 표현하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 입력된 데이터의 오류를 확인하고 대체 값을 추천하여 분석 모델을 수행하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 하이퍼파라미터를 추천하여 최적의 성능으로 분석 모델을 수행하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 빅데이터 분석을 위한 단계를 설정하는 워크플로우 생성 시에 다음 단계의 기능 블록을 추천하여 분석 과정의 효율 및 정확도를 개선하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 데이터셋에 적합한 분석 모델, 워크플로우 또는 템플릿을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명은 입력 데이터셋 또는 선택된 기능 블록을 분석하여 추천된 블록들을 배치하고, 워크플로우를 완성하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법을 제공한다.
본 발명의 일 측면에 따르면, 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치를 제공한다.
본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치는 분석하려는 데이터를 수집하는 수집부, 데이터를 분석 모델에 맞도록 전처리하는 전처리부, 데이터를 분석 모델로 분석하는 분석부, 분석 모델을 수행한 결과를 적합한 그래프로 시각화하는 시각화부 및 데이터의 수집, 전처리, 분석 및 시각화 과정을 기능 블록으로 매칭하여 수행하는 수행부를 포함하고, 수행부는 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천하는 성능 향상부를 포함할 수 있다.
본 발명의 다른 일 측면에 따르면, 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법 및 이를 실행하는 컴퓨터 프로그램이 기록된 컴퓨터가 판독 가능한 기록매체를 제공한다.
본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법은 분석하려는 데이터를 수집하는 단계, 데이터를 분석 모델에 맞게 전처리하는 단계, 데이터를 분석 모델을 이용해 분석하는 단계, 분석한 데이터를 시각화 하는 단계 및 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계를 포함하고, 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 클라우드 기반의 블록 연결 방식으로 프로그램 코딩없이 다양한 분석 모델을 이용하여 빅데이터를 분석할 수 있다.
본 발명의 일 실시 예에 따르면, 추천 블록들을 적합한 위치와 순서에 맞게 연결하여 분석 워크플로우를 손쉽게 생성할 수 있다.
본 발명의 일 실시 예에 따르면, 동종 빅데이터 분석에 재사용이 가능한 빅데이터 분석 워크플로우 또는 분석 시나리오를 템플릿으로 제공하여 손쉽게 빅데이터를 분석할 수 있다.
본 발명의 일 실시 예에 따르면, GUI 기반으로 각 과정을 블록 단위로 실행하고 확인할 수 있다.
본 발명의 일 실시 예에 따르면, 다양한 분석 결과에 대한 적합한 시각화 방법을 추천하고, 표현할 수 있다.
본 발명의 일 실시 예에 따르면, 입력된 데이터의 오류를 확인하고 대체 값을 추천하여 분석 모델을 수행할 수 있다.
본 발명의 일 실시 예에 따르면, 하이퍼파라미터를 추천하여 최적의 성능으로 분석 모델을 수행할 수 있다.
본 발명의 일 실시 예에 따르면, 빅데이터 분석을 위한 단계를 설정하는 워크플로우 생성 시에 다음 단계의 기능 블록을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선할 수 있다.
본 발명의 일 실시 예에 따르면, 데이터셋에 적합한 분석 모델, 워크플로우 또는 템플릿을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선할 수 있다.
본 발명의 일 실시 예에 따르면, 작업 진행 단계를 분석하여 적절한 다수의 블록 추천 및 배치를 통해 워크플로우를 완성할 수 있다.
도 1 내지 도 20은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치를 설명하기 위한 도면들.
도21 내지 도 31은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법을 설명하기 위한 도면들.
도 32 내지 도 36은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치의 예시 화면들.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1 내지 도 20은 본 발명의 일 실시 예에 따른 빅데이터 분석 시각화 장치를 설명하기 위한 도면들이다.
도 1을 참조하면, 빅데이터 분석 시각화 장치(10)는 다양한 포맷의 데이터를 별다른 변경 과정 없이 마우스로 드래그 앤 드롭하여 손쉽게 이용할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 엑셀 파일 형식, CSV 파일 형식, RDS 파일 형식, TXT 파일 형식 및 데이터베이스도 드래그 앤 드롭으로 연결하여 분석하기 원하는 데이터를 수집할 수 있다. 또한 빅데이터 분석 시각화 장치(10)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
빅데이터 분석 시각화 장치(10)는 수집한 다양한 형식의 데이터의 전처리를 수행한다. 빅데이터 분석 시각화 장치(10)는 분석 모델에 따른 필요 데이터 형식으로 다양한 데이터 전처리를 수행한다. 빅데이터 분석 시각화 장치(10)는 컬럼 이름 변경, 타입 설정, 데이터셋 병합, 샘플링, 연산 그룹(Group By 연산) 등 빅데이터 분석 업무의 70%를 차지하는 전처리 과정을 웹페이지 조작 방식으로 쉽게 처리하고 파일로 저장할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 CSV 파일 형식, xml 파일 형식, yml 파일 형식, json 파일 형식, txt 파일 형식, log 파일 형식 또는 입력된 데이터 형식 등 다양한 데이터 형식으로 저장할 수 있다.
빅데이터 분석 시각화 장치(10)는 분석 데이터를 여러가지 그래프를 통해 시각화할 수 있다. 빅데이터 분석 시각화 장치(10)는 분석 데이터를 시간, 분포, 관계, 비교, 공간 등의 형태로 시각화할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 라인, 원, 막대, 히스토그램, 버블 차트, 산점도, 박스플롯, 워드클라우드 등 다양한 그래프를 이용해 분석 데이터를 다양한 형태로 시각화할 수 있다.
빅데이터 분석 시각화 장치(10)는 시각화 결과를 파일 형식으로 제공할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 분석 결과를 웹 페이지, PDF, MS-Word, CSV 형식 등의 다양한 형식으로 제공할 수 있다.
빅데이터 분석 시각화 장치(10)는 전처리한 데이터를 다양한 분석 모델을 이용해 분석할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 상관분석, 회귀분석, 의사결정나무, kNN, 랜덤포레스트, MLP 등과 같은 지도학습 또는 연관분석, K-means, PCA, 계층적 군집화 같은 비지도 학습 등의 다양한 분석 모델을 R이나 파이썬(Python)과 같은 프로그램 코드작성없이 데이터를 적용하여 분석할 수 있다.
빅데이터 분석 시각화 장치(10)는 기능을 블록으로 매칭하여 워크플로우를 생성한다. 빅데이터 분석 시각화 장치(10)는 원하는 기능 블록들을 클릭 또는 드래그 앤 드롭을 이용해 워크플로우에 추가하고, 연결하여 분석 및 시각화 워크플로우를 생성한다. 빅데이터 분석 시각화 장치(10)는 GUI 기반으로 데이터 수집, 전처리, 분석 및 시각화 과정을 블록을 드래그 앤 드롭 하고 연결하여 손쉽게 워크플로우를 생성할 수 있다. 빅데이터 분석 시각화 장치(10)는 각 블록 단계별로 워크플로우를 수행할 수 있다.
빅데이터 분석 시각화 장치(10)는 생성한 워크플로우를 동종 분석에 재사용할 수 있다.
빅데이터 분석 시각화 장치(10)는 많이 사용하는 분석 시나리오를 템플릿으로 제공하여 프로그램 코드 작성없이 빅데이터 분석을 할 수 있다.
빅데이터 분석 시각화 장치(10)는 클라우드 플랫폼 환경에서 수행할 수 있다.
도 2를 참조하면, 빅데이터 분석 시각화 장치(10)는 수집부(100), 전처리부(200), 분석부(300) 및 시각화부(400)를 포함한다.
도 3을 참조하면, 수집부(100)는 다양한 형태의 데이터로부터 분석하려는 데이터를 수집할 수 있다. 예를 들면, 수집부(100)는 엑셀, TEXT, CSV 형식의 파일을 업로드하여 수집할 수 있다. 또한 수집부(100)는 관계형 데이터베이스에 직접 연결하여 분석하려는 데이터를 수집할 수 있다. 수집부(100)는 직접 데이터를 직접 입력 또는 붙여넣기 하여 바로 생성할 수도 있다. 수집부(100)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
도 4를 참조하면, 전처리부(200)는 수집한 데이터를 분석 모델에 맞도록 다양한 방법으로 전처리한다. 전처리부(200)는 입력된 데이터셋에 적합한 전처리를 수행하여 분석의 정확도를 높일 수 있다. 전처리부(200)는 입력 데이터셋 분석에 따른 전처리 방식을 추천받을 수 있다.
도 5를 참조하면, 빅데이터 분석 시각화 장치(10)는 분석 모델을 이용해 데이터를 분석한다. 분석부(300)는 다양한 분석 모델을 코딩없이 수행한다. 분석부(300)는 입력 데이터셋에 따른 분석 모델을 추천받을 수 있다.
도 6을 참조하면, 시각화부(400)는 다양한 시각화 그래프를 이용하여 분석 데이터를 시각화 한다. 시각화부(400)는 데이터 분석 전 또는 분석 후에 실행할 수 있다.
시각화부(400)는 주로 데이터의 형태를 확인할 때 데이터 분석 모델 학습 전에 사용할 수 있다. 예를 들면, 시각화부(400)는 시계열 데이터의 변화도 확인할 수 있는 히스토그램 시각화 기능 블록, 변수 간 상관관계 확인할 수 있는 산점도 또는 히트맵 시각화 기능 블록, 데이터 빈도를 확인할 수 있는 워드 클라우드 시각화 기능 블록, 입력된 데이터 컬럼의 이상치를 확인할 수 있는 박스플롯 시각화 블록 등을 분석 모델 학습 전에 이용할 수 있다.
도 7을 참조하면, 시각화부(400)는 분석 모델 학습 후에 분석 결과 보고서를 시각화 기능 블록들을 이용해 표현할 수 있다. 예를 들면, 시각화부(400)는 데이터를 분류할 때 테스트 데이터 적용한 후의 분류 적중 값에 관한 분석 결과 보고서를 파이차트 시각화 블록을 이용해 작성할 수 있다.
시각화부(400)는 실제 값과 예측 값이 일치한 경우를 적중 값으로 전처리 하여 파이차트 시각화 기능 블록으로 실행하여 모델이 88.9% 확률로 적중했다는 분석 시각화 보고서를 작성할 수 있다.
도 8을 참조하면, 수행부(500)는 수집부(100), 전처리부(200), 분석부(300) 및 시각화부(400)의 각 과정을 블록 기반으로 매칭하여, 각 과정마다 매칭된 기능 블록을 선택할 수 있다. 수행부(500)는 기능 블록들을 선택, 배치 및 연결하여 프로그램 코딩 없이 빅데이터를 분석하고 시각화를 수행한다. 수행부(500)는 드래그 앤 드롭 방식으로 각 기능 블록을 선택하고 연결할 수 있다. 수행부(500)는 기능 블록을 선택, 배치 및 연결하여 워크플로우를 생성할 수 있다. 수행부(500)는 기능 블록들을 선택할 때 중간에 위치하는 블록인지 처음 또는 끝에 위치하는 블록인지 연결점으로 표시하여 워크플로우를 생성할 때 오류를 최소화한다. 예를 들면, 시작하는 기능 블록은 블록의 왼쪽에는 연결점이 없고 오른쪽에만 존재한다. 사전 작업이 하나인 경우 왼쪽 연결점이 하나이고 두개인 경우 연결점을 두개로 표시한다. 후속 작업도 동일한 방식으로 연결점의 수와 작업을 수를 일치하여 표시한다. 마지막 기능 블록의 경우 오른쪽에는 연결점이 없다. 수행부(500)는 각 단계별 기능 블록의 색상을 달리하여 각 단계를 구분한다.
수행부(500)는 데이터셋 내의 결측 지와 이상 치 여부 판별하여 정상 값 또는 정상 범주로 보정하도록 전처리 기능 블록을 추천할 수 있고, 결측 치와 이상 치에 대한 정상 값 또는 정상 범주를 예측하고, 제공할 수 있다.
수행부(500)는 데이터셋, 학습한 분석 모델 및 학습 결과를 분석하고 학습하여 데이터셋과 분석 모델에 적합한 하이퍼파라미터를 추천한다. 예를 들면, 수행부(500)는 입력 데이터셋에 따른 분석 모델의 성능을 높일 수 있는 하이퍼파라미터를 추천할 수 있다.
수행부(500)는 수집부(100)에서 수집한 데이터셋을 분석하여 분석 모델 기능 블록 또는 다음 단계의 기능 블록을 추천할 수 있고, 다수의 추천 기능 블록으로 구성된 템플릿을 추천할 수 있다. 예를 들면, 수행부(500)는 독립변수 분석을 통해 단변량 분석을 하는 경우 회귀 분석 기능 블록을 추천할 수 있고, 다변량의 경우 군집 분석 기능 블록을 추천할 수 있다. 또는 수행부(500)는 종속 변수 종류 판별을 통해 범주형은 카이제곱 테스트 및 로지스틱 회귀 분석 기능 블록을 추천하고, 연속형은 피어슨 상관 분석 및 선형 회귀 분석 기능 블록 등을 추천할 수 있다.
수행부(500)는 데이터가 날짜(date) 타입의 시계열 자료인 경우 변화량을 확인을 위한 히스토그램 시각화 기능 블록 또는 라인그래프 시각화 기능 블록을 추천할 수 있다.
수행부(500)는 기능 블록들을 선택하여 원하는 워크플로우를 생성하거나 제공되는 템플릿을 이용할 수 있다. 또는 수행부(500)는 생성한 워크플로우를 저장하여 동종 또는 유사한 데이터 분석에 재사용할 수 있고, 워크플로우 생성이나 기능 블록 선택 시 참고할 수 있다.
도 9를 참조하면, 수행부(500)는 오류 수정부(510), 성능 향상부(520), 블록 추천부(530), 모델 추천부(540) 및 워크플로우 생성부(550)를 포함한다.
오류 수정부(510)는 전처리된 데이터가 선택된 분석 모델에 적합한지 판단한다. 예를 들면, 전처리된 데이터가 학습 모델에 사용된 데이터와 다른 데이터 타입이거나 학습된 값의 범위를 넘는 이상 치이거나 결측 치가 미처리된 경우 오류가 발생한다. 오류 수정부(510)는 발생된 오류에 대해 매칭되는 정상 값 또는 정상 범주 값을 추천하거나 전처리 기능 블록을 추천할 수 있다.
도 10을 참조하면, 오류 수정부(510)는 입력 값의 메타데이터, 현재 수행중인 블록의 메타데이터 그리고 모델 형성에 사용할 입력 값의 메타데이터와 블록 메타데이터를 포함하는 전체 데이터베이스를 이용한다.
오류 수정부(510)는 입력 값의 메타데이터 필드의 종류로 입력데이터 크기, 입력 필드 수, 데이터타입, 데이터별로 자체 분석된 주요 특징 등을 포함할 수 있다
오류 수정부(510)는 블록 메타데이터 필드의 종류로는 블록 ID, 입력한 파라미터들의 종류와 값, 에러가 발생한 파라미터의 종류와 값 등을 포함할 수 있다.
오류 수정부(510)는 기능 블록 실행 중 에러 발생하면 기능 블록 메타데이터를 수집하고 발생 오류를 수집한다.
오류 수정부(510)는 입력된 데이터 또는 전처리된 데이터가 학습 모델에 사용된 데이터와 상이하거나 학습된 값의 범위가 넘어서는 등의 오류가 발생하는 경우 대체 값을 추천하여 오류를 수정한다. 예를 들면, 오류 수정부(510)는 결측 치 처리에 있어서 기준이 불확실하여 사용자의 판단으로 결측 치를 임의로 대체하여 입력하는 경우 사용자가 임의로 입력한 결측 치가 문제가 없는지 판단할 수 있고, 적정 범위 값의 가이드 라인을 제공할 수 있고, 결측 치에 대한 대체 값을 추천할 수 있다.
도 11을 참조하면, 오류 수정부(510)는 판단부(5101), 학습부(5102) 및 추천부(5103)를 포함한다.
판단부(5101)는 기능 블록 메타데이터와 발생 오류 및 파라미터의 종류와 값 등의 정보를 종합하여 오류가 발생한 지점을 분석 추적할 수 있다.
판단부(5101)는 입력된 데이터가 선택된 분석 모델에 적합한지 판단한다. 또한 판단부(5101)는 전처리된 데이터가 선택된 분석 모델에 적합한지 판단할 수 있다.
판단부(5101)는 전처리된 데이터가 학습 모델에 사용된 데이터와 다른 데이터 타입이거나 학습된 값의 범위를 넘는 이상 치이거나 결측 치가 미처리된 경우 오류로 판단한다. 예를 들면, 판단부(5101)는 SVM, 랜덤 포레스트 등의 분류 알고리즘을 통해 입력된 데이터가 정상인지 비정상인지 판별할 수 있다.
학습부(5102)는 정상 과정과 비정상 과정을 학습한 예측 학습 모델을 통해 정상 과정 매칭을 수행한다. 자세히 설명하면 학습부 (5102)는 선택한 분석 모델의 정상과정과 오류과정을 학습하여 데이터셋의 정상 값 또는 정상 범주 값을 예측하는 예측 학습 모델을 생성한다. 예를 들면, 예측 학습 모델은 정상 과정과 오류 과정을 학습하여 분류하는 xgboost 학습모델 등 일 수 있다.
학습부(5102)는 정상 범주를 판단하는데 있어 대상 변수의 타입, 데이터셋의 분포, 존재하는 결측 치의 비율, 입력한 결측 지 대체 값, 결측 치 대체 값 처리 시 분석 모델 성능 및 에러 발생 여부 등을 이용할 수 있다.
학습부(5102)는 사용자의 판단으로 입력된 결측 치의 대체 값이 정상 값 또는 정상 범위 내의 값인지 판별한다. 학습부(5102)는 사용자가 입력한 대체 값이 정상 범위에 속하지 않으면 정상 범위의 가이드라인 또는 정상 범위 내의 값 중 어느 하나를 추천 대체 값으로 정하고 추천한다. 이때 학습부(5102)는 사용자가 추천 대체 값을 선택하는 경우, 예측 학습 모델이 데이터로 재학습시켜 데이터의 정상 범위를 판단하는 정확도를 높이는데 이용한다.
학습부 (5102)는 오류가 발생한 데이터를 입력 값으로 하고 예측 학습 모델을 수행하여 오류 값의 정상 값 또는 정상 범주 값을 예측한다.
추천부(5103)는 정상 수행 과정을 학습한 알고리즘에 따라 오류가 발생한 지점의 파라미터의 대체 값을 추천하거나 정상 수행 과정을 매칭한다. 자세히 설명하면 추천부(5103)는 예측 학습 모델을 통한 예측된 값을 오류 값의 대체 값으로 추천한다. 추천부(5103)는 학습부(5102)가 생성한 예측 학습 모델을 수행하여 결측 치 또는 이상 치에 대한 정상 값, 정상 범위 또는 정상 범위 내 어느 하나의 값을 대체 값으로 자동 수정하거나 추천할 수 있다.
도 12는 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치에서 랜덤 포레스트 분석 모델을 수행할 때 오류 값이 발생한 경우의 예시이다.
도 12의 예시를 참조하면, 판단부(5101)는 입력된 데이터가 이상 치이거나 결측 치 여부를 판단한다. 입력된 데이터가 비정상 값 또는 비정상 범위에 속하는 경우, 학습부(5102)는 랜덤 포레스트 분석 모델 수행 중 발생한 오류 값을 예측 학습 모델을 통해 정상 값 또는 정상 범주의 값을 예측한다. 추천부(5103)는 예측 학습 모델을 통한 예측된 값을 오류 값에 대한 대체 값으로 추천한다.
빅데이터 분석 시각화 장치(10)는 정상 과정과 오류 과정을 학습한 분석 모델을 이용해 오류를 판별하고, 오류 발생 지점 및 오류의 내용을 파악하고, 정상 값 또는 정상 범주를 예측한다. 예를 들면, 판단부(5101)는 오류 정보 파악을 위해 랜덤포레스트, SVM 등과 같은 분류 알고리즘을 이용할 수 있다. 학습부(5102)는 입력 값이 이상 치 또는 결측 치에 해당하면 그 대체 값을 xgboost 알고리즘과 같은 분석 모델을 통해 예측할 수 있다.
다시 도 9를 참조하면, 성능 향상부(520)는 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천한다. 빅데이터 분석에 있어서 하이퍼파라미터의 설정 값에 따라 분석 모델의 성능이 크게 달라지기 때문에 하이퍼파라미터 최적화는 매우 중요한 작업 중 하나이다.
도 13을 참조하면, 성능 향상부(520)는 데이터셋과 분석 모델에 적합한 하이퍼파라미터를 추천한다. 예를 들면, 성능 향상부(520)는 최적의 성능을 도출할 수 있는 하이퍼파라미터를 추천할 수 있다. 성능 향상부(520)는 하이퍼파라미터 교차 검증 알고리즘을 이용해 하이퍼파라미터를 추전하여 분석 모델의 성능 개선을 제안할 수 있다. 성능 향상부(520)는 추천 하이퍼파라미터 값으로 학습을 하였을 때 예측되는 성능 평가 값을 제공할 수 있다.
도 14를 참조하면, 성능 향상부(520)는 입력부(5201), 조정부(5202) 및 성능 비교부(5203)를 포함한다.
입력부(5201)는 분석 모델 구축을 위해 데이터셋 학습/검증 비율을 포함한 하이퍼파라미터를 사용자에게 입력 받는다. 예를 들면, 데이터셋 학습/검증 비율이 필요한 분석 모델은 랜덤 포레스트, 회귀분석, 의사결정나무 및 로지스틱 회귀 분석 등의 모델이다. 입력 가능한 하이퍼파라미터는 독립 종속 변수 설정, 학습/검증 데이터셋 비율, 트리의 수 등을 포함한다. 랜덤 포레스트 분석 모델의 경우 학습 데이터 비율, 모델 성능 검증을 위한 검증 데이터 비율, 트리의 숫자. 트리의 깊이(depth), 각 리프(leaf)의 최소 데이터 개수, 리프가 아닌 노드의 최소 데이터 개수 등을 하이퍼 파라미터로 사용한다. 조정부(5202)는 선택한 분석 모델의 최적의 성능을 위한 하이퍼파라미터의 조정 값을 추천한다. 조정부(5202)는 데이터셋의 종류와 선택된 분석 모델을 분석하여 최적의 조정 값을 추천한다. 조정부(5202)는 하이퍼파라미터 예측 알고리즘을 이용해 직접적인 하이퍼파라미터 조정을 통한 분석 모델 학습을 수행하지 않고, 데이터셋과 분석모델에 적합한 하이퍼파라미터 값을 예측한다. 예를 들면, 조정부(5202)는 저성능 또는 과적합 여부에 따른 데이터 비율을 조정하여 최적의 성능을 도출할 수 있는 하이퍼파라미터의 조정 값을 추천한다. 하이퍼파라미터 알고리즘은 입력 데이터 셋과 수행된 분석 모델과 수행 결과를 분석하고 학습하여 최적의 성능을 도출할 수 있는 하이퍼파라미터를 예측하는 알고리즘이다.
기존의gridsearch, randomsearch 등과 같은 하이퍼파라미터 추적 알고리즘은 연산의 양이 많기 때문에 많은 시간과 비용이 소모된다. 즉, 사용자가 초기 하이퍼파라미터 입력 시 모델 성능 값 지표 확인을 통해 성능을 도출하게 되고, 성능 향상을 위해 반복적으로 검증 데이터셋과 실제 데이터셋의 비율을 조정하고 학습하여 조정 값을 찾는다. 분석 모델의 성능을 높이기 위해서는 하이퍼파라미터 값을 조정하여 원하는 성능이 도출될 때까지 반복 학습해야 하기 때문에 시간과 비용이 소모된다. 하지만 오류 값을 보정하는 빅데이터 분석 시각화 장치(10)는 기존의 데이터셋의 종류, 선택된 분석 모델 및 성능 결과를 학습하여 성능 향상을 위한 하이퍼파라미터 값을 예측하고 추천하므로 시간과 비용을 줄일 수 있다.
조정부(5202)는 이전 모델 대비 성능이 낮을 경우 다른 조정 값 추천을 반복하고, 높을 경우 추천을 중지하고, 미리 설정된 임계 값 이상 도달했을 때에도 추천을 중지한다.
성능 비교부(5203)는 추천 하이퍼파라미터 값으로 학습을 하였을 때 예측되는 성능 평가 값을 제공할 수 있다.
성능 비교부(5203)는 사용자가 입력한 하이퍼파라미터를 적용하였을 때 성능과 최적의 성능을 위한 하이퍼파라미터의 조정 값을 적용하였을 때의 성능을 시각화하여 제공한다. 예를 들면, 성능비교부(5203)는 아웃오브백 오류(out of Bag Error) 그래프, 상관행렬 그래프 및 검증지표의 시각자료로 사용자가 입력한 하이퍼파라미터 값을 분석 모델에 적용하였을 때 결과를 제공할 수 있다. 성능 비교부(5203)가 추천 값을 사용자에게 시각자료로 제공하는 방식으로는 사용자 입력 값과 추천된 조정 값을 같이 표시한 후 아웃오브백 오류(out of Bag Error) 그래프 지표의 전후 변화화면을 표시하여 성능 및 결과 지표의 변화를 표시하여 제공한다.
다시 도9를 참조하면, 블록 추천부(530)는 데이터셋 분석과 현재의 기능 블록 단계 분석을 통해 다음 기능 블록을 추천한다.
블록 추천부(530)는 빅데이터 분석 진행 상에서 다음 단계의 기능 블록을 추천하여 분석 과정의 효율 및 분석의 정확도를 개선할 수 있다.
도 15를 참조하면, 블록 추천부(530)는 입력 데이터셋을 분석하고 지금까지 수행한 기능 블록을 분석하여 유사도가 높은 워크플로우 또는 템플릿을 참고하여 다음 단계의 기능 블록을 추천한다. 예를 들면, 블록 추천부(530)는 독립변수 분석을 통해 단변량 분석을 하는 경우 회귀 분석 기능 블록을 추천할 수 있고, 다변량의 경우 군집 분석 기능 블록을 추천할 수 있다. 또는 블록 추천부(530)는 종속 변수 종류 판별을 통해 범주형은 카이제곱 테스트 및 로지스틱 회귀 분석 기능 블록을 추천하고, 연속형은 피어슨 상관 분석 및 선형 회귀 분석 기능 블록 등을 추천할 수 있다.
블록 추천부(530)는 데이터가 날짜(date) 타입의 시계열 자료인 경우 변화량을 확인을 위한 히스토그램 시각화 기능 블록 또는 라인그래프 시각화 기능 블록을 추천할 수 있다.
블록 추천부(530)는 생성된 워크플로우나 제공된 템플릿의 워크플로우 정보가 저장된 워크플로우 템플릿 빅데이터를 분석에 이용할 수 있다.
도 16을 참조하면, 블록 추천부(530)는 블록 분석부(5301), 데이터셋 분석부(5302). 생성부(5303), 클러스터링부(5304), 유사도 분석부(5305) 및 블록 단계 추천부(5306)를 포함한다.
블록 추천부(530)는 다음 단계의 기능 블록 추천의 요청을 수신하거나 기능 블록 추천이 필요한 상황을 인식할 수 있다.
블록 분석부(5301)는 현 기능 블록의 단계를 세부 구분할 수 있는 블록 분석 알고리즘을 수행한다. 예를 들면, 블록 분석부(5301)는 현 진행 단계를 파악하기 위해 현재의 기능 블록의 메타데이터를 추출한다. 기능 블록 메타데이터는 기능 블록 구분 ID, 파라미터 리스트, 파라미터 입력값 등 기능 블록의 기본 정보를 포함하고, 사용한 기능 블록의 중복검사를 위한 기능 블록 사용내역 리스트를 더 포함할 수 있다.
또한 데이터셋 분석부(5302)는 입력된 데이터셋을 구별하기 위한 데이터셋 분석 알고리즘을 수행한다. 예를 들면, 데이터셋 분석부(5302)는 입력된 데이터셋의 메타데이터를 추출한다. 데이터셋의 메타데이터는 데이터셋의 데이터타입, 데이터 사이즈, 특성의 숫자, 결측 치 여부 및 비율, 이상치 여부 및 비율, 중복데이터 여부 및 비율 등을 포함한다.
생성부(5303)는 블록 분석부(5301)의 결과 값과 데이터셋 분석부(5302)의 결과 값을 취합하여 상세 과정을 구분할 수 있는 상세 단계 분석 메타데이터를 생성한다. 예를 들면, 추출한 현재 기능 블록의 메타데이터와 입력 데이터셋의 메타데이터를 이용해 상세 단계 분석 메타데이터를 생성한다.
클러스터링부(5304)는 상세 단계 분석 메타데이터의 특징 값을 기반으로, 워크플로우 템플릿 빅데이터와 클러스터링한다. 예를 들면, 클러스터링부(5304)는 K-평균(K-MEANS), K-모드(K-MODE), DBSCAN 등의 클러스터링 기법 등을 이용할 수 있다. 워크플로우 템플릿 빅데이터는 생성된 워크플로우나 분석 시나리오로 제공된 템플릿의 워크플로우를 포함한다.
유사도 분석부(5305)는 상세 단계 분석 메타데이터의 특징 값을 기반으로 클러스터링된 워크플로우와 유사도를 분석하여 유사도 값이 높은 상위랭킹의 워크플로우를 추출한다. 예를 들면, 유사도 분석부(5305)는 유클리디안 거리, 맨하튼 거리, 스피어만 상관점수 등의 유사도 분석 기법을 이용하여 유사도를 분석할 수 있다. 유사도 분석부(5305)는 유사도 상위랭킹의 워크플로우들을 추천할 수 있다.
블록 단계 추천부(5306)는 유사도 상위랭킹의 워크플로우들에서 현재 기능 블록의 과정을 검색하고, 상위랭킹 워크플로우들에서 다음 단계에 해당되는 기능 블록을 추천할 수 있다.
다시 도9를 참조하면, 모델 추천부(540)는 입력된 데이터셋으로 가장 적합한 분석 모델을 추천하여 분석을 수행한다. 예를 들면, 모델 추천부(540)는 데이터셋과 분석 모델의 적합성을 점수로 산출하여 기준 이상의 점수를 획득한 분석 모델을 추천할 수 있다.
도 17을 참조하면, 모델 추천부(540)는 입력 데이터셋을 분석하여 적합한 분석 모델을 추천하고, 데이터셋과 추천 분석 모델을 분석하여 워크플로우 또는 템플릿을 추천한다. 자세히 설명하면, 모델 추천부(540)는 분석 모델 추천 알고리즘을 통해 입력 데이터셋에 적합한 분석 모델을 추천한다. 모델 추천부(540)는 모의 평가 점수가 높은 분석 모델들을 추천한다. 모델 추천부(540)는 데이터셋 메타데이터와 분석 모델 메타데이터를 이용해 제공되는 워크플로우 템플릿 빅데이터와의 유사도를 분석한다. 워크플로우 템플릿 빅데이터는 생성된 워크플로우나 분석 시나리오로 제공된 템플릿의 워크플로우를 포함한다. 모델 추천부(540)는 유사도가 높은 워크플로우를 포함한 템플릿을 추천하여 사용자가 분석 모델 선택할 때 가이드를 제공할 수 있다.
도 18을 참조하면, 모델 추천부(540)는 모의 평가부(5401), 분석 모델 추천부(5402), 유사도 분석부(5403) 및 추천부(5404)를 포함한다.
모의 평가부(5401)는 적합 모델 평가 알고리즘을 수행하여 입력된 데이터셋에 다종의 분석 모델을 모의 적용하고 데이터셋과 분석 모델의 점수를 산출한다. 예를 들면, 모의 평가부(5401)는 랜덤 포레스트, 상관분석, 다층 퍼셉트론, 나이브베이즈, k means 모델 등을 모의 적용하여 AUC 점수를 산출하여 적합 점수를 추출한다.
분석 모델 추천부(5402)는 산출된 점수를 기반으로 상위 n건의 분석 모델 또는 미리 설정된 임계 값 이상의 분석 모델을 추천한다.
유사도 분석부(5403)는 선정된 추천 분석 모델 및 데이터셋 메타데이터를 기반으로 워크플로우 템플릿 빅데이터와의 유사도를 분석한다. 이때 유사도 분석부(5403)는 추천 분석 모델 중 최고 적합 점수를 획득한 모델 또는 사용자가 선택한 분석 모델을 선정하여 워크플로우 템플릿 빅데이터와의 유사도를 산출할 수 있다.
유사도 분석부(5403)는 선정된 추천 분석 모델 및 데이터셋 메타데이터를 기반으로 워크플로우 템플릿 빅데이터와의 유사도를 산출할 수 있다.
추천부(5404)는 유사도 분석부(5403)를 통해 유사도가 높은 상위 n개의 워크플로우를 추천할 수 있다.
추천부(5404)는 유사도 분석부(5403)를 통해 유사도가 높은 상위 n개의 워크플로우를 포함하고 있는 템플릿을 추천할 수 있다.
다시 도 9를 참조하면, 워크플로우 생성부(550)는 추천된 블록들로 조합된 워크플로우를 생성한다.
도 19를 참조하면, 워크플로우 생성부(550)는 입력된 데이터와 선택된 기능 블록들을 분석하여 추천된 블록들을 워크플로우 내에 적합한 위치와 순서로 배치한다. 워크플로우 생성부(550)는 추천 블록들이 배치된 워크플로우를 생성하고, 저장하여 제공할 수 있다.
워크플로우 생성부(550)는 워크플로우 작성 정도에 따라 각각의 기능 블록들을 추천하고 배치하여 미완성의 워크플로우를 완성할 수 있다.
워크플로우 생성부(550)는 입력 데이터 셋과 선택된 블록들 기반으로 유사도가 높은 상위 워크플로우를 추출하여 워크플로우 생성에 이용한다. 워크플로우 생성부(550)는 선택된 블록들을 분석하여 실제 진행된 작업 기반의 워크플로우를 생성할 수 있다.
도 20을 참조하면, 워크플로우 생성부(550)는 데이터 추출부(5501), 전처리 추천부(5502), 분석모델 추천부(5503), 시각화 추천부(5504) 및 완성부(5505)를 포함한다.
데이터 추출부(5501)는 데이터셋 분석 알고리즘 및 블록 분석 알고리즘을 이용하는 데이터셋을 분석하고, 블록을 분석한다. 자세히 설명하면 데이터 추출부(5501)는 데이터셋 분석 알고리즘을 통해 입력된 데이터셋의 데이터셋 메타데이터를 추출하고, 블록 분석 알고리즘을 통해 이미 선택된 블록들의 블록 메타데이터를 추출한다.
전처리 추천부(5502)는 데이터셋 메타데이터를 기반으로 필요한 전처리를 분석한다. 예를 들면, 전처리 추천부(5502)는 이상 치 발견 시 이상 치 처리 블록, 결측 치 발견 시 결측 치 처리 블록, 컬럼수가 불필요하게 많으면 파생변수 블록, PCA 블록들 데이터셋에 필요한 전처리 블록을 추천할 수 있다.
분석모델 추천부(5503)는 블록 메타데이터와 데이터셋 메타데이터를 이용해 분석 모델을 추천한다.
시각화 추천부(5504)는 시각화 추천 알고리즘을 통해 시각화 블록을 추천한다. 예를 들면, 시각화 추천부(5504)는 중복 시각화를 제외하고, 사용 중인 전처리 블록이 이상치 처리 블록이면 박스플롯 또는 산점도 시각화 블록을 추천하고, 데이터셋이 범주형이면 비율 확인을 할 수 있는 파이 차트 시각화 블록을 추천할 수 있다.
완성부(5505)는 추천된 블록들을 배치하고 워크플로우를 완성하여 생성한다. 완성부(5504)는 블록 배치 알고리즘을 통해 유사도가 높은 워크플로우를 추출하여, 각각의 추천 블록들을 배치하고 워크플로우를 생성한다. 블록 배치 알고리즘은 작업 중 워크플로우와 유사도가 높은 상위 n건을 추출하고, 기능 블록의 위치를 파악하여 기능 블록과 그 위치를 추천한다.
도 21 내지 도 31은 본 발명의 일 실시예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법을 설명하기 위한 도면들이다. 이하 설명하는 각 과정은 빅데이터 분석 시각화 장치를 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 빅데이터 분석 시각화 장치로 통칭하도록 한다.
도 21을 참조하면, 단계 S2101에서 빅데이터 분석 시각화 장치(10)는 분석하고자 하는 데이터를 수집한다. 빅데이터 분석 시각화 장치(10)는 다양한 형태의 데이터로부터 분석하려는 데이터를 수집할 수 있다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 엑셀, TEXT, CSV 형식의 파일을 업로드하여 수집할 수 있다. 또한 빅데이터 분석 시각화 장치(10)는 관계형 데이터베이스에 직접 연결하여 분석하려는 데이터를 수집할 수 있다. 빅데이터 분석 시각화 장치(10)는 직접 데이터를 직접 입력 또는 붙여넣기 하여 바로 생성할 수도 있다. 빅데이터 분석 시각화 장치(10)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
단계 S2102에서 빅데이터 분석 시각화 장치(10)는 수집한 데이터를 원하는 분석 모델에 맞게 전처리한다.
단계 S2103에서 빅데이터 분석 시각화 장치(10)는 분석 모델을 이용해 데이터를 분석한다. 빅데이터 분석 시각화 장치(10)는 데이터셋을 분석하여 분석모델을 추천할 수 있다. 빅데이터 분석 시각화 장치(10)는 데이터셋과 사용하려는 분석 모델을 분석하여 전처리 방식을 추천할 수 있다.
단계 S2104에서 빅데이터 분석 시각화 장치(10)는 분석한 데이터를 시각화하여 표현한다. 빅데이터 분석 시각화 장치(10)는 분석 결과에 적합한 시각화 블록을 추천할 수 있다.
도 22는 본 발명의 일 실시 예에 따른 블록을 추천하는 빅데이터 분석 시각화 장치가 오류 발생 시 오류 지점을 판단하고 정상 값을 추천하는 방법을 설명하기 위한 예시 도면이다.
도 22를 참조하면, 빅데이터 분석 시각화 장치(10)는 분석 모델 기능 블록 수행 중 입력된 파라미터로 인해 오류가 발생하는 경우 정확한 오류 지점을 찾아 값을 수정하여 오류없이 분석 과정을 진행한다.
단계 S2201에서 빅데이터 분석 시각화 장치(10)는 기능 블록의 메타데이터 및 발생 오류의 정보를 수집한다.
단계 S2202에서 빅데이터 분석 시각화 장치(10)는 발생 오류의 정보를 분석하여 오류 발생 지점을 판별한다.
단계 S2203에서 빅데이터 분석 시각화 장치(10)는 블록의 메타데이터, 발생 오류, 파라미터의 종류 및 값 등을 분석하여 데이터 셋과 분석 모델의 매칭이 적합한지 판단한다. 빅데이터 분석 시각화 장치(10)는 데이터 셋과 분석 모델이 매칭되지 않으면 데이터 셋에 적합한 분석 모델을 추천할 수 있다. 자세히 설명하면, 빅데이터 분석 시각화 장치(10)는 정상 분석 모델 수행 과정의 정상 값을 추출하여 선택한 분석 모델과 매칭되지 않으면 정상 값을 추천한다.
단계 S2204에서 빅데이터 분석 시각화 장치(10)는 데이터에서 이상 치 또는 결측 치 여부를 판단한다. 빅데이터 분석 시각화 장치(10)는 입력된 데이터의 이상 치 또는 결측 치로 인한 오류인 경우 정상 값 또는 정상 범위를 추천하고, 자동 적용할 수 있다.
빅데이터 분석 시각화 장치(10)는 오류가 난 지점을 자가 진단하고, 예측한 정상 값으로 대체하여 오류없이 분석을 계속 수행할 수 있다.
도 23은 본 발명의 일시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 오류를 판별하고 수정하는 예시이다.
도 23을 참조하면, 단계 S2201에서 빅데이터 분석 시각화 장치(10)는 사용자에게 분석하고자 하는 데이터를 입력 받는다.
단계 S2302에서 빅데이터 분석 시각화 장치(10)는 블록을 드래그 앤 드롭하여 새로 작성한 워크플로우, 제공된 워크플로우 템플릿 또는 저장한 워크플로우 중 어느 하나를 이용하여 데이터 분석 워크플로우를 생성한다.
단계 S2303에서 빅데이터 분석 시각화 장치(10)는 오류가 발생하면 오류 DB의 정보를 참조하여 오류 타입을 판별하고 오류 지점을 파악한다. 빅데이터 분석 시각화 장치(10)는 정상 과정과 오류 과정을 학습한 분석 모델을 이용하여 오류 발생 시의 오류 발생 지점과 오류의 내용을 파악한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 오류 정보 파악을 위해 랜덤포레스트, SVM 등과 같은 분류 알고리즘을 이용할 수 있다.
단계 S2304에서 빅데이터 분석 시각화 장치(10)는 오류 값을 예측 학습 모델을 이용해 정상 값 또는 정상 범위 값을 예측한다. 빅데이터 분석 시각화 장치(10)는 입력 값이 이상 치 또는 결측 치에 해당하면 오류 값의 대체 값을 xgboost 알고리즘과 같은 분석 모델을 통해 추천할 수 있다. 오류 값의 대체 값은 오류가 발생하지 않고 빅데이터 분석이 정상적으로 이루어질 수 있는 정상 값 또는 정상 범주일 수 있다.
단계 S2305에서 빅데이터 분석 시각화 장치(10)는 예측 값 즉, 예측 학습 모델의 결과값을 사용자에게 추천한다. 또는 빅데이터 분석 시각화 장치(10)는 자동으로 정상 값 또는 정상 범주를 적용하여 분석을 계속 진행할 수 있다.
단계 S2306에서 빅데이터 분석 시각화 장치(10)는 추천 값을 적용하여 데이터 분석을 수행한다.
도 24는 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 오류 발생시 대체 값을 추천하는 방법을 설명하기 위한 도면이다.
오류 수정부(510)는 입력된 데이터 또는 전처리된 데이터가 학습 모델에 사용된 데이터와 상이하거나 학습된 값의 범위가 넘어서는 등의 오류가 발생하는 경우 대체 값을 추천하여 오류를 수정한다.
도 24를 참조하면, 단계 S2401에서 오류 수정부(510)는 수행한 워크플로우의 정상 값을 기반으로 학습한 학습 모델을 구축한다. 예를 들면, 오류 수정부(510)는 선택한 분석 모델의 정상과정과 오류과정을 학습하여 데이터셋의 정상 값 또는 정상 범주 값을 예측하는 예측 학습 모델을 생성한다.
단계 S2402에서 오류 수정부(510)는 입력된 데이터셋에서 오류가 발생하면 오류 값 정보를 수집하고, 오류 지점을 판별한다.
단계 S2403에서 오류 수정부(510)는 단계 S1501에서 구축한 예측 학습 모델을 수행하여 오류 값의 정상 값 또는 정상 범주 값을 예측한다.
단계 S2404에서 오류 수정부(510)는 예측한 값을 정상 값으로 추천하거나 자동 입력 처리한다.
단계 S2405에서 오류 수정부(510)는 추천된 값이 적용되면 정상 값 또는 정상 범위 값으로 예측 학습 모델에 추가한다.
단계 S2406에서 오류 수정부(510)는 추천된 정상 값 또는 정상 범위 값을 기준으로 사용자가 오류 값을 수정하여 오류를 수정할 수 있도록 지원한다.
도 25는 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 분석 모델의 최적 성능을 도출할 수 있는 하이퍼파라미터를 추천하고 조정하는 방법을 설명하기 위한 도면이다.
도 25를 참조하면, 성능 향상부(520)는 데이터셋과 분석 모델에 적합한 하이퍼파라미터를 추천한다. 예를 들면, 성능 향상부(520)는 최적의 성능을 도출할 수 있는 하이퍼파라미터를 추천하고 조정할 수 있다.
단계 S2501에서 빅데이터 분석 시각화 장치(10)는 분석이 필요한 데이터셋을 입력 받는다.
단계 S2502에서 빅데이터 분석 시각화 장치(10)는 학습/검증 비율과 같은 하이퍼파라미터가 필요한 분석 모델을 선택한다. 예를 들면, 하이퍼파라미터가 필요한 분석 모델에는 랜덤 포레스트, 회귀분석, 의사결정나무, 로지스틱 회귀 분석 모델 등이고, 입력 가능한 하이퍼파라미터는 독립 종속 변수 설정, 학습/검증 데이터셋 비율, 트리의 수 등을 포함한다.
단계 S2503에서 빅데이터 분석 시각화 장치(10)는 사용자가 입력한 하이퍼파라미터로 분석모델을 수행한다.
단계 S2504에서 빅데이터 분석 시각화 장치(10)는 수행한 성능 결과 및 검증 지표를 그래프 또는 도표 등의 시각화하여 확인하고 분석 모델의 성능 개선의 필요성을 판단한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 아웃오브백 오류(out of Bag Error) 그래프, 상관행렬 그래프 및 검증지표의 시각자료로 사용자 입력 하이퍼파라미터 값을 분석 모델에 적용하였을 때 성능 결과를 제공할 수 있다
분석 모델의 성능 개선이 필요한 경우 단계 S2405에서 빅데이터 분석 시각화 장치(10)는 택한 분석 모델의 최적의 성능을 위한 하이퍼파라미터를 추천한다. 빅데이터 분석 시각화 장치(10)는 하이퍼파라미터 예측 알고리즘을 이용해 직접적인 하이퍼파라미터 조정을 통한 분석 모델 학습을 수행하지 않고, 데이터셋과 분석모델에 적합한 하이퍼파라미터 값을 예측한다. 하이퍼파라미터 알고리즘은 입력 데이터 셋과 수행된 분석 모델과 수행 결과를 분석하고 학습하여 최적의 성능을 도출할 수 있는 하이퍼파라미터를 예측하는 알고리즘이다. 빅데이터 분석 시각화 장치(10)는 저성능 또는 과적합 여부에 따른 데이터 비율 조정하여 최적의 성능을 도출할 수 있는 하이퍼파라미터의 조정 값을 추천한다.
단계 S2506에서 빅데이터 분석 시각화 장치(10)는 추천한 조정 값을 적용한 분석 모델의 성능 결과 및 검증 지표와 사용자 입력 하이퍼파라미터를 적용한 분석 모델의 성능 결과 및 검증 지표를 비교하여 변화를 시각화하여 표시한다.
단계 S2507에서 빅데이터 분석 시각화 장치(10)는 분석 모델의 성능 값이 최적이라고 판단되거나 성능 값 목표치에 달성되었다면 분석 모델 및 하이퍼파라미터를 확정하고 하이퍼파라미터 조정작업을 중지한다.
도 26은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 다음 단계의 기능 블록을 추천하는 방법을 설명하기 위한 도면이다.
도 26을 참조하면, 블록 추천부(530)는 데이터셋 분석과 현재의 블록 단계 분석을 통해 다음 기능 블록을 추천한다.
단계 S2601에서 빅데이터 분석 시각화 장치(10)는 데이터 분석 워크플로우를 수행 중 다음 블록의 추천 요청을 수신한다.
단계 S2602에서 빅데이터 분석 시각화 장치(10)는 선택한 기능 블록의 진행 단계를 구분하는 블록 분석 알고리즘을 수행하여 현 기능 블록의 진행 단계를 분석한다.
단계 S2603에서 빅데이터 분석 시각화 장치(10)는 데이터셋 분석 알고리즘을 이용해 입력된 데이터셋을 분석한다.
단계 S2604에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘 결과값과 및 데이터셋 분석 알고리즘 결과 값을 취합하여 상세 과정을 구분할 수 있는 상세 단계 분석 메타데이터를 생성한다.
단계 S2605에서 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터와 기존의 워크플로우 분석 데이터를 기반으로 상세 단계 분석 메타데이터와 워크플로우 분석 데이터의 유사도 분석을 수행한다.
단계 S2606에서 빅데이터 분석 시각화 장치(10)는 유사도 분석에서 상위 랭크된 워크플로우에서 사용된 기능 블록을 추천한다. 다시 설명하면, 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터와 유사도가 높은 워크플로우 분석 데이터를 추출하여 해당 워크플로우 내의 기능 블록을 추천한다.
도 27은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 다음 단계의 기능 블록을 추천하는 예시 화면이다.
도 27을 참조하면, 단계 S2701에서 빅데이터 분석 시각화 장치(10)는 데이터 분석 워크플로우를 수행 중 다음 기능 블록의 추천 요청을 수신한다.
단계 S2702에서 빅데이터 분석 시각화 장치(10)는 선택한 기능 블록의 진행 단계를 구분하는 블록 분석 알고리즘을 수행하여 현 기능 블록의 메타데이터를 추출한다. 예를 들면, 블록 메타데이터는 블록 ID, 파라미터 ID, 파라미터 입력값, 파라미터 리스트 등의 블록 기본 정보와, 이미 사용한 블록의 사용내역 리스트 등을 포함한다.
단계 S2703에서 빅데이터 분석 시각화 장치(10)는 데이터셋 분석 알고리즘을 이용해 입력된 데이터셋의 메타데이터를 추출한다. 예를 들면, 입력된 데이터셋 메타데이터는 데이터 타입, 데이터 사이즈, 특성의 숫자, 결측 지 여부 및 비율, 이상 치 여부 및 비율, 중복 데이터 여부 및 비율 등의 정보를 포함한다.
단계 S2704에서 빅데이터 분석 시각화 장치(10)는 블록 메타데이터 및 데이터셋 메타데이터를 이용하여 상세 단계 분석 메타데이터를 생성한다.
단계 S2705에서 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터의 특징 값으로, 생성된 워크플로우 또는 제공된 템플릿의 워크플로우와 클러스터링 모델을 수행한다. 이때 클러스터링 모델은 k-means(k-평균), k-mode(k-모드), DBSCAN(밀도 기반) 클러스터링 기법 등이 있다.
단계 S2706에서 빅데이터 분석 시각화 장치(10)는 유사도 분석을 통해 클러스터링된 워크플로우 내에서 상세 단계 분석 메타데이터의 특징 값과 유사한 상위랭크 워크플로우를 추출한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 데이터셋 패턴, 지정한 종속변수, 사용 기능 블록, 기능 블록들 간의 연결관계 등의 유사도를 분석할 수 있다. 유사도 분석 모델은 유클리디안 거리, 맨하튼 거리, 스피어만 상관점수의 유사도 분석 기법 등을 이용할 수 있다.
단계 S2707에서 빅데이터 분석 시각화 장치(10)는 유사도 분석에서 상위 랭크된 워크플로우에서 해당 단계에 사용된 기능 블록을 추천한다.
도 28 은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 분석 모델을 추천하는 방법을 설명하기 위한 도면이다.
도 28을 참조하면, 모델 추천부(540)는 입력된 데이터셋으로 가장 적합한 분석 모델을 추천하여 분석을 수행한다.
단계 S2801에서 빅데이터 분석 시각화 장치(10)는 분석이 필요한 데이터셋을 입력 받고, 대상 변수 지정 시에 예측 대상값(Y값)을 지정할 수 있다.
단계 S2802에서 빅데이터 분석 시각화 장치(10)는 적합 모델 평가 알고리즘을 수행하여 입력된 데이터셋에 다종의 분석 모델을 모의 적용하고 데이터셋과 분석 모델의 적합 점수를 산출한다.
단계 S2803에서 빅데이터 분석 시각화 장치(10)는 적합 모델 평가 알고리즘을 이용해 산출한 적합 점수가 상위 n개에 해당하는 분석 모델을 추천하거나 최고 적합 점수를 획득한 분석 모델을 워크플로우에 적용한다.
단계 S2804에서 빅데이터 분석 시각화 장치(10)는 데이터셋 메타데이터 및 추천 분석 모델의 블록 메타데이터를 이용해 유사도 분석을 수행한다. 자세히 설명하면, 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘으로 추천 분석 모델의 블록 메타데이터를 분석하고 데이터셋 분석 알고리즘으로 입력 데이터셋 메타데이터를 분석하고 그 결과값들을 취합하여 상세 과정을 구분할 수 있는 상세 단계 분석 메타데이터를 생성한다. 빅데이터 분석 시각화 장치(10)는 상세 단계 분석 메타데이터와 기존의 워크플로우 분석 데이터를 기반으로 상세 단계 분석 메타데이터와 워크플로우 분석 데이터의 유사도 분석을 수행할 수 있다.
단계 S2805에서 빅데이터 분석 시각화 장치(10)는 유사도가 높은 워크플로우를 기반으로 템플릿을 추천한다.
도 29는 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 분석 모델을 추천하는 예시 화면이다.
도 29를 참조하면, 단계S2801에서 빅데이터 분석 시각화 장치(10)는 데이터셋을 입력 받는다.
단계S2902에서 빅데이터 분석 시각화 장치(10)는 입력 데이터셋을 분석 모델에 모의 적용하여 적합 점수를 산출하는 적합 모델 추천 알고리즘을 수행한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 입력된 데이터셋에 랜덤 포레스트, 상관분석, 다층 퍼셉트론, 나이브베이즈, k-means(k-평균) 모델 등을 모의 적용하여 AUC점수를 산출하고 적합 점수를 산정한다.
단계S2903에서 빅데이터 분석 시각화 장치(10)는 산출된 적합 점수가 상위 n건에 해당하는 분석 모델을 추천한다.
단계S2904에서 빅데이터 분석 시각화 장치(10)는 추천 분석 모델 중 선택된 분석 모델 또는 최상위 AUC 점수를 획득한 분석 모델의 블록을 블록 분석 알고리즘으로 분석하고, 데이터셋 분석 알고리즘을 통해 데이터셋을 분석한다.
단계 S2905에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘 및 데이터셋 분석 알고리즘의 결과 값으로 획득한 블록 메타데이터와 데이터셋 메타데이터를 결합하여 제공된 템플릿의 워크플로우와의 유사도 분석을 수행한다.
단계 S2906에서 빅데이터 분석 시각화 장치(10)는 유사도가 높은 상위 n개의 워크플로우를 포함하는 템플릿을 추천한다.
도 30은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 추천된 블록들로 워크플로우를 생성하는 방법을 설명하기 위한 도면이다.
도 30을 참조하면, 워크플로우 생성부(550)는 추천된 블록들을 워크플로우 내에 적합한 위치에 생성하여 새로운 워크플로우를 생성할 수 있다. 워크플로우 생성부(550)는 생성된 워크플로우를 사용자의 워크플로우로 저장하거나 워크플로우 템플릿으로 저장할 수 있다.
단계 S3001에서 빅데이터 분석 시각화 장치(10)는 워크플로우 작성 중 분석 과정 추천을 요청받는다.
단계 S3002에서 빅데이터 분석 시각화 장치(10)는 입력된 데이터셋 분석 알고리즘을 통해 데이터셋을 분석하여 전처리 블록을 추천한다.
단계 S3003에서 빅데이터 분석 시각화 장치(10)는 작성 중 워크플로우의 블록을 블록 분석 알고리즘을 통해 분석한다.
단계 S3004에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘 및 데이터셋 분석 알고리즘의 결과 값을 이용해 분석 모델의 블록을 추천한다.
단계 S3005에서 빅데이터 분석 시각화 장치(10)는 시각화 추천 알고리즘을 통해 효과적인 시각화에 적합한 시각화 블록을 추천한다.
단계 S3006에서 빅데이터 분석 시각화 장치(10)는 추천된 블록들을 블록 배치 알고리즘을 통해 적합한 위치와 순서에 맞게 연결하여 워크플로우를 생성한다.
도 31은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 추천된 블록들로 워크플로우를 생성하는 예시 화면이다.
단계 S3101에서 빅데이터 분석 시각화 장치(10)는 블록과 블록 사이의 분석 과정 추천을 요청받는다. 빅데이터 분석 시각화 장치(10)는 분석 과정 추천을 위해 입력된 데이터셋 및 선택된 기능 블록을 확인한다.
단계 S3102에서 빅데이터 분석 시각화 장치(10)는 입력된 데이터셋을 데이터셋 분석 알고리즘을 통해 데이터셋 메타데이터를 추출한다.
단계 S3103에서 빅데이터 분석 시각화 장치(10)는 데이터셋 메타데이터를 기반으로 필요한 전처리를 분석하여 전처리 블록을 추천한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 이상치 발견 시 이상치 처리 블록, 결측 치 발견 시 결측 치 처리 블록, 컬럼수가 불필요하게 많으면 파생변수 블록, PCA 블록들 데이터셋에 필요한 전처리 블록을 추천할 수 있다.
단계 S3104에서 빅데이터 분석 시각화 장치(10)는 블록 분석 알고리즘을 통해 선택된 기능 블록의 블록 메타데이터를 추출한다.
단계 S3105에서 빅데이터 분석 시각화 장치(10)는 블록 메타데이터와 데이터셋 메타데이터를 이용해 분석 모델의 블록을 추천한다.
단계 S3106에서 빅데이터 분석 시각화 장치(10)는 시각화 추천 알고리즘을 통해 시각화 블록을 추천한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 중복 시각화를 제외하고, 사용 중인 전처리 블록이 이상치 처리 블록이면 박스플롯 또는 산점도 시각화 블록을 추천하고, 데이터셋이 범주형이면 비율 확인을 할 수 있는 파이 차트 시각화 블록을 추천할 수 있다.
단계 S3107에서 빅데이터 분석 시각화 장치(10)는 추천된 블록들을 블록 전후 관계 분석 알고리즘을 통해 적합한 위치와 순서로 배치하여 워크플로우를 생성한다. 예를 들면, 빅데이터 분석 시각화 장치(10)는 시각화 블록은 연관 블록의 뒤에 배치하고, 전처리 블록은 데이터 입력과 대상 데이터 분석 블록 사이에 배치한다.
도 32 내지 도 36은 본 발명의 일 실시 예에 따른 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치의 예시 화면들이다.
도 32는 빅데이터 분석 시각화 장치(10)가 데이터를 수집하는 예시 화면이다.
도 32를 참조하면, 빅데이터 분석 시각화 장치(10)는 엑셀 파일 형식, CSV 파일 형식, RDS 파일 형식, TXT 파일 형식 및 데이터베이스도 드래그 앤 드롭으로 연결하여 분석하기 원하는 데이터를 수집할 수 있다. 또한 빅데이터 분석 시각화 장치(10)는 제공되는 OpenAPI를 이용해 직접 데이터를 수집할 수 있다.
도 33은 빅데이터 분석 시각화 장치(10)가 데이터 전처리를 수행한 예시 화면이다.
도 33을 참조하면, 빅데이터 분석 시각화 장치(10는 컬럼 정보를 변경할 수 있고, 전처리를 위한 데이터를 확인할 수 있다.
도 34는 빅데이터 분석 시각화 장치(10)가 분석 모델을 이용해 빅데이터를 분석하는 예시 화면이다.
도 34를 참조하면, 빅데이터 분석 시각화 장치(10)는 하이퍼파라미터 및 대상 변수 값을 지정하여 랜덤포레스트 분석 모델을 이용해 분석하고, 분석 모델의 성능 지표도 확인할 수 있다.
도 35는 빅데이터 분석 시각화 장치(10)가 시각화를 수행한 예시 화면이다.
도 35를 참조하면, 빅데이터 분석 시각화 장치(10)는 웹페이지 조작방식으로 프로그램 코딩없이 빅데이터를 분석하고 그 결과를 시각화할 수 있다.
도 36은 빅데이터 분석 시각화 장치(10)가 사용하는 기능 블록의 예시 화면이다.
도 36을 참조하면, 빅데이터 분석 시각화 장치(10)는 기능 블록을 드래그앤 드롭 또는 클릭하여 선택하고 이동시킬 수 있다. 빅데이터 분석 시각화 장치(10)는 기능 블록을 각 단계별로 색상이 상이하게 표현하고, 요구에 따라 기능 블록의 내부 포인트 또는 외부 포인트를 포함한다. 또한 기능 블록의 내부 포인트 또는 외부 포인트는 상태에 따라 색상이 상이하여 직관적이다. 빅데이터 분석 시각화 장치(10)는 기능 블록 외부 포인트를 블록 파이프라인을 이용해 기능 블록끼리 연결할 수 있다.
상술한 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: 빅데이터 분석 시각화 장치
100: 수집부
200: 전처리부
300: 분석부
400: 시각화부
500: 수행부
510: 오류 수정부
520: 성능 향상부
530: 블록 추천부
540: 모델 추천부
550: 워크플로우 생성부

Claims (11)

  1. 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치에 있어서,
    분석하려는 데이터를 수집하는 수집부;
    상기 데이터를 분석 모델에 맞도록 전처리하는 전처리부;
    상기 데이터를 분석 모델로 분석하는 분석부;
    상기 분석 모델을 수행한 결과를 적합한 그래프로 시각화하는 시각화부 및
    상기 데이터의 수집, 전처리, 분석 및 시각화 과정을 기능 블록으로 매칭하여 수행하는 수행부를 포함하고,
    상기 수행부는
    상기 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천하는 성능 향상부를 포함하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치.
  2. 제1항에 있어서
    상기 성능 향상부는
    상기 분석 모델의 하이퍼파라미터의 조정 값을 추천하는 조정부 및
    상기 분석 모델의 성능을 시각화 자료로 제공하는 성능비교부를 포함하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치.
  3. 제1항에 있어서,
    상기 전처리부는
    전처리 과정을 거친 상기 데이터를 파일로 생성하여 제공하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치.
  4. 제1항에 있어서,
    상기 수행부는
    상기 기능 블록을 선택, 배치 및 연결하는 워크플로우를 이용하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치.
  5. 제1항에 있어서,
    데이터셋 분석 시나리오를 템플릿으로 제공하는 오류 값을 보정하는 빅데이터 분석 시각화 장치.
  6. 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치가 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법에 있어서
    분석하려는 데이터를 수집하는 단계;
    상기 데이터를 분석 모델에 맞게 전처리하는 단계;
    상기 데이터를 분석 모델을 이용해 분석하는 단계;
    분석한 상기 데이터를 시각화 하는 단계 및
    상기 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계를 포함하고,
    상기 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는
    상기 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천하는 단계를 포함하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법.
  7. 제6항에 있어서
    상기 분석 모델의 평가 및 성능 향상을 위한 최적의 하이퍼파라미터 값을 추천하는 단계는
    인공지능을 이용해 상기 분석 모델의 성능을 향상시키는 상기 하이퍼파라미터의 조정 값을 추천하는 단계; 및
    입력된 상기 하이퍼파라미터를 적용한 분석 모델과 추천한 상기 하이퍼파라미터를 적용한 성능 결과 및 검증 지표의 변화를 시각화하여 제공하는 단계를 포함하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법.
  8. 제6항에 있어서,
    상기 데이터를 분석 모델에 맞게 전처리하는 단계는
    전처리 과정을 거친 상기 데이터를 파일로 생성하여 제공하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법.
  9. 제6항에 있어서,
    상기 데이터의 수집, 전처리, 분석 및 시각화 단계를 기능 블록으로 매칭하여 수행하는 단계는
    상기 기능 블록을 선택, 배치 및 연결하는 워크플로우를 이용하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법.
  10. 제6항에 있어서
    데이터셋 분석 시나리오를 템플릿으로 제공하는 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법.
  11. 제6항 내지 제10항 중 어느 하나의 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 방법을 실행하는 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.

KR1020210031379A 2020-12-22 2021-03-10 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법 KR20220090360A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200180542 2020-12-22
KR20200180542 2020-12-22

Publications (1)

Publication Number Publication Date
KR20220090360A true KR20220090360A (ko) 2022-06-29

Family

ID=82270436

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210031379A KR20220090360A (ko) 2020-12-22 2021-03-10 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20220090360A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102545575B1 (ko) * 2022-07-21 2023-06-21 (주)시큐레이어 고객군별 특성에 따른 이중화 서비스 플로우를 적용한 플랫폼을 통한 ai모델 자동추천 구독 서비스 방법 및 서버
KR102588260B1 (ko) * 2023-03-08 2023-10-11 강원석 직관성이 향상된 인포그래픽 시스템
KR102613177B1 (ko) * 2023-04-17 2023-12-14 주식회사 바운드포 초거대 인공지능(Hyperscale AI) 비전 데이터 드리프트(Vision Data Drift)탐지 네트워크 기반의 인공지능 데이터 관리 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102545575B1 (ko) * 2022-07-21 2023-06-21 (주)시큐레이어 고객군별 특성에 따른 이중화 서비스 플로우를 적용한 플랫폼을 통한 ai모델 자동추천 구독 서비스 방법 및 서버
KR102588260B1 (ko) * 2023-03-08 2023-10-11 강원석 직관성이 향상된 인포그래픽 시스템
KR102613177B1 (ko) * 2023-04-17 2023-12-14 주식회사 바운드포 초거대 인공지능(Hyperscale AI) 비전 데이터 드리프트(Vision Data Drift)탐지 네트워크 기반의 인공지능 데이터 관리 시스템 및 방법

Similar Documents

Publication Publication Date Title
US11487941B2 (en) Techniques for determining categorized text
US11681925B2 (en) Techniques for creating, analyzing, and modifying neural networks
EP3683747A1 (en) Ai-driven transaction management system
KR20220090360A (ko) 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법
US11361004B2 (en) Efficient data relationship mining using machine learning
US20220044133A1 (en) Detection of anomalous data using machine learning
KR102068715B1 (ko) 변수 중요도에 따른 가중치가 적용된 변수를 이용한 이상값 탐지 장치 및 방법
US11640539B2 (en) Techniques for visualizing the operation of neural networks using samples of training data
AU2003221986A1 (en) Processing mixed numeric and/or non-numeric data
CN112835570A (zh) 一种基于机器学习的可视化数学建模方法和系统
KR20220090358A (ko) 빅데이터 분석 시각화 장치 및 방법
KR20220090359A (ko) 오류 값을 보정하는 빅데이터 분석 시각화 장치 및 방법
US20220138621A1 (en) System and method for facilitating a machine learning model rebuild
US20210012209A1 (en) Techniques for modifying neural network definitions
CN115188429A (zh) 一种融合时序特征提取的催化裂化装置关键指标建模方法
Bonaccorso Hands-On Unsupervised Learning with Python: Implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more
EP4352670A1 (en) Resource allocation optimization for multi-dimensional machine learning environments
US11615321B2 (en) Techniques for modifying the operation of neural networks
CN112287199A (zh) 一种基于云服务器的大数据中心处理系统
Sarang Thinking Data Science: A Data Science Practitioner’s Guide
KR20220090361A (ko) 블록을 추천하는 빅데이터 분석 시각화 장치 및 방법
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
Jasra et al. Literature review of machine learning techniques to analyse flight data
KR20220090363A (ko) 추천 블록으로 워크플로우를 생성하는 빅데이터 분석 시각화 장치 및 방법
KR20220090362A (ko) 분석 모델을 추천하는 빅데이터 분석 시각화 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal