KR20210143464A - 데이터 분석 장치 및 그것의 데이터 분석 방법 - Google Patents

데이터 분석 장치 및 그것의 데이터 분석 방법 Download PDF

Info

Publication number
KR20210143464A
KR20210143464A KR1020200060262A KR20200060262A KR20210143464A KR 20210143464 A KR20210143464 A KR 20210143464A KR 1020200060262 A KR1020200060262 A KR 1020200060262A KR 20200060262 A KR20200060262 A KR 20200060262A KR 20210143464 A KR20210143464 A KR 20210143464A
Authority
KR
South Korea
Prior art keywords
data analysis
module
score
generating
processes
Prior art date
Application number
KR1020200060262A
Other languages
English (en)
Inventor
김은미
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020200060262A priority Critical patent/KR20210143464A/ko
Priority to US16/885,747 priority patent/US11681935B2/en
Publication of KR20210143464A publication Critical patent/KR20210143464A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 데이터 분석 장치에 의해 수행되는 방법은, 사용자에 의해 정의된 복수의 데이터 분석 모듈을 이용하여 복수의 모듈 조합 프로세스를 생성하는 단계; 복수의 모듈 조합 프로세스의 실행 결과에 기초하여 데이터 분석 모듈 각각에 대한 스코어를 산출하는 단계; 및 스코어에 기초하여 선택된 데이터 분석 모듈의 조합을 포함하는 추천 모듈 후보군을 생성하는 단계를 포함한다.

Description

데이터 분석 장치 및 그것의 데이터 분석 방법{APPARATUS FOR DATA ANALYSIS AND METHOD THEREOF}
본 발명은 데이터 분석 장치 및 그것의 데이터 분석 방법에 관한 것으로서, 보다 자세하게는, 데이터의 분석 과정을 자동화하기 위한 데이터 분석 장치 및 그것의 데이터 분석 방법에 관한 것이다.
일반적인 데이터의 분석 과정은 데이터의 전 처리, 분석 모형 개발, 및 후처리 단계를 거치게 되며, 각 단계의 수행 시 실험적 변수가 다양하여 유의미한 실험 결과를 얻기까지 수 차례 반복을 수행해야만 한다.
독립적인 데이터 분석 단계를 수행하는 경우에도, 변수 조합의 가짓수는 실험의 복잡도에 비례하여 지수적으로 증가하게 되므로, 동일한 분석 과정을 되풀이하게 된다.
또한, 분석 모형 개발이 안정적으로 완료되더라도, 데이터 전 처리 및 후처리 단계의 실험 계획에 따라 수십 내지 수백 가지 방법을 변경해가며 반복 수행하게 된다.
이와 같은 데이터 분석의 전 과정을 자동화하기 위해서는 단순히 변수 변경 등의 방법으로 불가능하며, 변경할 수 있는 경우를 전부 수행하더라도 지수적으로 증가되는 시간 및 비용을 지불해야 하는 문제점이 있다.
또한, 초급 분석가가 데이터 분석 과정의 각 단계에서 사용 가능한 여러 가지 분석 방법 중 최적의 분석 방법을 적용하기 위해서는 수 차례 실험 과정을 통해 결과를 비교해야 하는 비효율적인 측면이 있다.
공개특허공보 제10-2020-0047006호(2020.05.07. 공개)
본 발명이 해결하고자 하는 기술적 과제는, 데이터 분석의 전 과정을 자동화하기 위한 데이터 분석 장치 및 그것의 데이터 분석 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 데이터 분석 과정의 각 단계에서 사용될 수 있는 최적의 분석 방법을 추천할 수 있는 데이터 분석 장치 및 그것의 데이터 분석 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는, 데이터 분석 과정의 각 단계를 수행하기 위해 소요되는 시간을 단축시킬 수 있는 데이터 분석 장치 및 그것의 데이터 분석 방법을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 데이터 분석 장치에 의해 수행되는 방법은, 사용자에 의해 정의된 복수의 데이터 분석 모듈을 이용하여 복수의 모듈 조합 프로세스를 생성하는 단계; 복수의 모듈 조합 프로세스의 실행 결과에 기초하여 데이터 분석 모듈 각각에 대한 스코어를 산출하는 단계; 및 스코어에 기초하여 선택된 데이터 분석 모듈의 조합을 포함하는 추천 모듈 후보군을 생성하는 단계를 포함한다.
일 실시예로서, 상기 복수의 데이터 분석 모듈 각각은, 분류, 군집화, 및 임베딩 벡터(embedding vector) 등과 관련하여 사용되는 최소 단위의 분석 알고리즘을 포함할 수 있다.
일 실시예로서, 상기 복수의 모듈 조합 프로세스를 생성하는 단계는, 상기 데이터 분석 모듈 각각의 분석 가능한 모든 조합을 이용하여 상기 모듈 조합 프로세스를 설정하는 단계를 포함할 수 있다.
일 실시예로서, 상기 복수의 모듈 조합 프로세스를 생성하는 단계는, 상기 각 모듈 조합 프로세스에 포함된 데이터 분석 모듈 각각에 대한 파라미터 정보를 포함하는 모듈 파라미터 어레이를 생성하는 단계를 포함할 수 있다.
일 실시예로서, 상기 모듈 파라미터 어레이를 생성하는 단계는, 상기 데이터 분석 모듈과, 상기 각 데이터 분석 모듈에 대응하는 파라미터 필드의 최대 길이, 및 임베딩 스페이스(embedding space)를 각 차원으로 하는 3차원 어레이를 생성하는 단계; 및 상기 3차원 어레이를 초기화하는 단계를 포함할 수 있다.
일 실시예로서, 상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 단계는, 상기 모듈 파라미터 어레이에 기초하여 상기 복수의 모듈 조합 프로세스를 실행함에 의해 상기 모듈 조합 프로세스 각각에 대한 정확도(accuracy) 및 실행시간(elapsed time)에 관한 정보를 획득하는 단계; 상기 정확도 및 실행시간에 관한 정보를 이용하여 상기 데이터 분석 모듈 각각의 기여도를 산정하는 단계; 및 상기 기여도에 기초하여 상기 데이터 분석 모듈 각각에 대한 스코어를 추정하는 단계를 포함할 수 있다.
일 실시예로서, 상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 단계는, 상기 모듈 조합 프로세스 각각의 정확도 간 차분값에 기초하여 상기 모듈 파라미터 어레이에 포함된 상기 데이터 분석 모듈 각각의 파라미터 정보를 업데이트하는 단계를 더 포함할 수 있다.
일 실시예로서, 상기 추천 모듈 후보군을 생성하는 단계는, 상기 산출된 스코어에 기초하여 상기 복수의 데이터 분석 모듈 중 높은 스코어를 가지는 소정 개수의 데이터 분석 모듈을 선정하는 단계를 포함할 수 있다.
일 실시예로서, 상기 추천 모듈 후보군을 생성하는 단계는, 상기 모듈 조합 프로세스 각각에 대한 정확도에 기초하여 문턱값을 설정하는 단계; 및 상기 문턱값에 기초하여 상기 추천 모듈 후보군의 개수를 조절하는 단계를 포함할 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 데이터 분석 장치는, 하나 이상의 프로세서; 외부장치와 통신하는 통신 인터페이스; 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리; 및 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 컴퓨터 프로그램은, 사용자에 의해 정의된 복수의 데이터 분석 모듈을 이용하여 복수의 모듈 조합 프로세스를 생성하는 동작, 복수의 모듈 조합 프로세스의 실행 결과에 기초하여 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작, 및 데이터 분석 모듈 각각의 스코어에 기초하여 데이터 분석을 위한 추천 모듈 후보군을 생성하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함한다.
일 실시예로서, 상기 복수의 모듈 조합 프로세스를 생성하는 동작은, 상기 각 모듈 조합 프로세스에 포함된 데이터 분석 모듈 각각에 대한 파라미터 정보를 포함하는 모듈 파라미터 어레이를 생성하는 동작을 포함할 수 있다.
일 실시예로서, 상기 모듈 파라미터 어레이를 생성하는 동작은, 상기 데이터 분석 모듈과, 상기 각 데이터 분석 모듈에 대응하는 파라미터 필드의 최대 길이, 및 임베딩 스페이스(embedding space)를 각 차원으로 하는 3차원 어레이를 생성하는 동작, 및 상기 3차원 어레이를 초기화하는 동작을 포함할 수 있다.
일 실시예로서, 상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작은, 상기 모듈 파라미터 어레이에 기초하여 상기 복수의 모듈 조합 프로세스를 실행함에 의해 상기 모듈 조합 프로세스 각각에 대한 정확도(accuracy) 및 실행시간(elapsed time)에 관한 정보를 획득하는 동작, 상기 정확도 및 실행시간에 관한 정보를 이용하여 상기 데이터 분석 모듈 각각의 기여도를 산정하는 동작, 및 상기 기여도에 기초하여 상기 데이터 분석 모듈 각각에 대한 스코어를 추정하는 동작을 포함할 수 있다.
일 실시예로서, 상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작은, 상기 모듈 조합 프로세스 각각의 정확도에 기초하여 상기 모듈 조합 프로세스 각각에 대해 리워드 또는 페널티를 부여하는 동작을 더 포함할 수 있다.
일 실시예로서, 상기 데이터 분석을 위한 추천 모듈 후보군을 생성하는 동작은, 상기 산출된 스코어에 기초하여 상기 복수의 데이터 분석 모듈 중 높은 스코어를 가지는 소정 개수의 데이터 분석 모듈을 선정하는 동작을 포함할 수 있다.
일 실시예로서, 상기 데이터 분석을 위한 추천 모듈 후보군을 생성하는 동작은, 상기 모듈 조합 프로세스 각각에 대한 정확도에 기초하여 문턱값을 설정하는 동작, 및 상기 문턱값에 기초하여 상기 추천 모듈 후보군의 개수를 조절하는 동작을 포함할 수 있다.
도 1은 본 발명의 일 실시예에 따른 데이터 분석 장치의 구성을 도시한 블록도이다.
도 2는 도 1을 참조하여 설명한 데이터 분석 장치의 하드웨어 구성을 도시한 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 데이터 분석 방법을 설명하기 위한 순서도이다.
도 5는 도 1을 참조하여 설명한 학습부 및 분석부가 수행하는 동작을 도시한 예이다
도 6은 도 3을 참조하여 설명한 데이터 분석 방법에 있어 데이터 분석 모듈의 스코어를 산출하는 식이다.
도 7은 도 1을 참조하여 설명한 학습부가 수행하는 동작을 설명하기 위한 순서도이다.
도 8 내지 도 12는 도 7을 참조하여 설명한 학습부가 수행하는 구체적인 동작의 예이다
도 13은 도 1을 참조하여 설명한 분석부가 수행하는 동작을 설명하기 위한 순서도이다.
도 14은 도 13을 참조하여 설명한 분석부가 수행하는 구체적인 동작의 예이다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시 예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 데이터 분석 장치의 구성을 도시한 블록도이다. 도 1을 참조하면, 본 발명의 실시예에 따라 데이터 분석 장치(100)는 서버(110)와 데이터베이스(120)를 포함하고, 사용자 단말(10)로부터 수신되는 데이터 분석 요청을 처리하여, 그 결과를 제공한다.
서버(110)는 고정식 컴퓨팅 장치로서, 사용자 단말(10) 및 데이터 저장부(30)와 네트워크를 통해 연결된다. 서버(110)는 사용자 단말(10)로부터 수신되는 데이터 분석 요청에 대해, 데이터 저장부(30)에 저장되어 있는 데이터를 이용하여 데이터 분석을 수행한다. 서버(110)는 통계 분석 및 인공지능 알고리즘을 실행 가능한 머신 러닝(Machine Learning) 전용 장치로 구현될 수 있다.
데이터 저장부(30)는 데이터 분석 장치(100)와 네트워크로 연결되어 있는 별도의 외부 장치 또는 DB 서버로 구현될 수 있고, 다양한 분야의 비즈니스 환경에서 발생되는 데이터를 저장할 수 있다.
이 때, 데이터 저장부(30)에 저장되는 데이터는 텍스트 또는 이미지와 같은 형태의 데이터를 모두 포함할 수 있고, 데이터의 형태에 있어 제한되지 않고 저장 가능한 형태의 데이터를 모두 포함할 수 있다.
서버(110)는 일정 주기 단위로 데이터 저장부(30)로부터 데이터를 전송받거나, 사용자 단말(10)로부터 요청이 발생할 때마다 데이터 저장부(30)로 필요한 데이터를 요청할 수도 있다.
서버(110)는 데이터 저장부(30)로부터 전송받은 데이터에 대해, 데이터 전처리, 분석 모형 개발, 및 후처리 단계 등 여러 단계의 분석을 수행하고, 이에 따른 분석 결과를 사용자 단말(10)로 제공할 수 있다.
서버(110)는 학습부(111)와 분석부(122)의 구성을 포함한다. 학습부(111)는 데이터 분석을 위한 최소 구분 단위인 데이터 분석 모듈을 정의하고, 데이터 분석 모듈을 이용하여 분석 방법에 대한 탐색 과정을 통해 데이터 분석 모듈 각각에 대한 스코어를 계산한다. 분석부(112)는 학습부(111)에서 계산된 각 데이터 분석 모듈의 스코어가 높은 순서로 최적의 데이터 분석 모듈의 조합을 포함하는 추천 모듈 후보군을 생성한다.
데이터베이스(120)는 서버(110)가 사용자 단말(10)로부터 수신한 데이터 분석을 위한 모듈 정보(121)와, 모듈 조합 프로세스 정보(122)를 저장한다. 여기서, 모듈 정보(121)는 데이터 분석을 위해 사용되는 최소 단위의 분석 알고리즘에 관한 정보로서, 사용자 단말(10)로부터 수신되거나, 복수의 사용자에 의해 서버(110)에 기 등록되어 저장되어 있을 수 있다. 일 실시예로서, 모듈 정보는, 예컨대 텍스트 데이터의 분석을 위한 분류(classification), 군집화(clustering), 및 BoW 임베딩 벡터(bag of word embedding vector) 등의 분석 방법에 관한 정보를 포함할 수 있다. 또한, 모듈 정보는, 예컨대 이미지 데이터의 분석을 위한 분류, 군집화, 및 임베딩 벡터(embedding vector) 등의 분석 방법에 관한 정보를 포함할 수 있다.
모듈 조합 프로세스 정보(122)는, 모듈 정보(121)에 저장되는 모듈들을 이용하여 생성한 복수의 모듈 조합 프로세스에 관한 정보로서, 사용자 단말(10)로부터 수신되어 저장될 수 있다. 사용자 단말(10)은 사용자 인터페이스를 통해 모듈 조합 프로세스를 그래프 이미지의 형태로 생성하고, 그래프 이미지의 형태로 생성된 모듈 조합 프로세스에 관한 정보를 서버(110)로 전송할 수 있다.
이와 같이 데이터베이스(120)는 데이터 분석 장치(100)에서 처리된 데이터 분석과 관련된 모든 정보를 저장하는 DB 서버로 구현될 수 있다.
사용자 단말(10)은 예컨대, 개인용 데스크탑 PC와 같은 고정식 컴퓨팅 장치, 스마트 폰, 태블릿 PC, 랩톱 PC, PDA, VR(Virtual Reality) 영상 장치, AR(Augmented Reality) 영상 장치 등과 같은 이동식 컴퓨팅 장치 중 어느 하나일 수 있다. 사용자 단말(10)는 데이터 분석 장치(100)의 서버(110)로 데이터 분석을 위한 모듈에 관한 정보와, 복수의 모듈 조합 프로세스에 관한 정보를 생성하여 제공하고, 서버(110)로부터 제공되는 추천 모듈 후보군에 관한 정보를 이용하여 의사 결정을 하는 관리자 또는 데이터 분석을 수행하는 직원의 단말기로 구현될 수 있다.
상기와 같이 본 발명의 실시예에 따른 데이터 분석 장치(100)의 구성에 의해, 데이터 분석의 전 과정을 자동화할 수 있다. 또한, 데이터 분석 과정의 각 단계에서 사용될 수 있는 최적의 분석 방법을 추천해줄 수 있다.
도 2는 도 1을 참조하여 설명한 데이터 분석 장치의 하드웨어 구성을 도시한 구성도이다.
도시된 바와 같이, 데이터 분석 장치(100)의 서버(110)는 컴퓨팅 장치로서, 하나 이상의 프로세서(101), 버스(107), 네트워크 인터페이스(102), 프로세서(101)에 의하여 수행되는 컴퓨터 프로그램(105)을 로드(load)하는 메모리(103)와, 컴퓨터 프로그램(105)를 저장하는 스토리지(104)를 포함할 수 있다. 다만, 도 2에는 본 발명의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 2에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 도 2에 도시된 특징 추천 장치(100)의 서버(110)는 IaaS(Infrastructure-as-a-Service) 방식의 클라우드 서비스를 제공하는 서버팜(server farm)에 소속된 물리 서버 중 어느 하나를 가리킬 수 있다.
프로세서(101)는 데이터 분석 장치(100)의 서버(110)의 각 구성의 전반적인 동작을 제어한다. 프로세서(101)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(101)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 데이터 분석 장치(100)의 서버(110)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(103)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(103)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(104)로부터 하나 이상의 프로그램(105)을 로드(load) 할 수 있다. 예를 들어, 컴퓨터 프로그램(105)이 메모리(103)에 로드 되면, 로직(또는 모듈)이 메모리(103) 상에 구현될 수 있다. 메모리(103)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.
버스(107)는 데이터 분석 장치(100)의 서버(110)의 구성 요소 간 통신 기능을 제공한다. 버스(107)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
네트워크 인터페이스(102)는 데이터 분석 장치(100)의 서버(110)의 유무선 인터넷 통신을 지원한다. 네트워크 인터페이스(102)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 네트워크 인터페이스(102)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
스토리지(104)는 하나 이상의 컴퓨터 프로그램(105)을 비임시적으로 저장할 수 있다. 스토리지(104)는 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다. 또한, 스토리지(104)는 본 발명의 실시예에 따라 서버(110)가 수행하는 데이터 분석 방법에 의해 제공되는 추천 모듈 후보군에 관한 정보(106)를 저장할 수 있다.
컴퓨터 프로그램(105)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 컴퓨터 프로그램(105)은 사용자에 의해 정의된 복수의 데이터 분석 모듈을 이용하여 복수의 모듈 조합 프로세스를 생성하는 동작, 복수의 모듈 조합 프로세스의 실행 결과에 기초하여 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작, 및 스코어에 기초하여 선택된 데이터 분석 모듈의 조합을 포함하는 추천 모듈 후보군을 생성하는 동작을 수행하기 위한 인스트럭션들을 포함할 수 있다.
일 실시예로서, 복수의 모듈 조합 프로세스를 생성하는 동작은, 각 모듈 조합 프로세스 포함된 데이터 분석 모듈 각각에 대한 파라미터 정보를 포함하는 모듈 파라미터 어레이를 생성하는 동작을 포함할 수 있다.
일 실시예로서, 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작은, 모듈 파라미터 어레이에 기초하여 복수의 모듈 조합 프로세스를 실행함에 의해 모듈 조합 프로세스 각각에 대한 정확도(accuracy) 및 실행시간(elapsed time)에 관한 정보를 획득하는 동작, 정확도 및 실행시간에 관한 정보를 이용하여 데이터 분석 모듈 각각의 기여도를 산정하는 동작, 및 기여도에 기초하여 데이터 분석 모듈 각각에 대한 스코어를 추정하는 동작을 포함할 수 있다. 여기서, 모듈 조합 프로세스 각각의 정확도에 기초하여 모듈 조합 프로세스 각각에 대해 리워드(reward) 또는 페널티(penalty)를 부여하는 동작을 더 포함할 수 있다.
이 때, 모듈 조합 프로세스 각각에 대해 리워드 또는 페널티를 부여함에 있어, 역전파(Back propagation) 방식을 이용하여 모듈 조합 프로세스 각각에 포함된 데이터 분석 모듈의 파라미터 정보를 업데이트할 수 있다.
일 실시예로서, 추천 모듈 후보군을 생성하는 동작은, 모듈 조합 프로세스 각각에 대한 정확도에 기초하여 문턱값을 설정하는 동작, 및 문턱값에 기초하여 추천 모듈 후보군의 개수를 조절하는 동작을 포함할 수 있다.
컴퓨터 프로그램(105)이 메모리(103)에 로드 되면, 프로세서(101)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 데이터 분석 방법을 설명하기 위한 순서도이다. 본 실시예에 따른 데이터 분석 방법은 컴퓨팅 장치에 의하여 실행될 수 있고, 예컨대 데이터 분석 장치(100)에 의해 실행될 수 있다.
본 실시예에 따른 방법을 실행하는 상기 컴퓨팅 장치는 프로그램 개발 환경을 구비한 컴퓨팅 장치이거나, 응용 프로그램 실행 환경을 구비한 컴퓨팅 장치일 수 있다. 본 실시예에 따른 방법에 포함되는 일부 동작의 수행 주체에 대한 기재가 생략될 수 있으며, 그러한 경우 그 주체는 상기 컴퓨팅 장치임을 유의한다.
도 3을 참조하면, 먼저, 동작 S31에서, 사용자에 의해 정의된 복수의 데이터 분석 모듈을 이용하여 복수의 모듈 조합 프로세스가 생성된다.
여기서, 데이터 분석 모듈은, 분류, 군집화, 및 임베딩 벡터 등과 관련하여 사용되는 최소 단위의 분석 알고리즘을 포함할 수 있고, 예컨대 텍스트 데이터, 수치 데이터, 및 이미지 데이터 등 다양한 형태의 데이터에 대해 모두 적용 가능하다. 일 실시예로서, 데이터 분석 모듈은, 데이터 전처리 또는 분석 모형 개발 시 사용되는 다양한 통계 기법과 머신러닝 알고리즘을 포함할 수 있다.
일 실시예로서, 동작 S31은, 데이터 분석 모듈 각각의 분석 가능한 모든 조합을 이용하여 모듈 조합 프로세스를 설정하는 동작을 포함할 수 있다. 즉, 모듈 조합 프로세스는 데이터 분석의 각 단계에서 적용 가능한 모든 데이터 분석 모듈의 조합을 생성하고, 각각의 조합을 하나의 프로세스 단위로 생성한 것이다. 예로서, 복수의 모듈 조합 프로세스는, 모듈 조합 그래프(도 5의 부호 503 참조)와 같이 하나의 그래프 이미지 형태로 제공될 수 있다. 이에 따라, 사용자는 모듈 조합 프로세스의 생성 과정을 시각적으로 확인하는 것이 가능하다.
일 실시예로서, 동작 S31은, 각 모듈 조합 프로세스 포함된 데이터 분석 모듈 각각에 대한 파라미터 정보를 포함하는 모듈 파라미터 어레이(array)를 생성하는 동작을 포함할 수 있다.
여기서, 모듈 파라미터 어레이는 데이터 분석 모듈과, 각 데이터 분석 모듈에 대응하는 파라미터 필드의 최대 길이, 및 임베딩 스페이스(embedding space)를 각 차원으로 하는 3차원 어레이로 생성될 수 있다. 예로서, 도 8에 도시된 바와 같이, 모듈 파라미터 어레이(81)에서, x축은 토큰화(Tokenization), 어간 추출(Stemming), 불용어(Stopword), 인코딩(Encoding), 언어 모델(Language model), 및 추가 모듈(Custom)과 같은 데이터 분석 모듈을 나타내고, y축은 각 데이터 분석 모듈에서 사용되는 파라미터의 최대 길이를 나타낸다. 또한, z축은 임베딩 벡터가 저장되는 공간을 나타내고 하드웨어의 스펙(spec)에 따라 유동적으로 결정될 수 있다.
다음으로, 동작 S32에서, 복수의 모듈 조합 프로세스의 실행 결과에 기초하여 데이터 분석 모듈 각각에 대한 스코어가 산출된다. 여기서, 도 4를 참조하면, 동작 S32의 세부 동작으로써 동작 S321 내지 동작 S324를 포함할 수 있다.
일 실시예로서, 동작 S321에서, 모듈 파라미터 어레이에 기초하여 복수의 모듈 조합 프로세스가 실행되고, 동작 S322에서, 모듈 조합 프로세스 각각에 대한 정확도(accuracy) 및 실행시간(elapsed time)에 관한 정보가 획득된다.
다음으로 동작 S323에서, 정확도 및 실행시간에 관한 정보를 이용하여 데이터 분석 모듈 각각의 기여도가 산정되고, 동작 S324에서, 기여도에 기초하여 데이터 분석 모듈 각각에 대한 스코어가 추정된다.
일 실시예로서, 동작 S323에서 기여도 산정 시, 모듈 조합 프로세스 각각의 정확도 간 차분값에 기초하여 상기 모듈 파라미터 어레이에 포함된 상기 데이터 분석 모듈 각각의 파라미터 정보를 업데이트하는 동작을 더 포함할 수 있다. 이 때, 데이터 분석 모듈의 파라미터 정보를 업데이트하기 위해 역전파(Back propagation) 방식의 신경망 모델(neural network model)이 사용될 수 있다.
마지막으로, 동작 S33에서, 스코어에 기초하여 선택된 데이터 분석 모듈의 조합을 포함하는 추천 모듈 후보군이 생성된다.
일 실시예로서, 동작 S33은, 산출된 스코어에 기초하여 복수의 데이터 분석 모듈 중 높은 스코어를 가지는 소정 개수의 데이터 분석 모듈을 선정하는 동작을 포함할 수 있다.
또한, 동작 S33은, 모듈 조합 프로세스 각각에 대한 정확도에 기초하여 문턱값을 설정하는 동작, 및 문턱값에 기초하여 추천 모듈 후보군의 개수를 조절하는 동작을 포함할 수 있다.
상기와 같이, 본 발명의 실시예에 따른 데이터 분석 방법에 의하면, 데이터 분석 과정의 각 단계에서 사용될 수 있는 최적의 분석 방법에 대한 추천 정보를 제공할 수 있고, 데이터 분석 과정의 각 단계를 수행하기 위해 소요되는 시간을 단축시킬 수 있는 장점이 있다.
도 5는 도 1을 참조하여 설명한 학습부 및 분석부가 수행하는 동작을 도시한 예이다. 도시된 바와 같이, 본 발명의 실시예에 의한 데이터 분석 장치(100)의 서버(110)는 학습부(111) 및 분석부(112)의 구성을 포함한다.
학습부(111) 및 분석부(112)가 수행하는 구체적인 동작은 다음과 같다.
도시된 예에서, 학습부(111)는 먼저, 사용자 단말(10)의 사용자에 의해 작성되는 복수의 데이터 분석 모듈(501)을 관리하는 모듈 자산 풀(Asset Pool)(502)로부터 여러 조합의 데이터 분석 모듈을 연결한 복수의 모듈 조합 그래프(Graph)(503)를 생성한다.
학습부(111)는 복수의 모듈 조합 그래프(503)를 반복 실행하는 탐색 과정을 통해, 각 데이터 분석 모듈에 대한 스코어(504)를 계산한다.
분석부(112)는 학습부(111)에서 계산한 각 데이터 분석 모듈의 스코어(504)를 이용하여 스코어가 높은 데이터 분석 모듈을 결합한 복수의 분석 레시피(Recipe) 후보를 포함하는 분석 레시피 풀(Recipe Pool)(505)을 생성한다.
분석부(112)는 데이터 저장부(30)에 저장되어 있는 원본 데이터(507)에 대해, 분석 레시피 풀(505)에서 선택한 분석 레시피 후보(506)를 적용하여 데이터 분석을 수행한다. 이에 따라, 분석부(112)는 레시피 후보(506)를 적용한 데이터 분석 결과로서 인사이트 자료(508) 및 리포트(509)를 출력할 수 있다.
상기와 같이, 본 발명의 실시예에 따라, 데이터 분석을 위한 모듈을 자산화 하고 초급 분석가에게 최적의 모듈 조합에 의한 실험 계획을 추천함에 의해 데이터 분석에 대한 보다 빠른 접근이 가능하다. 또한, 자산화된 모듈은 블록 개념으로 조립이 가능하여 분석 방법을 빠르게 생성하고, 분석 과정에 소요되는 시간을 단축시켜 빠른 의사 결정을 유도할 수 있다.
도 6은 도 3을 참조하여 설명한 데이터 분석 방법에 있어 데이터 분석 모듈의 스코어를 산출하는 식이다. 도 6은 도 3의 동작 S32에 대응하는 것으로, 데이터 분석 모듈 각각에 대한 스코어를 산출하기 위한 스코어 계산식(51)을 보여준다. 예로서, 도 5의 학습부(111)가 복수의 모듈 조합 그래프(503)를 반복 실행하는 탐색 과정을 통해, 스코어 계산식(51)을 이용하여 각 데이터 분석 모듈에 대한 스코어(504)를 계산할 수 있다.
데이터 분석 모듈 각각의 스코어 계산식(51)은 주요 변수로서 ACP(i)(Accuracy Contribute Point)와 Elapsed Time(i)을 포함한다. 여기서 i는 데이터 분석 모듈 각각을 지칭하는 고유 순번이고, ACP(i)는 데이터 분석 모듈(i)이 모듈 조합 프로세스의 정확도에 기여한 점수를 나타내고, Elapsed Time(i)은 모듈(i)의 실행시간을 나타낸다. 또한, w1, w2, w3는 도메인에 따라 결정되는 가중치를 나타내고, e는 시스템의 성능에 따른 연산 제약 지수로서 시스템이 구현된 환경에 따라 0에서 1 사이의 값으로 조절한다.
스코어 계산식(51)에 의하면, 데이터 분석 모듈 각각이 복수의 모듈 조합 프로세스(예컨대, 모듈 조합 그래프(503)) 각각의 정확도에 기여한 정도와 데이터 분석 모듈 각각의 실행 시간에 기초하여 각 데이터 분석 모듈의 스코어를 산출할 수 있다.
예로서, 학습부(111)는 스코어 계산식(51)을 이용하여 각 데이터 분석 모듈의 스코어(504)를 산출함에 있어, 그래프 단위로 묶인 모듈 조합 그래프(503) 전체를 실행하여 나온 결과값인 정확도와 실행 시간을 이용하여 해당 값이 정확도를 최대로하고 실행시간을 최소로 하는 함수 F[Max(Accuracy),Min(Elapsed Time)]가 되도록 모듈 j의 Fj[Score(J)]에 대한 추정치를 계산할 수 있다. 이 때, 각 모듈의 정확도(Accuracy)와 실행 시간(Elapsed Time)은 역전파 방식(Back Propagation)을 통해 추정값을 산정할 수 있다.
상기와 같은 본 발명의 실시예에 따라, 각 데이터 분석 모듈의 스코어를 계산함에 있어, 각 모듈을 결합한 복수의 모듈 조합 그래프(503)를 생성 및 실행하여 얻어지는 정확도와 실행 시간에 관한 정보를 이용하여 기여도 형태로 환산한 스코어를 산출할 수 있다.
도 7은 도 1을 참조하여 설명한 학습부가 수행하는 동작을 설명하기 위한 순서도이다. 도 7은 도 3의 동작 S31 및 S32에 대응하는 것으로, 본 실시예에 따른 방법은 컴퓨팅 장치에 의하여 실행될 수 있고, 예컨대 데이터 분석 장치(100)의 서버(110)의 구성 중 학습부(111)에 의해 실행될 수 있다.
먼저, 동작 S61에서, 학습이 시작되면, 동작 S62에서, 모듈 조합 그래프(71)가 생성된다. 여기서, 모듈 조합 그래프(71)는 복수의 데이터 분석 모듈의 가능한 모든 조합을 이용하여 생성될 수 있다.
다음으로, 동작 S63에서, 모듈 조합 그래프(71)가 실행되고, 동작 S64에서, 모듈 조합 그래프(71)를 실행하여 얻은 결과를 이용하여 각 데이터 분석 모듈의 스코어가 계산된다. 이 때, 각 데이터 분석 모듈의 스코어는, 해당 값을 최대화할 수 있도록 각 모듈에서 사용되는 파라미터 정보를 업데이트하여 얻어질 수 있다. 이 때, 파라미터 정보의 업데이트함에 있어 역전파(Back Propagation) 방식의 신경망 모델이 사용될 수 있다.
동작 S65에서, 모듈 조합 그래프(71) 전체가 탐색된다. 즉, 모듈 조합 그래프(71)의 실행을 반복 수행함에 의해 각 모듈에서 사용되는 파라미터 정보가 최종적으로 업데이트 된다.
마지막으로 동작 S66에서, 학습이 완료됨에 따라, 동작 S64의 수행 결과로부터 각 데이터 분석 모듈에 대한 스코어 계산이 완료된다.
상기와 같이, 본 발명의 실시예에 따라, 복수의 모듈 조합 그래프(503)를 반복 실행하는 탐색 과정을 통해, 각 데이터 분석 모듈의 스코어를 계산하여 최적의 데이터 분석 모듈을 결합한 후보군을 생성하기 위한 지표를 제공할 수 있다.
도 8 내지 도 12는 도 7을 참조하여 설명한 학습부가 수행하는 구체적인 동작의 예이다
도 8을 참조하면, 동작 S62에 있어, 모듈 조합 그래프(71)에 포함된 데이터 분석 모듈 각각에 대한 파라미터 값을 포함하는 모듈 파라미터 어레이(81)가 생성된다.
일 실시예로서, 모듈 파라미터 어레이(81)는 데이터 분석 모듈과, 각 데이터 분석 모듈에 대응하는 파라미터 필드의 최대 길이, 및 임베딩 스페이스를 각 차원으로 하는 3차원 어레이의 형태로 생성될 수 있다.
도시된 예에서, 모듈 파라미터 어레이(81)에 있어, x축은 토큰화(Tokenization), 어간 추출(Stemming), 불용어(Stopword), 인코딩(Encoding), 언어 모델(Language model), 및 추가 모듈(Custom)과 같은 데이터 분석 모듈을 나타내고, y축은 각 데이터 분석 모듈에서 사용되는 파라미터의 최대 길이를 나타낼 수 있다. 또한, z축은 임베딩 벡터가 저장되는 공간을 나타내고 CPU, GPU, 메모리 등 하드웨어의 스펙에 따라 유동적으로 결정될 수 있다.
모듈 파라미터 어레이(81)의 각 셀에는 -1과 1의 범위 내에서 균등분포(Uniform distribution)를 갖는 모듈별 파라미터 값인 Xi가 입력되고, 모듈 파라미터 어레이(81)의 생성 시 초기화될 수 있다.
예로서, 모듈 파라미터 어레이(81)의 스냅샷(82)을 보면, x축 방향으로 N개의 데이터 분석 모듈과 정확도(Accuracy)를 포함하는 총 N+1개의 항목이 존재하고, y축 방향으로는 각 데이터 분석 모듈 별로 최대 P개의 파라미터 항목이 존재한다. Z축 방향으로는 임베딩 벡터가 저장되는 M개의 공간이 존재한다.
이로부터, 모듈 파라미터 어레이(81)의 각 셀의 값(83)은, 3차원 어레이의 표기 방식(83)에 따라, S([M-1][P-1][N])=0.33548와 같이 해당 위치에 대응하여 저장될 수 있다.
도 9를 참조하면, 동작 S63에 있어, 동작 S62에서 초기화된 모듈 파라미터 어레이(81)에 기초하여 모듈 조합 그래프(71) 전체가 실행된다. 이에 따라, 모듈 조합 그래프(71)가 실행될 때마다 모듈 파라미터 어레이(81)에 포함된 파라미터 값이 업데이트되어 생성되는 모듈 그룹별 데이터 분석 모듈(91)이 제공될 수 있다. 예를 들어, 모듈 그룹별 데이터 분석 모듈(91)은 토큰화(Tokenization), 어간 추출(Stemming), 불용어(Stopword), 인코딩(Encoding), 언어 모델(Language model) 및 추가 모델(Custom) 등의 모듈 그룹 각각에 포함된 복수의 모듈을 포함할 수 있다. 예로서, 토큰화와 관련된 모듈 그룹 내에 Tokenization-1, Tokenization-2, Tokenization-3과 같은 모듈을 포함할 수 있고, 언어 모델과 관련된 모듈 그룹 내에 Fasttext, BART와 같은 모듈을 포함할 수 있다.
도 10을 참조하면, 동작 S64에서, 모듈 조합 그래프(71)를 실행하여 얻은 결과를 이용하여 각 데이터 분석 모듈의 스코어(92)가 계산된다. 일 실시예로서, 모듈 조합 그래프(71)의 실행 결과로서 모듈 조합 그래프(71) 각각에 대한 정확도(Accuracy)를 획득하고, 획득한 정확도를 이용하여 모듈 조합 그래프(71) 각각에 대해 리워드(reward) 또는 페널티(penalty)를 부여할 수 있다. 예로서, 상대적으로 높은 정확도에 도달한 모듈 조합 그래프(71)에 대해서는 리워드를 부여하고, 상대적으로 낮은 정확도에 도달한 모듈 조합 그래프(71)에 대해서는 페널티를 부여할 수 있다.
여기서, 모듈 조합 그래프(71) 각각에 대해 리워드 또는 페널티를 부여하기 위해, 모듈 조합 그래프(71) 각각의 정확도를 비교하고 그 차분값을 적용할 수 있다. 예로서, 모듈 파라미터 어레이(81)에 포함된 각 모듈 조합 그래프의 정확도(Accuracy)를 이용하여 데이터 분석 모듈 각각의 파라미터 값을 업데이트함에 의해, 모듈 조합 그래프(71) 각각에 대해 리워드 또는 페널티를 부여할 수 있다.
도 11을 참조하면, 동작 S64를 수행함에 있어, 각 데이터 분석 모듈의 스코어(92)를 계산하기 위해 역전파(Back Propagation) 방식의 신경망 모델(93)이 사용될 수 있다.
예로서, 각 모듈 조합 그래프(71)의 정확도(Accuracy) 간 차분값을 이용하여 모듈 파라미터 어레이(81)에 포함된 데이터 분석 모듈 각각의 파라미터 값(94, 95)을 업데이트함에 의해 각 데이터 분석 모듈의 스코어(92)가 계산될 수 있다.
도 12를 참조하면, 동작 S65에서, 모듈 조합 그래프(71) 전체가 탐색된다. 즉, 모듈 조합 그래프(71) 전체를 실행함에 의해 모듈 파라미터 어레이(121)에 포함된 데이터 분석 모듈 각각의 파라미터 값이 최종적으로 업데이트 된다. 이에 따라, Tokenization, Stemming, Stopword, Encoding, Language model 및 Custom과 같은 각 모듈 그룹 중 높은 파라미터 값을 가지는 데이터 분석 모듈을 순서대로 정렬(122)할 수 있다. 이와 같은 방법으로, 각각의 데이터 분석 모듈에 대한 스코어를 산출할 수 있다.
도 13은 도 1을 참조하여 설명한 분석부가 수행하는 동작을 설명하기 위한 순서도이다. 도 13은 도 3의 동작 S33에 대응하는 것으로, 본 실시예에 따른 방법은 컴퓨팅 장치에 의하여 실행될 수 있고, 예컨대 데이터 분석 장치(100)의 서버(110)의 구성 중 분석부(112)에 의해 실행될 수 있다.
먼저, 동작 S121에서, 분석이 시작되면, 동작 S122에서, 최적이 데이터 분석 모듈의 조합을 포함하는 후보군을 생성하기 위한 문턱값(Threshold)이 선택된다. 일 실시예로서, 문턱값은 각 데이터 분석 모듈이 후보군에 속하도록 하는 모듈 그룹별 모듈의 개수로 설정될 수 있다.
다른 실시예로서, 후보군 생성을 위한 문턱값은, 학습부(111)에서 획득한 모듈 조합 그래프 각각의 정확도에 기초하여 설정될 수 있다. 예로서, 스케일 변환에 의한 정확도의 상대적 비율을 이용하여 문턱값을 설정할 수 있다.
다음으로, 동작 S123에서, 동작 S122에서 선택된 문턱값을 이용하여 후보군에 해당하는 모듈 조합 레시피가 선택된다.
도 14에 도시된 바와 같이, 앞서 학습부(111)에 의해 산출된 스코어를 이용하여 모듈 그룹별로 스코어가 높은 순서대로 데이터 분석 모듈이 정렬되면, 문턱값을 이용하여 후보군을 생성할 수 있다. 즉, 동작 S121에서 문턱값이 높은 값으로 선택된 경우, 가장 높은 스코어를 가지는 모듈들의 조합을 포함하는 하나의 모듈 조합 레시피(131)가 후보군으로 선택될 수 있다. 만약, 동작 S121에서 문턱값이 낮은 값으로 선택된 경우에는, 다수의 모듈 조합 레시피(132)가 후보군으로 선택될 수 있다.
다음으로, 동작 S124에서, 후보군으로 선택된 모듈 조합 레시피가 실행되고, 동작 S125에서 저장된다. 또한, 동작 S126에서, 추가할 모듈 조합 레시피가 없는 경우, 동작 S127에서 분석이 완료된다.
상기와 같이, 본 발명의 실시예에 따른 데이터 분석 방법에 의하면, 데이터 분석 과정의 각 단계에서 사용될 수 있는 최적의 분석 방법을 추천할 수 있다. 또한, 데이터 분석 과정의 각 단계를 수행하기 위해 소요되는 시간을 단축시킬 수 있다.
지금까지 도 1 내지 도 14를 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 설명된 본 발명의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (14)

  1. 데이터 분석 장치에 의해 수행되는 방법에 있어서,
    사용자에 의해 정의된 복수의 데이터 분석 모듈을 이용하여 복수의 모듈 조합 프로세스를 생성하는 단계;
    상기 복수의 모듈 조합 프로세스의 실행 결과에 기초하여 상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 단계; 및
    상기 스코어에 기초하여 선택된 데이터 분석 모듈의 조합을 포함하는 추천 모듈 후보군을 생성하는 단계를 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  2. 제 1항에 있어서,
    상기 복수의 데이터 분석 모듈 각각은, 분류, 군집화, 및 임베딩 벡터 등과 관련하여 사용되는 최소 단위의 분석 알고리즘을 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  3. 제 1항에 있어서,
    상기 복수의 모듈 조합 프로세스를 생성하는 단계는,
    상기 데이터 분석 모듈 각각의 분석 가능한 모든 조합을 이용하여 상기 모듈 조합 프로세스를 설정하는 단계를 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  4. 제 1항에 있어서,
    상기 복수의 모듈 조합 프로세스를 생성하는 단계는,
    상기 각 모듈 조합 프로세스에 포함된 데이터 분석 모듈 각각에 대한 파라미터 정보를 포함하는 모듈 파라미터 어레이를 생성하는 단계를 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  5. 제 4항에 있어서,
    상기 모듈 파라미터 어레이를 생성하는 단계는,
    상기 데이터 분석 모듈과, 상기 각 데이터 분석 모듈에 대응하는 파라미터 필드의 최대 길이, 및 임베딩 스페이스(embedding space)를 각 차원으로 하는 3차원 어레이를 생성하는 단계; 및
    상기 3차원 어레이를 초기화하는 단계를 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  6. 제 4항에 있어서,
    상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 단계는,
    상기 모듈 파라미터 어레이에 기초하여 상기 복수의 모듈 조합 프로세스를 실행함에 의해 상기 모듈 조합 프로세스 각각에 대한 정확도(accuracy) 및 실행시간(elapsed time)에 관한 정보를 획득하는 단계;
    상기 정확도 및 실행시간에 관한 정보를 이용하여 상기 데이터 분석 모듈 각각의 기여도를 산정하는 단계; 및
    상기 기여도에 기초하여 상기 데이터 분석 모듈 각각에 대한 스코어를 추정하는 단계를 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  7. 제 6항에 있어서,
    상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 단계는,
    상기 모듈 조합 프로세스 각각의 정확도 간 차분값에 기초하여 상기 모듈 파라미터 어레이에 포함된 상기 데이터 분석 모듈 각각의 파라미터 정보를 업데이트하는 단계를 더 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  8. 제 6항에 있어서,
    상기 추천 모듈 후보군을 생성하는 단계는,
    상기 산출된 스코어에 기초하여 상기 복수의 데이터 분석 모듈 중 높은 스코어를 가지는 소정 개수의 데이터 분석 모듈을 선정하는 단계를 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  9. 제 6항에 있어서,
    상기 추천 모듈 후보군을 생성하는 단계는,
    상기 모듈 조합 프로세스 각각에 대한 정확도에 기초하여 문턱값을 설정하는 단계; 및
    상기 문턱값에 기초하여 상기 추천 모듈 후보군의 개수를 조절하는 단계를 포함하는,
    데이터 분석 장치에 의해 수행되는 방법.
  10. 하나 이상의 프로세서;
    외부장치와 통신하는 통신 인터페이스;
    상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리; 및
    상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    사용자에 의해 정의된 복수의 데이터 분석 모듈을 이용하여 복수의 모듈 조합 프로세스를 생성하는 동작,
    상기 복수의 모듈 조합 프로세스의 실행 결과에 기초하여 상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작, 및
    상기 스코어에 기초하여 선택된 데이터 분석 모듈의 조합을 포함하는 추천 모듈 후보군을 생성하는 동작을 수행하기 위한 인스트럭션들(instructions)을 포함하는,
    데이터 분석 장치.
  11. 제 10항에 있어서,
    상기 복수의 모듈 조합 프로세스를 생성하는 동작은,
    상기 각 모듈 조합 프로세스에 포함된 데이터 분석 모듈 각각에 대한 파라미터 정보를 포함하는 모듈 파라미터 어레이를 생성하는 동작을 포함하는,
    데이터 분석 장치.
  12. 제 11항에 있어서,
    상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작은,
    상기 모듈 파라미터 어레이에 기초하여 상기 복수의 모듈 조합 프로세스를 실행함에 의해 상기 모듈 조합 프로세스 각각에 대한 정확도(accuracy) 및 실행시간(elapsed time)에 관한 정보를 획득하는 동작,
    상기 정확도 및 실행시간에 관한 정보를 이용하여 상기 데이터 분석 모듈 각각의 기여도를 산정하는 동작, 및
    상기 기여도에 기초하여 상기 데이터 분석 모듈 각각에 대한 스코어를 추정하는 동작을 포함하는,
    데이터 분석 장치.
  13. 제 12항에 있어서,
    상기 데이터 분석 모듈 각각에 대한 스코어를 산출하는 동작은,
    상기 모듈 조합 프로세스 각각의 정확도에 기초하여 상기 모듈 조합 프로세스 각각에 대해 리워드 또는 페널티를 부여하는 동작을 더 포함하는,
    데이터 분석 장치.
  14. 제 12항에 있어서,
    상기 추천 모듈 후보군을 생성하는 동작은,
    상기 모듈 조합 프로세스 각각에 대한 정확도에 기초하여 문턱값을 설정하는 동작, 및
    상기 문턱값에 기초하여 상기 추천 모듈 후보군의 개수를 조절하는 동작을 포함하는,
    데이터 분석 장치.
KR1020200060262A 2020-05-20 2020-05-20 데이터 분석 장치 및 그것의 데이터 분석 방법 KR20210143464A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200060262A KR20210143464A (ko) 2020-05-20 2020-05-20 데이터 분석 장치 및 그것의 데이터 분석 방법
US16/885,747 US11681935B2 (en) 2020-05-20 2020-05-28 Apparatus for data analysis and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200060262A KR20210143464A (ko) 2020-05-20 2020-05-20 데이터 분석 장치 및 그것의 데이터 분석 방법

Publications (1)

Publication Number Publication Date
KR20210143464A true KR20210143464A (ko) 2021-11-29

Family

ID=78608169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200060262A KR20210143464A (ko) 2020-05-20 2020-05-20 데이터 분석 장치 및 그것의 데이터 분석 방법

Country Status (2)

Country Link
US (1) US11681935B2 (ko)
KR (1) KR20210143464A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240028075A (ko) 2022-08-24 2024-03-05 연세대학교 산학협력단 제조 공정에서 실시간 공정 제어를 위한 품질 예측 모델 기반의 공정 조건 최적화 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805208B (zh) * 2023-07-12 2024-01-23 同望科技股份有限公司 一种基于人工智能的工程项目数据分析系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200047006A (ko) 2018-10-26 2020-05-07 주식회사 피도텍 머신 러닝 기반의 근사모델 구축 방법 및 시스템

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096950A1 (en) * 2003-10-29 2005-05-05 Caplan Scott M. Method and apparatus for creating and evaluating strategies
US20070156382A1 (en) * 2005-12-29 2007-07-05 Graham James L Ii Systems and methods for designing experiments
US8417715B1 (en) * 2007-12-19 2013-04-09 Tilmann Bruckhaus Platform independent plug-in methods and systems for data mining and analytics
US10133791B1 (en) * 2014-09-07 2018-11-20 DataNovo, Inc. Data mining and analysis system and method for legal documents
US10354192B2 (en) * 2014-11-19 2019-07-16 The Government Of The United States Of America, As Represented By The Secretary Of The Navy Recommender system for exploratory data analysis
EP3089049A4 (en) * 2014-12-26 2017-10-04 Ubic, Inc. Data analysis system, data analysis method, and data analysis program
WO2016157467A1 (ja) * 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
US10121157B2 (en) * 2015-04-17 2018-11-06 GoodData Corporation Recommending user actions based on collective intelligence for a multi-tenant data analysis system
US10986144B1 (en) * 2015-09-28 2021-04-20 HealthLinx Technologies, Inc. System and method for collaboration over a network
SG11201804355UA (en) * 2015-11-26 2018-06-28 Human Metabolome Tech Inc Data analysis apparatus, method, and program
US10726034B2 (en) * 2016-03-30 2020-07-28 Microsoft Technology Licensing, Llc Modular electronic data analysis computing system
JP6736450B2 (ja) * 2016-10-25 2020-08-05 株式会社日立製作所 データ分析支援装置及びデータ分析支援システム
US20180129977A1 (en) * 2016-11-09 2018-05-10 Gamalon, Inc. Machine learning data analysis system and method
US10452628B2 (en) * 2016-11-11 2019-10-22 Sap Se Data analysis schema and method of use in parallel processing of check methods
JP6729455B2 (ja) * 2017-03-15 2020-07-22 株式会社島津製作所 分析データ解析装置及び分析データ解析方法
US11188865B2 (en) * 2018-07-13 2021-11-30 Dimensional Insight Incorporated Assisted analytics
JP7295792B2 (ja) * 2019-12-18 2023-06-21 株式会社日立製作所 データ分析装置およびデータ分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200047006A (ko) 2018-10-26 2020-05-07 주식회사 피도텍 머신 러닝 기반의 근사모델 구축 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240028075A (ko) 2022-08-24 2024-03-05 연세대학교 산학협력단 제조 공정에서 실시간 공정 제어를 위한 품질 예측 모델 기반의 공정 조건 최적화 방법 및 장치

Also Published As

Publication number Publication date
US20210365809A1 (en) 2021-11-25
US11681935B2 (en) 2023-06-20

Similar Documents

Publication Publication Date Title
KR102170105B1 (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
WO2019114413A1 (zh) 模型训练
EP4116885A1 (en) Processing method for neural network model, and related device
US8775338B2 (en) Computer-implemented systems and methods for constructing a reduced input space utilizing the rejected variable space
CN107437111B (zh) 基于神经网络的数据处理方法、介质、装置和计算设备
WO2018157752A1 (en) Approximate random number generator by empirical cumulative distribution function
US20150148924A1 (en) Feasible Tracking Control of Machine
EP4002216A1 (en) Method for recommending object, neural network, computer program product and computer-readable storage medium
KR20210143464A (ko) 데이터 분석 장치 및 그것의 데이터 분석 방법
US20170193541A1 (en) Agricultural products processing center adaptive analysis system and processing method thereof
KR102142943B1 (ko) 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치
CN111966361A (zh) 用于确定待部署模型的方法、装置、设备及其存储介质
US11113117B2 (en) Clustering routines for extrapolating computing resource metrics
KR102158051B1 (ko) 컴퓨터 수행 가능한 클라우드 기반의 인공지능 연산 서비스 방법
US20230139396A1 (en) Using learned physical knowledge to guide feature engineering
Hristov et al. Deriving explicit control policies for Markov decision processes using symbolic regression
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
CN112734005B (zh) 预测模型的确定方法、装置、电子设备及存储介质
CN112817560B (zh) 一种基于表函数的计算任务处理方法、系统及计算机可读存储介质
EP4012630A1 (en) Model optimization method and apparatus, storage medium, and device
Dreuning et al. mCAP: Memory-Centric Partitioning for Large-Scale Pipeline-Parallel DNN Training
CN113313049A (zh) 超参数的确定方法、装置、设备、存储介质以及计算机程序产品
US20220335364A1 (en) Personnel arrangement apparatus, and arrangement method, and program
JP6577515B2 (ja) 分析装置、分析方法及び分析プログラム
KR20220029004A (ko) 클라우드 기반 딥러닝 작업의 수행시간 예측 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination