KR102069084B1

KR102069084B1 - 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Info

Publication number: KR102069084B1
Application number: KR1020190036066A
Authority: KR
Inventors: 김상수; 권지수; 김지혁
Original assignee: (주)위세아이텍
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-02-11

Abstract

피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법에 관한 것으로, 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치는 분석 대상 데이터를 수신하는 데이터 수신부, 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 특질 변수 추출부, 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 연산부, 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 평가부 및 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 시각화부를 포함하되, 상기 특질 변수 추출부는, 상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되, 상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출할 수 있다.

Description

피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법{DEVICES AND METHOD FOR ALGORITHM ACCURACY ENHANCEMENT BASED ON FEATURE ENGINEERING}

본원은 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법에 관한 것이다.

4차산업혁명이 대두되면서 광범위한 산업 분야에서 머신러닝을 적용하고자 하는 시도가 증가하고 있지만 경제적 비용 부담과 전문 인력 부족으로 어려움을 겪고 있는 실정이다.

머신러닝 프로세스는 원천 데이터로부터 피처 이해, 피처 개선, 피처 구성, 모델 평가에 이르는 단계를 수행하여 최종 모델을 개발하게 되며 숙련된 전문가라 할지라도 짧게는 2주에서 3개월의 기간이 필요하기 때문에 머신러닝 프로세스 자동화 도구의 개발은 머신러닝의 도입 및 확산을 위해서 매우 중요하다고 할 수 있다.

본원의 배경이 되는 기술은 한국등록특허공보 제10-1864286호에 개시되어 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 분석 목적에 따라 최적화된 머신러닝 알고리즘을 제공할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공하는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 다양한 머신러닝 알고리즘 각각의 성능을 시각화하여 최적 알고리즘 선택에 일조할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공하는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치는 분석 대상 데이터를 수신하는 데이터 수신부, 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 특질 변수 추출부, 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 연산부, 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 평가부 및 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 시각화부를 포함하되, 상기 특질 변수 추출부는, 상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되, 상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되, 상기 특성은 변수 속성 및 변수 값 분포를 포함하고, 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다.

본원의 일 실시예에 따르면, 상기 시각화부는, 상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 상기 통계량, 상기 카테고리별 카운트 수 및 상기 카운트 비율을 디스플레이할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고, 상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 연산부는, 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고, 상기 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다.

본원의 일 실시예에 따르면, 상기 평가부는, 상기 회귀 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하고, 상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출할 수 있다.

본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 방법은, 분석 대상 데이터를 수신하는 단계, 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 단계, 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 단계, 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 단계 및 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 단계를 포함하되, 상기 특질 변수를 추출하는 단계는, 상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되, 상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되, 상기 특성은 변수 속성 및 변수 값 분포를 포함하고, 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다.

본원의 일 실시예에 따르면, 상기 시각화하는 단계는, 상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 상기 통계량, 상기 카테고리별 카운트 수 및 상기 카운트 비율을 디스플레이할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고, 상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다.

본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다.

본원의 일 실시예에 따르면, 상기 결과 데이터를 산출하는 단계는, 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고, 상기 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다.

본원의 일 실시예에 따르면, 상기 평가지수를 산출하는 단계는, 상기 회귀 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하고, 상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 분석 목적에 따라 최적화된 머신러닝 알고리즘을 제공할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 다양한 머신러닝 알고리즘 각각의 성능을 시각화하여 최적 알고리즘 선택에 일조할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공할 수 있다.

도 1은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 구성을 도시한 도면이다.
도 2는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 프로세스를 도시한 도면이다.
도 3은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 시각화부를 통한 출력의 예를 도시한 도면이다.
도 4는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 특질 변수 추출의 예를 도시한 도면이다.
도 5는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 머신러닝 알고리즘별 결과값의 예를 도시한 도면이다.
도 6은 피처 엔지니어링에서 지원하는 알고리즘의 종류를 도시한 도면이다.
도 7은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 신규 데이터를 이용한 시각화의 예를 도시한 도면이다.
도 8은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 방법의 흐름을 도시한 도면이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 구성을 도시한 도면이고, 도 2는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 프로세스를 도시한 도면이다.

도 1을 참조하면, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)는 데이터 수신부(110), 특질 변수 추출부(120), 연산부(130), 평가부(140) 및 시각화부(150)를 포함할 수 있다. 도 2를 참조하면, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)는 분석 대상 데이터인 원천 데이터에 대해 피처 엔지니어링을 통해 분석 대상 데이터의 형태(종류) 판단 및 특질 변수를 추출하고, 특질 변수를 입력으로 하는 복수의 머신러닝 알고리즘에 각각 적용할 수 있다. 이후, 각 머신러닝 알고리즘으로부터 산출된 결과 데이터를 비교하여 최적의 머신러닝 알고리즘을 선정함으로써 해당 머신러닝 알고리즘을 통해 데이터 마이닝의 정확도를 향상시킬 수 있다. 이하에서는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)의 각 구성에 대해 살펴본다.

도 1을 참조하면, 데이터 수신부(110)는 분석 대상 데이터를 수신할 수 있다. 데이터 수신부(110)는 사용자가 입력한 분석 대상 데이터를 수신할 수 있고, 다른 예로, 데이터베이스에 미리 저장된 분석 대상 데이터를 데이터베이스로부터 수신할 수도 있다. 특질 변수 추출부(120)는 피처 엔지니어링에 기반하여 분석 대상 데이터로부터 특질 변수를 추출할 수 있다. 분석 대상 데이터에는 숫자와 같이 수치형 변수를 포함하는 정형화된 데이터뿐만 아니라, 기호, 단어, 문장 등 텍스트 기반의 비정형 데이터를 포함할 수 있다. 특질 변수 추출부(120)는 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 특질 변수를 추출할 수 있다.

도 3은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 시각화부를 통한 출력의 예를 도시한 도면이다.

도 3은 시각화부(150)를 통해 제공될 수 있는 프로그램의 예를 도시한 도면이다. 특질 변수 추출부(120)는 분석 대상 데이터의 특성을 고려하여 특질 변수를 추출할 수 있다. 구체적으로, 분석 대상 데이터의 특성은 특질 변수의 변수 속성 및 변수 값 분포를 포함할 수 있다. 상기 변수 속성 및 변수 값 분포는 통계적으로 산출될 수 있으며, Key-value 형태로 제공될 수 있다. 특질 변수 추출부(120)는 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 특성에 따른 통계량을 산출할 수 있다. 또한 특질 변수 추출부(120)는 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다.

시각화부(150)는 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 통계량, 카테고리별 카운트 수 및 카운트 비율을 디스플레이할 수 있다. 본원의 일 실시예에 따르면, 정형 데이터 즉, 수치화된 변수의 통계량과 비정형 데이터의 카테고리별 카운트 수 및 비율을 산출함으로써 변수에 대한 이해도가 향상 될 수 있으며, 이를 특질 변수 산출에 활용함으로써 머신러닝 알고리즘의 입력 데이터로서 보다 신뢰성 있는 특질 변수가 산출될 수 있다. 또한, 사용자는 특질 변수 산출과정에서 분석 대상 데이터의 특성을 용이하게 파악할 수 있다.

도 3을 참조하면, 타겟 상관관계(10)는 분석 대상 데이터에 포함된 변수간의 상관관계를 사각화부(150)를 통해 출력하는 기능을 수행한다. 특질 변수 추출부(120)는 변수간의 상관관계에 따라 변수를 제거하거나, 변수의 타입 변경 등 변수를 조절하여 특질 변수를 산출할 수 있다. 변수를 제거하여 특질 변수를 산출하는 것에 대한 구체적인 설명은 보다 뒤에서 살펴보기로 한다.

사전등록(11)은 비정형 데이터로부터 특질 변수 산출시 사용자에게 최적화된 특질 변수를 산출할 수 있도록 단어 사전을 등록하는 기능을 수행한다. 특질 변수 추출부(120)는 분석 대상 데이터 중 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 특질 변수를 추출할 수 있다. 비정형 데이터로부터의 특질 변수 산출에 대해 구체적으로 살펴보면, 특질 변수 추출부(120)는 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다. 또한, 특질 변수 추출부(120)는 최적 벡터값에 대한 주성분 분석(PCA: Principal Component Analysis)을 통해 비정형 데이터에 포함된 텍스트로부터 명사를 추출할 수 있다. 주성분 분석을 위한 알고리즘에는 Soynlp 알고리즘이 활용될 수 있으나, 이에 한정되는 것은 아니다. Soynlp 알고리즘은 별개의 학습 데이터를 요구하지 않으면서 분석 대상 데이터에 존재하는 단어를 추출할 수 있을 뿐만 아니라, 문장을 단어열로 분해하거나 품사를 판별할 수 있는 비지도 학습 기반 알고리즘이다. 특질 변수 추출부(120)는 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다. 예시적으로, 특질 변수 추출부(120)는 상기 단어 사전에 기반하여 텍스트로부터 추출된 명사 즉 단어의 빈도가 높을수록 해당 단어에 높은 점수를 부여할 수 있다. 점수 부여 방식은 미리 설정된 빈도에 따라 차등적으로 점수를 부여하는 절대적인 방식을 통해 이루어질 수 있고, 분석 대상 데이터에서 등장하는 단어의 상대적인 비율에 따라 점수를 부여하는 상대적인 방식을 통해서도 이루어질 수 있다. (예를 들어, 등장 빈도가 상위10%인 단어는 상위 30%인 단어보다 높은 점수가 부여될 수 있다)

도 4는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 특질 변수 추출의 예를 도시한 도면이다.

변수를 제거하여 특질 변수를 산출하는 것에 대해 구체적으로 살펴보면, 특질 변수 추출부(120)는 변수의 상관관계에 의한 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다. 도 4를 참조하면, 특질 변수 추출부(120)는 전방 선택법, 후방 선택법 및 사용자 정의 선택 중 어느 하나에 기초하여 특질 변수를 추출할 수 있다. 전방 선택법은 변수간 기여도가 큰 순서대로 특질 변수를 추출하는 선택법이며, 후방 선택법은 모든 변수를 선택한 상태에서 기여도가 낮은 변수를 하나씩 제거하여 특질 변수를 추출하는 선택법이다. 사용자 정의 선택은 사용자의 판단에 따라 자유롭게 특질 변수를 선택하는 방법이다.

도 5는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 머신러닝 알고리즘별 결과값의 예를 도시한 도면이고, 도 6은 피처 엔지니어링에서 지원하는 알고리즘의 종류를 도시한 도면이다.

연산부(130)는 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 특질 변수의 입력에 대한 결과 데이터를 산출할 수 있다. 분석 목적(유형)에 따라 다양한 머신러닝 알고리즘이 존재한다. 예시적으로, 도 5의 (a)는 의사결정을 목적으로 하는 머신러닝 알고리즘들의 결과값을 나타내고, 도 5의 (b)는 분류를 목적으로 하는 머신러닝 알고리즘들의 결과값을 나타내며, 도 5의 (c)는 군집을 목적으로 하는 머신러닝 알고리즘들의 결과값을 나타낸다. 연산부(130)는 특질 변수가 수치형 변수인 경우 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정할 수 있다. 회귀 알고리즘 유형에 대응하는 머신러닝 알고리즘에는 Decision tree, Random forest, Elastic nest, Support vector machine 등이 있다. 연산부(130)는 상기 나열한 머신러닝 알고리즘을 포함한 다양한 회귀 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 회귀 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다.

또한, 연산부(130)는 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다. 분류 알고리즘 유형에 대응하는 머신러닝 알고리즘에는 Support vector machine, Decision tree, Random forest, Extra trees 등이 있다. 연산부(130)는 상기 나열한 머신러닝 알고리즘을 포함한 다양한 분류 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 분류 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다.

평가부(140)는 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출할 수 있다. 평가부(140)는 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 결과값에 대해 평균 제곱근 오차(RMSE: Root Mean Squared Error) 값을 이용하여 평가지수를 산출할 수 있다. 평균 제곱근 오차가 낮을수록 회귀 알고리즘의 정확성 및 신뢰성이 높은 알고리즘이므로, 평가부(140)는 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하여 평균 제곱근 오차가 낮은 순으로 순위를 산출할 수 있다.

시각화부(150)는 각 머신러닝 알고리즘에 입력된 특질 변수를 출력(디스플레이)하고, 상기 각각의 평가지수를 산출함으로써, 사용자로 하여금, 평균 제곱근 오차가 가장 낮은 머신러닝 알고리즘이 어떠한 알고리즘인지에 대한 정보를 제공할 수 있다. 즉, 사용자는 회귀 알고리즘을 활용하고자 하는 경우, 전술한 복수의 머신러닝 알고리즘 중 평균 제곱근 오차가 가장 작은 알고리즘을 채탁함으로써, 회귀 알고리즘의 정확도를 향상시킬 수 있다. 이러한 효과는 후술하는 분류 알고리즘 및 군집 알고리즘에도 동일하게 적용될 수 있다.

한편, 특질 변수가 카테고리형 변수인 경우, 평가부(140)는 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도(Accuracy), 정밀도(Precision) 및 재현율(Recall)을 통해 평가지수를 산출할 수 있다. 정확도는 예측값과 실제값의 일치 비율을 나타내고, 정밀도는 예측값 중 실제 값이 발생하는 비율을 나타내며, 재현율은 분류된 값이 정확하게 탐지한 비율을 나타낸다. 평가부(140)는 분류 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하여 정확도, 정밀도 및 재현율이 높은 순으로 순위를 산출할 수 있다.

본원의 일 실시예에 따르면, 특질 변수를 활용하지 않고, 분석 대상 데이터를 입력으로 하는 경우, 연산부(130)는 군집 알고리즘을 실행하여 도 5의 (c)에 도시된 바와 같이, 결과 데이터를 라벨링할 수 있다. 라벨링된 결과 데이터는 지도학습에 재활용 될 수 있다.

전술한 특질 변수를 통해 학습된 각 머신러닝 알고리즘 또는 사용자에 의해 선택된 머신러닝 알고리즘은 pkl파일로 저장될 수 있다. 저장된 pkl 파일은 신규 데이터를 입력받아 예측값을 저장할 수 있으며, 다른 특질 변수와 함께 시각화부(150)를 통해 시각화 될 수 있다.

도 7은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 신규 데이터를 이용한 시각화의 예를 도시한 도면이다.

도 7을 참조하면, 시각화부(150)는 신규 데이터를 입력으로 하여 산출된 예측값을 다른 특질 변수를 차원으로 하여 시각화할 수 있다. 사용자는 신규 입력 데이터들의 변수들을 차원으로 하고, 예측값을 수치값으로 활용하여 사용자가 원하는 값을 이용하여 시각화할 수 있다.

도 8은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 방법의 흐름을 도시한 도면이다.

도 8에 도시된 피처 엔지니어링 기반 알고리즘 정확도 향상 방법은 앞선 도 1내지 도 7을 통해 설명된 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)에 의하여 수행된다. 따라서, 이하 생략된 내용이라고 하더라도 도 1내지 도 7을 통해 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)에 대하여 설명된 내용은 도 8에도 동일하게 적용될 수 있다.

도 8을 참조하면, 단계 S810에서 데이터 수신부(110)는 분석 대상 데이터를 수신할 수 있다. 사용자가 입력한 분석 대상 데이터를 수신할 수 있고, 다른 예로, 데이터베이스에 미리 저장된 분석 대상 데이터를 데이터베이스로부터 수신할 수도 있다.

단계 S820에서 특질 변수 추출부(120)는 피처 엔지니어링에 기반하여 분석 대상 데이터로부터 특질 변수를 추출할 수 있다. 분석 대상 데이터에는 숫자와 같이 수치형 변수를 포함하는 정형화된 데이터뿐만 아니라, 기호, 단어, 문장 등 텍스트 기반의 비정형 데이터를 포함할 수 있다. 특질 변수 추출부(120)는 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 특질 변수를 추출할 수 있다. 특질 변수 추출부(120)는 분석 대상 데이터의 특성을 고려하여 특질 변수를 추출할 수 있다. 구체적으로, 분석 대상 데이터의 특성은 특질 변수의 변수 속성 및 변수 값 분포를 포함할 수 있다. 상기 변수 속성 및 변수 값 분포는 통계적으로 산출될 수 있으며, Key-value 형태로 제공될 수 있다. 특질 변수 추출부(120)는 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 특성에 따른 통계량을 산출할 수 있다. 또한 특질 변수 추출부(120)는 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다. 시각화부(150)는 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 통계량, 카테고리별 카운트 수 및 카운트 비율을 디스플레이할 수 있다.

또한, 특질 변수 추출부(120)는 분석 대상 데이터 중 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 특질 변수를 추출할 수 있다. 비정형 데이터로부터의 특질 변수 산출에 대해 구체적으로 살펴보면, 특질 변수 추출부(120)는 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다. 또한, 특질 변수 추출부(120)는 최적 벡터값에 대한 주성분 분석(PCA: Principal Component Analysis)을 통해 비정형 데이터에 포함된 텍스트로부터 명사를 추출할 수 있다. 특질 변수 추출부(120)는 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다. 특질 변수 추출부(120)는 변수의 상관관계에 의한 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다.

단계 S830에서 연산부(130)는 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 특질 변수의 입력에 대한 결과 데이터를 산출할 수 있다. 연산부(130)는 특질 변수가 수치형 변수인 경우 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정할 수 있다. 연산부(130)는 다양한 회귀 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 회귀 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다. 또한, 연산부(130)는 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다. 연산부(130)는 상기 나열한 머신러닝 알고리즘을 포함한 다양한 분류 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 분류 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다.

단계 S840에서 평가부(140)는 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출할 수 있다. 평가부(140)는 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 결과값에 대해 평균 제곱근 오차(RMSE: Root Mean Squared Error) 값을 이용하여 평가지수를 산출할 수 있다. 또한, 특질 변수가 카테고리형 변수인 경우, 평가부(140)는 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도(Accuracy), 정밀도(Precision) 및 재현율(Recall)을 통해 평가지수를 산출할 수 있다.

본원의 일 실시예에 따르면, 특질 변수를 활용하지 않고, 분석 대상 데이터를 입력으로 하는 경우, 연산부(130)는 군집 알고리즘을 실행하여 결과 데이터를 라벨링할 수 있다. 라벨링된 결과 데이터는 지도학습에 재활용 될 수 있다.

단계 S850에서 시각화부(150)는 특질 변수를 출력하고, 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화할 수 있다. 또한, 시각화부(150)는 신규 데이터를 입력으로 하여 산출된 예측값을 다른 특질 변수를 차원으로 하여 시각화할 수 있다. 사용자는 신규 입력 데이터들의 변수들을 차원으로 하고, 예측값을 수치값으로 활용하여 사용자가 원하는 값을 이용하여 시각화할 수 있다.

본원의 일 실시 예에 따른, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

100: 피처 엔지니어링 기반 알고리즘 정확도 향상 장치
110: 데이터 수신부
120: 특질 변수 추출부
130: 연산부
140: 평가부
150: 시각화부

Claims

피처 엔지니어링 기반 알고리즘 정확도 향상 장치에 있어서,
분석 대상 데이터를 수신하는 데이터 수신부;
피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 특질 변수 추출부;
상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 연산부;
상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 평가부; 및
상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 시각화부를 포함하되,
상기 특질 변수 추출부는,
상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되,
상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출하고,
상기 특질 변수 추출부는,
상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출하고,
상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고,
상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출하고,
변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출하고,
상기 연산부는 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
상기 특질 변수가 카테고리형 변수인 경우 분류 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
상기 평가부는
상기 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하되, 상기 평균 제곱근 오차값이 작은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하고,
상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출하되, 상기 정확도, 정밀도 및 재현율이 높은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치.
제1항에 있어서,
상기 특질 변수 추출부는,
상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되,
상기 특성은 변수 속성 및 변수 값 분포를 포함하고,
상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치.
제2항에 있어서,
상기 시각화부는,
상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고,
상기 통계량, 상기 카테고리별 상기 특질 변수의 카운트 수 및 상기 카운트 비율을 디스플레이하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치.
삭제
삭제
삭제
삭제
삭제
피처 엔지니어링 기반 알고리즘 정확도 향상 방법에 있어서,
데이터 수신부가 분석 대상 데이터를 수신하는 단계;
특질 변수 추출부가 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 단계;
연산부가 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 단계;
평가부가 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 단계; 및
시각화부가 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 단계를 포함하되,
상기 특질 변수를 추출하는 단계는,
상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되,
상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출하고,
상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출하고,
상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고,
상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출하고,
변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출하고,
상기 연산부는 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
상기 특질 변수가 카테고리형 변수인 경우 분류 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
상기 평가부는
상기 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하되, 상기 평균 제곱근 오차값이 작은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하고,
상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출하되, 상기 정확도, 정밀도 및 재현율이 높은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법.
제9항에 있어서,
상기 특질 변수를 추출하는 단계는,
상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되,
상기 특성은 변수 속성 및 변수 값 분포를 포함하고,
상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법.
제10항에 있어서,
상기 시각화하는 단계는,
상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고,
상기 통계량, 상기 카테고리별 상기 특질 변수의 카운트 수 및 상기 카운트 비율을 디스플레이하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법.
삭제
삭제
삭제
삭제
삭제
제9항 내지 제11항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.