KR102069084B1 - 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법 - Google Patents

피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법 Download PDF

Info

Publication number
KR102069084B1
KR102069084B1 KR1020190036066A KR20190036066A KR102069084B1 KR 102069084 B1 KR102069084 B1 KR 102069084B1 KR 1020190036066 A KR1020190036066 A KR 1020190036066A KR 20190036066 A KR20190036066 A KR 20190036066A KR 102069084 B1 KR102069084 B1 KR 102069084B1
Authority
KR
South Korea
Prior art keywords
variable
feature
data
machine learning
learning algorithms
Prior art date
Application number
KR1020190036066A
Other languages
English (en)
Inventor
김상수
권지수
김지혁
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020190036066A priority Critical patent/KR102069084B1/ko
Application granted granted Critical
Publication of KR102069084B1 publication Critical patent/KR102069084B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법에 관한 것으로, 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치는 분석 대상 데이터를 수신하는 데이터 수신부, 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 특질 변수 추출부, 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 연산부, 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 평가부 및 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 시각화부를 포함하되, 상기 특질 변수 추출부는, 상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되, 상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출할 수 있다.

Description

피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법{DEVICES AND METHOD FOR ALGORITHM ACCURACY ENHANCEMENT BASED ON FEATURE ENGINEERING}
본원은 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법에 관한 것이다.
4차산업혁명이 대두되면서 광범위한 산업 분야에서 머신러닝을 적용하고자 하는 시도가 증가하고 있지만 경제적 비용 부담과 전문 인력 부족으로 어려움을 겪고 있는 실정이다.
머신러닝 프로세스는 원천 데이터로부터 피처 이해, 피처 개선, 피처 구성, 모델 평가에 이르는 단계를 수행하여 최종 모델을 개발하게 되며 숙련된 전문가라 할지라도 짧게는 2주에서 3개월의 기간이 필요하기 때문에 머신러닝 프로세스 자동화 도구의 개발은 머신러닝의 도입 및 확산을 위해서 매우 중요하다고 할 수 있다.
본원의 배경이 되는 기술은 한국등록특허공보 제10-1864286호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 분석 목적에 따라 최적화된 머신러닝 알고리즘을 제공할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공하는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 다양한 머신러닝 알고리즘 각각의 성능을 시각화하여 최적 알고리즘 선택에 일조할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공하는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치는 분석 대상 데이터를 수신하는 데이터 수신부, 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 특질 변수 추출부, 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 연산부, 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 평가부 및 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 시각화부를 포함하되, 상기 특질 변수 추출부는, 상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되, 상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되, 상기 특성은 변수 속성 및 변수 값 분포를 포함하고, 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다.
본원의 일 실시예에 따르면, 상기 시각화부는, 상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 상기 통계량, 상기 카테고리별 카운트 수 및 상기 카운트 비율을 디스플레이할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고, 상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수 추출부는, 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다.
본원의 일 실시예에 따르면, 상기 연산부는, 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고, 상기 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다.
본원의 일 실시예에 따르면, 상기 평가부는, 상기 회귀 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하고, 상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출할 수 있다.
본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 방법은, 분석 대상 데이터를 수신하는 단계, 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 단계, 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 단계, 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 단계 및 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 단계를 포함하되, 상기 특질 변수를 추출하는 단계는, 상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되, 상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되, 상기 특성은 변수 속성 및 변수 값 분포를 포함하고, 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다.
본원의 일 실시예에 따르면, 상기 시각화하는 단계는, 상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 상기 통계량, 상기 카테고리별 카운트 수 및 상기 카운트 비율을 디스플레이할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고, 상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다.
본원의 일 실시예에 따르면, 상기 특질 변수를 추출하는 단계는, 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다.
본원의 일 실시예에 따르면, 상기 결과 데이터를 산출하는 단계는, 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고, 상기 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다.
본원의 일 실시예에 따르면, 상기 평가지수를 산출하는 단계는, 상기 회귀 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하고, 상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 분석 목적에 따라 최적화된 머신러닝 알고리즘을 제공할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 다양한 머신러닝 알고리즘 각각의 성능을 시각화하여 최적 알고리즘 선택에 일조할 수 있는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법을 제공할 수 있다.
도 1은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 구성을 도시한 도면이다.
도 2는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 프로세스를 도시한 도면이다.
도 3은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 시각화부를 통한 출력의 예를 도시한 도면이다.
도 4는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 특질 변수 추출의 예를 도시한 도면이다.
도 5는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 머신러닝 알고리즘별 결과값의 예를 도시한 도면이다.
도 6은 피처 엔지니어링에서 지원하는 알고리즘의 종류를 도시한 도면이다.
도 7은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 신규 데이터를 이용한 시각화의 예를 도시한 도면이다.
도 8은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 방법의 흐름을 도시한 도면이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 구성을 도시한 도면이고, 도 2는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 프로세스를 도시한 도면이다.
도 1을 참조하면, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)는 데이터 수신부(110), 특질 변수 추출부(120), 연산부(130), 평가부(140) 및 시각화부(150)를 포함할 수 있다. 도 2를 참조하면, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)는 분석 대상 데이터인 원천 데이터에 대해 피처 엔지니어링을 통해 분석 대상 데이터의 형태(종류) 판단 및 특질 변수를 추출하고, 특질 변수를 입력으로 하는 복수의 머신러닝 알고리즘에 각각 적용할 수 있다. 이후, 각 머신러닝 알고리즘으로부터 산출된 결과 데이터를 비교하여 최적의 머신러닝 알고리즘을 선정함으로써 해당 머신러닝 알고리즘을 통해 데이터 마이닝의 정확도를 향상시킬 수 있다. 이하에서는 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)의 각 구성에 대해 살펴본다.
도 1을 참조하면, 데이터 수신부(110)는 분석 대상 데이터를 수신할 수 있다. 데이터 수신부(110)는 사용자가 입력한 분석 대상 데이터를 수신할 수 있고, 다른 예로, 데이터베이스에 미리 저장된 분석 대상 데이터를 데이터베이스로부터 수신할 수도 있다. 특질 변수 추출부(120)는 피처 엔지니어링에 기반하여 분석 대상 데이터로부터 특질 변수를 추출할 수 있다. 분석 대상 데이터에는 숫자와 같이 수치형 변수를 포함하는 정형화된 데이터뿐만 아니라, 기호, 단어, 문장 등 텍스트 기반의 비정형 데이터를 포함할 수 있다. 특질 변수 추출부(120)는 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 특질 변수를 추출할 수 있다.
도 3은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 시각화부를 통한 출력의 예를 도시한 도면이다.
도 3은 시각화부(150)를 통해 제공될 수 있는 프로그램의 예를 도시한 도면이다. 특질 변수 추출부(120)는 분석 대상 데이터의 특성을 고려하여 특질 변수를 추출할 수 있다. 구체적으로, 분석 대상 데이터의 특성은 특질 변수의 변수 속성 및 변수 값 분포를 포함할 수 있다. 상기 변수 속성 및 변수 값 분포는 통계적으로 산출될 수 있으며, Key-value 형태로 제공될 수 있다. 특질 변수 추출부(120)는 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 특성에 따른 통계량을 산출할 수 있다. 또한 특질 변수 추출부(120)는 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다.
시각화부(150)는 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 통계량, 카테고리별 카운트 수 및 카운트 비율을 디스플레이할 수 있다. 본원의 일 실시예에 따르면, 정형 데이터 즉, 수치화된 변수의 통계량과 비정형 데이터의 카테고리별 카운트 수 및 비율을 산출함으로써 변수에 대한 이해도가 향상 될 수 있으며, 이를 특질 변수 산출에 활용함으로써 머신러닝 알고리즘의 입력 데이터로서 보다 신뢰성 있는 특질 변수가 산출될 수 있다. 또한, 사용자는 특질 변수 산출과정에서 분석 대상 데이터의 특성을 용이하게 파악할 수 있다.
도 3을 참조하면, 타겟 상관관계(10)는 분석 대상 데이터에 포함된 변수간의 상관관계를 사각화부(150)를 통해 출력하는 기능을 수행한다. 특질 변수 추출부(120)는 변수간의 상관관계에 따라 변수를 제거하거나, 변수의 타입 변경 등 변수를 조절하여 특질 변수를 산출할 수 있다. 변수를 제거하여 특질 변수를 산출하는 것에 대한 구체적인 설명은 보다 뒤에서 살펴보기로 한다.
사전등록(11)은 비정형 데이터로부터 특질 변수 산출시 사용자에게 최적화된 특질 변수를 산출할 수 있도록 단어 사전을 등록하는 기능을 수행한다. 특질 변수 추출부(120)는 분석 대상 데이터 중 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 특질 변수를 추출할 수 있다. 비정형 데이터로부터의 특질 변수 산출에 대해 구체적으로 살펴보면, 특질 변수 추출부(120)는 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다. 또한, 특질 변수 추출부(120)는 최적 벡터값에 대한 주성분 분석(PCA: Principal Component Analysis)을 통해 비정형 데이터에 포함된 텍스트로부터 명사를 추출할 수 있다. 주성분 분석을 위한 알고리즘에는 Soynlp 알고리즘이 활용될 수 있으나, 이에 한정되는 것은 아니다. Soynlp 알고리즘은 별개의 학습 데이터를 요구하지 않으면서 분석 대상 데이터에 존재하는 단어를 추출할 수 있을 뿐만 아니라, 문장을 단어열로 분해하거나 품사를 판별할 수 있는 비지도 학습 기반 알고리즘이다. 특질 변수 추출부(120)는 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다. 예시적으로, 특질 변수 추출부(120)는 상기 단어 사전에 기반하여 텍스트로부터 추출된 명사 즉 단어의 빈도가 높을수록 해당 단어에 높은 점수를 부여할 수 있다. 점수 부여 방식은 미리 설정된 빈도에 따라 차등적으로 점수를 부여하는 절대적인 방식을 통해 이루어질 수 있고, 분석 대상 데이터에서 등장하는 단어의 상대적인 비율에 따라 점수를 부여하는 상대적인 방식을 통해서도 이루어질 수 있다. (예를 들어, 등장 빈도가 상위10%인 단어는 상위 30%인 단어보다 높은 점수가 부여될 수 있다)
도 4는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 특질 변수 추출의 예를 도시한 도면이다.
변수를 제거하여 특질 변수를 산출하는 것에 대해 구체적으로 살펴보면, 특질 변수 추출부(120)는 변수의 상관관계에 의한 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다. 도 4를 참조하면, 특질 변수 추출부(120)는 전방 선택법, 후방 선택법 및 사용자 정의 선택 중 어느 하나에 기초하여 특질 변수를 추출할 수 있다. 전방 선택법은 변수간 기여도가 큰 순서대로 특질 변수를 추출하는 선택법이며, 후방 선택법은 모든 변수를 선택한 상태에서 기여도가 낮은 변수를 하나씩 제거하여 특질 변수를 추출하는 선택법이다. 사용자 정의 선택은 사용자의 판단에 따라 자유롭게 특질 변수를 선택하는 방법이다.
도 5는 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 머신러닝 알고리즘별 결과값의 예를 도시한 도면이고, 도 6은 피처 엔지니어링에서 지원하는 알고리즘의 종류를 도시한 도면이다.
연산부(130)는 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 특질 변수의 입력에 대한 결과 데이터를 산출할 수 있다. 분석 목적(유형)에 따라 다양한 머신러닝 알고리즘이 존재한다. 예시적으로, 도 5의 (a)는 의사결정을 목적으로 하는 머신러닝 알고리즘들의 결과값을 나타내고, 도 5의 (b)는 분류를 목적으로 하는 머신러닝 알고리즘들의 결과값을 나타내며, 도 5의 (c)는 군집을 목적으로 하는 머신러닝 알고리즘들의 결과값을 나타낸다. 연산부(130)는 특질 변수가 수치형 변수인 경우 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정할 수 있다. 회귀 알고리즘 유형에 대응하는 머신러닝 알고리즘에는 Decision tree, Random forest, Elastic nest, Support vector machine 등이 있다. 연산부(130)는 상기 나열한 머신러닝 알고리즘을 포함한 다양한 회귀 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 회귀 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다.
또한, 연산부(130)는 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다. 분류 알고리즘 유형에 대응하는 머신러닝 알고리즘에는 Support vector machine, Decision tree, Random forest, Extra trees 등이 있다. 연산부(130)는 상기 나열한 머신러닝 알고리즘을 포함한 다양한 분류 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 분류 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다.
평가부(140)는 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출할 수 있다. 평가부(140)는 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 결과값에 대해 평균 제곱근 오차(RMSE: Root Mean Squared Error) 값을 이용하여 평가지수를 산출할 수 있다. 평균 제곱근 오차가 낮을수록 회귀 알고리즘의 정확성 및 신뢰성이 높은 알고리즘이므로, 평가부(140)는 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하여 평균 제곱근 오차가 낮은 순으로 순위를 산출할 수 있다.
시각화부(150)는 각 머신러닝 알고리즘에 입력된 특질 변수를 출력(디스플레이)하고, 상기 각각의 평가지수를 산출함으로써, 사용자로 하여금, 평균 제곱근 오차가 가장 낮은 머신러닝 알고리즘이 어떠한 알고리즘인지에 대한 정보를 제공할 수 있다. 즉, 사용자는 회귀 알고리즘을 활용하고자 하는 경우, 전술한 복수의 머신러닝 알고리즘 중 평균 제곱근 오차가 가장 작은 알고리즘을 채탁함으로써, 회귀 알고리즘의 정확도를 향상시킬 수 있다. 이러한 효과는 후술하는 분류 알고리즘 및 군집 알고리즘에도 동일하게 적용될 수 있다.
한편, 특질 변수가 카테고리형 변수인 경우, 평가부(140)는 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도(Accuracy), 정밀도(Precision) 및 재현율(Recall)을 통해 평가지수를 산출할 수 있다. 정확도는 예측값과 실제값의 일치 비율을 나타내고, 정밀도는 예측값 중 실제 값이 발생하는 비율을 나타내며, 재현율은 분류된 값이 정확하게 탐지한 비율을 나타낸다. 평가부(140)는 분류 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하여 정확도, 정밀도 및 재현율이 높은 순으로 순위를 산출할 수 있다.
본원의 일 실시예에 따르면, 특질 변수를 활용하지 않고, 분석 대상 데이터를 입력으로 하는 경우, 연산부(130)는 군집 알고리즘을 실행하여 도 5의 (c)에 도시된 바와 같이, 결과 데이터를 라벨링할 수 있다. 라벨링된 결과 데이터는 지도학습에 재활용 될 수 있다.
전술한 특질 변수를 통해 학습된 각 머신러닝 알고리즘 또는 사용자에 의해 선택된 머신러닝 알고리즘은 pkl파일로 저장될 수 있다. 저장된 pkl 파일은 신규 데이터를 입력받아 예측값을 저장할 수 있으며, 다른 특질 변수와 함께 시각화부(150)를 통해 시각화 될 수 있다.
도 7은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 장치의 신규 데이터를 이용한 시각화의 예를 도시한 도면이다.
도 7을 참조하면, 시각화부(150)는 신규 데이터를 입력으로 하여 산출된 예측값을 다른 특질 변수를 차원으로 하여 시각화할 수 있다. 사용자는 신규 입력 데이터들의 변수들을 차원으로 하고, 예측값을 수치값으로 활용하여 사용자가 원하는 값을 이용하여 시각화할 수 있다.
도 8은 본원의 일 실시예에 따른 피처 엔지니어링 기반 알고리즘 정확도 향상 방법의 흐름을 도시한 도면이다.
도 8에 도시된 피처 엔지니어링 기반 알고리즘 정확도 향상 방법은 앞선 도 1내지 도 7을 통해 설명된 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)에 의하여 수행된다. 따라서, 이하 생략된 내용이라고 하더라도 도 1내지 도 7을 통해 피처 엔지니어링 기반 알고리즘 정확도 향상 장치(100)에 대하여 설명된 내용은 도 8에도 동일하게 적용될 수 있다.
도 8을 참조하면, 단계 S810에서 데이터 수신부(110)는 분석 대상 데이터를 수신할 수 있다. 사용자가 입력한 분석 대상 데이터를 수신할 수 있고, 다른 예로, 데이터베이스에 미리 저장된 분석 대상 데이터를 데이터베이스로부터 수신할 수도 있다.
단계 S820에서 특질 변수 추출부(120)는 피처 엔지니어링에 기반하여 분석 대상 데이터로부터 특질 변수를 추출할 수 있다. 분석 대상 데이터에는 숫자와 같이 수치형 변수를 포함하는 정형화된 데이터뿐만 아니라, 기호, 단어, 문장 등 텍스트 기반의 비정형 데이터를 포함할 수 있다. 특질 변수 추출부(120)는 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 특질 변수를 추출할 수 있다. 특질 변수 추출부(120)는 분석 대상 데이터의 특성을 고려하여 특질 변수를 추출할 수 있다. 구체적으로, 분석 대상 데이터의 특성은 특질 변수의 변수 속성 및 변수 값 분포를 포함할 수 있다. 상기 변수 속성 및 변수 값 분포는 통계적으로 산출될 수 있으며, Key-value 형태로 제공될 수 있다. 특질 변수 추출부(120)는 상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 특성에 따른 통계량을 산출할 수 있다. 또한 특질 변수 추출부(120)는 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 특질 변수의 카운트 수 및 카운트 비율을 산출할 수 있다. 시각화부(150)는 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고, 통계량, 카테고리별 카운트 수 및 카운트 비율을 디스플레이할 수 있다.
또한, 특질 변수 추출부(120)는 분석 대상 데이터 중 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 특질 변수를 추출할 수 있다. 비정형 데이터로부터의 특질 변수 산출에 대해 구체적으로 살펴보면, 특질 변수 추출부(120)는 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출할 수 있다. 또한, 특질 변수 추출부(120)는 최적 벡터값에 대한 주성분 분석(PCA: Principal Component Analysis)을 통해 비정형 데이터에 포함된 텍스트로부터 명사를 추출할 수 있다. 특질 변수 추출부(120)는 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출할 수 있다. 특질 변수 추출부(120)는 변수의 상관관계에 의한 변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출할 수 있다.
단계 S830에서 연산부(130)는 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 특질 변수의 입력에 대한 결과 데이터를 산출할 수 있다. 연산부(130)는 특질 변수가 수치형 변수인 경우 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정할 수 있다. 연산부(130)는 다양한 회귀 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 회귀 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다. 또한, 연산부(130)는 특질 변수가 카테고리형 변수인 경우, 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘을 선정할 수 있다. 연산부(130)는 상기 나열한 머신러닝 알고리즘을 포함한 다양한 분류 알고리즘 중 복수개를 선정할 수 있고, 선정된 각 분류 알고리즘 유형의 머신러닝 알고리즘에 특질 변수를 입력하여 결과값을 산출할 수 있다.
단계 S840에서 평가부(140)는 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출할 수 있다. 평가부(140)는 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘 각각의 결과값에 대해 평균 제곱근 오차(RMSE: Root Mean Squared Error) 값을 이용하여 평가지수를 산출할 수 있다. 또한, 특질 변수가 카테고리형 변수인 경우, 평가부(140)는 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도(Accuracy), 정밀도(Precision) 및 재현율(Recall)을 통해 평가지수를 산출할 수 있다.
본원의 일 실시예에 따르면, 특질 변수를 활용하지 않고, 분석 대상 데이터를 입력으로 하는 경우, 연산부(130)는 군집 알고리즘을 실행하여 결과 데이터를 라벨링할 수 있다. 라벨링된 결과 데이터는 지도학습에 재활용 될 수 있다.
단계 S850에서 시각화부(150)는 특질 변수를 출력하고, 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화할 수 있다. 또한, 시각화부(150)는 신규 데이터를 입력으로 하여 산출된 예측값을 다른 특질 변수를 차원으로 하여 시각화할 수 있다. 사용자는 신규 입력 데이터들의 변수들을 차원으로 하고, 예측값을 수치값으로 활용하여 사용자가 원하는 값을 이용하여 시각화할 수 있다.
본원의 일 실시 예에 따른, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 피처 엔지니어링 기반 알고리즘 정확도 향상 장치
110: 데이터 수신부
120: 특질 변수 추출부
130: 연산부
140: 평가부
150: 시각화부

Claims (17)

  1. 피처 엔지니어링 기반 알고리즘 정확도 향상 장치에 있어서,
    분석 대상 데이터를 수신하는 데이터 수신부;
    피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 특질 변수 추출부;
    상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 연산부;
    상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 평가부; 및
    상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 시각화부를 포함하되,
    상기 특질 변수 추출부는,
    상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되,
    상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출하고,
    상기 특질 변수 추출부는,
    상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출하고,
    상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고,
    상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출하고,
    변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출하고,
    상기 연산부는 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
    상기 특질 변수가 카테고리형 변수인 경우 분류 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
    상기 평가부는
    상기 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하되, 상기 평균 제곱근 오차값이 작은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하고,
    상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출하되, 상기 정확도, 정밀도 및 재현율이 높은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치.
  2. 제1항에 있어서,
    상기 특질 변수 추출부는,
    상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되,
    상기 특성은 변수 속성 및 변수 값 분포를 포함하고,
    상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치.
  3. 제2항에 있어서,
    상기 시각화부는,
    상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고,
    상기 통계량, 상기 카테고리별 상기 특질 변수의 카운트 수 및 상기 카운트 비율을 디스플레이하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 장치.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 피처 엔지니어링 기반 알고리즘 정확도 향상 방법에 있어서,
    데이터 수신부가 분석 대상 데이터를 수신하는 단계;
    특질 변수 추출부가 피처 엔지니어링에 기반하여 상기 분석 대상 데이터로부터 특질 변수를 추출하는 단계;
    연산부가 상기 특질 변수에 따른 분석 목적에 대응하여 선정된 복수의 머신러닝 알고리즘으로부터 상기 특질 변수의 입력에 대한 결과 데이터를 산출하는 단계;
    평가부가 상기 결과 데이터에 기초하여 복수의 머신러닝 알고리즘 각각의 평가지수를 산출하는 단계; 및
    시각화부가 상기 특질 변수를 출력하고, 상기 복수의 머신러닝 알고리즘 각각의 평가지수를 시각화하는 단계를 포함하되,
    상기 특질 변수를 추출하는 단계는,
    상기 분석 대상 데이터에 포함된 정형 데이터 또는 비정형 데이터로부터 상기 특질 변수를 추출하되,
    상기 비정형 데이터의 경우, 비지도 학습 기반 자연어 처리 알고리즘에 기초하여 상기 특질 변수를 추출하고,
    상기 분석 대상 데이터가 비정형 데이터를 포함하는 경우, 사용자 최적화된 단어 사전으로부터 최적 벡터값을 추출하고,
    상기 최적 벡터값에 대한 주성분 분석을 통해 상기 비정형 데이터에 포함된 텍스트로부터 명사를 추출하고,
    상기 단어 사전에 기반하여 상기 명사를 포함하는 단어의 빈도에 따라 부여된 점수에 따라 상기 특질 변수를 산출하고,
    변수 간의 연관성에 따른 중요도 순으로 나열된 변수로부터 상기 복수의 머신러닝 알고리즘에 입력되는 특질 변수를 추출하고,
    상기 연산부는 상기 특질 변수가 수치형 변수인 경우, 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
    상기 특질 변수가 카테고리형 변수인 경우 분류 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘을 선정하고,
    상기 평가부는
    상기 회귀 알고리즘 유형에 대응하는 복수의 머신러닝 알고리즘의 결과 데이터에 대한 평균 제곱근 오차값을 이용하여 상기 평가지수를 산출하되, 상기 평균 제곱근 오차값이 작은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하고,
    상기 분류 알고리즘 유형에 대응하는 복수의 머신 러닝 알고리즘의 결과 데이터의 정확도, 정밀도 및 재현율을 통해 상기 평가지수를 산출하되, 상기 정확도, 정밀도 및 재현율이 높은 순서에 기초하여 복수의 머신러닝 알고리즘의 순위를 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법.
  10. 제9항에 있어서,
    상기 특질 변수를 추출하는 단계는,
    상기 분석 대상 데이터의 특성을 고려하여 상기 특질 변수를 추출하되,
    상기 특성은 변수 속성 및 변수 값 분포를 포함하고,
    상기 분석 대상 데이터에 따른 변수가 수치형 변수인 경우, 상기 특성에 따른 통계량을 산출하고, 상기 분석 대상 데이터에 따른 변수가 카테고리형 변수인 경우 변수의 카테고리별 상기 특질 변수의 카운트 수 및 카운트 비율을 산출하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법.
  11. 제10항에 있어서,
    상기 시각화하는 단계는,
    상기 분석 대상 데이터의 변수 속성, 변수 값 분포 및 변수 설명을 디스플레이하고,
    상기 통계량, 상기 카테고리별 상기 특질 변수의 카운트 수 및 상기 카운트 비율을 디스플레이하는 것인, 피처 엔지니어링 기반 알고리즘 정확도 향상 방법.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 제9항 내지 제11항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.
KR1020190036066A 2019-03-28 2019-03-28 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법 KR102069084B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190036066A KR102069084B1 (ko) 2019-03-28 2019-03-28 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190036066A KR102069084B1 (ko) 2019-03-28 2019-03-28 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102069084B1 true KR102069084B1 (ko) 2020-02-11

Family

ID=69568749

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190036066A KR102069084B1 (ko) 2019-03-28 2019-03-28 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102069084B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128852B1 (ko) * 2020-03-30 2020-07-01 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법
KR102140976B1 (ko) * 2020-03-30 2020-08-04 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법
KR20210137604A (ko) * 2020-05-11 2021-11-18 주식회사 에이젠글로벌 인공지능 데이터 자동 분석 방법 및 분석 시스템
KR20220049932A (ko) * 2020-10-15 2022-04-22 한국전자기술연구원 인공지능 알고리즘의 정확도 향상을 위한 데이터 변환 방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143512A (ko) * 2015-06-04 2016-12-14 더 보잉 컴파니 머신 러닝을 위한 진보된 분석 기반시설
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143512A (ko) * 2015-06-04 2016-12-14 더 보잉 컴파니 머신 러닝을 위한 진보된 분석 기반시설
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAS. SAS Visual Data Mining and Machine Learning. fact sheet. SAS. 2017.* *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128852B1 (ko) * 2020-03-30 2020-07-01 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법
KR102140976B1 (ko) * 2020-03-30 2020-08-04 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법
KR20210137604A (ko) * 2020-05-11 2021-11-18 주식회사 에이젠글로벌 인공지능 데이터 자동 분석 방법 및 분석 시스템
KR102412433B1 (ko) * 2020-05-11 2022-06-23 주식회사 에이젠글로벌 인공지능 데이터 자동 분석 방법 및 분석 시스템
KR20220088670A (ko) * 2020-05-11 2022-06-28 주식회사 에이젠글로벌 인공지능 데이터 자동 분석 방법 및 분석 시스템
KR102652425B1 (ko) 2020-05-11 2024-03-29 주식회사 에이젠글로벌 분위별 변수 영향도 분석이 가능한 인공지능 데이터 자동 분석 방법 및 분석 시스템
KR20220049932A (ko) * 2020-10-15 2022-04-22 한국전자기술연구원 인공지능 알고리즘의 정확도 향상을 위한 데이터 변환 방법 및 시스템
KR102559574B1 (ko) 2020-10-15 2023-07-26 한국전자기술연구원 인공지능 알고리즘의 정확도 향상을 위한 데이터 변환 방법 및 시스템

Similar Documents

Publication Publication Date Title
KR102069084B1 (ko) 피처 엔지니어링 기반 알고리즘 정확도 향상 장치 및 방법
AU2016245868B2 (en) Automated model development process
Hu et al. Locally interpretable models and effects based on supervised partitioning (LIME-SUP)
Sawatsky et al. Partial least squares regression in the social sciences
CN107169572B (zh) 一种基于Mahout的机器学习服务组装方法
US11604797B2 (en) Inferring joins for data sets
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
US11481692B2 (en) Machine learning program verification apparatus and machine learning program verification method
Idris et al. Ensemble based efficient churn prediction model for telecom
US20180253455A1 (en) Data processing system and data processing method
CN115186650B (zh) 数据检测方法及相关装置
US10599782B2 (en) Analytical optimization of translation and post editing
Lavalle et al. An approach to automatically detect and visualize bias in data analytics
CN115357764A (zh) 一种异常数据检测方法及装置
Sudhamathy et al. Analytics using R for predicting credit defaulters
US20220222924A1 (en) Scalable pipeline for machine learning-based base-variant grouping
CN114880635A (zh) 集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质
JP6309795B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR20230017578A (ko) 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술
Basha et al. Enhancing red wine quality prediction through Machine Learning approaches with Hyperparameters optimization technique
CN113177643A (zh) 一种基于大数据的自动建模系统
JP7274434B2 (ja) 流用設計支援システム及び流用設計支援方法
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
US20200142910A1 (en) Data clustering apparatus and method based on range query using cf tree
Kanamori et al. Fairness-aware decision tree editing based on mixed-integer linear optimization

Legal Events

Date Code Title Description
X091 Application refused [patent]
GRNT Written decision to grant