KR20180137824A

KR20180137824A - 랜덤 공간 분할 최적화기를 이용하여 기계 학습 자동화를 구현하는 방법 및 시스템

Info

Publication number: KR20180137824A
Application number: KR1020170077574A
Authority: KR
Inventors: 김정택; 정종헌; 최진영; 최승진
Original assignee: 포항공과대학교 산학협력단
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2018-12-28

Abstract

본 발명은, 메모리 및 적어도 하나의 프로세서를 포함하며, 적어도 하나의 프로세서는, 메모리로부터 입력된, 알고리즘 구성을 이루는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들에 대한 데이터 셋으로부터 초기 시작점을 결정하는 초기화기, 데이터 셋에 기초하여 후보 알고리즘 구성을 결정하는 최적화기, 후보 알고리즘 구성에 기초하여 예측되는 성능 측정값을 얻는 성능 측정값 예측기, 후보 알고리즘 구성과 이전의(previous) 결과 알고리즘 구성의 성능을 비교하는 측정기준 계산기, 및 성능의 비교 결과 성능이 높은 알고리즘 구성으로 결과 알고리즘 구성을 업데이트하고, 최고의 성능을 가진 하나의 알고리즘 구성 모델을 메모리에 출력하는 모델 제조기를 포함하고, 최적화기는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들을 모두 매개변수화하여 후보 알고리즘 구성을 결정하는 것을 특징으로 하는, 기계 학습 자동화를 구현하는 시스템을 제공한다.

Description

랜덤 공간 분할 최적화기를 이용하여 기계 학습 자동화를 구현하는 방법 및 시스템 {METHOD AND SYSTEM FOR IMPLEMENTING MACHINE LEARNING AUTOMATION USING RANDOM SPACE SEGMENTATION OPTIMIZER}

본 발명은 기계 학습 자동화를 구현하는 방법 및 시스템에 관한 것이다. 구체적으로, 미리 정의된 기계 학습 알고리즘 구성 공간에서 랜덤 공간 분할 최적화기를 이용한 베이지안 최적화를 통해 최적의 알고리즘 구성을 찾는 방법 및 시스템에 관한 것이다.

최근 다양한 분야에서 다양한 형태로 방대한 데이터가 생성되고 있으며, 이들은 제각기 다른 특성을 가진다. 이러한 데이터들은 흔히 빅데이터 (big data)로 일컬어 진다. 흔히 빅데이터는 양의 초점을 맞춰서 접근되는 경우가 많지만, 이의 특성에서 각기 다른 사전지식이 필요한 다양한 분야로부터 도래한 데이터라는 점과 관성을 가지고 실시간으로 변화하는 데이터라는 사실 또한 중요하다. 이러한 특성에 비추어 봤을 때 빅데이터를 대상으로 하는 기계학습 알고리즘의 적용은 양에 대한 강건함뿐만 아니라 다양한 형태를 가지고 실시간으로 변화하는 데이터에 대한 고려가 필요하다. 하지만 이를 위해선 전문가라고 불리는 사람이 직접 데이터를 확인하여 기계학습 모델의 설정을 조정하는 작업이 필요하다. 기존의 기계학습을 통해 분류 (classification)나 군집 (clustering) 등의 문제를 해결하는 방법은 이러한 기작을 따랐으며, 데이터 분석가, 기계학습 전문가 등이 앞으로 많이 필요하다라고 이야기되는 이유였다. 하지만 이는 경험적인 방법 (heuristic method)일 뿐이며, 전문가가 성능을 가능한 범위에서 보장해주기는 하지만 그 성능이 최적의 성능이라 말하기는 힘들다. 따라서 최적의 성능을 효율적으로, 그리고 지능적으로 찾는 연구가 진행되어야 한다.

빅데이터 분석을 위한 기계학습 적용을 수월하게 하기 위해선, 단순한 기계학습 알고리즘의 활용을 넘어서 전문가의 세밀한 조정이 필요하다. 하지만 이는 경험적인 방법이며 전문가가 어느 정도 성능을 보장해주지만, 모델이 최적의 성능에 도달하였다고 말하기 힘들다. 따라서 최근 최적의 알고리즘 구성을 찾기 위한 자동 시스템이 제시되고 있으며, 이를 기계학습 자동화 시스템 (Automated machine Learning System)이라 부른다.

본 발명은 전술한 문제점을 해결하기 위하여 다음과 같은 해결 과제를 목적으로 한다.

본 발명은 사용자의 간섭 없이 순차적인 베이지안 최적화를 이용하여 최적의 알고리즘 구성을 찾는 것을 목적으로 한다.

나아가, 본 발명은 랜덤 공간 분할 방법 중 하나인 몬드리안 포레스트 회귀법을 모든 형태의 변수로 확장시키고 병렬화가 가능하게 만든 몬드리안 포레스트 최적화기를 이용하여 실제 성능 측정값을 알지 못하는 상황에서 최적의 알고리즘 구성을 찾는 것을 목적으로 한다.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당해 기술분야에 있어서의 통상의 지식을 가진 자가 명확하게 이해할 수 있을 것이다.

본 발명의 실시예에 따른 기계 학습 자동화를 구현하는 시스템은, 메모리 및 적어도 하나의 프로세서를 포함하며, 적어도 하나의 프로세서는, 메모리로부터 입력된, 알고리즘 구성을 이루는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들에 대한 데이터 셋으로부터 초기 시작점을 결정하는 초기화기, 데이터 셋에 기초하여 후보 알고리즘 구성을 결정하는 최적화기, 후보 알고리즘 구성에 기초하여 예측되는 성능 측정값을 얻는 성능 측정값 예측기, 후보 알고리즘 구성과 이전의(previous) 결과 알고리즘 구성의 성능을 비교하고, 성능의 비교 결과 성능이 높은 알고리즘 구성으로 결과 알고리즘 구성을 업데이트하는 측정기준 계산기, 및 업데이트된 결과 알고리즘 구성에 기초하여 최고의 성능을 가진 하나의 알고리즘 구성 모델을 출력하는 모델 제조기를 포함하고, 최적화기는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들을 모두 매개변수화하여 후보 알고리즘 구성을 결정한다.

바람직하게, 최적화기는, 데이터 셋에 대하여 순차적으로 회귀를 적용하고 소정의 습득 함수로부터 전역 최적값일 가능성이 높은 알고리즘 구성에 대하여 후보 알고리즘 구성을 결정하는 베이지안 최적화기일 수 있다.

바람직하게, 최적화기는, 데이터 셋의 랜덤 포레스트에 대한 학습을 수행하여 최고의 성능을 보일 것이라고 예상되는 후보 알고리즘 구성을 결정한 후, 후보 알고리즘 구성의 실제 성능 측정값을 계산하지 않고 후보 알고리즘 구성을 랜덤 포레스트의 트리에 삽입하는 몬드리안 포레스트 최적화기일 수 있다.

바람직하게, 최적화기는, 온라인에서 병렬적으로 작동할 수 있다.

바람직하게, 최적화기는, 후보 알고리즘 구성에 대하여 병렬적으로 성능 측정값을 계산한 뒤, 랜덤 포레스트의 트리에 비동기적으로 업데이트할 수 있다.

바람직하게, 최적화기는, 랜덤 포레스트의 각 트리 안에서 각 트리의 노드들의 경계 분포를 이용하여 후보 알고리즘 구성의 불확실성을 계산할 수 있다.

바람직하게, 최적화기는, 랜덤 포레스트의 트리에 후보 알고리즘 구성을 랜덤 포레스트의 트리의 노드의 분포에 변화 없이 삽입할 수 있다.

본 발명의 다른 실시예에 따른 메모리 및 적어도 하나의 프로세서를 포함하는 시스템에 의하여 기계 학습 자동화를 구현하는 방법은, 입력된, 알고리즘 구성을 이루는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들에 대한 데이터 셋으로부터 초기 시작점을 결정하는 초기화 단계, 데이터 셋에 기초하여 후보 알고리즘 구성을 결정하는 최적화 단계, 후보 알고리즘 구성과 이전의(previous) 결과 알고리즘 구성의 성능을 비교하고, 성능의 비교 결과 성능이 높은 알고리즘 구성으로 결과 알고리즘 구성을 업데이트하는 측정기준 계산 단계, 및 업데이트된 결과 알고리즘 구성에 기초하여 최고의 성능을 가진 하나의 알고리즘 구성 모델을 출력하는 모델 제조 단계를 포함하고, 최적화 단계는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들을 모두 매개변수화하여 후보 알고리즘 구성을 결정한다.

바람직하게, 최적화 단계는, 데이터 셋에 대하여 순차적으로 회귀를 적용하고 소정의 습득 함수로부터 전역 최적값일 가능성이 높은 알고리즘 구성에 대하여 후보 알고리즘 구성을 결정하는 베이지안 최적화로서 수행될 수 있다.

바람직하게, 최적화 단계는, 데이터 셋의 랜덤 포레스트에 대한 학습을 수행하여 최고의 성능을 보일 것이라고 예상되는 후보 알고리즘 구성을 결정한 후, 후보 알고리즘 구성의 실제 성능 측정값을 계산하지 않고 후보 알고리즘 구성을 랜덤 포레스트의 트리에 삽입하는 몬드리안 포레스트 최적화로서 수행될 수 있다.

바람직하게, 최적화 단계는, 온라인에서 병렬적으로 수행된다.

바람직하게, 최적화 단계는, 후보 알고리즘 구성에 대하여 병렬적으로 성능 측정값을 계산한 뒤, 랜덤 포레스트의 트리에 비동기적으로 업데이트함으로써 수행될 수 있다.

바람직하게, 최적화 단계는, 랜덤 포레스트의 각 트리 안에서 각 트리의 노드들의 경계 분포를 이용하여 후보 알고리즘 구성의 불확실성을 계산함으로써 수행될 수 있다.

바람직하게, 최적화 단계는, 랜덤 포레스트의 트리에 후보 알고리즘 구성을 랜덤 포레스트의 트리의 노드의 분포에 변화 없이 삽입함으로써 수행될 수 있다.

본 발명의 또 다른 실시예에 따른 컴퓨터 프로그램은, 상기의 방법을 수행하고, 컴퓨터 판독 가능 저장 매체에 저장된다.

본 발명은 전문가라고 불리는 사람이 직접 데이터를 확인하여 기계학습 모델의 설정을 조정하는 작업이 필요하지 않고, 최적의 성능을 효율적으로, 그리고 지능적으로 찾을 수 있다.

또한, 본 발명은 일반적인 시스템에서 최적화에 사용되는 가우시안 프로세스 회귀법에 비하여 함수를 예측하고 습득할 알고리즘 구성을 결정하는 시간이 빠르다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당해 기술분야에 있어서의 통상의 지식을 가진 자가 명확하게 이해할 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 기계 학습 자동화를 구현하는 시스템을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 프로세서의 구성을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 새로운 알고리즘 구성의 몬드리안 트리에 대한 삽입을 나타낸다.
도 4는 본 발명의 일 실시예에 따른 기계 학습 자동화를 구현하는 방법을 나타낸다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

기계학습 알고리즘이 작동하는 설정을 알고리즘 구성 (algorithm configuration)이라고 부른다. 또한 모든 알고리즘 구성이 존재하는 공간을 알고리즘 구성 공간 (algorithm configuration space)이라 부른다. 이는 다음의 [수학식 1]로 정의될 수 있다:

Θ는 모델 매개변수의 전체 셋이며, Λ는 하이퍼 파라미터의 전체 셋, Α는 알고리즘의 전체 셋이다. 모델 매개변수와 하이퍼 파라미터의 전체 셋은 각 알고리즘이 가지고 있는 변수들의 전체 셋을 의미한다. 결과적으로 알고리즘 구성 공간은 세 차원의 외적 공간이다. 최적의 성능을 가진 모델은 [수학식 1]의 알고리즘 구성 공간에서 찾아지게 되며, 이 공간을 지능적으로 찾는 방법이 본 발명에서 주목하는 문제이다. 이 문제를 풀기 위해서 확률에 기반한 베이지안 최적화 (Bayesian optimization)가 적용되며, 지금까지 이를 위한 다양한 방법들이 제시되었다. 본 발명의 일 실시예에 따른 기계학습 자동화를 구현하는 시스템은 새로운 최적의 알고리즘 구성을 찾는 방법으로서 랜덤 공간 분할 최적화기(random space partitioning optimizer)를 이용한다. 본 발명의 일 실시예에 따른 랜덤 공간 분할 최적화기를 수식으로 정의하면 다음의 수학식 2와 같다:

[수학식 2]에서 L은 손실 함수, f는 예측 모델, θ _i 와 λ _i 는 선택된 알고리즘 A _i 의 매개변수와 하이퍼 파라미터 (hyperparameter)의 집합, x _k 과 y _k 는 이미 알고 있는 알고리즘 구성과 그의 성능 측정값 (performance measure)이다. 최종적으로 정의 1과 같이 기계학습 알고리즘을 작동할 수 있도록 하는 알고리즘 구성들의 공간을 정의하고, 이 알고리즘 구성을 매개변수화하여 [수학식 2]를 풀게 된다.

본 발명의 일 실시예에 따른 기계학습 자동화를 구현하는 시스템(100)이 고려하는 문제점은 다음과 같다: 1. 연속 변수 (continuous variable)와 분류 변수 (categorical variable) 등을 모두 포함하는 최적화의 결과가 어떠한가 2. 알고리즘 성능 측정값을 빠르게 예측 가능한가 3. 성능 측정값의 불확실성 (uncertainty)이 얼마나 정확한가 4. 알고리즘의 병렬화 (parallelization)가 얼마나 가능한가 등이 있다. 이러한 문제점을 해결하기 위한 대표적인 방법으로는 현재 최고의 성능을 보인다고 알려져 있는 시스템인 auto-sklearn이 있다. 이 시스템은 랜덤 포레스트 (random forests)를 이용한 베이지안 최적화 방법인 순차적 모델 기반의 알고리즘 구성 (sequential model-based algorithm configuration, SMAC)을 이용하는데, 네 가지 문제점에 대해 다른 방법들과 비교했을 때 강점을 가진다.

본 발명의 일 실시예에 따른 기계학습 자동화를 구현하는 시스템(100)은 auto-sklearn에 기반하여 몬드리안 포레스트 최적화기 (Mondrian forests optimizer, MFO)를 통해 SMAC이 가지는 이점을 더 강화한다. MFO는 몬드리안 포레스트 회귀 (Mondrian forests regression) 를 숫자 변수 (numerical variable)와 분류 변수로 확장한 랜덤 공간 분할 최적화기이다. MFO는 실제 성능 측정값을 알지 못하는 상태에서 측정값을 예측할 수 있으므로 병렬화 또한 가능하다. MFO는 다양한 전역 최적화 벤치마크에서 기존의 최적화기와 비교해서 거의 유사하거나 좀 더 나은 성능을 보인다.

기계학습 자동화

기계학습의 적용은 크게 네 과정으로 정리될 수 있다. 이는 특징 변환 (feature transformation), 모델 매개변수 추정 (model parameter estimation), 하이퍼 파라미터 최적화 (hyperparameter optimization), 알고리즘 선택 (algorithm selection)이다. 이 중에 특징 변환은 선처리로 행해지는 경우가 많다. 따라서 나머지 세 과정이 순차적으로 진행된다. 일반적으로 기계학습은 알고리즘 선택과 하이퍼 파라미터 최적화는 사용자가 수행하고 모델 매개변수 추정 문제만을 푼다. 이를 식으로 표현하면 다음과 같다:

또한, 모델 매개변수 추정과 함께 하이퍼 파라미터 또한 매개변수화하여 최적화할 수 있다. 이는 다음과 같은 식으로 표현된다:

모델 매개변수 최적화와 하이퍼 파라미터 최적화를 포함하여 알고리즘 선택도 함께 매개변수화하여 최적화하면 [수학식 2]와 같이 정의될 수 있다. 본 발명에서 다루는 문제는 [수학식 2]이다.

순차적 모델 기반 베이지안 최적화

알고리즘 구성과 성능 측정값의 함수와 같이 정확한 해가 존재하지 않고 주어진 점에서만 함수값을 알 수 있는 함수를 대상으로 최적화 문제를 풀 경우, 순차적 모델 기반 베이지안 최적화 (sequential model-based Bayesian optimization) 를 적용한다. 실제 데이터가 순차적으로 입력되고 이를 기반으로 회귀법을 통해 예측 함수를 생성한다. 그리고 이 예측 함수의 공역에 대해 평가를 하여, 가장 전역 최적값 (global optimum)이 존재할 가능성이 큰 점에서 실제값을 얻는다. 예측된 함수를 평가하는 함수를 습득 함수 (acquisition function)라 부른다. 이를 의사코드로 정리하면 다음의 [표 1]과 같다:

일반적으로 예측 함수를 생성하기 위한 회귀법으로 베이지안 비모수 방법 (Bayesian nonparametric method) 중 하나인 가우시안 프로세스 회귀 (Gaussian process regression) 가 사용된다. 많은 경우에서 가우시안 프로세스 회귀는 정확한 결과를 만들어내지만, 알고리즘 구성을 다루는 문제에서는 숫자 변수뿐만 아니라 분류 변수도 존재하므로 랜덤 포레스트 기반의 회귀법을 사용하는 방법이 제안되기도 했다. 그러나 더 자세히 순차적 모델 기반 베이지안 최적화를 살펴보면, 데이터가 순차적으로 들어오므로 매번 회귀 모델을 생성하는 것이 비효율적이라는 사실을 알 수 있다. 결과적으로 이 문제는 온라인 순차적 문제라 생각될 수 있으며, 이 문제를 해결하기 위해 다음에 설명할 몬드리안 포레스트 기반의 회귀법을 도입하게 된다.

습득 함수는 회귀 모델의 출력값인 함수값과 함수값의 분산 (variance)을 바탕으로 전역 최적값이 존재할 가능성이 가장 높은 점을 평가한다. 전통적으로 세 종류의 습득 함수, 확률 개선 (probability improvement), 기대 개선 (expected improvement), 가우시안 프로세스 상부 신뢰 경계 (Gaussian process upper bound confidence) 가 사용된다.

알고리즘 구성를 정의역으로 하는 순차적 모델 기반 베이지안 최적화 문제를 풀기 위해 대표적으로 가우시안 프로세스 기반의 Spearmint와 랜덤 포레스트 기반의 SMAC이 제시되었다.

몬드리안 포레스트

Lakshminarayanan 외 2인은 확률적인 일반화된 k-d 트리 (k-d tree)인 몬드리안 트리 (Mondrian tree)의 앙상블 (ensemble)인 몬드리안 포레스트 (Mondrian forests)를 제안한다. 몬드리안 포레스트는 분류나 회귀에 사용되는 결정 트리(decision tree) 중 하나이다. 또한 몬드리안 트리는 몬드리안 프로세스 (Mondrian forests) 를 유한한 점으로 구성하여 만든 제한적인 구조이다. 몬드리안 트리의 중요한 특징은 함수값 정보 없이 주어진 공간에 대해서 랜덤 분할, 즉 트리를 학습한다는 사실이다. 실제 함수값은 주어진 공간에 대한 함수값을 예측할 때 사용한다. 결과적으로 m번째 몬드리안 트리, T_m의 예측 함수값 분포 (predictive label distribution)는 다음과 같이 표현된다:

총 M개의 트리가 주어지며 μ _mj 과 σ _mj ²는 노드 j의 경계 분포 (marginal distribution)가 가지는 평균과 분산이다. w _mj 는 노드 j에서 가지가 나눠질 확률로 표현되는 가중치이다. 그리고 leaf 는 입력된 점을 가지는 잎 노드 (leaf node)를 의미하며, path는 입력된 잎 노드까지 도달하는 경로를 의미한다. 마지막으로 주어진 점에 대한 함수값과 그의 불확실성은 다음과 같이 표현된다:

함수값을 예측하기 위해 신뢰 전파 (belief propagation)를 이용해 각 노드의 경계 분포를 구해야 한다. 하지만 본 발명에서 다루는 문제가 온라인 상태인 특성상 이를 계산할 수 없다. 따라서 노드가 지니고 있는 학습 데이터의 샘플 분포 (sample distribution)를 경계 분포로 대체해서 계산한다.

이하, 본 발명의 일 실시예에 따른 몬드리안 포레스트 최적화기를 이용하여 기계 학습 자동화를 구현하는 시스템(100)을 설명한다.

도 1은 본 발명의 일 실시예에 따른 기계 학습 자동화를 구현하는 시스템(100)을 나타낸다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 기계 학습 자동화를 구현하는 시스템(100)은 메모리(110) 및 적어도 하나의 프로세서(120)를 포함한다. 도 1에서는 메모리(110) 및 적어도 하나의 프로세서(120)만을 도시하였으나, 시스템(100)은 메모리(110) 및 프로세서(120)와 액세스 가능한 입력 모듈, 출력 모듈 및 통신 모듈을 추가로 포함될 수 있다. 따라서, 입력 모듈을 통하여 메모리(110) 또는 프로세서(120)에 정보를 입력할 수 있으며, 출력 모듈을 통하여 메모리(110) 또는 프로세서(120)의 정보를 출력할 수 있고, 통신 모듈을 통하여 외부에 정보를 송신하거나 또는 외부로부터 정보를 수신할 수 있다.

메모리(110)는 프로세서(120)에 연결되어 오퍼레이팅 시스템, 어플리케이션, 및 본 발명의 실시예를 수행하는데 필요한 일반 파일(general files)들을 저장한다.

프로세서(120)는 필요한 경우 정보를 메모리(110)에 저장한다. 이와 같은 구조를 가지고 시스템(100)은 이하에서 설명할 본 발명의 다양한 실시형태의 방법을 수행한다.

본 발명의 프로세서(120)는 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 호칭될 수 있다. 한편, 프로세서(120)는 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있다.

하드웨어를 이용하여 본 발명의 실시예를 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASICs(application specific integrated circuits) 또는 DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays) 등이 프로세서(120)에 구비될 수 있다.

도 2는 본 발명의 일 실시예에 따른 프로세서(120)의 구성을 나타낸다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 프로세서(120)는 다섯 개의 구성요소를 가진다. 각 구성요소는 초기화기 (Initializer)(121), 최적화기 (Optimizer)(122), 성능 측정값 예측기 (Response predictor)(123), 측정기준 계산기 (Metric calculator)(124), 모델 제조기 (Model builder)(125)이다.

초기화기(121)는 메모리(110)로부터 입력된, 알고리즘 구성을 이루는 알고리즘들의 종류, 각각의 상기 알고리즘들의 하이퍼 파라미터 및 각각의 상기 알고리즘들의 매개변수들에 대한 데이터 셋으로부터 초기 시작점을 결정한다. 바람직하게, 초기화기(121)에 데이터 셋과 함께 데이터 설명이 입력될 수 있다.

최적화기(122)는 데이터 셋에 기초하여 후보 알고리즘 구성을 결정한다.

성능 측정값 예측기(123)는 후보 알고리즘 구성에 기초하여 예측되는 성능 측정값을 얻는다.

측정기준 계산기(124)는 후보 알고리즘 구성과 이전의(previous) 결과 알고리즘 구성의 성능을 비교하고, 성능의 비교 결과 성능이 높은 알고리즘 구성으로 결과 알고리즘 구성을 업데이트한다. 바람직하게, 측정기준 계산기(124)의 성능 비교 결과 후, 다시 최적화기(122)에서 후보 알고리즘 구성을 결정할 수 있다. 최적화기(122)로부터 측정기준 계산기(124)에 이르기까지의 과정이 반복되면서, 실제 함수를 더 가깝게 예측할 수 있다.

모델 제조기(125)는 업데이트된 결과 알고리즘 구성에 기초하여 최고의 성능을 가진 하나의 알고리즘 구성 모델을 상기 메모리(110)에 출력한다. 바람직하게, 출력된 최고의 성능을 가진 하나의 모델과 함께 상기 모델을 이용한 예측되는 성능 측정값이 출력될 수 있다.

앞서 [수학식 1] 및 [수학식 2]를 참조하여 설명한 바와 같이, 본 발명의 일 실시예에 따른 최적화기(122)는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들을 모두 매개변수화하여 후보 알고리즘 구성을 결정하는 것을 특징으로 한다.

본 발명의 일 실시예에 따른 시스템(100)의 가장 큰 장점은 가장 시간을 소비하는 과정인 최고의 성능을 보일 것이라고 예상되는 후보 알고리즘 구성을 습득하는 부분이다. 시간 제한과 하드웨어 성능 제한과 같은 한정된 자원 하에서 현명하게 알고리즘 구성을 얻기 위해 본 발명의 일 실시예에 따른 최적화기(122)는 MFO일 수 있다. 본 발명의 일 실시예에 따른 MFO(122)는 온라인 알고리즘일 뿐만 아니라 병렬화 가능한 알고리즘이므로 함수를 예측하고 습득할 알고리즘 구성을 결정하는 시간이 빠르다. 또한 랜덤 포레스트의 특성상 SMAC은 함수값의 불확실성을 알 수 없으므로, 경험적인 방법으로 이를 결정한다. 각 트리에서 얻은 결과의 불확실성을 함수값의 불확실성으로 여겨서 구한다. 하지만 이 값은 적은 수의 반복임에도 불구하고 0으로 빠르게 수렴한다. 아직 값을 확인하지 않은 공간에서 알고리즘 구성을 습득하기 위해서는 불확실성이 계속 존재해야 하는데, 불확실성 값이 0으로 수렴하므로 베이지안 최적화가 제대로 이뤄지지 않는다. 반면에, 본 발명의 일 실시예에 따른 MFO(122)는 각 트리 안에서 노드들의 경계 분포를 이용하여 불확실성을 계산하므로 이러한 문제를 가지지 않는다.

몬드리안 포레스트 최적화기

앞서 도 1 및 도 2를 참조하여 설명한 바와 같이, 본 발명의 일 실시예에 따른 시스템(100)은 최적화기(122)를 하나의 구성요소로서 포함한다. 바람직하게, 최적화기(122)는 데이터 셋에 대하여 순차적으로 회귀를 적용하고 소정의 습득 함수로부터 전역 최적값일 가능성이 높은 알고리즘 구성에 대하여 후보 알고리즘 구성을 결정하는 베이지안 최적화기(Bayesian optimizer)일 수 있다. 나아가, 최적화기(122)는 데이터 셋의 랜덤 포레스트에 대한 학습을 수행하여 최고의 성능을 보일 것이라고 예상되는 후보 알고리즘 구성을 결정한 후, 후보 알고리즘 구성의 실제 성능 측정값을 계산하지 않고 후보 알고리즘 구성을 랜덤 포레스트의 트리에 삽입하는 몬드리안 포레스트 최적화기(Mondrian forests optimizer, MFO)일 수 있다.

본 발명의 일 실시예에 따른 MFO(122)는 몬드리안 포레스트를 기계학습 자동화에 맞추어 확장한 랜덤 공간 분할 최적화기이다. 실제 성능 측정값을 알기 어렵고 순차적으로 회귀 모델이 업데이트되므로, 몬드리안 포레스트의 고유한 특성을 이용할 수 있으며 이 문제를 풀기 위해 이를 적용했다. 본 발명의 일 실시예에 따른 MFO(122)는 다음의 [표 2]와 같이 정리된다:

[표 2]를 참조하면, 본 발명의 일 실시예에 따른 MFO(122)는 기본적으로 베이지안 최적화의 순서를 유지하면서 기계학습 자동화 문제를 해결하기 위한 접근으로 확장할 수 있다. 세 번째 줄부터 일곱 번째 줄에서 알 수 있듯이 몬드리안 포레스트의 특성에 맞게 온라인으로 작동한다. 또한, 문제 특성상 정의역 공간이 매우 넓으므로 지역 검색을 통해 회귀를 적용하고 습득 함수로부터 전역 최적값일 가능성이 높은 알고리즘 구성을 결정할 수 있다. 그리고 전체 공간을 검색하지 못하므로 임의로 정해진 개수만큼의 알고리즘 구성을 뽑을 수 있다. 이러한 과정은 최적화기의 탐색의 특성을 강화한다. 이는 여덟 번째 줄부터 열 번째 줄까지로 구현된다.

본 발명의 일 실시예에 따른 MFO(122)는 매개변수화 된 알고리즘 구성 공간에서 알고리즘 구성을 비교하기 위해서 숫자 변수와 분류 변수를 모두 분할할 수 있게 몬드리안 포레스트를 확장할 수 있다. 분류 변수를 분할하는 방법은 두 가지가 있다. 첫 번째는 일대 전체 분할 (one-vs-rest partitioning)이며, 두 번째는 원핫 벡터 (one hot vector)를 이용한다. 일대 전체 분할은 결정 트리의 특성을 이용한 확장으로, 한 트리 안에서 쉽게 알고리즘 구성을 비교할 수 있게 한다. 원핫 벡터를 이용한 확장은 몬드리안 프로세스를 기반으로 확장한 결과이다. 본 발명의 일 실시예에서는 구현의 수월성을 위하여 일대 전체 분할을 이용할 수 있다.

또한, 본 발명의 일 실시예에 따른 MFO(122)를 이용하면 순차적 모델 기반 베이지안 최적화를 병렬화할 수 있다.

도 3은 본 발명의 일 실시예에 따른 새로운 알고리즘 구성의 몬드리안 트리에 대한 삽입을 나타낸다.

구체적으로, 도 3은 새로운 알고리즘 구성을 노드의 분포에 변화없이 삽입하는 과정 및 새롭게 삽입된 알고리즘 구성은 성능 측정값 계산 후에 비동기적 업데이트를 나타낸다.

도 3과 같이 본 발명의 일 실시예에 따른 시스템(100)은 새로운 알고리즘 구성을 습득한 뒤에 실제 성능 측정값을 계산하지 않고 노드의 분포에 변화없이 트리에 삽입할 수 있다. 그리고 병렬로 계산한 성능 측정값을 추후에 비동기적으로 업데이트할 수 있다. 이러한 병렬화가 가능한 이유는 몬드리안 트리의 특성상 트리를 만들 때는 실제 함수값을 알 필요가 없기 때문이다.

본 발명의 일 실시예에 따른 시스템(100)을 최적화할 때, 데이터셋을 보충 (replacement)하면서 학습 데이터를 결정한다. 따라서, 본 발명의 일 실시예는 과적합 (overfitting)이 발생하지 않을 것이라 가정한다. 따라서, 본 발명의 일 실시예는 앙상블로 모델을 구성하는 대신, 최고의 성능을 가진 하나의 모델로 최종 결과를 출력한다. 또한, 본 발명의 일 실시예는 이 문제에 대하여 습득 함수로 자주 사용되는 기대 개선 함수 보다 가우시안 프로세스 상부 신뢰 경계 함수가 더 적합할 것으로 예상되어 이를 사용한다. 본 발명의 일 실시예는 결정 트리의 특성상 회귀의 결과가 현재 알고 있는 최고 성능 예측값에 제한될 수 있기 때문에 이 습득 함수를 적용해 시스템을 구현한다.

도 4는 본 발명의 일 실시예에 따른 기계 학습 자동화를 구현하는 방법을 나타낸다.

도 4를 참조하면, 본 발명의 일 실시예에 따른 기계 학습 자동화를 구현하는 방법은 입력된, 알고리즘 구성을 이루는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들에 대한 데이터 셋으로부터 초기 시작점을 결정하는 초기화 단계(S100), 데이터 셋에 기초하여 후보 알고리즘을 결정하는 최적화 단계(S200), 후보 알고리즘 구성에 기초하여 예측되는 성능 측정값을 생성하는 성능 측정값 예측 단계(S300), 후보 알고리즘 구성과 이전의(previous) 결과 알고리즘 구성의 성능을 비교하고, 성능의 비교 결과 성능이 높은 알고리즘 구성으로 결과 알고리즘 구성을 업데이트하는 측정기준 계산 단계(S400), 및 업데이트된 결과 알고리즘 구성에 기초하여 최고의 성능을 가진 하나의 알고리즘 구성 모델을 출력하는 모델 제조 단계(S500)를 포함하며, 최적화 단계(S200)는 알고리즘들의 종류, 각각의 알고리즘들의 하이퍼 파라미터 및 각각의 알고리즘들의 매개변수들을 모두 매개변수화하여 후보 알고리즘 구성을 결정한다.

바람직하게, 측정기준 계산 단계(S400)의 성능 비교 결과 후, 다시 최적화 단계(S200)에서 후보 알고리즘 구성을 결정할 수 있다. 최적화 단계(S200)로부터 측정기준 계산 단계(S400)에 이르기까지의 과정이 반복되면서, 실제 함수를 더 가깝게 예측할 수 있다.

또한, 최적화 단계(S200)는, 데이터 셋에 대하여 순차적으로 회귀를 적용하고 소정의 습득 함수로부터 전역 최적값일 가능성이 높은 알고리즘 구성에 대하여 후보 알고리즘 구성을 결정하는 베이지안 최적화로서 수행될 수 있다.

또한, 최적화 단계(S200)는, 데이터 셋의 랜덤 포레스트에 대한 학습을 수행하여 최고의 성능을 보일 것이라고 예상되는 후보 알고리즘 구성을 결정한 후, 후보 알고리즘 구성의 실제 성능 측정값을 계산하지 않고 후보 알고리즘 구성을 랜덤 포레스트의 트리에 삽입하는 몬드리안 포레스트 최적화로서 수행될 수 있다.

또한, 최적화 단계(S200)는, 온라인에서 병렬적으로 수행될 수 있다.

또한, 최적화 단계(S200)는, 후보 알고리즘 구성에 대하여 병렬적으로 성능 측정값을 계산한 뒤, 랜덤 포레스트의 트리에 비동기적으로 업데이트함으로써 수행될 수 있다.

또한, 최적화 단계(S200)는, 랜덤 포레스트의 각 트리 안에서 각 트리의 노드들의 경계 분포를 이용하여 후보 알고리즘 구성의 불확실성을 계산함으로써 수행될 수 있다.

또한, 최적화 단계(S200)는, 랜덤 포레스트의 트리에 후보 알고리즘 구성을 랜덤 포레스트의 트리의 노드의 분포에 변화 없이 삽입함으로써 수행될 수 있다.

이상에서 설명된 방법은, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능한 저장 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 코드를 포함하는 저장 디바이스를 설명하기 위해 사용될 수 있는 프로그램 저장 디바이스들은, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 컴퓨터 판독 가능한 저장 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함한다.

이상에서 설명된 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.

본 발명이 본 발명의 기술적 사상 및 본질적인 특징을 벗어나지 않고 다른 형태로 구체화 될 수 있음은 본 발명이 속한 분야 통상의 기술자에게 명백할 것이다. 따라서, 실시예는 제한적인 것이 아니라 예시적인 모든 관점에서 고려되어야 한다. 본 발명의 권리범위는 첨부된 청구항의 합리적 해석 및 본 발명의 균등한 범위 내 가능한 모든 변화에 의하여 결정되어야 한다.

100: 기계 학습 자동화를 구현하는 시스템
110: 메모리 120: 프로세서
121: 초기화기 122: 베이지안 최적화기
123: 성능 측정값 예측기 124: 측정기준 계산기
125: 모델 제조기

Claims

기계 학습 자동화를 구현하는 시스템에 있어서,
메모리; 및
적어도 하나의 프로세서를 포함하며,
상기 적어도 하나의 프로세서는,
상기 메모리로부터 입력된, 알고리즘 구성을 이루는 알고리즘들의 종류, 각각의 상기 알고리즘들의 하이퍼 파라미터 및 각각의 상기 알고리즘들의 매개변수들에 대한 데이터 셋으로부터 초기 시작점을 결정하는 초기화기;
상기 데이터 셋에 기초하여 후보 알고리즘 구성을 결정하는 최적화기;
상기 후보 알고리즘 구성에 기초하여 예측되는 성능 측정값을 얻는 성능 측정값 예측기;
상기 후보 알고리즘 구성과 이전의(previous) 결과 알고리즘 구성의 성능을 비교하고, 상기 성능의 비교 결과 성능이 높은 알고리즘 구성으로 상기 결과 알고리즘 구성을 업데이트하는 측정기준 계산기; 및
상기 업데이트된 결과 알고리즘 구성에 기초하여 최고의 성능을 가진 하나의 알고리즘 구성 모델을 상기 메모리에 출력하는 모델 제조기를 포함하고,
상기 최적화기는 상기 알고리즘들의 종류, 각각의 상기 알고리즘들의 하이퍼 파라미터 및 각각의 상기 알고리즘들의 매개변수들을 모두 매개변수화하여 상기 후보 알고리즘 구성을 결정하는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 시스템.
제 1 항에 있어서,
상기 최적화기는,
상기 데이터 셋에 대하여 순차적으로 회귀를 적용하고 소정의 습득 함수로부터 전역 최적값일 가능성이 높은 알고리즘 구성에 대하여 상기 후보 알고리즘 구성을 결정하는 베이지안 최적화기인 것을 특징으로 하는,
기계 학습 자동화를 구현하는 시스템.
제 1 항에 있어서,
상기 최적화기는,
상기 데이터 셋의 랜덤 포레스트에 대한 학습을 수행하여 최고의 성능을 보일 것이라고 예상되는 상기 후보 알고리즘 구성을 결정한 후, 상기 후보 알고리즘 구성의 실제 성능 측정값을 계산하지 않고 상기 후보 알고리즘 구성을 상기 랜덤 포레스트의 트리에 삽입하는 몬드리안 포레스트 최적화기인 것을 특징으로 하는,
기계 학습 자동화를 구현하는 시스템.
제 1 항에 있어서,
상기 최적화기는,
온라인에서 병렬적으로 작동하는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 시스템.
제 3 항에 있어서,
상기 최적화기는,
상기 후보 알고리즘 구성에 대하여 병렬적으로 성능 측정값을 계산한 뒤, 상기 랜덤 포레스트의 트리에 비동기적으로 업데이트하는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 시스템.
제 3 항에 있어서,
상기 최적화기는,
상기 랜덤 포레스트의 각 트리 안에서 각 트리의 노드들의 경계 분포를 이용하여 상기 후보 알고리즘 구성의 불확실성을 계산하는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 시스템.
제 3 항에 있어서,
상기 최적화기는,
상기 랜덤 포레스트의 트리에 상기 후보 알고리즘 구성을 상기 랜덤 포레스트의 트리의 노드의 분포에 변화 없이 삽입하는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 시스템.
메모리 및 적어도 하나의 프로세서를 포함하는 시스템에 의하여 기계 학습 자동화를 구현하는 방법에 있어서,
입력된, 알고리즘 구성을 이루는 알고리즘들의 종류, 각각의 상기 알고리즘들의 하이퍼 파라미터 및 각각의 상기 알고리즘들의 매개변수들에 대한 데이터 셋으로부터 초기 시작점을 결정하는 초기화 단계;
상기 데이터 셋에 기초하여 후보 알고리즘 구성을 결정하는 최적화 단계;
상기 후보 알고리즘 구성에 기초하여 예측되는 성능 측정값을 생성하는 성능 측정값 예측 단계;
상기 후보 알고리즘 구성과 이전의(previous) 결과 알고리즘 구성의 성능을 비교하고, 상기 성능의 비교 결과 성능이 높은 알고리즘 구성으로 상기 결과 알고리즘 구성을 업데이트하는 측정기준 계산 단계; 및
상기 업데이트된 결과 알고리즘 구성에 기초하여 최고의 성능을 가진 하나의 알고리즘 구성 모델을 출력하는 모델 제조 단계를 포함하고,
상기 최적화 단계는 상기 알고리즘들의 종류, 각각의 상기 알고리즘들의 하이퍼 파라미터 및 각각의 상기 알고리즘들의 매개변수들을 모두 매개변수화하여 상기 후보 알고리즘 구성을 결정하는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 방법.
제 8 항에 있어서,
상기 최적화 단계는,
상기 데이터 셋에 대하여 순차적으로 회귀를 적용하고 소정의 습득 함수로부터 전역 최적값일 가능성이 높은 알고리즘 구성에 대하여 상기 후보 알고리즘 구성을 결정하는 베이지안 최적화로서 수행되는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 방법.
제 8 항에 있어서,
상기 최적화 단계는,
상기 데이터 셋의 랜덤 포레스트에 대한 학습을 수행하여 최고의 성능을 보일 것이라고 예상되는 상기 후보 알고리즘 구성을 결정한 후, 상기 후보 알고리즘 구성의 실제 성능 측정값을 계산하지 않고 상기 후보 알고리즘 구성을 상기 랜덤 포레스트의 트리에 삽입하는 몬드리안 포레스트 최적화로서 수행되는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 방법.
제 8 항에 있어서,
상기 최적화 단계는,
온라인에서 병렬적으로 수행되는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 방법.
제 10 항에 있어서,
상기 최적화 단계는,
상기 후보 알고리즘 구성에 대하여 병렬적으로 성능 측정값을 계산한 뒤, 상기 랜덤 포레스트의 트리에 비동기적으로 업데이트함으로써 수행되는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 방법.
제 10 항에 있어서,
상기 최적화 단계는,
상기 랜덤 포레스트의 각 트리 안에서 각 트리의 노드들의 경계 분포를 이용하여 상기 후보 알고리즘 구성의 불확실성을 계산함으로써 수행되는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 방법.
제 10 항에 있어서,
상기 최적화 단계는,
상기 랜덤 포레스트의 트리에 상기 후보 알고리즘 구성을 상기 랜덤 포레스트의 트리의 노드의 분포에 변화 없이 삽입함으로써 수행되는 것을 특징으로 하는,
기계 학습 자동화를 구현하는 방법.
제 8 항 내지 제 14 항의 방법을 수행하고, 컴퓨터 판독 가능 저장 매체에 저장된,
컴퓨터 프로그램.