KR20200021301A

KR20200021301A - 하이퍼파라미터 최적화 방법 및 그 장치

Info

Publication number: KR20200021301A
Application number: KR1020180096891A
Authority: KR
Inventors: 노현빈; 민승재; 문기효; 김성준; 정지수; 한진환
Original assignee: 삼성에스디에스 주식회사
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2020-02-28
Also published as: US11341420B2; US20200057944A1

Abstract

하이퍼파라미터 최적화 방법이 제공된다. 본 발명의 일 실시예에 따른 하이퍼파라미터 최적화 방법은 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델(target model)에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 단계, 상기 산출된 평가 점수를 가중치로 이용하여, 상기 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 단계 및 상기 클러스터링 결과에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함할 수 있다.

Description

하이퍼파라미터 최적화 방법 및 그 장치{METHOD FOR OPTIMIZING HYPER-PARAMTERAND APPARATUS FOR}

본 발명은 하이퍼파라미터 최적화 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 특정 모델의 성능을 향상시키기 위해, 모델의 하이퍼파라미터(hyper-parameter)를 자동으로 최적화하는 방법 및 그 방법을 수행하는 장치에 관한 것이다.

모델의 하이퍼파라미터(hyper-parameter)는 트레이닝(training)을 수행하기 전에 설정해주어야 하는 파라미터(parameter)를 의미한다. 이처럼, 하이퍼파라미터는 트레이닝 수행 전에 미리 설정되어야 한다는 점에서, 트레이닝에 의해 학습되는 모델 파라미터와 차이점이 있다.

하이퍼파라미터 최적화 또는 하이퍼파라미터 튜닝(tuning)은 모델의 성능을 최대화하기 위해 하이퍼파라미터의 값을 조정하는 작업을 말한다. 하이퍼파라미터의 값이 어떤 값으로 설정되는지에 따라 모델의 성능이 크게 달라지기 때문에, 하이퍼파라미터 최적화는 기계 학습 분야와 같이 데이터 기반 모델을 다루는 분야에서 매우 중요한 작업 중 하나이다.

구체적인 예를 들면, 기계 학습 모델의 대표적인 하이퍼파라미터 중 하나는 학습률(learning rate)인데, 학습률은 경사 하강법(gradient descent algorithm)에서 기울기 방향으로 움직이는 정도를 조절하는 하이퍼파라미터이다. 여기서, 경사 하강법은 타깃 모델(target model)을 트레이닝할 때 손실 함수(loss function)의 최소 지점을 탐색하기 위해 주로 이용되는 기법이다. 복잡한 모델의 손실 함수는 도 1에 도시된 바와 같이 고차원의 형상을 가지고 있다. 따라서, 학습률의 설정 값에 따라 지역적 최소점(local minimum)이 최소 지점으로 탐색될 수도 있고, 전역적 최소점(global minimum)이 최소 지점으로 탐색될 수도 있다. 또한, 지역적 최소점이 최소 지점으로 탐색되는 경우, 타깃 모델의 파라미터가 적절하게 트레이닝되지 않아 타깃 모델의 성능은 저하되게 된다. 이처럼, 학습률이 어떤 값으로 설정되는 지에 따라 모델의 성능이 크게 달라질 수 있기 때문에, 하이퍼파라미터 최적화를 통해 적절한 설정 값을 찾는 것이 매우 중요한 것이다.

하이퍼파라미터 최적화는 해당 분야의 숙련된 전문가에 의해 수동으로 수행되는 것이 일반적이다. 그러나, 전문가에 의해 이루어지는 최적화는 해당 전문가의 경험에 의존하는 바가 크고, 전문가의 숙련도에 따라 모델의 성능이 크게 좌우되며, 무엇보다 숙련된 전문가를 구하는 것이 매우 어렵다는 문제가 있다.

최근, 하이퍼파라미터 최적화의 또 다른 방법으로 그리드 탐색(grid search) 기법이 제안된 바 있다. 그리드 탐색 기법은 하이퍼파라미터의 모든 가능한 조합에 대한 시도를 통해 최적의 하이퍼파라미터 조합을 결정하는 방법이다. 그리드 탐색 기법은 최적의 하이퍼파라미터 조합을 도출할 수 있으나, 지나치게 많은 컴퓨팅 비용 및 시간 비용이 소모되며, 전체 하이퍼파라미터 공간에 대하여 그리드 탐색을 수행하는 것은 사실상 불가능하다.

그리드 탐색 기법의 비효율성을 보완하기 위해, 랜덤 탐색(random search) 기법이 제안된 바 있다. 그러나, 랜덤 탐색은 무작위로 하이퍼파라미터 조합을 샘플링하며 최적 하이퍼파라미터 조합을 찾는 기법이기 때문에, 사실상 최적의 하이퍼파라미터 조합을 도출하기 어려우며, 최적화의 결과가 매번 달라질 수 있다는 문제점이 있다.

한국공개특허 제10-2017-0034258호(2017.03.28 공개)

본 발명이 해결하고자 하는 기술적 과제는, 컴퓨팅 비용 및 시간 비용 측면에서 보다 효율적으로 모델의 하이퍼파라미터를 최적화하는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 기술적 과제는, 데이터셋이 갱신되는 경우 효율적으로 모델의 하이퍼파라미터를 갱신하는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 하이퍼파라미터 최적화 방법은, 하이퍼파라미터 최적화 장치에서 모델의 하이퍼파라미터(hyper-parameter)를 최적화하는 방법에 있어서, 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델(target model)에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 단계, 상기 산출된 평가 점수를 가중치로 이용하여, 상기 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 단계 및 상기 클러스터링 결과에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 복수의 하이퍼파라미터 샘플은 그리드 탐색(grid search) 및 랜덤 탐색(random search) 중 적어도 하나를 통해 샘플링될 수 있다.

몇몇 실시예에서, 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는, 상기 클러스터링을 통해 형성된 클러스터의 중심점(centroid)을 제1 하이퍼파라미터 샘플로 샘플링하는 단계 및 상기 제1 하이퍼파라미터 샘플에 기초하여 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,

상기 클러스터링을 통해 형성된 클러스터에 속한 하이퍼파라미터 샘플 중에서, 평가 점수가 임계치 미만인 하이퍼파라미터 샘플을 결정하는 단계 및 상기 결정된 하이퍼파라미터 샘플을 제외하고, 나머지 하이퍼파라미터 샘플에 기초하여 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는, 상기 클러스터링을 통해 형성된 클러스터의 중심점(centroid)을 연산하는 단계, 상기 연산된 중심점으로부터 임계치 이상 떨어진 포인트를 제1 하이퍼파라미터 샘플로 샘플링하는 단계, 상기 제1 하이퍼파라미터 샘플을 상기 타깃 모델에 적용하여, 상기 제1 하이퍼파라미터 샘플에 대한 평가 점수를 산출하는 단계 및 상기 제1 하이퍼파라미터 샘플의 평가 점수가 임계치 이상이라는 판정에 응답하여, 상기 제1 하이퍼파라미터 샘플을 상기 제2 하이퍼파라미터 샘플 집합에 추가하는 단계를 포함할 수 있다.

상기 기술적 과제를 해결하기 위한, 본 발명의 다른 일 실시예에 따른 하이퍼파라미터 최적화 방법은, 하이퍼파라미터 최적화 장치에서 모델의 하이퍼파라미터(hyper-parameter)를 최적화하는 방법에 있어서, 제1 하이퍼파라미터 샘플 집합을 구성하는 하이퍼파라미터 샘플 각각을 타깃 모델에 적용하여, 상기 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 단계, 상기 산출된 평가 점수를 기초로 제1 하이퍼파라미터 샘플을 샘플링하는 단계, 상기 산출된 평가 점수에 관계없이 제2 하이퍼파라미터 샘플을 샘플링하는 단계 및 상기 제1 하이퍼파라미터 샘플 및 상기 제2 하이퍼파라미터 샘플 중 적어도 일부에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계는, 상기 산출된 평가 점수를 가중치로 이용하여, 상기 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 단계 및 상기 클러스터링 결과에 기초하여 상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계는, 상기 산출된 평가 점수를 이용하여 상기 타깃 모델의 하이퍼파라미터에 대한 평가 점수를 예측하는 예측 모형을 구축하는 단계 및 상기 예측 모형을 이용하여 상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 제2 하이퍼파라미터 샘플을 샘플링하는 단계는, 상기 타깃 모델의 하이퍼파라미터 공간의 일부를 탐색 영역으로 지정하는 단계 및 상기 지정된 탐색 영역에 대한 그리드 탐색(grid search)을 통해 상기 제2 하이퍼파라미터 샘플을 샘플링하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 산출된 평가 점수는 제1 평가 점수이고, 상기 제2 하이퍼파라미터 샘플 집합은 제1 데이터셋에 대하여 구성된 것이되, 제2 데이터셋을 획득하는 단계, 상기 제2 데이터셋과 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 하이퍼파라미터 샘플을 상기 타깃 모델에 적용하여, 상기 제2 하이퍼파라미터 샘플 집합에 대한 제2 평가 점수를 산출하는 단계 및 상기 제2 평가 점수를 기초로 상기 제2 하이퍼파라미터 샘플 집합을 갱신하는 단계를 더 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 하이퍼파라미터 최적화 장치는, 프로세서 및 상기 프로세서에 의하여 실행되는 적어도 하나의 프로그램을 저장하는 메모리를 포함하되, 상기 적어도 하나의 프로그램은, 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델(target model)에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 동작, 상기 산출된 평가 점수를 가중치로 이용하여, 상기 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 동작 및 상기 클러스터링 결과에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 동작을 수행하도록 하는 인스트럭션들(instructions)을 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 다른 일 실시예에 따른 하이퍼파라미터 최적화 장치는, 프로세서 및 상기 프로세서에 의하여 실행되는 적어도 하나의 프로그램을 저장하는 메모리를 포함하되, 상기 적어도 하나의 프로그램은, 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 동작, 상기 산출된 평가 점수를 기초로 제1 하이퍼파라미터 샘플을 샘플링하는 동작, 상기 산출된 평가 점수에 관계없이 제2 하이퍼파라미터 샘플을 샘플링하는 동작 및 상기 제1 하이퍼파라미터 샘플 및 상기 제2 하이퍼파라미터 샘플 중 적어도 일부에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 동작을 수행하도록 하는 인스트럭션들(instructions)을 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델(target model)에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 단계, 상기 산출된 평가 점수를 가중치로 이용하여, 상기 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 단계 및 상기 클러스터링 결과에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 실행시키기 위하여 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 다른 일 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델(target model)에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 단계, 상기 산출된 평가 점수를 기초로 제1 하이퍼파라미터 샘플을 샘플링하는 단계, 상기 산출된 평가 점수에 관계없이 제2 하이퍼파라미터 샘플을 샘플링하는 단계 및 상기 제1 하이퍼파라미터 샘플 및 상기 제2 하이퍼파라미터 샘플 중 적어도 일부에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 실행시키기 위하여 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.

도 1은 하이퍼파라미터가 기계 학습 모델의 성능에 미치는 영향을 설명하기 위한 도면이다.
도 2는 본 발명의 기술적 사상이 적용될 수 있는 예시적인 컴퓨팅 시스템을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 하이퍼파라미터 최적화 장치를 나타내는 블록도이다.
도 4는 본 발명의 일 실시예에 따른 하이퍼파라미터 최적화 장치를 나타내는 하드웨어 구성도이다.
도 5는 본 발명의 제1 실시예에 따른 하이퍼파라미터 최적화 방법을 나타내는 흐름도이다.
도 6은 본 발명의 몇몇 실시예에서 참조될 수 있는 랜덤 탐색 기법을 설명하기 위한 예시도이다.
도 7은 본 발명의 몇몇 실시예에서 참조될 수 있는 그리드 탐색 기법을 설명하기 위한 예시도이다.
도 8은 본 발명의 몇몇 실시예에서 참조될 수 있는 랜덤 탐색과 그리드 탐색 기법을 함께 활용하는 방법을 설명하기 위한 예시도이다.
도 9는 본 발명의 몇몇 실시예에서 참조될 수 있는 그리드 탐색 방법을 설명하기 위한 예시도이다.
도 10은 본 발명의 몇몇 실시예에서 참조될 수 있는 상관 관계 기반 하이퍼파라미터 값 샘플링 방법을 설명하기 위한 도면이다.
도 11은 본 발명의 몇몇 실시예에서 참조될 수 있는 가중치 기반 클러스터링 기법을 설명하기 위한 예시도이다.
도 12 내지 도 14는 본 발명의 몇몇 실시예에서 참조될 수 있는 클러스터링 결과에 기반한 하이퍼파라미터 샘플 샘플링 방법을 설명하기 위한 예시도이다.
도 15는 도 5에 도시된 단계(S180)에서 수행될 수 있는 본 발명의 몇몇 실시예에 따른 최적 하이퍼파라미터 샘플 집합 갱신 방법을 나타내는 흐름도이다.
도 16은 본 발명의 제2 실시예에 따른 하이퍼파라미터 최적화 방법을 나타내는 흐름도이다.
도 17은 도 16에 도시된 단계(S220)에서 수행될 수 있는 본 발명의 일 실시예에 따른 평가 점수 기반 하이퍼파라미터 샘플 샘플링 방법을 나타내는 흐름도이다.
도 18은 도 16에 도시된 단계(S240, S250)에서 수행될 수 있는 본 발명의 일 실시예에 따른 최적 하이퍼파라미터 샘플 집합 구성 및 갱신 방법을 나타내는 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.

본 명세서에서, 모델(model)은 하이퍼파라미터를 갖는 임의의 데이터 기반 모델을 모두 포괄하는 추상적인 개념이다. 여기서, 상기 데이터 기반 모델은 데이터의 관계, 분포 등을 추상화한 모형을 의미할 수 있다. 상기 모델의 대표적인 예로는 기계 학습 모델을 들 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

본 명세서에서, 모델의 하이퍼파라미터(hyper-parameter)란, 모델의 트레이닝을 수행하기 전에 미리 설정되는 파라미터(parameter)를 의미한다. 가령, 기계 학습 분야에서 하이퍼파라미터는 학습률(learning rate), 가중치 감소(weight decay), 배치 크기(batch size) 등을 포함할 수 있다. 모델 파라미터(e.g. 신경망의 가중치)는 트레이닝에 의해 학습되는 것인 데 반해, 하이퍼파라미터는 트레이닝 수행 전에 미리 설정되는 파라미터라는 점에서 차이점이 있다.

본 명세서에서, 인스트럭션(instruction)이란, 기능을 기준으로 묶인 일련의 명령어들로서 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 가리킨다.

이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

도 2는 본 발명의 기술적 사상이 적용될 수 있는 예시적인 컴퓨팅 시스템을 도시한다.

도 2를 참조하면, 상기 컴퓨팅 시스템은 예측 장치(100)를 포함하도록 구성될 수 있다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 구성 요소가 추가되거나 삭제될 수 있음은 물론이다.

상기 컴퓨팅 시스템에서, 예측 장치(100)는 소정의 기계 학습 모델(205)을 이용하여 예측 기능을 수행하는 컴퓨팅 장치이다. 상기 컴퓨팅 장치는, 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다.

구체적으로, 예측 장치(100)는 주어진 데이터셋(201, 203)으로 기계 학습 모델(205)을 학습하고, 학습된 기계 학습 모델(205)을 이용하여 소정의 예측 기능을 수행할 수 있다. 예를 들어, 데이터셋(201, 203)이 공정의 이상 또는 정상에 관한 관측 데이터인 경우, 예측 장치(100)는 상기 관측 데이터를 기초로 기계 학습 모델(205)을 학습하고, 학습된 기계 학습 모델(205)을 이용하여 공정의 상태(e.g. 이상, 정상)를 예측할 수 있다.

본 발명의 몇몇 실시예들에 따르면, 예측 장치(100)는 기계 학습 모델(205)의 성능(e.g. 정확도)을 최대화하기 위해, 기계 학습 모델(205)의 하이퍼파라미터를 최적화할 수 있다. 구체적으로, 예측 장치(100)는 데이터셋(201)에 대하여 기계 학습 모델(205)에 대한 최적 하이퍼파라미터 샘플 집합을 도출하고, 추가 데이터셋(203)이 제공되면, 추가 데이터셋(203)에 맞춰서 상기 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다. 이와 같은 실시예에 한하여, 예측 장치(100)는 하이퍼파라미터 최적화 장치(100)로 명명될 수도 있다. 예측 장치(100)가 하이퍼파라미터 최적화를 수행하는 방법에 관한 자세한 내용은 도 3 이하의 도면을 참조하여 후술하도록 한다. 본 실시예에 따르면, 하이퍼파라미터 최적화를 통해 기계 학습 모델(205)의 성능이 개선될 것인 바, 예측 결과의 정확도가 향상될 수 있다.

지금까지 도 2를 참조하여 본 발명의 기술적 사상이 적용될 수 있는 예시적인 컴퓨팅 시스템에 대하여 설명하였다. 이하에서는, 본 발명의 일 실시예에 따른 하이퍼파라미터 최적화 장치(100)의 구성 및 동작에 대하여 도 3 및 도 4를 참조하여 설명하도록 한다. 이하에서는, 설명의 편의를 위해 하이퍼파라미터 최적화 장치(100)를 최적화 장치(100)로 약칭하도록 한다.

도 3은 본 발명의 일 실시예에 따른 최적화 장치(100)를 나타내는 블록도이다.

도 3을 참조하면, 최적화 장치(100)는 초기 샘플 집합 구성부(110), 최적 샘플 집합 구성부(130) 및 최적 샘플 집합 갱신부(150)를 포함하도록 구성될 수 있다. 다만, 도 3에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 3에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 이하, 각 구성요소에 대하여 설명하도록 한다.

초기 샘플 집합 구성부(110)는 적어도 하나의 하이퍼파라미터 샘플이 포함되도록 초기 하이퍼파라미터 샘플 집합을 구성한다. 예를 들어, 초기 샘플 집합 구성부(110)는 특정 탐색 영역에서 그리드 탐색을 수행하거나, 랜덤 탐색을 수행함으로써 하이퍼파라미터 샘플을 샘플링하고, 샘플링된 하이퍼파라미터 샘플에 기초하여 상기 초기 하이퍼파라미터 샘플 집합을 구성할 수 있다.

상기 초기 하이퍼파라미터 샘플 집합을 구성하는 구체적인 방법은 실시예에 따라 달라질 수 있는데, 이에 대한 설명은 도 5 내지 도 10을 참조하여 후술하도록 한다.

다음으로, 최적 샘플 집합 구성부(130)는 초기 하이퍼파라미터 샘플 집합에 기초하여 최적 하이퍼파라미터 샘플 집합을 구성한다. 최적 샘플 집합 구성부(130)가 최적 하이퍼파라미터 샘플 집합을 구성하는 구체적인 방법은 실시예에 따라 달라질 수 있다. 중복된 설명을 배제하기 위해, 상기 구체적인 방법에 대해서는 도 5, 도 11 내지 도 14, 도 16 및 도 17을 참조하여 후술하도록 한다.

다음으로, 최적 샘플 집합 갱신부(150)는 데이터셋의 갱신에 응답하여 최적 하이퍼파라미터 샘플 집합을 갱신한다. 데이터셋이 변경되는 경우, 타깃 모델의 정확도가 떨어질 수 있고, 타깃 모델의 성능을 최대화하는 하이퍼파라미터의 값 또한 변경될 수 있기 때문이다. 최적 샘플 집합 갱신부(130)가 최적 하이퍼파라미터 샘플 집합을 갱신하는 구체적인 방법은 실시예에 따라 달라질 수 있다. 중복된 설명을 배제하기 위해, 상기 구체적인 방법에 대해서는 도 5, 도 15, 도 16 및 도 18을 참조하여 후술하도록 한다.

도 3에 도시된 최적화 장치(100)의 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.

도 4는 본 발명의 일 실시예에 따른 최적화 장치(100)를 나타내는 하드웨어 구성도이다.

도 4를 참조하면, 최적화 장치(100)는 하나 이상의 프로세서(101), 버스(105), 네트워크 인터페이스(107), 프로세서(101)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(103)와, 하이퍼파라미터 최적화 소프트웨어(109a)를 저장하는 스토리지(109)를 포함할 수 있다. 다만, 도 4에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 4에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(101)는 하이퍼파라미터 최적화 장치(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(101)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(101)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 하이퍼파라미터 최적화 장치(100)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(103)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(103)는 본 발명의 실시예들에 따른 하이퍼파라미터 최적화 방법을 실행하기 위하여 스토리지(109)로부터 하나 이상의 프로그램(109a)을 로드할 수 있다. 도 4에서 메모리(103)의 예시로 RAM이 도시되었다.

메모리(103)에 하나 이상의 프로그램(109a)이 로드되면 메모리(103) 상에 도 3에 도시된 바와 같은 모듈이 로직(logic)의 형태로 구현될 수 있다.

버스(105)는 최적화 장치(100)의 구성 요소 간 통신 기능을 제공한다. 버스(105)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

네트워크 인터페이스(107)는 하이퍼파라미터 최적화 장치(100)의 유무선 인터넷 통신을 지원한다. 또한, 네트워크 인터페이스(107)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 네트워크 인터페이스(107)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.

실시예에 따라, 네트워크 인터페이스(107)는 생략될 수도 있다.

스토리지(109)는 상기 하나 이상의 프로그램(109a)을 비임시적으로 저장할 수 있다. 도 4에서 상기 하나 이상의 프로그램(109a)의 예시로 하이퍼파라미터 최적화 소프트웨어(109a)가 도시되었다.

스토리지(109)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(109a)은 메모리(103)에 로드될 때 프로세서(101)로 하여금 본 발명의 몇몇 실시예들에 따른 하이퍼파라미터 최적화 방법을 수행하도록 하는 인스트럭션들을 포함할 수 있다.

예를 들어, 컴퓨터 프로그램(109a)은 초기 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 동작, 상기 산출된 평가 점수를 가중치로 이용하여, 상기 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 동작 및 상기 클러스터링 결과에 기초하여 최적 하이퍼파라미터 샘플 집합을 구성하는 동작을 수행하도록 하는 인스트럭션들을 포함할 수 있다.

다른 예를 들어, 컴퓨터 프로그램(109a)은 초기 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 동작, 상기 산출된 평가 점수를 기초로 제1 하이퍼파라미터 샘플을 샘플링하는 동작, 상기 산출된 평가 점수에 관계없이 제2 하이퍼파라미터 샘플을 샘플링하는 동작 및 상기 제1 하이퍼파라미터 샘플 및 상기 제2 하이퍼파라미터 샘플 중 적어도 일부에 기초하여 최적 하이퍼파라미터 샘플 집합을 구성하는 동작을 수행하도록 하는 인스트럭션들을 포함할 수 있다.

이외에도, 컴퓨터 프로그램(109a)는 본 발명의 몇몇 실시예들에 따른 방법들을 수행하는 하는 인스트럭션들을 포함할 수 있다.

지금까지 도 3 및 도 4를 참조하여 본 발명의 실시예에 따른 최적화 장치(100)의 구성 및 동작에 대하여 설명하였다. 이하에서는, 도 5 이하의 도면을 참조하여 본 발명의 몇몇 실시예들에 따른 하이퍼파라미터 최적화 방법에 대하여 상세하게 설명한다.

이하에서 후술될 본 발명의 실시예에 따른 하이퍼파라미터 최적화 방법의 각 단계는, 컴퓨팅 장치에 의해 수행될 수 있다. 예를 들어, 상기 컴퓨팅 장치는 최적화 장치(100)일 수 있다. 다만, 설명의 편의를 위해, 상기 하이퍼파라미터 최적화 방법에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다. 또한, 하이퍼파라미터 최적화 방법의 각 단계는 프로세서에 의해 실행되는 컴퓨터 프로그램의 인스트럭션들로 구현될 수 있다.

도 5는 본 발명의 제1 실시예에 따른 하이퍼파라미터 최적화 방법을 나타내는 흐름도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 5를 참조하면, 상기 제1 실시예에 따른 하이퍼파라미터 최적화 방법은 최적화 장치(100)가 초기 하이퍼파라미터 샘플 집합을 구성하는 단계(S100)에서 시작된다. 초기 하이퍼파라미터 샘플 집합을 구성하는 구체적인 방법은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 상기 초기 하이퍼파라미터 샘플 집합은 랜덤 탐색 기법에 의해 샘플링된 하이퍼파라미터 샘플들에 기초하여 구성될 수 있다. 가령, 도 6에 도시된 바와 같이, 최적화 장치(100)는 하이퍼파라미터 공간 상에서 랜덤하게 결정된 샘플링 포인트(221, 223 등)에 기초하여 하이퍼파라미터 샘플을 샘플링하고, 샘플링된 하이퍼파라미터 샘플에 기초하여 초기 하이퍼파라미터 샘플 집합을 구성할 수 있다. 실시예에 따라, 최적화 장치(100)는 샘플링된 하이퍼파라미터 샘플 각각과 주어진 데이터셋(211)을 타깃 모델에 적용하고, 성능 평가를 통해 각 하이퍼파라미터 샘플에 대한 평가 점수를 산출하며, 산출된 평가 점수가 임계치 이상인 샘플로 초기 하이퍼파라미터 샘플 집합을 구성할 수도 있다. 여기서, 하이퍼파라미터 샘플을 타깃 모델에 적용하여 성능 평가를 수행한다는 것은 상기 타깃 모델의 하이퍼파라미터 값을 상기 하이퍼파라미터 샘플로 설정하고, 주어진 데이터셋으로 상기 타깃 모델을 트레이닝한 다음에 성능 평가를 수행하는 것으로 이해될 수 있다.

몇몇 실시예에서, 상기 초기 하이퍼파라미터 샘플 집합은 그리드 탐색 기법에 의해 샘플링된 하이퍼파라미터 샘플들에 기초하여 구성될 수 있다. 가령, 도 7에 도시된 바와 같이, 최적화 장치(100)는 하이퍼파라미터 공간 상의 일정 탐색 영역(231)에 그리드를 형성할 수 있다. 또한, 최적화 장치(100)는 형성된 그리드를 탐색하며 하이퍼파라미터 샘플을 샘플링할 수 있다. 최적화 장치(100)는 샘플링된 하이퍼파라미터 샘플에 기초하여 초기 하이퍼파라미터 샘플 집합을 구성할 수 있다. 실시예에 따라, 최적화 장치(100)는 샘플링된 하이퍼파라미터 샘플 각각과 주어진 데이터셋(211)을 타깃 모델에 적용할 수 있다. 또한, 최적화 장치(100)는 성능 평가를 통해 각 하이퍼파라미터 샘플에 대한 평가 점수를 산출하며, 산출된 평가 점수가 임계치 이상인 샘플로 초기 하이퍼파라미터 샘플 집합을 구성할 수도 있다.

몇몇 실시예에서, 초기 하이퍼파라미터 샘플 집합은 랜덤 탐색과 그리드 탐색을 함께 활용하여 샘플링된 하이퍼파라미터 샘플들에 기초하여 구성될 수 있다. 예를 들어, 최적화 장치(100)는 랜덤 탐색을 통해 일부 하이퍼파라미터 샘플을 샘플링할 수 있다. 또한, 최적화 장치(100)는 그리드 탐색을 통해 다른 일부 하이퍼파라미터 샘플을 샘플링할 수 있다. 최적화 장치(100)는 샘플링된 하이퍼파라미터 샘플에 기초하여 초기 하이퍼파라미터 샘플 집합을 구성할 수 있다. 다른 예를 들어, 도 8에 도시된 바와 같이, 최적화 장치(100)는 랜덤 탐색을 통해 탐색 영역(244, 245)을 지정하고, 지정된 탐색 영역(244, 245)에서 그리드 탐색을 수행하여 하이퍼파라미터 샘플을 샘플링하고, 샘플링된 하이퍼파라미터 샘플로 초기 하이퍼파라미터 샘플 집합을 구성할 수 있다. 여기서, 최적화 장치(100)는 랜덤 탐색을 통해 결정된 샘플링 포인트(241, 242, 243 등) 중에서 평가 점수가 높은 일부 하이퍼파라미터 샘플의 샘플링 포인트(241, 243)를 기준으로 그리드 탐색 영역(244, 245)을 지정할 수 있다. 본 실시예에 따르면, 그리드 탐색과 랜덤 탐색 기법의 장점을 함께 활용함으로써 컴퓨팅 비용 대비 성능이 우수한 초기 하이퍼파라미터 샘플 집합을 구성할 수 있다.

몇몇 실시예에서, 그리드 탐색은 도 9에 도시된 방식으로 수행될 수 있다. 구체적으로, 최적화 장치(100)는 지정된 탐색 영역(251) 내에 간격이 넓은 제1 그리드를 형성하고, 상기 제1 그리드를 탐색하며 평가 점수가 임계치 이상인 하이퍼파라미터 샘플이 샘플링된 영역(255)을 결정할 수 있다. 다음으로, 최적화 장치(100)는 결정된 영역(255) 내에서 간격이 좁은 제2 그리드를 형성하고, 상기 제2 그리드를 탐색하며 하이퍼파라미터 샘플을 샘플링할 수 있다. 본 실시예에 따르면, 그리드의 간격 조정을 통해 높은 성능을 가진 하이퍼파라미터 샘플이 위치할 것으로 예측되는 샘플링 영역에서 집중적인 탐색이 수행될 수 있다. 이에 따라, 소모되는 컴퓨팅 비용 대비 우수한 성능을 가진 하이퍼파라미터 샘플이 샘플링될 수 있다.

전술한 몇몇 실시예에서, 최적화 장치(100)는 하이퍼파라미터 간의 상관 관계를 이용하여 하이퍼파라미터 샘플의 일부 값을 샘플링할 수도 있다. 예를 들어, 한 개의 하이퍼파라미터 샘플은 복수의 하이퍼파라미터의 값들로 구성되고, 도 10에 도시된 바와 같이, 상기 복수의 하이퍼파라미터 중에서 제1 하이퍼파라미터(h₁)와 제2 하이퍼파라미터(h₂) 간에 상관 관계가 존재한다고 가정하자. 그러면, 최적화 장치(100)는 지정된 탐색 영역(261) 내에서 전술한 몇몇 실시예들에 따라 제1 하이퍼파라미터(h₁)의 값을 샘플링하고, 상기 상관 관계에 기초하여 제2 하이퍼파라미터(h₂)의 값을 샘플링할 수 있다. 또한, 최적화 장치(100)는 상관 관계가 존재하지 않는 나머지 하이퍼파라미터의 값을 전술한 몇몇 실시예들에 따라 샘플링하고, 샘플링 된 값을 종합하여 하이퍼파라미터 샘플을 생성할 수 있다. 본 실시예에 따르면, 상관 관계에 대한 사전 지식(prior knowledge)을 활용하여 샘플링의 정확도가 크게 향상되는 효과가 달성될 수 있다.

몇몇 실시예에서, 전술한 몇몇 실시예들의 조합에 기초하여 상기 초기 하이퍼파라미터 샘플이 구성될 수도 있다.

전술한 몇몇 실시예에서, 샘플링되는 하이퍼파라미터 샘플의 개수, 초기 하이퍼파라미터 샘플 집합을 구성하는 샘플의 개수 및, 탐색 영역의 개수, 탐색 영역의 크기 등은 일종의 최적화 장치(100)와 연관된 파라미터 상기 파라미터는 로 볼 수 있고, 상기 파라미터는 기 설정된 고정 값 또는 상황에 따라 변동되는 변동 값으로 설정될 수 있다. 예를 들어, 최적화 장치(100)는 컴퓨팅 성능, 타깃 모델의 정확도 요구사항 등에 기초하여 상기 열거된 파라미터의 값을 동적으로 설정할 수 있다.

다시, 도 5를 참조하면, 단계(S120)에서, 최적화 장치(100)는 초기 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플에 대한 평가 점수를 산출한다. 구체적으로, 최적화 장치(100)는 상기 복수의 하이퍼파라미터 샘플 중 제1 하이퍼파라미터 샘플을 타깃 모델에 적용하고, 주어진 데이터셋(211)으로 상기 타깃 모델을 트레이닝할 수 있다. 이후, 최적화 장치(100)는 상기 타깃 모델의 성능을 평가(e.g. 교차 검증 등)함으로써 상기 제1 하이퍼파라미터 샘플에 대한 평가 점수를 산출할 수 있다. 최적화 장치는 이와 같은 과정을 다른 하이퍼파라미터 샘플에 대하여 반복함으로써 초기 하이퍼파라미터 샘플 집합을 구성하는 각각의 하이퍼파라미터 샘플에 대한 평가 점수를 산출할 수 있다. 물론, 이전 단계(S100)에서 평가 점수가 이미 산출된 경우라면, 본 단계(S120)는 생략되어도 무방하다.

단계(S140)에서, 최적화 장치(100)는 산출된 평가 점수를 가중치로 이용하여 복수의 하이퍼파라미터 샘플에 대한 가중치 기반 클러스터링(weighted clustering)을 수행한다. 상기 가중치 기반 클러스터링은 당해 기술 분야에서 이미 널리 알려진 개념인 바, 이에 대한 자세한 설명은 생략하도록 한다.

상기 가중치 기반 클러스터링이 수행되는 과정의 예는 도 11에 도시되어 있다. 도 11에서, 하이퍼파라미터 공간 상에 도시된 포인트는 하이퍼파라미터 샘플에 대응되고, 포인트에 인접하여 표시된 수치는 하이퍼파라미터 샘플의 평가 점수를 가리킨다.

도 11에 도시된 바와 같이, 가중치 기반 클러스터링이 수행되면, 평가 점수가 높은 하이퍼파라미터 샘플이 클러스터(271, 273)의 중심에 가깝게 위치하도록 클러스터링될 수 있다.

단계(S160)에서, 최적화 장치(100)는 클러스터링 결과에 기초하여 최적 하이퍼파라미터 샘플 집합을 구성한다. 최적 하이퍼파라미터 샘플 집합을 구성하는 구체적인 방법은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 도 12에 도시된 바와 같이, 최적화 장치(100)는 각 클러스터(281, 283)의 중심점(285, 287)에서 하이퍼파라미터 샘플을 샘플링하고, 샘플링된 하이퍼파라미터 샘플을 최적 하이퍼파라미터 샘플 집합에 추가할 수 있다. 전술한 바와 같이, 가중치 기반 클러스터링이 수행되면 평가 점수가 높은 하이퍼파라미터 샘플이 클러스터의 중심에 가깝게 위치하게 되므로, 확률적으로 중심점이 가리키는 하이퍼파라미터 샘플의 평가 점수 또한 높을 것이기 때문이다. 실시예에 따라, 최적화 장치(100)는 중심점(285, 287)에 대응되는 하이퍼파라미터 샘플에 대한 예측 평가 점수를 산출하고, 예측 평가 점수가 소정의 조건(e.g. 임계치 이상, 상위 n개 등)을 만족하는 샘플만을 최적 하이퍼파라미터 샘플 집합에 추가할 수도 있다. 상기 예측 평가 점수는 해당 클러스터에 속한 전체 하이퍼파라미터 샘플 또는 적어도 일부의 하이퍼파라미터 샘플(e.g. 중심에서 일정 거리 이내에 위치한 샘플들)의 평균 등에 기초하여 산출될 수 있다. 물론, 최적화 장치(100)는 성능 평가를 통해 중심점(285, 287)에 대응되는 하이퍼파라미터 샘플의 실제 평가 점수를 산출할 수도 있다.

몇몇 실시예에서, 도 13에 도시된 바와 같이, 최적화 장치(100)는 클러스터(291)의 중심점(293)을 기준으로 일정 크기의 탐색 영역(295)을 지정하고, 탐색 영역(295)을 전술한 몇몇 실시예들에 따라 탐색함으로써 하이퍼파라미터 샘플(297)을 샘플링할 수 있다. 또한, 최적화 장치(100)는 하이퍼파라미터 샘플(297)을 최적 하이퍼파라미터 샘플 집합에 추가할 수 있다. 실시예에 따라, 최적화 장치(100)는 하이퍼파라미터 샘플(297)의 예측 평가 점수 또는 실제 평가 점수가 소정의 조건을 만족한다는 판정에 응답하여, 하이퍼파라미터 샘플(297)을 상기 최적 하이퍼파라미터 샘플 집합에 추가할 수 있다. 본 실시예에 따르면, 클러스터의 중심 인근에 위치하여 성능이 우수할 것으로 예측되는 하이퍼파라미터 샘플이 샘플링 될 것인 바, 샘플링의 정확도가 향상될 수 있다.

몇몇 실시예에서, 도 14에 도시된 바와 같이, 최적화 장치(100)는 클러스터(301)의 중심점(303)으로부터 일정 거리(d) 이상 떨어진 포인트(305)를 하이퍼파라미터 샘플로 샘플링할 수 있다. 또한, 최적화 장치(100)는 하이퍼파라미터 샘플(305)의 평가 점수가 임계치 이상이라는 판정에 응답하여, 하이퍼파라미터 샘플(305)을 최적 하이퍼파라미터 샘플 집합에 추가할 수 있다. 여기서, 상기 거리(d)는 클러스터(301)의 크기 보다 큰 값이 될 수 있다. 본 실시예의 목적은 기존에 탐색되지 않은 영역에서 우수한 성능을 지닌 하이퍼파라미터 샘플을 샘플링하기 위한 것이기 때문이다.

몇몇 실시예에서, 최적화 장치(100)는 각 클러스터 별로 평가 점수가 임계치 미만인 하이퍼파라미터 샘플을 제외하고, 나머지 하이퍼파라미터 샘플에 기초하여 최적 하이퍼파라미터 샘플 집합을 구성할 수 있다. 물론 실시예에 따라, 클러스터링 단계(S140) 전에 평가 점수를 기초로 일부 하이퍼파라미터 샘플을 제외하는 과정이 수행될 수도 있다. 본 실시예에서, 최적화 장치(100)는 상기 제외된 하이퍼파라미터 샘플을 보관하고, 이후 새로운 데이터셋(213)이 제공되는 경우, 데이터셋(213)에 대하여 상기 제외된 하이퍼파라미터 샘플의 평가 점수를 다시 산출하며, 산출된 평가 점수가 임계치 이상인 하이퍼파라미터 샘플을 최적 하이퍼파라미터 샘플 집합에 추가할 수도 있다. 본 실시예와 유사한 기술적 사상에 대한 설명은 추후 도 18을 참조하여 부연 설명하도록 한다.

몇몇 실시예에서, 전술한 실시예들의 조합에 기초하여 최적 하이퍼파라미터 샘플 집합이 구성될 수 있다.

다시 도 5를 참조하면, 타깃 모델에 대한 추가적인 데이터셋(213)이 제공되는 경우, 최적화 장치(100)는 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다(S180). 본 단계(S180)는 새로운 데이터셋이 제공될 때마다 반복적으로 수행될 수 있다. 본 단계(S180)에서 수행되는 구체적인 방법은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 최적화 장치(100)는 새로운 데이터셋(213)에 대하여 최적 하이퍼파라미터 샘플 집합에 속한 각 하이퍼파라미터의 평가 점수를 재산출하고, 재산출된 평가 점수에 기초하여 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다.

일 실시예에서, 최적화 장치(100)는 상기 재산출된 평가 점수가 임계치 미만인 일부 샘플을 최적 하이퍼파라미터 샘플 집합에서 제외할 수 있다. 갱신 단계(S180)는 데이터셋이 갱신될 때마다 반복하여 수행될 수 있다. 이와 같은 경우, 최적화 장치(100)는 상기 제외된 하이퍼파라미터 샘플을 보관하고, 이후 새롭게 추가된 데이터셋에 대하여 상기 제외된 하이퍼파라미터 샘플의 평가 점수를 다시 산출하며, 산출된 평가 점수가 임계치 이상인 하이퍼파라미터 샘플을 다시 최적 하이퍼파라미터 샘플 집합에 추가할 수도 있다.

일 실시예에서, 최적화 장치(100)는 상기 재산출된 평가 점수가 임계치 미만인 하이퍼파라미터 샘플의 값을 미세 조정(fine-tuning)할 수 있다. 가령, 상기 미세 조정은 하이퍼파라미터 샘플의 값에 매우 작은 값을 더하거나 빼는 등의 연산을 통해 수행될 수 있다. 또한, 최적화 장치(100)는 상기 미세 조정된 하이퍼파라미터 샘플에 대하여 다시 평가 점수를 산출하고, 산출된 평가 점수에 기초하여 하이퍼파라미터 샘플을 최적 하이퍼파라미터 샘플 집합에서 제외하거나 계속 유지할 수 있다.

몇몇 실시예에서, 최적화 장치(100)는 도 15에 도시된 과정에 따라 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다. 구체적으로, 새로운 데이터셋(311)이 획득됨에 응답하여, 최적화 장치(100)는 최적 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플의 평가 점수를 재산출하고, 재산출된 평가 점수를 가중치로 이용하여 복수의 하이퍼파라미터 샘플에 대한 가중치 기반 클러스터링을 수행하며, 클러스터링 결과에 기초하여 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다(S181 내지 S187). 단계(S187)의 상세 내용은 단계(S160)와 유사한 바, 이에 대한 자세한 설명은 생략하도록 한다.

몇몇 실시예에서, 최적화 장치(100)는 전술한 실시예들의 조합에 기초하여 최적 하이퍼파라미터 샘플 집합을 갱신할 수도 있다.

참고로, 도 5에 도시된 단계(S100 내지 S180) 중에서, 단계(S100)는 초기 샘플 집합 구성부(110)에 의해, 단계(S120 내지 S160)는 최적 샘플 집합 구성부(130)에 의해, 단계(S180)는 최적 샘플 집합 갱신부(150)에 의해 수행될 수 있다.

지금까지 도 5 내지 도 15를 참조하여 본 발명의 제1 실시예에 따른 하이퍼파라미터 최적화 방법에 대하여 설명하였다. 상술한 방법에 따르면, 그리드 기반의 완전 탐색(exhaustive search)이 수행되지 않고 가중치 기반 클러스터링을 통해 성능이 우수한 것으로 예측되는 하이퍼파라미터 샘플이 샘플링 될 수 있다. 이에 따라, 그리드 탐색에 전적으로 의존하는 종래의 기법에 비해, 컴퓨팅 비용이 크게 감소될 수 있고, 랜덤 탐색과 비교하여 최적화 결과의 정확성 및 신뢰성이 크게 향상될 수 있다.

또한, 데이터셋이 갱신될 때마다 처음부터 다시 하이퍼파라미터 최적화가 수행되는 것이 아니라, 기존의 최적 하이퍼파라미터 샘플 집합을 활용하여 최적화가 수행된다. 이에 따라, 하이퍼파라미터 최적화 작업에 소모되는 평균 컴퓨팅 비용이 크게 감소될 수 있다.

이하에서는, 도 16 이하의 도면을 참조하여 본 발명의 제2 실시예에 따른 하이퍼파라미터 최적화 방법에 대하여 설명하도록 한다.

도 16은 본 발명의 제2 실시예에 따른 하이퍼파라미터 최적화 방법을 나타내는 흐름도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 16을 참조하면, 상기 제2 실시예에 따른 하이퍼파라미터 최적화 방법 또한 최적화 장치(100)가 타깃 모델에 대한 초기 하이퍼파라미터 샘플 집합을 구성하는 단계(S200)에서 시작된다. 본 단계(S200)는 전술한 단계(S100)와 유사한 바 더 이상의 설명은 생략하도록 한다.

단계(S210)에서, 최적화 장치(100)는 초기 하이퍼파라미터 샘플 집합을 구성하는 하이퍼파라미터 샘플에 대한 평가 점수를 산출한다.

단계(S220)에서, 최적화 장치(100)는 산출된 평가 점수를 기초로 제1 하이퍼파라미터 샘플을 샘플링한다. 본 단계(S220)는 산출된 평가 점수를 기초로 타깃 모델의 성능을 더 개선시킬 수 있을 것으로 기대되는 하이퍼파라미터 샘플을 샘플링하는 절차로 이해될 수 있다. 상기 제1 하이퍼파라미터 샘플을 샘플링하는 구체적인 방법은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 최적화 장치(100)는 도 11 내지 도 13을 참조하여 설명한 바와 같이 가중치 기반 클러스터링을 통해 상기 제1 하이퍼파라미터 샘플을 샘플링할 수 있다.

몇몇 실시예에서, 최적화 장치(100)는 도 17에 도시된 바와 같이 소정의 예측 모형을 이용하여 상기 제1 하이퍼파라미터 샘플을 샘플링할 수도 있다. 구체적으로, 최적화 장치(100)는 기존의 하이퍼파라미터 샘플들과 각 샘플에 대한 평가 점수를 이용하여 하이퍼파라미터의 평가 점수를 예측하는 예측 모형을 구축하고, 구축된 예측 모형을 통해 상기 제1 하이퍼파라미터 샘플로 샘플링할 수 있다(S221, S223).

몇몇 실시예에서, 최적화 장치(100)는 평가 점수가 임계치 이상인 하이퍼파라미터 샘플의 값을 미세 조정함으로써 상기 제1 하이퍼파라미터 샘플을 샘플링할 수도 있다.

몇몇 실시예에서, 최적화 장치(100)는 전술한 실시예들의 조합에 따라 상기 제1 하이퍼파라미터 샘플을 샘플링할 수도 있다.

다시 도 16을 참조하면, 단계(S230)에서, 최적화 장치(100)는 평가 점수에 관계없이 제2 하이퍼파라미터 샘플을 샘플링한다. 본 단계(S230)는 산출된 평가 점수에 관계없이 탐험적으로 다른 하이퍼파라미터 샘플을 시도하는 절차로 이해될 수 있다. 최적화 장치(100)가 상기 제2 하이퍼파라미터 샘플을 샘플링하는 구체적인 방법은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 최적화 장치(100)는 도 6 내지 도 10을 참조하여 설명한 바와 같은 방법 중 적어도 일부를 이용하여 상기 제2 하이퍼파라미터 샘플을 샘플링할 수 있다. 즉, 초기 하이퍼파라미터 샘플 집합을 구성하기 위해 이용된 일부 방법(e.g. 랜덤 탐색 등)들이 상기 제2 하이퍼파라미터 샘플을 샘플링하기 위해 이용될 수 있다.

단계(S240)에서, 최적화 장치(100)는 초기 하이퍼파라미터 샘플 집합과 상기 제1 및 상기 제2 하이퍼파라미터 샘플 중 적어도 일부에 기초하여 최적 하이퍼파라미터 샘플 집합을 구성한다. 최적화 장치(100)가 상기 최적 하이퍼파라미터 샘플 집합을 구성하는 구체적인 방법은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 최적화 장치(100)는 지금까지 샘플링된 하이퍼파라미터 샘플(즉, 초기 하이퍼파라미터 샘플 집합, 제1 하이퍼파라미터 샘플, 제2 하이퍼파라미터 샘플) 중에서 평가 점수가 임계치 미만인 샘플을 제외하고, 나머지 샘플을 기초로 상기 최적 하이퍼파라미터 샘플 집합을 구성할 수 있다. 예를 들어, 최적화 장치(100)는 상기 제2 하이퍼파라미터 샘플을 타깃 모델에 적용하여 상기 제2 하이퍼파라미터 샘플에 대한 평가 점수를 산출하고, 상기 제2 하이퍼파라미터 샘플의 평가 점수가 임계치 이상이라는 판정에 응답하여, 상기 제2 하이퍼파라미터 샘플을 상기 최적 하이퍼파라미터 샘플 집합에 추가할 수 있다. 반대로, 상기 제2 하이퍼파라미터 샘플의 평가 점수가 임계치 미만이라는 판정에 응답하여, 상기 제2 하이퍼파라미터 샘플은 최적 하이퍼파라미터 샘플 집합에서 제외될 수 있다.

새로운 데이터셋(323)이 제공되는 경우, 최적화 장치(100)는 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다(S250). 본 단계(S250)는 새로운 데이터셋이 제공될 때마다 반복적으로 수행될 수 있다. 본 단계(S250)에서 수행되는 구체적인 방법은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 최적화 장치(100)는 새로운 데이터셋(323)에 대하여 전술한 단계(S210 내지 S240)를 다시 수행할 수 있다. 즉, 최적화 장치(100)는 최적 하이퍼파라미터 샘플 집합을 구성하는 각 하이퍼파라미터 샘플의 평가 점수를 데이터셋(323)에 대하여 재산출하고, 재산출된 평가 점수에 기초하여 제1 하이퍼파라미터 샘플을 샘플링하며, 평가 점수에 관계없이 제2 하이퍼파라미터 샘플을 샘플링하고, 상기 제1 하이퍼파라미터 샘플 및 상기 제2 하이퍼파라미터 샘플 중 적어도 일부에 기초하여 최적 하이퍼파라미터 샘플을 갱신할 수 있다.

몇몇 실시예에서, 최적화 장치(100)는, 도 18에 도시된 바와 같이 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다. 구체적으로, 새로운 데이터셋(333)이 획득됨에 응답하여, 최적화 장치(100)는 데이터셋(333)에 대하여 최적 하이퍼파라미터 샘플 집합을 구성하는 하이퍼파라미터 샘플의 평가 점수를 재산출하고, 재산출된 평가 점수를 기초로 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다(S251 내지 S253). 가령, 평가 점수가 임계치 미만인 샘플은 상기 최적 하이퍼파라미터 샘플 집합에서 제외될 수 있다.

여기서, 최적화 장치(100)는 샘플링되었으나 최적 하이퍼파라미터 샘플 집합에 포함되지 않은 하이퍼파라미터 샘플에 대해서도 평가 점수를 재산출함으로써, 최적 하이퍼파라미터 샘플 집합에 추가될 수 있는 기회를 부여할 수 있다. 가령, 기존 데이터셋에 대하여 평가 점수가 낮아 최적 하이퍼파라미터 샘플 집합에 추가되지 않은 일부 하이퍼파라미터 샘플이 존재할 수 있다(S241, S243). 이와 같은 경우, 최적화 장치(100)는 새로운 데이터셋(333)에 대하여 상기 일부 하이퍼파라미터 샘플의 평가 점수를 재산출하고, 재산출된 평가 점수에 따라 상기 일부 하이퍼파라미터 샘플을 최적 하이퍼파라미터 샘플 집합에 추가할 수도 있다.

몇몇 실시예에서, 최적화 장치(100)는 전술한 실시예들의 조합에 기초하여 최적 하이퍼파라미터 샘플 집합을 갱신할 수 있다.

참고로, 도 16에 도시된 단계(S200 내지 S250) 중에서, 단계(S200)는 초기 샘플 집합 구성부(110)에 의해, 단계(S210 내지 S240)는 최적 샘플 집합 구성부(130)에 의해, 단계(S250)는 최적 샘플 집합 갱신부(150)에 의해 수행될 수 있다.

지금까지 도 16 내지 도 18을 참조하여 본 발명의 제2 실시예에 따른 하이퍼파라미터 최적화 방법에 대하여 설명하였다. 상술한 방법에 따르면, 기존 하이퍼파라미터 샘플의 평가 점수를 이용하여 샘플링하는 제1 샘플링 정책과 평가 점수에 관계없이 탐험적으로 샘플링을 수행하는 제2 샘플링 정책을 함께 활용하여 효율적으로 하이퍼파라미터 최적화가 수행될 수 있다.

지금까지 도 2 내지 도 18을 참조하여 본 발명의 몇몇 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 몇몇 실시예들에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

지금까지 도 2 내지 도 18을 참조하여 설명된 본 발명의 개념은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

하이퍼파라미터 최적화 장치에서 모델의 하이퍼파라미터(hyper-parameter)를 최적화하는 방법에 있어서,
제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델(target model)에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 단계;
상기 산출된 평가 점수를 가중치로 이용하여, 상기 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 단계; 및
상기 클러스터링 결과에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제1 항에 있어서,
상기 복수의 하이퍼파라미터 샘플은 그리드 탐색(grid search) 및 랜덤 탐색(random search) 중 적어도 하나를 통해 샘플링된 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제1 항에 있어서,
상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,
상기 클러스터링을 통해 형성된 클러스터의 중심점(centroid)을 제1 하이퍼파라미터 샘플로 샘플링하는 단계; 및
상기 제1 하이퍼파라미터 샘플에 기초하여 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제3 항에 있어서,
상기 제1 하이퍼파라미터 샘플에 기초하여 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,
상기 클러스터에 속한 하이퍼파라미터 샘플의 평가 점수를 기초로 상기 제1 하이퍼파라미터 샘플의 평가 점수를 예측하는 단계; 및
상기 예측된 평가 점수가 소정의 조건을 만족한다는 판정에 응답하여, 상기 제1 하이퍼파라미터 샘플을 상기 제2 하이퍼파라미터 샘플 집합에 추가하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제1 항에 있어서,
상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,
상기 클러스터링을 통해 형성된 클러스터에 속한 하이퍼파라미터 샘플 중에서, 평가 점수가 임계치 미만인 하이퍼파라미터 샘플을 결정하는 단계; 및
상기 결정된 하이퍼파라미터 샘플을 제외하고, 나머지 하이퍼파라미터 샘플에 기초하여 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제1 항에 있어서,
상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,
상기 클러스터링을 통해 형성된 클러스터의 중심점(centroid)을 연산하는 단계;
상기 연산된 중심점으로부터 임계치 이상 떨어진 포인트를 제1 하이퍼파라미터 샘플로 샘플링하는 단계;
상기 제1 하이퍼파라미터 샘플을 상기 타깃 모델에 적용하여, 상기 제1 하이퍼파라미터 샘플에 대한 평가 점수를 산출하는 단계; 및
상기 제1 하이퍼파라미터 샘플의 평가 점수가 임계치 이상이라는 판정에 응답하여, 상기 제1 하이퍼파라미터 샘플을 상기 제2 하이퍼파라미터 샘플 집합에 추가하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제1 항에 있어서,
상기 클러스터링 결과에 관계없이 제1 하이퍼파라미터 샘플을 샘플링하는 단계; 및
상기 제1 하이퍼파라미터 샘플을 상기 타깃 모델에 적용하여, 상기 제1 하이퍼파라미터 샘플에 대한 평가 점수를 산출하는 단계를 더 포함하고,
상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,
상기 제1 하이퍼파라미터 샘플의 평가 점수가 임계치 이상이라는 판정에 응답하여, 상기 제1 하이퍼파라미터 샘플을 상기 제2 하이퍼파라미터 샘플 집합에 추가하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제1 항에 있어서,
상기 복수의 하이퍼파라미터 샘플은 제1 복수의 하이퍼파라미터 샘플이고,
상기 산출된 평가 점수는 제1 평가 점수이며,
상기 제2 하이퍼파라미터 샘플 집합은 제1 데이터셋에 대하여 구성된 것이되,
제2 데이터셋을 획득하는 단계;
상기 제2 데이터셋과 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 제2 복수의 하이퍼파라미터 샘플 각각을 상기 타깃 모델에 적용하여, 상기 제2 복수의 하이퍼파라미터 샘플 각각에 대한 제2 평가 점수를 산출하는 단계; 및
상기 제2 평가 점수를 기초로 상기 제2 하이퍼파라미터 샘플 집합을 갱신하는 단계를 더 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제8 항에 있어서,
상기 제2 하이퍼파라미터 샘플 집합을 갱신하는 단계는,
상기 제2 평가 점수를 가중치로 이용하여, 상기 제2 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 단계; 및
상기 제2 복수의 하이퍼파라미터 샘플에 대한 클러스터링 결과에 기초하여 상기 제2 하이퍼파라미터 샘플 집합을 갱신하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
하이퍼파라미터 최적화 장치에서 모델의 하이퍼파라미터(hyper-parameter)를 최적화하는 방법에 있어서,
제1 하이퍼파라미터 샘플 집합을 구성하는 하이퍼파라미터 샘플 각각을 타깃 모델에 적용하여, 상기 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 단계;
상기 산출된 평가 점수를 기초로 제1 하이퍼파라미터 샘플을 샘플링하는 단계;
상기 산출된 평가 점수에 관계없이 제2 하이퍼파라미터 샘플을 샘플링하는 단계; 및
상기 제1 하이퍼파라미터 샘플 및 상기 제2 하이퍼파라미터 샘플 중 적어도 일부에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제10 항에 있어서,
상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계는,
상기 산출된 평가 점수를 가중치로 이용하여, 상기 제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 단계; 및
상기 클러스터링 결과에 기초하여 상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제11 항에 있어서,
상기 클러스터링 결과에 기초하여 상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계는,
상기 클러스터링을 통해 형성된 클러스터의 중심점(centroid)을 상기 제1 하이퍼파라미터 샘플로 샘플링하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제12 항에 있어서,
상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,
상기 클러스터에 속한 하이퍼파라미터 샘플의 평가 점수를 기초로 상기 제1 하이퍼파라미터 샘플의 평가 점수를 예측하는 단계; 및
상기 예측된 평가 점수가 소정의 조건을 만족한다는 판정에 응답하여, 상기 제1 하이퍼파라미터 샘플을 상기 제2 하이퍼파라미터 샘플 집합에 추가하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제10 항에 있어서,
상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계는,
상기 산출된 평가 점수를 이용하여 상기 타깃 모델의 하이퍼파라미터에 대한 평가 점수를 예측하는 예측 모형을 구축하는 단계; 및
상기 예측 모형을 이용하여 상기 제1 하이퍼파라미터 샘플을 샘플링하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제10 항에 있어서,
상기 제2 하이퍼파라미터 샘플을 샘플링하는 단계는,
상기 타깃 모델의 하이퍼파라미터 공간의 일부를 탐색 영역으로 지정하는 단계; 및
상기 지정된 탐색 영역에 대한 그리드 탐색(grid search)을 통해 상기 제2 하이퍼파라미터 샘플을 샘플링하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제15 항에 있어서,
상기 그리드 탐색을 수행하는 단계는,
상기 탐색 영역 내에 제1 그리드를 형성하는 단계;
상기 제1 그리드를 탐색하여, 상기 탐색 영역의 일부 영역을 샘플링 영역으로 결정하는 단계;
상기 샘플링 영역 내에 제2 그리드를 형성하는 단계; 및
상기 제2 그리드에 대한 탐색을 통해 상기 제2 하이퍼파라미터 샘플을 샘플링하는 단계를 포함하되,
상기 제2 그리드의 간격은 상기 제1 그리드의 간격보다 작은 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제10 항에 있어서,
상기 산출된 평가 점수는 제1 평가 점수이고,
상기 제2 하이퍼파라미터 샘플 집합은 제1 데이터셋에 대하여 구성된 것이되,
제2 데이터셋을 획득하는 단계;
상기 제2 데이터셋과 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 하이퍼파라미터 샘플을 상기 타깃 모델에 적용하여, 상기 제2 하이퍼파라미터 샘플 집합에 대한 제2 평가 점수를 산출하는 단계; 및
상기 제2 평가 점수를 기초로 상기 제2 하이퍼파라미터 샘플 집합을 갱신하는 단계를 더 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
제10 항에 있어서,
상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계는,
상기 제1 하이퍼파라미터 샘플 및 제1 데이터셋을 상기 타깃 모델에 적용하여, 상기 제1 하이퍼파라미터 샘플에 대한 제1 평가 점수를 산출하는 단계; 및
상기 제1 평가 점수가 임계치 미만이라는 판정에 응답하여, 상기 제1 하이퍼파라미터 샘플을 제외하고 상기 제2 하이퍼파라미터 샘플 집합을 구성하는 단계를 포함하고,
제2 데이터셋을 획득하는 단계;
상기 제1 하이퍼파라미터 샘플 및 상기 제2 데이터셋을 상기 타깃 모델에 적용하여, 상기 제1 하이퍼파라미터 샘플에 대한 제2 평가 점수를 산출하는 단계; 및
상기 제2 평가 점수가 임계치 이상이라는 판정에 응답하여, 상기 제1 하이퍼파라미터 샘플을 상기 제2 하이퍼파라미터 샘플 집합에 추가하는 단계를 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 방법.
프로세서; 및
상기 프로세서에 의하여 실행되는 적어도 하나의 프로그램을 저장하는 메모리를 포함하되,
상기 적어도 하나의 프로그램은,
제1 하이퍼파라미터 샘플 집합을 구성하는 복수의 하이퍼파라미터 샘플 각각을 타깃 모델(target model)에 적용하여, 상기 복수의 하이퍼파라미터 샘플 각각에 대한 평가 점수를 산출하는 동작;
상기 산출된 평가 점수를 가중치로 이용하여, 상기 복수의 하이퍼파라미터 샘플에 대해 가중치 기반 클러스터링을 수행하는 동작; 및
상기 클러스터링 결과에 기초하여 제2 하이퍼파라미터 샘플 집합을 구성하는 동작을 수행하도록 하는 인스트럭션들(instructions)을 포함하는 것을 특징으로 하는,
하이퍼파라미터 최적화 장치