KR20210078212A

KR20210078212A - 정책 벡터 기반 인공신경망 탐색 장치 및 방법

Info

Publication number: KR20210078212A
Application number: KR1020190170040A
Authority: KR
Inventors: 이흥창; 김도국
Original assignee: 주식회사 하나금융티아이
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-06-28
Also published as: KR102460485B1

Abstract

본 발명은 신경망 탐색 기술에 관한 것으로서, 상세하게는 구조 탐색과 연산 탐색을 분리하여 정책 벡터를 이용해 신경망 구조를 탐색할 수 있는 정책 벡터 기반 인공신경망 탐색 장치 및 방법에 관한 것이다. 이를 위해, 본 발명에 따른 정책 벡터 기반 인공신경망 탐색 장치는 구조 탐색(structure search)을 위한 정책 벡터(policy vector) 및 연산 탐색(operation search)을 위한 정책 벡터를 산출하는 정책벡터 산출부와, 상기 정책 벡터를 구성하는 요소들(components) 중에서 인공신경망에 적용할 요소를 선택하는 정책벡터 선택부와, 상기 정책벡터 선택부에 의해 선택된 정책 벡터의 요소에 근거해 인공신경망을 구성하는 샘플링부를 포함한다.

Description

정책 벡터 기반 인공신경망 탐색 장치 및 방법{Neural architecture search apparatus and method based on policy vector}

본 발명은 신경망 탐색 기술에 관한 것으로서, 상세하게는 구조 탐색과 연산 탐색을 분리하여 정책 벡터를 이용해 신경망 구조를 탐색할 수 있는 정책 벡터 기반 인공신경망 탐색 장치 및 방법에 관한 것이다.

심층학습(Deep Learning)은 현대 인공지능 기술의 핵심으로 대규모 데이터를 학습하여 패턴을 인식하거나 미래를 예측하는데 활용되고 있다. 심층학습의 결과물인 인공신경망 모델은 그 구조가 경험적으로 얻어지며 많은 경우의 수를 상정하여 시도한 최적의 결과라고 볼 수 있다.

신경망 구조 탐색(Neural Architecture Search) 기술이란 주어진 문제 및 데이터 집합(data set)에 대해 가장 좋은 성능을 보이는 인공신경망 구조를 찾는 기술을 말한다.

신경망 구조 탐색을 위해서는 실제로 주어진 문제를 해결하기 위한 차일드 신경망(child network)과 차일드 신경망의 구조를 정하는 컨트롤러(controller)가 필요하다.

신경망 구조 탐색을 위해 사용하는 컨트롤러 기술로는 강화 학습 기반 (Reinforcement Learning based), 진화 알고리즘 기반 (Evolutionary Algorithm based), 그라디언트 기반 (Gradient based) 기술이 있다.

종래의 강화 학습 기반 기술은 순환 신경망(Recurrent Neural Network)을 컨트롤러로 사용하여 주어진 데이터 집합에 가장 효과적인 인공신경망의 구조를 탐색한다.

순환 신경망의 컨트롤러가 현재의 파라미터 값에 따라 차일드 신경망을 생성하면, 차일드 신경망은 학습 데이터로 학습되고 검증 데이터로 정확도가 결정되고 결정된 정확도에 따라 현재의 파라미터 값이 조정되면서 컨트롤러가 가장 성능이 좋은 차일드 신경망을 탐색하게 된다.

그러나 종래 기술은 인공신경망을 학습하고 성능을 확인한 후 다시 새로운 인공신경망을 샘플링할 때 순환 신경망의 계산 속도가 느려 신경망 탐색 시간이 오래 걸린다는 문제점이 있다.

또한 종래 기술은 주어진 데이터 집합에 맞는 전체적인 신경망 구조를 고려하지 못한다는 문제점이 있다.

한국공개특허 제2019-7012084호

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은 빠른 속도로 인공신경망 구조를 탐색하는 것이다.

본 발명의 다른 목적은 주어진 데이터 집합에 맞는 전체적인 신경망 구조를 고려할 수 있는 방식을 사용해 데이터 집합에 더욱 적합한 인공신경망 구조를 찾아내는 것이다.

이를 위해, 본 발명에 따른 정책 벡터 기반 인공신경망 탐색 장치는 구조 탐색(structure search)을 위한 정책 벡터(policy vector) 및 연산 탐색(operation search)을 위한 정책 벡터를 산출하는 정책벡터 산출부와, 상기 정책 벡터를 구성하는 요소들(components) 중에서 인공신경망에 적용할 요소를 선택하는 정책벡터 선택부와, 상기 정책벡터 선택부에 의해 선택된 정책 벡터의 요소에 근거해 인공신경망을 구성하는 샘플링부를 포함한다.

본 발명에 따른 정책 벡터 기반 인공신경망 탐색 방법은 인공신경망 탐색 장치에서 정책 벡터 기반으로 인공신경망 구조를 탐색하는 방법으로서, 구조 탐색(structure search)을 위한 정책 벡터(policy vector) 및 연산 탐색(operation search)을 위한 정책 벡터를 산출하는 정책벡터 산출 단계와, 상기 정책 벡터를 구성하는 요소들(components) 중에서 인공신경망에 적용할 요소를 선택하는 정책벡터 선택 단계와, 상기 선택된 정책 벡터의 요소에 근거해 인공신경망을 구성하는 샘플링 단계를 포함한다.

본 발명에 따른 정책 벡터 기반 인공신경망 탐색 방법은 인공신경망을 구성하는 노드의 연결 관계 및 그에 대한 확률 값을 가진 구조 탐색을 위한 정책 벡터와 노드 간의 연산 및 그에 대한 확률 값을 가진 연산 탐색을 위한 정책 벡터를 이용해 인공신경망의 구조 탐색과 연산 탐색을 분리하여 수행하는 것을 특징으로 한다.

상술한 바와 같이, 본 발명에 따르면 구조 탐색과 연산 탐색을 위한 정책 벡터를 이용하여 구조와 연산을 선택하기 때문에 종래의 순환신경망의 컨트롤러를 이용할 때보다 빠른 속도로 신경망 구조를 탐색할 수 있는 효과가 있다.

또한, 본 발명은 구조 탐색과 연산 탐색을 분리하여 수행하기 때문에 주어진 데이터 집합에 대해 더욱 적합한 신경망 구조를 탐색할 수 있는 효과가 있다.

도 1은 본 발명에 따른 정책 벡터 기반 인공신경망 탐색 장치의 개략적인 구성도.
도 2 및 도 3은 본 발명에 따른 정책벡터를 산출하는 과정을 나타낸 도면.
도 4는 인공신경망의 다양한 구조를 포함하는 셀 구조를 나타낸 도면.
도 5는 본 발명에 따른 구조 탐색 및 연산 탐색을 위한 정책 벡터를 나타낸 도면.
도 6은 본 발명에 따라 탐색된 인공신경망의 구조를 나타낸 도면.
도 7은 본 발명에 따른 정책 벡터 기반 인공신경망 탐색 방법의 순서도.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 "……부", "…… 모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하, 도면을 참조로 하여 본 발명의 실시예에 따른 정책 벡터 기반 인공신경망 탐색 장치 및 방법에 대하여 상세히 설명한다.

도 1은 본 발명에 따른 정책 벡터 기반 인공신경망 탐색 장치의 개략적인 구성을 나타낸 것이다.

도 1을 참조하면, 정책 벡터 기반 인공신경망 탐색 장치는 정책벡터 산출부(10), 정책벡터 선택부(20), 샘플링부(30) 등을 포함한다.

정책벡터 산출부(10)는 구조 탐색(structure search)을 위한 정책 벡터(policy vector) 및 연산 탐색(operation search)을 위한 정책 벡터를 산출한다.

구조 탐색을 위한 정책 벡터는 구조 탐색 정책 벡터로 약칭하고, 연산 탐색을 위한 정책 벡터는 연산 탐색 정책 벡터로 약칭한다.

구조 탐색은 인공신경망을 구성하는 노드의 연결 관계를 탐색하는 것을 말하고, 연산 탐색은 한 노드에서 다른 노드로 출력되는 값을 위한 연산을 탐색하는 것을 말한다. 인공신경망의 연산으로는 필터(filter), 최대 풀링(max pooling), 평균 풀링(average pooling), 숏컷(shortcut) 등이 있다.

정책벡터 선택부(20)는 정책 벡터를 구성하는 요소들(components) 중에서 인공신경망에 적용할 요소를 선택한다. 정책 벡터는 선택 가능한 수만큼의 요소를 가지며 각 요소에 대해 확률 값이 결정되어 있다.

샘플링부(30)는 정책벡터 선택부(20)에 의해 선택된 정책 벡터의 요소에 근거해 인공신경망을 구성한다.

도 2 및 도 3은 본 발명에 따른 정책벡터를 산출하는 과정을 나타낸 것이다.

정책 벡터는 강화학습(Reinforcement Learning)을 통해 최적화되는데, 강화학습의 보상함수를 사용해 지속적으로 정책(policy)이 개선되면서 최적화된 정책에 따라 정책 벡터가 생성된다.

도 2를 참조하면, 초기 정책 파라미터(initial policy parameter)로부터 보상함수를 계산하고, 보상함수가 최대화되는 정책 파라미터를 결정하여 정책 파라미터를 개선하면, 이 개선된 정책 파라미터로부터 다시 보상함수를 계산하고 다시 계산된 보상함수에 근거해 정책 파라미터를 개선하는 과정을 반복하게 된다.

도 3을 참조하여 상술하면, 먼저 초기 정책 π₀에서 보상함수 r₀을 계산한다. 다음, 보상함수 r₀으로 π₀을 개선하여 π₁을 생성한다. 여기서, 보상함수 r_t로 정책 π_t를 개선한 정책을 π_t+1이라고 한다. 각 단계에서 개선된 양이 ㅿ라고 하면, ㅿ이 임계치 ε 이하가 될 때까지 정책 개선을 반복한 후, ㅿ이 ε 이하가 되면 정책 개선을 중단하고 그 때의 정책을 최적의 정책으로 결정한다.

최적의 정책이 결정되면 최적의 정책에 따라 정책 벡터를 산출할 수 있다.

도 4는 인공신경망의 다양한 구조를 포함하는 셀 구조를 나타낸 것이다.

도 4를 참조하면, 셀 구조는 방향성 비순환 그래프(Directed Acyclic Graph)에 의해 정의된다. 셀 구조는 탐색 가능한 모든 신경망 구조를 포함하며, 셀 구조에서 본 발명에 따른 정책 벡터 기반으로 최적의 신경망 구조를 결정하게 된다.

도 4에 도시된 셀 구조는 2개의 입력 노드, 2개의 중간 노드와 1개의 출력 노드를 가지며, 노드 간에 3개의 연산이 적용 가능한 것으로 정의되어 있다. 여기서, 입력 노드는 노드 0과 노드 1이고, 중간 노드는 노드 2와 노드 3이며, 출력 노드는 노드 4이다.

이러한 셀 구조에 대하여 구조 탐색과 연산 탐색이 분리되어 수행된다.

도 5는 본 발명에 따른 구조 탐색 및 연산 탐색을 위한 정책 벡터를 나타낸 것이다.

도 5를 참조하면, (a)는 구조 탐색 정책 벡터를 나타내고, (b)는 연산 탐색 정책 벡터를 나타내고 있다.

종래의 순환신경망(RNN) 컨트롤러는 강화학습 기반 방식으로 정책을 관리하는 반면, 본 발명에 따른 인공신경망 탐색 방법은 정책 벡터(policy vector)를 채용한다.

구조 탐색 정책 벡터는 각 노드마다 인입 라인(incoming edge)의 수가 결정되어 각 노드마다 정책 벡터가 산출된다.

도 5의 (a)에서, 구조 탐색 정책 벡터는 각 노드가 2개의 인입 라인을 가지는 것으로 결정되어 있으며, 각 노드의 정책 벡터를 구성하는 요소는 인입 라인 구조에 대한 확률 값을 나타낸다.

이에 따라 먼저,

는 노드 2에 대한 정책 벡터를 나타낸다. 즉, 노드 2의 앞에는 노드 0과 노드 1만 있으므로, 2개의 입력 노드인 노드 0과 노드 1이 노드 2에 연결되는 구조가 가지는 확률이 1이라는 것을 나타낸다.

는 노드 3에 대한 정책 벡터를 나타낸다. 즉, 노드 3의 앞에는 노드 0, 1, 2가 있으므로, 노드 0과 노드 1이 노드 3에 연결되는 구조가 가지는 확률이 0.44이고, 노드 0과 노드 2가 노드 3에 연결되는 구조가 가지는 확률이 0.33이고, 노드 1과 노드 2가 노드 3에 연결되는 구조가 가지는 확률이 0.23이라는 것을 나타낸다.

마찬가지로,

는 노드 4에 대한 정책 벡터를 나타낸다. 즉, 노드 4의 앞에는 노드 0, 1, 2, 3이 있으므로, 노드 0과 노드 1이 노드 4에 연결되는 구조가 가지는 확률이 0.19, 노드 0과 노드 2가 노드 4에 연결되는 구조가 가지는 확률이 0.21, 노드 0과 노드 3이 노드 4에 연결되는 구조가 가지는 확률이 0.12, 노드 1과 노드 2가 노드 4에 연결되는 구조가 가지는 확률이 0.13, 노드 1과 노드 3이 노드 4에 연결되는 구조가 가지는 확률이 0.12, 노드 2와 노드 3이 노드 4에 연결되는 구조가 가지는 확률이 0.23이라는 것을 나타낸다.

도 5의 (b)에서, 연산 탐색 정책 벡터는 노드 간에 3개의 연산이 가능한 것으로 되어 있으며, 각 노드 간의 정책 벡터를 구성하는 요소는 연산에 대한 확률 값을 나타낸다.

예를 들어,

는 노드 1과 노드 2 간의 정책 벡터를 나타낸다. 즉, 노드 1과 노드 2 간에 연산 1(o₁)의 확률이 0.27이고, 연산 2(o₂)의 확률이 0.44이고, 연산 3(o₃)의 확률이 0.29라는 것을 나타낸다.

연산 탐색 정책 벡터는 입력 노드 1과 2 간을 제외하고, 모든 노드 간에 대해 결정된다.

이와 같이, 구조 탐색 정책 벡터와 연산 탐색 정책 벡터가 각각 산출되면, 정책 벡터를 구성하는 요소에 대한 확률 값을 이용하여 다항분포 샘플링(multinomial sampling)을 통해 구조 탐색 정책 벡터와 연산 탐색 정책 벡터의 요소를 선택한다.

다항분포 샘플링은 각 변수가 샘플링 될 확률에 근거하여 샘플링을 수행하는 방식이다. 예를 들어, 3개의 변수의 샘플링 확률이 [0.33 0.33 0.33]이면 동일한 확률로 샘플링 되지만, [0.4 0.4 0.2]이면 샘플링을 반복하면 할수록 2:2:1 분포에 맞춰지게 된다.

도 6은 본 발명에 따라 탐색된 인공신경망의 구조를 나타낸 것이다.

도 6을 참조하면, 노드 2는 노드 0, 1과 연결되되 노드 0에 대해서 연산 2가 적용되고 노드 1에 대해서는 연산 3이 적용된다.

노드 3은 노드 0, 2와 연결되되 노드 0에 대해서는 연산 1이 적용되고 노드 2에 대해서도 연산 1이 적용된다. 또한, 노드 4는 노드 2, 3과 연결되되 노드 2에 대해서는 연산 3이 적용되고 노드 3에 대해서는 연산 1이 적용된다.

즉, 도 5의 (a)에 도시된 구조 탐색 정책 벡터에서, 노드 2의 정책 벡터에서는 요소가 하나이므로 c² _0,1가 선택되고, 노드 3의 정책 벡터에서는 c³ _0,2가 선택되고, 노드 4의 정책 벡터에서는 c⁴ _2,3가 선택된다.

그리고 도 5의 (b)에 도시된 연산 탐색 정책 벡터에서, 구조 탐색 정책 벡터에 따라 인입 연결 구조가 결정된 e² ₀, e² ₁, e³ ₀, e³ ₂, e⁴ ₂, e⁴ ₃에 대해서만 선택이 이루어져, e² ₀ 정책 벡터에서는 연산 2가 선택되고, e² ₁ 정책 벡터에서는 연산 3이 선택되고, e³ ₀ 정책 벡터에서는 연산 1이 선택되고, e³ ₂ 정책 벡터에서는 연산 1이 선택되고, e⁴ ₂ 정책 벡터에서는 연산 3이 선택되고, e⁴ ₃ 정책 벡터에서는 연산 1이 선택된다.

도 7은 본 발명에 따른 정책 벡터 기반 인공신경망 탐색 방법의 순서도를 나타낸 것이다.

도 7을 참조하면, 정책벡터 산출 단계(S10)는 구조 탐색과 연산 탐색을 분리하여 구조 탐색 정책 벡터 및 연산 탐색 정책 벡터를 산출한다.

정책 벡터는 강화학습 기반으로 학습된 최적의 정책에 근거해 생성된다. 학습 과정을 통해 각 노드로 들어오는 인입 라인의 개수 및 각 노드 간에서 가능한 연산의 종류가 결정되고, 각 인입 라인과 연산의 종류에 대한 확률 값이 계산될 수 있다.

이와 같이 구조 탐색 정책 벡터 및 연산 탐색 정책 벡터가 산출되면, 정책벡터 선택 단계(S20)는 정책 벡터를 구성하는 요소들 중에서 인공신경망에 적용할 요소를 선택한다. 정책 벡터를 선택하기 위해 본 발명의 실시예에서는 다항분포 샘플링 방식을 사용한다.

구조 탐색 정책 벡터 및 연산 탐색 정책 벡터에 대한 선택이 이루어지면 샘플링 단계(S30)는 정책 벡터의 선택 결과에 따라 인공신경망을 구성한다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

10: 정책벡터 산출부 20: 정책벡터 선택부
30: 샘플링부

Claims

구조 탐색(structure search)을 위한 정책 벡터(policy vector) 및 연산 탐색(operation search)을 위한 정책 벡터를 산출하는 정책벡터 산출부와,
상기 정책 벡터를 구성하는 요소들(components) 중에서 인공신경망에 적용할 요소를 선택하는 정책벡터 선택부와,
상기 정책벡터 선택부에 의해 선택된 정책 벡터의 요소에 근거해 인공신경망을 구성하는 샘플링부를 포함하는 정책 벡터 기반 인공신경망 탐색 장치.
제1항에 있어서,
상기 정책 벡터는 선택 가능한 수만큼의 요소를 가지며 각 요소에 대해 확률 값이 결정되어 있는 것을 특징으로 하는 정책 벡터 기반 인공신경망 탐색 장치.
제2항에 있어서,
상기 구조 탐색을 위한 정책 벡터는 인공신경망을 구성하는 노드의 연결 관계를 정의하고 각 연결 관계의 확률 값을 가지고 있는 것을 특징으로 하는 정책 벡터 기반 인공신경망 탐색 장치.
제2항에 있어서,
상기 연산 탐색을 위한 정책 벡터는 한 노드에서 다른 노드로 출력되는 값을 계산하기 위한 연산의 종류를 정의하고 각 연산의 확률 값을 가지고 있는 것을 특징으로 하는 정책 벡터 기반 인공신경망 탐색 장치.
제2항에 있어서,
상기 정책벡터 선택부는 상기 정책 벡터를 구성하는 요소에 대한 확률 값을 이용하여 다항분포 샘플링(multinomial sampling)을 통해 상기 정책 벡터의 요소를 선택하는 것을 특징으로 하는 정책 벡터 기반 인공신경망 탐색 장치.
인공신경망 탐색 장치에서 정책 벡터 기반으로 인공신경망 구조를 탐색하는 방법에 있어서,
구조 탐색(structure search)을 위한 정책 벡터(policy vector) 및 연산 탐색(operation search)을 위한 정책 벡터를 산출하는 정책벡터 산출 단계와,
상기 정책 벡터를 구성하는 요소들(components) 중에서 인공신경망에 적용할 요소를 선택하는 정책벡터 선택 단계와,
상기 선택된 정책 벡터의 요소에 근거해 인공신경망을 구성하는 샘플링 단계를 포함하는 방법.
제6항에 있어서,
상기 정책벡터 산출 단계는 강화학습 기반으로 학습된 최적의 정책에 근거해 인공신경망을 구성하는 각 노드로 들어오는 인입 라인의 개수 및 각 노드 간에서 가능한 연산의 종류를 결정하고, 각 노드에 대한 인입 라인과 각 노드 간에서 연산의 종류에 대한 확률 값을 계산하는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 정책벡터 산출 단계는 각 노드마다 인입 라인 구조와 그에 대한 확률 값으로 구성된 구조 탐색을 위한 정책 벡터를 산출하는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 정책벡터 산출 단계는 각 노드 간에서 가능한 연산의 종류와 그에 대한 확률 값으로 구성된 연산 탐색을 위한 정책 벡터를 산출하는 것을 특징으로 하는 방법.
제8항 또는 제9항에 있어서,
상기 정책벡터 선택 단계는 상기 정책 벡터를 구성하는 요소에 대한 확률 값을 이용하여 다항분포 샘플링(multinomial sampling)을 통해 상기 정책 벡터의 요소를 선택하는 것을 특징으로 하는 방법.
인공신경망을 구성하는 노드의 연결 관계 및 그에 대한 확률 값을 가진 구조 탐색을 위한 정책 벡터와 노드 간의 연산 및 그에 대한 확률 값을 가진 연산 탐색을 위한 정책 벡터를 이용해 인공신경망의 구조 탐색과 연산 탐색을 분리하여 수행하는 것을 특징으로 하는 정책 벡터 기반 인공신경망 탐색 방법.
정책 벡터 기반 인공신경망 탐색 방법을 실행하기 위한 프로그램을 저장한 컴퓨터 판독 매체에 있어서,
강화학습 기반으로 학습된 최적의 정책에 근거하여 구조 탐색(structure search)을 위한 정책 벡터(policy vector) 및 연산 탐색(operation search)을 위한 정책 벡터를 산출하는 단계와,
상기 정책 벡터를 구성하는 요소들(components) 중에서 인공신경망에 적용할 요소를 선택하는 단계와,
상기 선택된 정책 벡터의 요소에 근거해 인공신경망을 구성하는 단계를 실행하기 위한 프로그램을 저장한 컴퓨터 판독 기록매체.