KR20190105368A

KR20190105368A - 심층신경망 모델의 선형 근사화 방법 및 장치

Info

Publication number: KR20190105368A
Application number: KR1020180025816A
Authority: KR
Inventors: 정훈; 박전규; 이성주; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2019-09-17
Also published as: US10789332B2; US20190272309A1

Abstract

일반적으로 심층신경망 모델은 다양한 생성 및 분류 문제에서 좋은 성능을 보이고 있다. 그러나 심층신경망은 본질적으로 비선형 특성을 갖는바, 블랙박스 모델로 주어지는 입력에 대해 어떻게 그 결과를 도출하게 되었는지 해석하는 데 어려움을 겪고 있다. 본 발명에서는 이러한 문제를 해결하고자, 심층신경망 모델의 선형 근사화를 제안한다. 상기 과제해결을 위하여 본 발명의 한 측면에 따르면, 1) 심층신경망 모델을 구성하는 뉴런을 다항식 형태로 변환하는 단계, 2) 상기 단계에서 얻은 다항식을 입력신호의 다항식과 가중치 w의 다항식으로 구분하는 단계를 포함하는 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법이 제공된다.

Description

심층신경망 모델의 선형 근사화 방법 및 장치 {Method and apparatus for linear approximation of deep neural network}

본 발명은 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법 및 장치에 관한 것이다.

일반적으로 도 1과 같이 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구성되는 심층신경망의 은닉층은 수학식 1과 같이 표현할 수 있다.

입력 신호

에 대한 Weight matrix와 Bias vector

의 아핀변환(Affine Transform)을 수행해

를 구하고 비선형 활성화 함수

를 적용하여 결과값

를 구하게 된다. 아핀기하학에서 아핀 변환은 공선점을 보존하는, 두 아핀 공간 사이의 변환이다. 아핀 변환 f: A→B는 그에 맞는 두 벡터 공간(아핀 공간의 두 점을 잇는 벡터들이 이루는 공간) 사이의 변환

에 대응하는데, 이는 선형성을 만족한다.

은닉층에서는 다음과 같은 다양한 비선형 함수들이 사용된다.

일반적으로 심층신경망 모델은 다양한 생성 및 분류 문제에서 좋은 성능을 보이고 있다. 그러나 심층신경망은 본질적으로 비선형 특성을 갖는바, 블랙박스 모델로 주어지는 입력에 대해 어떻게 그 결과를 도출하게 되었는지 해석하는 데 어려움을 겪고 있다. 본 발명에서는 이러한 문제를 해결하고자, 심층신경망 모델의 선형 근사화를 제안한다.

상기 과제해결을 위하여 본 발명의 한 측면에 따르면,

- DNN(심층신경망)의 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1단계,

- 상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2단계,

- 상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3단계를 포함하는, 심층신경망 모델의 선형 근사화 방법이 제공된다.

입력 x에 대해서 다항식 전개를 수행하여 다항식 전개된 입력은 p(x)이다. 그리고 테일러급수에 의한 근사화를 수행하면, 비선형 활성화 함수

를 얻게 되고, 이로부터

의 다항식을 얻을 수 있다.

상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 단계는 상기 다항식

를

형태의 식으로 변환하는 단계를 포함할 수 있다. 이 변환된 식은

의 형태를 가지며 결국, 심층신경망 모델의 선형 근사화가 가능해져, 일반적인 선형 시스템의 해를 구하는 것과 동일한 방식으로 취급할 수 있게 된다.

상기 식

에서, p(x)는 입력신호에 대한 n차 다항식

이고 가중치 행렬 a는 가중치 행렬 W에 대한 다항식

이다.

한편, 상기 과제해결을 위한 본 발명의 다른 측면에 따르면,

- DNN(심층신경망) 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1수단,

- 상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2수단,

- 상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3수단을 포함하는, 심층신경망 모델의 선형 근사화 장치가 제공된다.

상기 장치의 제1수단~제3수단은 신호처리 및 데이터연산을 수행하도록 설계된 전기회로 또는 소자들을 포함하는 컨트롤러, 프로세서 등의 컴퓨팅 하드웨어로 구현가능하다.

이상에서 소개한 본 발명의 구성 및 작용은 차후에 도면과 함께 설명하는 구체적인 실시예를 통하여 더욱 명확해질 것이다.

본 발명에서는 심층신경망을 선형으로 근사화함으로써 널리 사용되는 선형 시스템 해석 방식으로 심층신경망을 분석할 수 있게 된다. 본 발명에 의해 심층신경망과 다른 단층 시스템을 얻을 수 있게 되어 그 훈련 및 해석이 용이해진다.

도 1은 일반적인 심층신경망의 개략 구성도
도 2는 2개의 입력을 가지는 뉴런의 개략도
도 3은 본 발명의 선형 근사화 방법의 프로세스 흐름도
도 4는 본 발명의 선형 근사화 방법의 한 실시예의 프로세스 흐름도

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 기술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.

먼저, 본 발명의 실시예 설명을 위해 도 2와 같이 두 개의 입력 x1, x2와 출력 y를 갖는 뉴런을 상정한다. 입력 x1, x2 신호가 뉴런에 입력되면 각 신호에 가중치를 곱하여, 다음 뉴런에 전달한다. 다음 뉴런에서는 이들 신호의 값을 더하여 그 합이 0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력한다. 입력신호의 총합을 출력신호로 변환하는 함수를 일반적으로 활성화함수(activation function)라고 한다. 인공신경망 모델에서 뉴런의 주요 기능은 입력과 연결강도의 가중합을 구한 다음 활성화함수에 의해 출력을 내보내는 것이다. 따라서 어떤 활성화함수를 선택하느냐에 따라 뉴런의 출력이 달라질 수 있다.

도 3은 도 2의 뉴런에 대해서 선형 근사화 처리를 하는 구성도이다.

최초 입력 x에 대해서 다항식 전개(polynomial expansion)를 수행하여 다항식 전개된 p(x)를 얻는다(100).

도 2의 뉴런에서 은닉층의 출력은 수학식 2와 같이 두 입력 x1, x2에 대한 가중치 w1, w2의 가중치 합으로 구하게 된다(은닉층의 출력=h)

다시 도 3에서, 상기 다항식 전개(100)와 병행하여 최초의 DNN(심층신경망) 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행한다(200).

비활성화 함수로 tanh(x)를 사용한다고 가정하고 이를 Taylor series로 근사화하면 비선형 활성화 함수는 수학식 3과 같이 근사화된다.

수학식 2를 수학식 3에 대입해 정리하면 도 2의 뉴런은 수학식 4와 같은 다항식 형태로 표현된다.

다항식 전개된 p(x)와 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치 w의 다항식으로 구분하면 수학식 5와 같이 선형 시스템의 형태로 정리할 수 있다.

여기서, p(x)는 수학식 6과 같이 입력신호에 대한 n차 다항식이고, 가중치 행렬 a는 수학식 7과 같이 원래 가중치 행렬 W에 대한 다항식이 된다.

수학식 6과 같은 입력신호에 대한 n차 다항식과 수학식 7과 같은 원래 가중치 행렬 W에 대한 다항식으로 분리한 결과, 앞의 수학식 1과 같은 심층신경망 모델은 아래의 수학식 8과 같은 형태로 선형 근사화가 가능해진다(300).

따라서, 수학식 8은 일반적인 선형 시스템의 해를 구하는 것과 동일한 방식으로 구할 수 있게 된다.

이상, 본 발명의 바람직한 실시예를 통하여 본 발명의 구성을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술한 특허청구범위에 의하여 정해지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 기술적 범위에 포함되는 것으로 해석되어야 한다.

Claims

비선형 함수인 심층신경망 모델을 선형 근사화하는 방법으로서,
DNN(심층신경망)의 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1단계,
상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2단계,
상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3단계를 포함하는, 심층신경망 모델의 선형 근사화 방법.
제1항에 있어서, 상기 DNN의 뉴런의 입력은 x1 및 x2, 출력은 y, 가중치는 w1, w2이며,
상기 제2단계에서 DNN 뉴런에 대한 테일러급수에 의한 근사화의 수행 결과로 비선형 활성화 함수
(여기서, h는 은닉층의 출력으로,
임)를 얻게되어, 최종적으로

의 다항식이 취득되는 심층신경망 모델의 선형 근사화 방법.
제1항에 있어서, 상기 DNN의 뉴런의 입력은 x, 출력은 y이며,
상기 제1단계에서 입력 x에 대해서 다항식 전개를 수행하여 다항식 전개된 입력은 p(x)이고,
상기 제3단계는 상기 다항식 전개된 입력 p(x) 및 상기 테일러급수에 의해 근사화된 뉴런을
형태의 식으로 변환하는 단계를 포함하는 심층신경망 모델의 선형 근사화 방법.
제2항에 있어서, 상기 제3단계는
상기 다항식
를
(여기서, p(x)는 입력신호에 대한 n차 다항식
이고 가중치 행렬 a는 가중치 행렬 W에 대한 다항식
임) 형태의 식으로 변환하는 단계를 포함하는 심층신경망 모델의 선형 근사화 방법.
비선형 함수인 심층신경망 모델을 선형 근사화하는 장치로서,
DNN(심층신경망) 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1수단,
상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2수단,
상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3수단을 포함하는, 심층신경망 모델의 선형 근사화 장치.
제5항에 있어서, 상기 DNN의 뉴런의 입력은 x1 및 x2, 출력은 y, 가중치는 w1, w2이며,
상기 제2수단에서 DNN 뉴런에 대한 테일러급수에 의한 근사화의 수행 결과로 비선형 활성화 함수
(여기서, h는 은닉층의 출력으로,
임)를 계산하여, 최종적으로

의 다항식이 출력되는 심층신경망 모델의 선형 근사화 장치.
제5항에 있어서, 상기 DNN의 뉴런의 입력은 x, 출력은 y이며,
상기 제1수단에서 입력 x에 대해서 다항식 전개를 수행하여 다항식 전개된 입력 p(x)가 출력되고,
상기 제3수단은 상기 다항식 전개된 입력 p(x) 및 상기 테일러급수에 의해 근사화된 뉴런을
형태의 식으로 변환하는 수단을 추가로 포함하는 심층신경망 모델의 선형 근사화 장치.
제6항에 있어서, 상기 제3수단은
상기 다항식
를
(여기서, p(x)는 입력신호에 대한 n차 다항식
이고 가중치 행렬 a는 가중치 행렬 W에 대한 다항식
임) 형태의 식으로 변환하는 수단을 추가로 포함하는 심층신경망 모델의 선형 근사화 장치.