KR20190014900A

KR20190014900A - 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치

Info

Publication number: KR20190014900A
Application number: KR1020170098999A
Authority: KR
Inventors: 이준행; 이승원; 하상원; 이원조
Original assignee: 삼성전자주식회사
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2019-02-13
Also published as: EP3438890A1; KR102601604B1; CN109389219A; US11588496B2; US20190042948A1; JP2019032833A; US20230117033A1; CN109389219B; JP7072464B2; EP3438890B1

Abstract

뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치는, 미리 훈련된 뉴럴 네트워크의 데이터로부터 부동 소수점 타입의 파라미터 값들에 대한 채널 별 통계적 분포를 분석하고, 채널 별 파라미터의 고정 소수점 표현을 결정하고, 바이어스 및 채널 별 웨이트의 프랙션 길이들을 결정하고, 결정된 프랙션 길이들의 바이어스 및 채널 별 웨이트를 갖는 고정 소수점 타입의 양자화된 뉴럴 네트워크를 생성한다.

Description

뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치 {Method and apparatus for quantizing parameter of neural network}

뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치에 관한다.

뉴럴 네트워크(neural network)는 생물학적 뇌를 모델링한 컴퓨터 과학적 아키텍쳐(computational architecture)를 참조한다. 최근 뉴럴 네트워크(neural network) 기술이 발전함에 따라, 다양한 종류의 전자 시스템에서 뉴럴 네트워크를 활용하여 입력 데이터를 분석하고 유효한 정보를 추출하는 연구가 활발히 진행되고 있다. 뉴럴 네트워크를 처리하는 장치는 복잡한 입력 데이터에 대한 많은 양의 연산을 필요로 한다. 따라서, 뉴럴 네트워크를 이용하여 대량의 입력 데이터를 실시간으로 분석하여, 원하는 정보를 추출하기 위해서는 뉴럴 네트워크에 관한 연산을 효율적으로 처리할 수 있는 기술이 요구된다.

뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치를 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.

일 측면에 따르면, 뉴럴 네트워크의 파라미터들을 양자화하는 방법은, 부동 소수점들을 이용하여 미리 훈련된 뉴럴 네트워크의 데이터로부터, 피처 맵들 및 커널들 각각에 포함된 각 채널에서 이용된 부동 소수점 타입의 파라미터 값들에 대한 채널 별 통계적 분포를 분석하는 단계; 상기 채널 별 통계적 분포에 기초하여, 상기 파라미터 값들의 분포 범위를 통계적으로 커버하는 상기 채널 별 파라미터의 고정 소수점 표현을 결정하는 단계; 상기 채널 별 고정 소수점 표현의 파라미터로 컨볼루션 연산을 수행한 결과에 기초하여 바이어스 및 상기 채널 별 웨이트의 프랙션 길이들을 결정하는 단계; 및 상기 결정된 프랙션 길이들의 상기 바이어스 및 상기 채널 별 웨이트를 갖는, 고정 소수점 타입의 양자화된 뉴럴 네트워크를 생성하는 단계를 포함한다.

다른 측면에 따르면, 장치는, 적어도 하나의 프로그램이 저장된 메모리; 및 상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크의 파라미터들을 양자화하는 프로세서를 포함하고, 상기 프로세서는 부동 소수점들을 이용하여 미리 훈련된 뉴럴 네트워크의 데이터로부터, 피처 맵들 및 커널들 각각에 포함된 각 채널에서 이용된 부동 소수점 타입의 파라미터 값들에 대한 채널 별 통계적 분포를 분석하고, 상기 채널 별 통계적 분포에 기초하여, 상기 파라미터 값들의 분포 범위를 통계적으로 커버하는 상기 채널 별 파라미터의 고정 소수점 표현을 결정하고, 상기 채널 별 고정 소수점 표현의 파라미터로 컨볼루션 연산을 수행한 결과에 기초하여 바이어스 및 상기 채널 별 웨이트의 프랙션 길이들을 결정하고, 상기 결정된 프랙션 길이들의 상기 바이어스 및 상기 채널 별 웨이트를 갖는, 고정 소수점 타입의 양자화된 뉴럴 네트워크를 생성한다.

도 1은 일 실시예에 따른 산출 그래프(computational graph)의 아키텍처를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 뉴럴 네트워크에서 수행되는 연산을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 뉴럴 네트워크 양자화 장치의 하드웨어 구성을 도시한 블록도이다.
도 4는 일 실시예에 따른 미리 훈련된 뉴럴 네트워크를 양자화하여 하드웨어 가속기에 채용하는 것을 설명하기 위한 도면이다.
도 5는 부동 소수점과 고정 소수점을 설명하기 위한 도면이다.
도 6은 고정 소수점에서 프랙션 길이와 정확도 간의 관계를 설명하기 위한 도면이다.
도 7은 뉴럴 네트워크의 파라미터들이 레이어 별로 동일한 고정 소수점 표현으로 양자화되는 경우를 설명하기 위한 도면이다.
도 8은 일 실시예에 따라 뉴럴 네트워크의 파라미터들이 채널 별로 동일한 고정 소수점 표현으로 양자화되는 경우를 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 채널에서 이용된 파라미터들의 통계적 분포를 설명하기 위한 도면이다.
도 10은 다른 실시예에 따른 채널에서 이용된 파라미터들의 통계적 분포를 설명하기 위한 도면이다.
도 11은 일 실시예에 따라 고정 소수점 타입의 일부 파라미터들의 프랙션 길이를 결정하는 것을 설명하기 위한 도면이다.
도 12는 도 11의 방식을 이용하는 뉴럴 네트워크 파라미터의 양자화 알고리즘을 도시한 도면이다.
도 13은 다른 실시예에 따라 고정 소수점 타입의 일부 파라미터들의 프랙션 길이를 결정하는 것을 설명하기 위한 도면이다.
도 14는 도 13의 방식을 이용하는 뉴럴 네트워크 파라미터의 양자화 알고리즘을 도시한 도면이다.
도 15는 도 7에서 설명된 레이어 별 양자화를 설명하기 위한 도면이다.
도 16은 일 실시예에 따라 양자화된 뉴럴 네트워크를 재훈련(retrain)하는 것을 설명하기 위한 도면이다.
도 17은 레이어 별 양자화와 채널 별 양자화의 정확도를 비교한 시뮬레이션 결과를 도시한 도면이다.
도 18은 재훈련에 의한 양자화된 뉴럴 네트워크의 정확도 변화에 대한 시뮬레이션 결과를 도시한 도면이다.
도 19는 일 실시예에 따른 전자 시스템을 나타내는 블록도이다.
도 20은 일 실시예에 따른 뉴럴 네트워크의 파라미터들을 양자화하는 방법의 흐름도이다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.

실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 실시예들에서 사용되는 “구성된다” 또는 “포함한다” 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 산출 그래프(computational graph)의 아키텍처를 설명하기 위한 도면이다.

도 1을 참고하면, 산출 그래프(1)는 노드들과 에지들을 이용하여 표현된 수학적 모델을 나타내는 그래프이다. 산출 그래프(1)의 아키텍처는 뉴럴 네트워크의 아키텍처에 해당될 수 있으나, 이 밖에도 다양한 모델들을 표현할 수 있다. 여기서, 뉴럴 네트워크는 딥 뉴럴 네트워크(Deep Neural Network, DNN) 또는 n-계층 뉴럴 네트워크(n-layers neural networks)의 아키텍처일 수 있다. DNN 또는 n-계층 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(Convolutional Neural Networks, CNN), 리커런트 뉴럴 네트워크(Recurrent Neural Networks, RNN), Deep Belief Networks, Restricted Boltzman Machines 등에 해당될 수 있다. 예를 들어, 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(CNN)로 구현될 수 있으나, 이에 제한되지 않는다. 도 1의 산출 그래프(1)가 컨볼루션 뉴럴 네트워크를 표현하는 것인 경우, 산출 그래프(1)는 컨볼루션 뉴럴 네트워크 중 일부의 레이어들에 해당될 수 있다. 따라서, 산출 그래프(1)는 컨볼루션 뉴럴 네트워크의, 컨볼루션 레이어, 풀링 레이어(pooling layer), 풀리 커넥티드(fully connected) 레이어 등에 해당될 수 있다. 다만, 이하에서는 편의상, 산출 그래프(1)가 컨볼루션 뉴럴 네트워크의 컨볼루션 레이어에 해당되는 것으로 가정하여 설명하도록 하겠으나, 이에 제한되지 않고 산출 그래프(1)는 다른 수학적 모델들의 표현에 해당될 수도 있다.

컨볼루션 레이어에서, 제 1 피처 맵(feature map 1, FM1)은 입력 피처 맵에 해당될 수 있고, 제 2 피처 맵(FM2)는 출력 피처 맵에 해당될 수 있다. 피처 맵은 입력 데이터의 다양한 특징이 표현된 데이터 세트를 의미할 수 있다. 피처 맵들(FM1, FM2)은 2차원 이상의 고차원 매트릭스일 수 있고, 각각의 액티베이션(activation) 파라미터들을 갖는다. 피처 맵들(FM1, FM2)이 예를 들어 3차원 피처 맵들에 해당되는 경우, 피처 맵들(FM1, FM2)은 너비(W)(또는 칼럼이라고 함), 높이(H)(또는 로우라고 함) 및 깊이(D)를 가진다. 이때, 깊이(D)는 채널들의 개수로 지칭될 수 있다.

컨볼루션 레이어에서, 제 1 피처 맵(FM1) 및 웨이트 맵(WM)에 대한 컨볼루션 연산이 수행될 수 있고, 그 결과 제 2 피처 맵(FM2)이 생성될 수 있다. 웨이트 맵(WM)은 제 1 피처 맵(FM1)을 필터링할 수 있으며, 필터 또는 커널(kernel)로 지칭된다. 웨이트 맵(WM)의 깊이, 즉 웨이트 맵(WM)의 채널 개수는 제 1 피처 맵(FM1)의 깊이와 제 2 피처 맵(FM2)의 깊이를 곱한 값, 즉 제 1 피처 맵(FM1)의 채널 개수와 제 2 피처 맵(FM2)의 채널 개수를 곱한 값과 동일하다. 다만, 웨이트 맵(WM)이 4차원 매트릭스이고 커널의 크기(kernel size)가 k인 경우, 웨이트 맵(WM)의 채널 개수는 “제 1 피처 맵(FM1)의 깊이 * 제 2 피처 맵(FM2)의 깊이 * k * k” 와 같이 계산될 수 있다. 웨이트 맵(WM)은 제1 입력 피처 맵(FM1)을 슬라이딩 윈도로 하여 횡단하는 방식으로 시프트된다. 각 시프트 동안, 웨이트 맵(WM)에 포함되는 웨이트들 각각이 제 1 피처 맵(FM1)과 중첩된 영역에서의 모든 피처 값과 곱해지고 더해질 수 있다. 제 1 피처 맵(FM1)과 웨이트 맵(WM)이 컨볼루션됨에 따라, 제 2 피처 맵(FM2)의 하나의 채널이 생성될 수 있다. 도 1에는 하나의 웨이트 맵(WM)이 표시되었으나, 실질적으로는 복수의 웨이트 맵들이 제 1 피처 맵(FM1)과 컨볼루션 되어, 제 2 피처 맵(FM2)의 복수의 채널들이 생성될 수 있다.

한편, 컨벌루션 레이어의 제 2 피처 맵(FM2)은 다음 레이어의 입력 피처 맵이 될 수 있다. 예를 들어, 제 2 피처 맵(FM2)는 풀링(pooling) 레이어의 입력 피처 맵이 될 수 있다.

도 2는 일 실시예에 따른 뉴럴 네트워크에서 수행되는 연산을 설명하기 위한 도면이다.

도 2를 참조하면, 뉴럴 네트워크(2)는 입력 레이어, 히든 레이어들 및 출력 레이어를 포함하는 구조를 가지며, 수신되는 입력 데이터(예를 들어,

및

)를 기초로 연산을 수행하고, 수행 결과를 기초로 출력 데이터(예를 들어,

및

)를 생성할 수 있다.

뉴럴 네트워크(2)는 앞서 설명된 바와 같이, 2개 이상의 히든 레이어들을 포함하는 DNN 또는 n-계층 뉴럴 네트워크일 수 있다. 예를 들어, 도 2에 도시된 바와 같이, 뉴럴 네트워크(2)는 입력 레이어(Layer 1), 2개의 히든 레이어들(Layer 2 및 Layer 3) 및 출력 레이어(Layer 4)를 포함하는 DNN일 수 있다. 뉴럴 네트워크(2)가 DNN 아키텍처로 구현된 경우 유효한 정보를 처리할 수 있는 보다 많은 레이어들을 포함하므로, 뉴럴 네트워크(2)는 싱글 레이어를 갖는 뉴럴 네트워크보다 복잡한 데이터 집합들을 처리할 수 있다. 한편, 뉴럴 네트워크(2)는 4개의 레이어들을 포함하는 것으로 도시되어 있으나, 이는 예시에 불과할 뿐 뉴럴 네트워크(2)는 더 적거나 많은 레이어들을 포함하거나, 더 적거나 많은 채널들을 포함할 수 있다. 즉, 뉴럴 네트워크(2)는 도 2에 도시된 것과는 다른, 다양한 구조의 레이어들을 포함할 수 있다.

뉴럴 네트워크(10)에 포함된 레이어들 각각은 복수의 채널들을 포함할 수 있다. 채널은 뉴런(neuron), 프로세싱 엘리먼트(Processing element, PE), 유닛(unit) 또는 이와 유사한 용어들로 알려진, 복수의 인공 노드(artificial node)들에 해당될 수 있다. 예를 들어, 도 2에 도시된 바와 같이, Layer 1은 2개의 채널들(노드들), Layer 2 및 Layer 3 각각은 3개의 채널들을 포함할 수 있다. 다만, 이는 예시에 불과할 뿐 뉴럴 네트워크(2)에 포함된 레이어들 각각은 다양한 개수의 채널들(노드들)을 포함할 수 있다.

뉴럴 네트워크(2)의 레이어들 각각에 포함된 채널들은 서로 연결되어 데이터를 처리할 수 있다. 예를 들어, 하나의 채널은 다른 채널들로부터 데이터를 수신하여 연산할 수 있고, 연산 결과를 또 다른 채널들로 출력할 수 있다.

채널들 각각의 입력 및 출력 각각은 입력 액티베이션 및 출력 액티베이션이라고 지칭될 수 있다. 즉, 액티베이션은 한 채널의 출력임과 동시에, 다음 레이어에 포함된 채널들의 입력에 해당되는 파라미터일 수 있다. 한편, 채널들 각각은 이전 레이어에 포함된 채널들로부터 수신된 액티베이션들 및 웨이트들에 기초하여 자신의 액티베이션을 결정할 수 있다. 웨이트는 각 채널에서의 출력 액티베이션을 계산하기 위해 이용되는 파라미터로서, 채널들 간의 연결관계에 할당되는 값일 수 있다.

채널들 각각은 입력을 수신하여 출력 액티베이션을 출력하는 연산 유닛(computational unit) 또는 프로세싱 엘리먼트(processing element)에 의해 처리될 수 있고, 채널들 각각의 입력-출력은 매핑될 수 있다. 예를 들어,

는 액티베이션 함수(activation function)이고,

는 (i-1) 번째 레이어에 포함된 k 번째 채널로부터 i 번째 레이어에 포함된 j번째 채널로의 웨이트며,

는 i 번째 레이어에 포함된 j 번째 채널의 바이어스(bias)이고,

는 i 번째 레이어의 j 번째 채널의 액티베이션이라고 할 때, 액티베이션

는 다음과 같은 수학식 1을 이용하여 계산될 수 있다.

도 2에 도시된 바와 같이, 2번째 레이어(Layer 2)의 첫 번째 채널(CH 1)의 액티베이션은

로 표현될 수 있다. 또한,

은 수학식 1에 따라

의 값을 가질 수 있다. 다만, 앞서 설명한 수학식 1은 뉴럴 네트워크(2)에서 데이터를 처리하기 위해 이용되는 액티베이션 및 웨이트를 설명하기 위한 예시일 뿐, 이에 제한되지 않는다. 액티베이션은 이전 레이어로부터 수신된 액티베이션들의 합(sum)에 액티베이션 함수를 적용한 값을 Rectified Linear Unit (ReLU)을 통과시킴으로써 획득된 값일 수 있다.

앞서 설명한 것과 같이, 뉴럴 네트워크(2)에서는 수많은 데이터 집합들이 상호 연결된 복수의 채널들 간에 교환되고, 레이어를 지나면서 수많은 연산 과정을 거친다. 따라서, 복잡한 입력 데이터를 처리하는데 필요한 연산량을 감소시키면서도 정확도 손실을 최소화할 수 있는 기술이 요구된다.

도 3은 일 실시예에 따른 뉴럴 네트워크 양자화 장치의 하드웨어 구성을 도시한 블록도이다.

도 3을 참고하면, 뉴럴 네트워크 양자화 장치(10)는 프로세서(110) 및 메모리(120)를 포함한다. 도 3에 도시된 뉴럴 네트워크 양자화 장치(10)에는 본 실시예들와 관련된 구성요소들만이 도시되어 있다. 따라서, 뉴럴 네트워크 양자화 장치(10)에는 도 3에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음은 당업자에게 자명하다.

뉴럴 네트워크 양자화 장치(10)는 뉴럴 네트워크를 생성하거나, 뉴럴 네트워크를 훈련(train)(또는 학습(learn))하거나, 부동 소수점 타입의 뉴럴 네트워크를 고정 소수점 타입의 뉴럴 네트워크로 양자화하거나, 또는 뉴럴 네트워크를 재훈련(retrain)하는 기능들과 같은 다양한 프로세싱 기능들을 갖는 컴퓨팅 디바이스에 해당된다. 예를 들어, 뉴럴 네트워크 양자화 장치(10)는 PC(personal computer), 서버 디바이스, 모바일 디바이스 등의 다양한 종류의 디바이스들로 구현될 수 있다.

프로세서(110)는 뉴럴 네트워크 양자화 장치(10)를 제어하기 위한 전반적인 기능을 수행하는 역할을 한다. 예를 들어, 프로세서(110)는 뉴럴 네트워크 양자화 장치(10) 내의 메모리(120)에 저장된 프로그램들을 실행함으로써, 뉴럴 네트워크 양자화 장치(10)를 전반적으로 제어한다. 프로세서(110)는 뉴럴 네트워크 양자화 장치(10) 내에 구비된 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

메모리(120)는 뉴럴 네트워크 양자화 장치(10) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 예를 들어, 메모리(120)는 뉴럴 네트워크 장치(10)에서 처리된 데이터들 및 처리될 데이터들을 저장할 수 있다. 또한, 메모리(120)는 뉴럴 네트워크 양자화 장치(10)에 의해 구동될 애플리케이션들, 드라이버들 등을 저장할 수 있다. 메모리(120)는 DRAM일 수 있으나, 이에 한정되는 것은 아니다. 메모리(1940)는 휘발성 메모리(volatile memory) 또는 불휘발성 메모리(nonvolatile memory) 중 적어도 하나를 포함할 수 있다. 불휘발성 메모리는 ROM (Read Only Memory), PROM (Programmable ROM), EPROM (Electrically Programmable ROM), EEPROM (Electrically Erasable and Programmable ROM), 플래시 메모리, PRAM (Phase-change RAM), MRAM (Magnetic RAM), RRAM (Resistive RAM), FRAM (Ferroelectric RAM) 등을 포함한다. 휘발성 메모리는 DRAM (Dynamic RAM), SRAM (Static RAM), SDRAM (Synchronous DRAM), PRAM (Phase-change RAM), MRAM (Magnetic RAM), RRAM (Resistive RAM), FeRAM (Ferroelectric RAM) 등을 포함한다. 실시예에 있어서, 메모리(1940)는 HDD(Hard Disk Drive), SSD(Solid State Drive), CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 Memory Stick 중 적어도 하나를 포함할 수 있다.

프로세서(110)는 주어진 초기 뉴럴 네트워크를 반복적으로 훈련(학습)시킴으로써, 훈련된 뉴럴 네트워크를 생성할 수 있다. 이때, 초기 뉴럴 네트워크는 뉴럴 네트워크의 처리 정확도 확보 차원에서 부동 소수점 타입의 파라미터들, 예를 들어 32비트 부동 소수점 정밀도(32bit floating point precision)의 파라미터들을 가질 수 있다. 여기서, 파라미터들은 예를 들어 뉴럴 네트워크의 입/출력 액티베이션들, 웨이트들, 바이어스들 등 뉴럴 네트워크에 입/출력되는 다양한 종류의 데이터를 포함할 수 있다. 뉴럴 네트워크의 반복적인 훈련이 진행됨에 따라, 뉴럴 네트워크의 부동 소수점 파라미터들은 주어진 입력에 대해 보다 정확한 출력을 연산하기 위해 조정될(tuned) 수 있다.

다만, 부동 소수점은 고정 소수점에 비해 상대적으로 많은 연산량과 많은 메모리 액세스 빈도가 요구된다. 특히, 뉴럴 네트워크의 처리에 소요되는 연산량의 대부분은 다양한 파라미터들의 연산을 수행하는 컨볼루션 연산으로 알려져 있다. 따라서, 비교적 처리 성능이 낮은 스마트폰, 태블릿, 웨어러블 디바이스 등과 같은 모바일 디바이스, 임베디드(embedded) 디바이스 등에서는 부동 소수점 타입의 파라미터들을 갖는 뉴럴 네트워크의 처리가 원활하지 않을 수 있다. 결국, 이와 같은 디바이스들에서 연산량을 충분히 감소시키면서 허용 가능한 정확도 손실 내에서 뉴럴 네트워크를 구동시키기 위해서는, 뉴럴 네트워크에서 처리되는 부동 소수점 타입의 파라미터들은 양자화되는 것이 바람직하다. 여기서, 파라미터 양자화는, 부동 소수점 타입의 파라미터를, 고정 소수점 타입의 파라미터로 변환하는 것을 의미한다.

뉴럴 네트워크 양자화 장치(10)는 뉴럴 네트워크가 채용될(deployed) 디바이스(예를 들어, 모바일 디바이스, 임베디드 디바이스 등)의 처리 성능을 고려하여, 훈련된 뉴럴 네트워크의 파라미터들을 소정 비트들의 고정 소수점 타입으로 변환하는 양자화를 수행하고, 뉴럴 네트워크 양자화 장치(10)는 양자화된 뉴럴 네트워크를 채용될 디바이스에 전달한다. 뉴럴 네트워크가 채용될 디바이스는, 구체적인 예시로 뉴럴 네트워크를 이용한 음성 인식, 영상 인식 등을 수행하는 자율주행 자동차, 로보틱스, 스마트폰, 태블릿 디바이스, AR(Augmented Reality) 디바이스, IoT(Internet of Things) 디바이스 등일 수 있으나, 이에 제한되지 않는다.

프로세서(110)는 메모리(120)에 저장된, 부동 소수점들을 이용하여 미리 훈련된(pre-trained) 뉴럴 네트워크의 데이터를 획득한다. 미리 훈련된 뉴럴 네트워크는 부동 소수점 타입의 파라미터들로 반복적으로 훈련된 데이터일 수 있다. 뉴럴 네트워크의 훈련은, 훈련-세트(train set) 데이터를 입력으로 하여 먼저 반복적으로 훈련되고, 이어서 테스트-세트(test set) 데이터로 다시 반복적으로 훈련된 것일 수 있으나, 반드시 이에 제한되지 않는다. 훈련-세트 데이터는 뉴럴 네트워크를 훈련시키기 위한 입력 데이터이고, 테스트 세트 데이터는 훈련-세트 데이터와 겹치지 않는 입력 데이터로서, 훈련-세트 데이터로 훈련된 뉴럴 네트워크의 성능을 측정하면서 훈련시키기 위한 데이터이다.

프로세서(110)는 미리 훈련된 뉴럴 네트워크 데이터로부터, 피처 맵들 및 커널들 각각에 포함된 각 채널에서 이용된 부동 소수점 타입의 파라미터 값들에 대한 채널 별 통계적 분포를 분석한다. 이때, 프로세서(110)는 뉴럴 네트워크가 미리 훈련되는 동안 각 채널에서 이용되었던 부동 소수점 타입의 액티베이션들, 웨이트들 및 바이어스들의 파라미터 값들에 대한 채널 별 통계량을 구함으로써, 통계적 분포를 분석할 수 있다.

프로세서(110)는 분석된 채널 별 통계적 분포에 기초하여, 파라미터 값들의 분포 범위를 통계적으로 커버하는, 채널 별 파라미터의 고정 소수점 표현을 결정한다. 이로써, 부동 소수점 타입의 뉴럴 네트워크는 고정 소수점 타입의 뉴럴 네트워크로 변환될 수 있다. 본 실시예에 따르면, 부동 소수점 타입으로부터 고정 소수점 타입으로의 변환은 각 채널에 대한 통계적 분포에 기초하여 수행되므로, 각 채널에 할당된 고정 소수점 표현은 채널마다 같거나 또는 서로 다를 수 있다. 즉, 채널 별로 파라미터의 고정 소수점 표현의 프랙션 길이(fraction length)가 제각각일 수 있다.

나아가서, 프로세서(110)는 채널 별 고정 소수점 표현의 파라미터로 피처 맵들 및 커널들 간의 컨볼루션 연산을 수행한 결과에 기초하여 바이어스 및 채널 별 웨이트의 프랙션 길이들을 결정한다. 한편, 바이어스의 프랙션 길이 및 채널 별 웨이트의 프랙션 길이는 양자화된 뉴럴 네트워크의 제약조건(constraint)으로 설정될 수 있다.

프로세서(110)에 의해 각 채널 별 파라미터가 고정 소수점 타입으로 양자화되는 알고리즘에 대해서는, 이하 해당 도면들을 참고하여 구체적으로 설명하도록 한다.

한편, 메모리(120)는 예를 들어, 훈련되지 않은 초기 뉴럴 네트워크 데이터, 훈련 과정에서 생성된 뉴럴 네트워크 데이터, 모든 훈련이 완료된 뉴럴 네트워크 데이터, 양자화된 뉴럴 네트워크 데이터 등 프로세서(110)에 의해 처리될 또는 처리된 뉴럴 네트워크 관련 데이터 세트를 저장할 수 있고, 또한 프로세서(110)에 의해 실행될 뉴럴 네트워크의 훈련 알고리즘, 양자화 알고리즘 등에 관련된 다양한 프로그램들을 저장할 수 있다.

도 4는 일 실시예에 따른 미리 훈련된 뉴럴 네트워크를 양자화하여 하드웨어 가속기에 채용하는 것을 설명하기 위한 도면이다.

도 4를 참고하면, 앞서 설명된 바와 같이, PC, 서버 등과 같은 뉴럴 네트워크 양자화 장치(도 3의 10)에서 프로세서(도 3의 110)는 부동 소수점 타입(예를 들어, 32비트 부동 소수점 타입)의 뉴럴 네트워크(410)를 훈련한다. 미리 훈련된 뉴럴 네트워크(410) 자체는 부동 소수점 타입의 파라미터들로 인하여 저전력 또는 저성능의 하드웨어 가속기에서 효율적으로 처리되지 않을 수 있으므로, 뉴럴 네트워크 양자화 장치(10)의 프로세서(110)는 부동 소수점 타입의 뉴럴 네트워크(410)를 고정 소수점 타입(예를 들어, 16비트 이하의 고정 소수점 타입)의 뉴럴 네트워크(420)로 양자화한다. 하드웨어 가속기는 뉴럴 네트워크(420)의 구동을 위한 전용 하드웨어로서, 비교적 저전력 또는 저성능으로 구현되기 때문에 부동 소수점 연산 보다는 고정 소수점 연산에 보다 적합하게 구현될 수 있다. 하드웨어 가속기는 예를 들어, 뉴럴 네트워크 구동을 위한 전용 모듈인 NPU(neural processing unit), TPU(Tensor Processing Unit), Neural Engine 등에 해당될 수 있으나, 이에 제한되지 않는다.

양자화된 뉴럴 네트워크(420)를 구동하는 하드웨어 가속기는, 뉴럴 네트워크 양자화 장치(10)와는 별도의 독립적인 디바이스에 구현될 수 있다. 하지만, 이에 제한되지 않고, 하드웨어 가속기는 뉴럴 네트워크 양자화 장치(10)와 동일한 장치 내에도 구현될 수 있다.

도 5는 부동 소수점과 고정 소수점을 설명하기 위한 도면이다.

도 5의 부동 소수점 예시(510)를 참고하면, 부동 소수점 값은

의 형식으로 표현될 수 있고, 여기서 a는 지수부(exponent), b는 가수부(fraction part)에 해당된다. 부동 소수점 값은 1비트의 부호 비트, 8비트들의 지수부 비트들 및 23비트들의 가수부 비트들을 포함하는 32비트들로 표현될 수 있다.

다음으로, 고정 소수점 예시(520)를 참고하면, 고정 소수점은 “Qm,n”으로 표현될 수 있다. (m, n은 자연수) 여기서, “m”은 지수부를 나타내는 비트들의 개수, “n”은 가수부를 나타내는 비트들의 개수이다. 따라서, 고정 소수점의 비트 폭(bit width)은 부호 1 비트, 지수부 m 비트 및 가수부 n 비트를 합하여 1+m+n이다. 고정 소수점 비트들 중 가수부를 나타내는 비트들은 n 비트들이므로, 프랙션 길이(fractional length)는 n이다. 예를 들어, “Q3.4”는 부호 1 비트, 지수부 3 비트들 및 가수부 4 비트들을 갖는 총 8비트들의 고정 소수점 값이고, “Q1.30”는 부호 1 비트, 지수부 1 비트 및 가수부 30 비트들을 갖는 총 32비트들의 고정 소수점 값이고, “Q15.16”은 부호 1 비트, 지수부 15 비트들 및 가수부 16 비트들을 갖는 총 32비트들의 고정 소수점 값이다.

도 6은 고정 소수점에서 프랙션 길이와 정확도 간의 관계를 설명하기 위한 도면이다.

도 6을 참고하면, 고정 소수점에 할당된 총 비트 폭은 3비트들인 것으로 가정하여, 프랙션 길이가 0인 Q2.0의 고정 소수점 표현(610)과 프랙션 길이가 1인 Q1.1의 고정 소수점 표현(620)의 비교가 설명되어 있다.

Q2.0은 지수부가 2비트들 가수부가 0비트 이므로, -4부터 3까지의 고정 소수점 값들이 표현될 수 있고, 표현 가능한 고정 소수점 값들 간의 간격은 1이다. 그리고, Q1.1은 지수부가 1비트 가수부가 1비트 이므로, -4부터 3까지의 고정 소수점 값들이 표현될 수 있고, 표현 가능한 고정 소수점 값들 간의 간격은 0.5이다.

비교하여 보면, Q2.0의 고정 소수점 표현(610)과 Q1.1의 고정 소수점 표현(620)은 동일한 3비트들이 할당되었으나, Q2.0은 보다 넓은 범위의 고정 소수점 값들의 표현이 가능한 대신에 고정 소수점 값들 간의 간격이 넓으므로 정확도는 낮다. 상대적으로, Q1.1은 보다 좁은 범위의 고정 소수점 값들의 표현이 가능한 대신에 고정 소수점 값들 간의 간격이 좁으므로 정확도는 높다. 결국, 고정 소수점 값의 정확도는, 프랙션 길이, 즉 프랙션 비트들의 할당 개수에 의존한다는 점을 알 수 있다.

도 7은 뉴럴 네트워크의 파라미터들이 레이어 별로 동일한 고정 소수점 표현으로 양자화되는 경우를 설명하기 위한 도면이다.

도 7을 참고하면, 뉴럴 네트워크(700)의 k번째 레이어에는 복수의 채널들이 포함될 수 있고, 다양한 부동 소수점 값들(710)이 이용될 수 있다. 만약, k번째 레이어에서 이용된 부동 소수점 값들(710) 중, 최대 부동 소수점 값(712)을 기준으로 고정 소수점 양자화가 수행된다면, 최소 부동 소수점 값(714)으로부터 양자화된 고정 소수점 표현에 대한 정확도는 매우 낮아질 수 있다. 반대로, 최소 부동 소수점 값(714)을 기준으로 고정 소수점 양자화가 수행된다면, 최대 부동 소수점 값(712)으로부터 양자화된 고정 소수점 표현에 대한 정확도 또한 매우 낮아질 수 있다. 따라서, 레이어 별(즉 레이어에 포함된 채널들 모두) 동일한 고정 소수점 표현들로 양자화가 수행되는 경우, 즉 레이어 별 동일한 프랙션 길이들을 갖는 고정 소수점 표현으로 양자화가 수행되는 경우에는, 양자화된 뉴럴 네트워크의 정확도가 낮아질 수 있다.

도 8은 일 실시예에 따라 뉴럴 네트워크의 파라미터들이 채널 별로 동일한 고정 소수점 표현으로 양자화되는 경우를 설명하기 위한 도면이다.

도 8을 참고하면, 뉴럴 네트워크의 레이어들 각각에 포함된 채널 별 고정 소수점 양자화가 수행될 수 있다. 예를 들어, 어느 레이어에서, 채널 1에서 이용된 부동 소수점 파라미터의 값들의 분포 범위와 채널 2에서 이용된 부동 소수점 파라미터의 값들의 분포 범위는 다를 수 있다. 따라서, 채널 1과 채널 2 각각의 부동 소수점 파라미터들이 서로 다른 프랙션 길이들을 갖는 고정 소수점 표현들의 파라미터들로 양자화된다면, 도 7에서 설명된 정확도 손실이 만회될 수 있게 된다.

따라서, 도 3의 프로세서(110)는, 채널 1의 부동 소수점 파라미터들을 채널 1의 부동 소수점 파라미터 값들의 분포 범위가 통계적으로 커버될 수 있는 프랙션 길이의 고정 소수점 표현으로 양자화한다. 또한, 프로세서(110)는 나머지 채널들 각각의 부동 소수점 파라미터들 또한 나머지 채널들 각각의 부동 소수점 파라미터 값들이 통계적으로 커버될 수 있는 프랙션 길이들의 고정 소수점 표현들로 양자화한다. 즉, 부동 소수점 타입의 파라미터를 고정 소수점 타입의 파라미터로 양자화하는 것은, 뉴럴 네트워크의 레이어에 포함된 채널 단위로 수행된다. 프로세서(110)는 미리 훈련된 뉴럴 네트워크에 대해, 이와 같은 방식의 채널 별 양자화를 수행한다.

도 9는 일 실시예에 따른 채널에서 이용된 파라미터들의 통계적 분포를 설명하기 위한 도면이다.

도 9를 참고하면, 부동 소수점 타입의 파라미터들을 갖는 뉴럴 네트워크의 반복적인 훈련에 따라, 레이어에 포함된 각각의 채널마다 고유의 부동 소수점 값들(즉, 파라미터 값들)의 분포가 생성될 수 있다. 도 3의 프로세서(110)는, 미리 훈련된 뉴럴 네트워크 데이터로부터 피처 맵들의 각 채널 별, 커널들의 각 채널 별로 부동 소수점 타입의 파라미터 값들의 통계량에 기초한 채널 별 통계적 분포를 분석한다. 구체적으로, 프로세서(110)는, 각 채널 별 액티베이션, 웨이트 및 바이어스의 값들에 대한 통계량들을 구하고, 각 채널 별 통계량을 각 채널 별 정규 분포(가우시안 분포)(900)의 확률밀도함수(PDF)로 정규화한다. 다만, 도 9에서는 편의상 프로세서(110)가 통계량을 정규 분포(900)의 확률밀도함수(PDF)로 정규화하는 것을 예로 들었으나, 이에 제한되는 것은 아니다. 즉, 프로세서(110)는 정규 분포(900)가 아닌 다른 다양한 종류들의 통계적 분포들 또는 확률 분포들을 이용하여 통계량을 분석할 수 있다. 도 9의 정규 분포(900)는 어느 피처 맵에 포함된 한 채널에서의 부동 소수점 타입의 액티베이션 값들의 분포일 수 있고, 또는 어느 커널에 포함된 한 채널에서의 부동 소수점 타입의 웨이트 값들의 분포일 수 있다.

프로세서(110)는, 정규 분포(900)에 기초하여, 해당 채널의 파라미터들을 어떠한 프랙션 길이를 갖는 고정 소수점 표현으로 양자화할 것인지에 관한 양자화 레벨을 판단할 수 있다. 구체적으로, 프로세서(110)는 정규 분포(900)에서 파라미터들의 통계적 최대 값(X_max) 및 통계적 최소 값(X_min)을 구하고, 이 통계적 최대 값(X_max) 및 통계적 최소 값(X_min) 사이 범위의 부동 소수점 값들을 통계적으로 커버할 수 있는 고정 소수점 표현을 결정할 수 있다. 이때, 프랙션 길이는 양자화 레벨에 따라 함께 결정될 수 있다.

통계적 최대 값(X_max) 및 통계적 최소 값(X_min)은 양자화 에러(quantization error)를 최소화할 수 있는 범위에 기초한 값들일 수 있다. 본 실시예들에 따르면, 통계적 최대 값(X_max) 및 통계적 최소 값(X_min)은 다양하게 정의될 수 있다. 예를 들어, 통계적 최대 값(X_max) 및 통계적 최소 값(X_min)은 정규 분포(900)에서 파라미터들의 실제 최대 파라미터 값 및 실제 최소 파라미터 값에 해당될 수 있다. 또는, 통계적 최대 값(X_max) 및 통계적 최소 값(X_min)은, 정규 분포(900)의 평균, 분산 또는 표준편차 등을 기준으로 구한, 확률적으로 양자화 에러를 최소화시키는 상한 및 하한 범위일 수 있다. 한편, 주어진 정규분포의 확률밀도함수로부터 양자화 에러를 최소화시키기 위한 최적의 범위를 계산하는 방식들은 당해 기술분야에 많이 소개되어 있고, 본 실시예들은 이와 같은 방식들을 적용하여 주어진 정규분포(900)에 적합한 고정 소수점 표현을 결정할 수 있다.

도 10은 다른 실시예에 따른 채널에서 이용된 파라미터들의 통계적 분포를 설명하기 위한 도면이다.

도 10을 참고하면, 도 9의 정규 분포(900) 대신에, 프로세서(110)는 각 채널 별 통계량을 채널 별 라플라스 분포(1000)의 확률밀도함수(PDF)로 정규화할 수 있다. 프로세서(110)는 도 9에서 설명된 바와 마찬가지로, 주어진 라플라스 분포(1000)에 적합한 통계적 최대 값(Xmax) 및 통계적 최소 값(Xmin)을 구함으로써, 해당 채널의 파라미터에 대한 고정 소수점 표현을 결정할 수 있다.

즉, 프로세서(110)는 도 9 또는 도 10에서 설명된 바와 같이, 채널 별 통계적 분포를 분석하고, 분석된 채널 별 통계적 분포에 기초하여 부동 소수점 타입의 뉴럴 네트워크 파라미터들로부터 채널 별 파라미터의 고정 소수점 표현을 결정한다. 프로세서(110)에 의해 이용되는 통계적 분포는 정규 분포 및 라플라스 분포 중 어느 하나로 근사화된 분포에 대응한다. 다만, 앞서 설명된 바와 같이, 프로세서(110)는 정규 분포 및 라플라스 분포 외에도, 다른 다양한 종류들의 통계적 분포들 또는 확률 분포들을 이용하여 통계량을 분석할 수 있다. 이때, 프로세서(110) 채널 별 통계적 분포로부터 획득된 해당 채널에 분포한 파라미터들의 부동 소수점 값들에 대한 평균, 분산, 표준편차, 최대값, 최소값 중 적어도 하나를 이용하여 정의된 채널 별 프랙션 길이에 기초하여 고정 소수점 표현을 결정할 수 있다.

도 11은 일 실시예에 따라 고정 소수점 타입의 일부 파라미터들의 프랙션 길이를 결정하는 것을 설명하기 위한 도면이다.

도 3의 프로세서(110)는 도 8 내지 도 10에서 설명된 뉴럴 네트워크의 파라미터들의 고정 소수점 표현의 결정 이후에 바이어스(1110)의 프랙션 길이를 결정할 수 있다.

도 11을 참고하면, 어느 레이어의 제 1 채널 및 제 2 채널에서 컨볼루션 연산이 수행되는 것이 예시되어 있다. 컨볼루션 연산은, MAC(multiply-accumulate) 연산 및 Add 연산을 수행하는, 복수의 채널들 간의 부분 합(partial sum) 연산을 포함한다. 한편, 입력 피처 맵(IFM) 및 커널에 대해서는 16비트들이 할당되고, 부분 합 연산에 대해서는 48비트들이 할당되고, 출력 피처 맵 연산(OFM-FW)에는 48비트들이 할당되고, 출력 피처 맵(OFM-FW)에는 48비트들이 할당된 것으로 가정한다.

도 11의 부분 합 연산은 입력 피처 맵(IFM)의 제 1 채널의 제 1 입력 액티베이션 i₁ 및 커널의 제 1 채널의 제 1 웨이트 w₁₁에 대한 제 1 MAC 연산(1101), 입력 피처 맵(IFM)의 제 2 채널의 제 2 입력 액티베이션 i₂ 및 커널의 제 2 채널의 제 2 웨이트 w₁₂에 대한 제 2 MAC 연산(1102), 및 제 1 MAC 연산(1101)의 결과와 제 2 MAC 연산(1102)의 결과에 대한 Add 연산(1105)을 포함한다. 다만, 도 11에서는 입력 피처 맵(IFM)의 모든 채널들과 커널의 모든 채널들의 연산들에 대해 도시되지 않고, 설명의 편의상 일부 채널들 간의 연산들에 대해 도시되어 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.

제 1 입력 액티베이션 i₁는 Q9.6의 고정 소수점 표현으로 양자화되고, 제 1 웨이트 w₁₁는 Q11.4의 고정 소수점 표현으로 양자화되고, 제 2 입력 액티베이션 i₂는 Q11.4의 고정 소수점 표현으로 양자화되고, 제 2 웨이트 w₁₂는 Q7.8의 고정 소수점 표현으로 양자화된 것으로 가정한다.

프로세서(110)는 제 1 MAC 연산(1101)을 수행함으로써, 제 1 MAC 연산(110)의 결과에 대응하는 제 1 고정 소수점 표현 Q37.10 및 이것의 제 1 프랙션 길이 10을 획득한다. 또한, 프로세서(110)는 제 2 MAC 연산(1102)을 수행함으로써, 제 2 MAC 연산(1102)의 결과에 대응하는 제 2 고정 소수점 표현 Q35.12 및 이것의 제 2 프랙션 길이 12를 획득한다.

프로세서(110)는 제 1 프랙션 길이 및 제 2 프랙션 길이 중에서 최대 프랙션 길이를, Add 연산(1105)의 결과에 대응하는 바이어스(1110)의 프랙션 길이로 결정한다. 이에 따라, 제 1 고정 소수점 표현 및 제 2 고정 소수점 표현 중에서 보다 작은 프랙션 길이를 갖는 고정 소수점 표현의 프랙션 길이는, 제 1 프랙션 길이 및 제 2 프랙션 길이의 차이만큼 비트-쉬프팅된다.

구체적으로, 프로세서(110)는 최대 프랙션 길이인 제 2 프랙션 길이 12를 바이어스(1110)의 프랙션 길이로 결정한다. 프로세서(110)는 Add 연산(1105)을 위하여, 최소 프랙션 길이를 갖는 제 1 고정 소수점 표현 Q38.10의 제 1 프랙션 길이 10을 프랙션 길이 차이 2만큼 비트-쉬프팅한다.

도 11에 따르면, MAC 연산들(1101, 1102)의 결과들에 대한 비트-쉬프팅이 요구될 수 있는바, 프로세서(110)는 하나 이상의 비트-쉬프터들(1103, 1104)을 구비할 수 있다.

프로세서(110)는 바이어스의 프랙션 길이를 결정하고, Add 연산(1105)을 통해 고정 소수점 표현 Q35.12을 결정하고, 비트-쉬프팅(1106)을 통해 출력 피처 맵의 출력 액티베이션 O₁의 고정 소수점 표현 Q9.6을 구한다.

도 11의 실시예에 따르면, 프로세서(110)에 의해 결정된 바이어스의 프랙션 길이는 MAC 연산의 결과로 구한 고정 소수점 표현들의 프랙션 길이들 중 최대 프랙션 길이에 대응한다. 다만, 도 11에서 별도로 도시되지 않았지만, 만약 프랙션 길이의 상한이 미리 정의되어 있는 경우에는, 최대 프랙션 길이와 미리 정의된 프랙션 길이의 상한 중에서 보다 작은 값으로, 프랙션 길이가 결정될 수도 있다. (도 12의 1206 내지 1208 단계들 참고)

결국, 프로세서(110)는 제 1 웨이트 w₁₁의 고정 소수점 표현(Q11.4)과 프랙션 길이(4), 제 2 웨이트 w₁₂의 고정 소수점 표현(Q7.8)과 프랙션 길이(8), 바이어스(1110)의 고정 소수점 표현(Q35.12)과 프랙션 길이(12), 및 비트-쉬프터의 비트-쉬프팅의 정도(2비트들 비트-쉬프팅(1103), 0비트 비트-쉬프팅(1104), 6비트들 비트-쉬프팅(1106))에 대한 정보를 포함하는, 양자화된 뉴럴 네트워크의 데이터를 생성한다.

한편, 도 11에서는 2개의 채널들만이 도시되었으나, 보다 많은 채널들이 존재하는 경우에 대해서도 도 11의 방식이 적용될 수 있다.

도 12는 도 11의 방식을 이용하는 뉴럴 네트워크 파라미터의 양자화 알고리즘을 도시한 도면이다.

도 12을 참고하면, 양자화 알고리즘(1200)에서는 바이어스의 프랙션 길이를 결정하기 위해 도 11에서 설명된 방식이 이용될 수 있다.

1201 단계에서, 도 3의 프로세서(110)는 입력으로서, 미리 훈련된 뉴럴 네트워크 데이터의 뉴럴 네트워크 아키텍처 데이터, 뉴럴 네트워크 파라미터 데이터(액티베이션들, 웨이트들, 바이어스들 등), 훈련 데이터를 획득한다.

1202 단계에서, 프로세서(110)는 커널들의 각 채널 별 웨이트들의 통계량, 피처 맵들의 각 채널 별 액티베이션들의 통계량 등에 관한 통계적 분포의 분석 결과를 출력한다.

1203 단계에서, 프로세서(110)는 입력으로서, 채널 별 프랙션 길이를 결정하여 파라미터들을 양자화하기 위하여, 1202 단계에서 획득된 출력 결과를 획득한다.

1204 단계에서, 프로세서(110)는 통계적 분포의 분석 결과에 기초하여, 채널 별 웨이트의 프랙션 길이를 계산하고, 이에 따라 부동 소수점 타입의 웨이트를 고정 소수점 타입으로 변환한다. 또한, 프로세서(110)는 통계적 분포의 분석 결과에 기초하여, 채널 별 액티베이션의 프랙션 길이를 계산하고, 이에 따라 부동 소수점 타입의 액티베이션을 고정 소수점 타입으로 변환한다.

1205 단계에서, 프로세서(110)는 각 채널 별로 MAC 연산을 수행하여 각 채널 별 프랙션 길이들을 획득한다.

1206 단계에서, 프로세서(110)는 각 채널 별 MAC 연산에 따른 프랙션 길이들 중 최대 프랙션 길이를 Add 연산의 결과에 대응되는 프랙션 길이로 결정한다. 만약, 프랙션 길이의 상한이 미리 정의되어 있는 경우에는, 최대 프랙션 길이와 미리 정의된 프랙션 길이의 상한 중에서 보다 작은 값으로, Add 연산의 결과에 대응되는 프랙션 길이를 결정한다.

1207 단계에서, 프로세서(110)는 1206 단계에서 결정된 프랙션 길이를 바이어스의 프랙션 길이로 결정한다.

1208 단계에서, 프로세서(110)는 바이어스의 결정된 프랙션 길이에 따라 각 채널 별 프랙션 길이들을 각각 비트-쉬프팅한다.

1209 단계에서, 프로세서(110)는 출력 피처 맵(OFM)에 할당된 비트 수에 따라 바이어스의 프랙션 길이를 비트-쉬프팅한다. 이에 따라, 출력 액티베이션의 프랙션 길이가 결정된다.

1210 단계에서, 프로세서(110)는 입력 피처 맵(IFM)의 각 채널 별 프랙션 길이, 출력 피처 맵(IFM)의 각 채널 별 프랙션 길이, 커널의 각 채널 별 프랙션 길이, 바이어스의 프랙션 길이, 1208 단계에서의 비트-쉬프팅 횟수, 1209 단계에서의 비트-쉬프팅 횟수 등을 출력한다.

1211 단계에서, 프로세서(110)는 커널의 각 채널 별 프랙션 길이 및 바이어스의 프랙션 길이를 획득한다.

1212 단계에서, 프로세서(110)는 뉴럴 네트워크의 파라미터들을 고정 소수점 타입으로 양자화하고, 고정 소수점 타입으로 양자화된 파라미터들(웨이트들, 바이어스들)을 출력한다.

1213 단계 및 1214에서, 프로세서(110)는 양자화된 뉴럴 네트워크의 정확도를 검증한다(test).

도 13은 다른 실시예에 따라 고정 소수점 타입의 일부 파라미터들의 프랙션 길이를 결정하는 것을 설명하기 위한 도면이다.

도 3의 프로세서(110)는 도 8 내지 도 10에서 설명된 뉴럴 네트워크의 파라미터들의 고정 소수점 표현의 결정 이후에 바이어스(1310)의 프랙션 길이 및 웨이트(1330)의 프랙션 길이를 결정할 수 있다. 한편, 도 13에 따른 프랙션 길이의 결정 방식은 도 11의 비트-쉬프터들(1103, 1104)의 비트 쉬프팅이 요구되지 않으므로, 도 11 및 도 12에서 앞서 설명된 방식과 차이가 있다.

도 13에서 제 1 MAC 연산(1301) 및 제 2 MAC 연산(1302)에 따라 제 1 고정 소수점 표현 Q37.10과 제 2 고정 소수점 표현 Q35.12이 획득되기 까지의 처리 과정은, 도 11에서 설명된 바와 같다.

도 13을 참고하면, 도 11과 달리, 프로세서(110)는 제 1 프랙션 길이 및 제 2 프랙션 길이 중에서 최소 프랙션 길이 10을, Add 연산(1303)의 결과에 대응하는 바이어스(1310)의 프랙션 길이로 결정한다. 이에 따라, 프로세서(110)는 기존 제 2 고정 소수점 표현 Q35.12은 새로운 제 2 고정 소수점 표현(1320) Q37.10으로 조정되는 것으로 결정하고, 기존 제 2 웨이트 W₁₂의 기존 고정 소수점 표현 Q7.8은 새로운 고정 소수점 표현(1330) Q9.6으로 조정되는 것으로 결정한다. 즉, 바이어스(1310)의 결정된 프랙션 길이에 대한 정보가 역전파되고, 이에 따라 웨이트(1330)는 새로운 프랙션 길이로 양자화된다.

비트-쉬프팅(1304)은 도 11에서 설명된 바와 동일하게 수행된다.

도 13의 다른 실시예에 따르면, 프로세서(110)에 의해 결정된 바이어스의 프랙션 길이는 MAC 연산의 결과로 구한 고정 소수점 표현들의 프랙션 길이들 중 최소 프랙션 길이에 대응한다.

결국, 프로세서(110)는 제 1 웨이트 w₁₁의 고정 소수점 표현(Q11.4)과 프랙션 길이(4), 제 2 웨이트(1330) w₁₂의 고정 소수점 표현(Q9.6)과 프랙션 길이(6), 바이어스(1310)의 고정 소수점 표현(Q37.10)과 프랙션 길이(10), 및 비트-쉬프터의 비트-쉬프팅의 정도(4비트들 비트-쉬프팅(1304))에 대한 정보를 포함하는, 양자화된 뉴럴 네트워크의 데이터를 생성한다.

한편, 도 13에서는 2개의 채널들만이 도시되었으나, 보다 많은 채널들이 존재하는 경우에 대해서도 도 13의 방식이 적용될 수 있다.

도 14는 도 13의 방식을 이용하는 뉴럴 네트워크 파라미터의 양자화 알고리즘을 도시한 도면이다.

도 14를 참고하면, 양자화 알고리즘(1400)에서는 바이어스의 프랙션 길이를 결정하기 위해 도 13에서 설명된 방식이 이용될 수 있다.

1401 단계 내지 1405 단계는 도 12의 1201 단계 내지 1205 단계에 대한 설명과 유사하게 수행된다.

1406 단계에서, 프로세서(110)는 각 채널 별 MAC 연산에 따른 프랙션 길이들 중 최소 프랙션 길이를 Add 연산의 결과에 대응되는 프랙션 길이로 결정한다.

1407 단계에서, 프로세서(110)는 1406 단계에서 결정된 프랙션 길이를 바이어스의 프랙션 길이로 결정한다.

1408 단계에서, 프로세서(110)는 바이어스의 결정된 프랙션 길이에 따라 각 채널 별 웨이트들의 프랙션 길이들을 각각 조정함으로써, 각 채널 별 웨이트들의 프랙션 길이들을 업데이트한다.

1409 단계에서, 프로세서(110)는 출력 피처 맵(OFM)에 할당된 비트 수에 따라 바이어스의 프랙션 길이를 비트-쉬프팅한다. 이에 따라, 출력 액티베이션의 프랙션 길이가 결정된다.

1410 단계에서, 프로세서(110)는 입력 피처 맵(IFM)의 각 채널 별 프랙션 길이, 출력 피처 맵(IFM)의 각 채널 별 프랙션 길이, 커널의 각 채널 별 프랙션 길이, 바이어스의 프랙션 길이, 1409 단계에서의 비트-쉬프팅 횟수 등을 출력한다.

1411 단계 내지 1414 단계는 도 12의 1211 단계 내지 1214 단계에 대한 설명과 유사하게 수행된다.

한편, 프로세서(110)는 도 11 및 도 12의 알고리즘 방식 및 도 13 및 도 14의 알고리즘 방식 중 어느 것을 취사 선택하여 뉴럴 네트워크의 양자화를 수행할 수 있다. 예를 들어, 프로세서(110)의 알고리즘 선택 기준은, 양자화된 뉴럴 네트워크가 채용될 디바이스(하드웨어 가속기)의 처리 성능, 하드웨어 아키텍쳐 등에 따라 달라질 수 있으나, 이에 제한되는 것은 아니다.

도 15는 도 7에서 설명된 레이어 별 양자화를 설명하기 위한 도면이다.

도 15를 참고하면, 도 7에서 설명된 바와 같이 레이어 별 양자화에 의해 레이어에 포함된 모든 채널들의 입력 액티베이션들 및 웨이트들은 모두 동일한 고정 소수점 표현 Q11.4로 양자화될 수 있다. 이에 따라, 바이어스(1510)의 고정 소수점 표현은 Q39.8이고 프랙션 길이는 8이다. 즉, 바이어스(1510)의 프랙션 길이는, 앞서 도 11 내지 도 14에서 설명된 두 가지 방식들로부터 결정된 바이어스(1110) 및 바이어스 (1310)의 프랙션 길이들 보다는 짧다. 따라서, 레이어 별 양자화보다 채널 별 양자화가 보다 정확하고 정밀한 파라미터 값을 갖는 뉴럴 네트워크 양자화임을 알 수 있다.

도 16은 일 실시예에 따라 양자화된 뉴럴 네트워크를 재훈련(retrain)하는 것을 설명하기 위한 도면이다.

도 16을 참고하면, 도 3의 프로세서(110)는 부동 소수점 타입의 미리 훈련된 뉴럴 네트워크(1610)를 고정 소수점 타입의 뉴럴 네트워크(1620)로 양자화할 수 있다. 나아가서, 프로세서(110)는 양자화된 뉴럴 네트워크(1620)의 정확도를 보다 높이고자 새로운 또는 기존의 훈련/테스트 세트 데이터를 이용하여 재훈련할 수 있다. 이와 같은 재훈련을 통해 양자화된 뉴럴 네트워크(1620)의 고정 소수점 타입의 파라미터들이 미세 조정(fine-tune)됨에 따라 프로세서(110)는 정확도가 증가한 재훈련된 뉴럴 네트워크(1630)를 획득할 수 있다. 이때, 프로세서(110)는 미세 조정을 위해 바이어스 및 채널 별 웨이트에 대해 결정된 프랙션 길이들을 제약조건(constraint)으로 하여 양자화된 뉴럴 네트워크(1620)를 재훈련할 수 있다. 뉴럴 네트워크 양자화 장치(도 3의 10)는 재훈련된 뉴럴 네트워크(1630)를 뉴럴 네트워크 전용 하드웨어 가속기로 전달할 수 있다.

도 17은 레이어 별 양자화와 채널 별 양자화의 정확도를 비교한 시뮬레이션 결과를 도시한 도면이다.

도 17을 참고하면, 할당된 비트 폭이 많을수록 레이어 별 양자화와 채널 별 양자화의 정확도는 비슷한 값으로 수렴할 수 있다. 하지만, 할당된 비트 폭이 적을수록 레이어 별 양자화와 채널 별 양자화의 정확도는 차이가 두드러지는 것을 알 수 있다. 구체적으로, 비트 폭이 적게 할당된 경우들에서는, 채널 별 양자화의 정확도는 레이어 별 양자화의 정확도보다 월등히 높게 나타난다. 뉴럴 네트워크 전용 하드웨어 가속기의 경우 저성능 및 저전력의 하드웨어로 구현되기 때문에 적은 비트 폭을 이용할 수 밖에 없을 수 있다. 따라서, 하드웨어 가속기를 위하여 채널 별 양자화로 뉴럴 네트워크를 양자화하는 것이 보다 바람직함을 알 수 있다. 한편, 채널 별 양자화 및 레이어 별 양자화 모두, 분포 범위로서 실제 최대 값에 기초한 양자화보다는 최적의 델타 등 양자화 에러를 최소화하는 방식의 양자화 레벨을 이용한 양자화가 보다 높은 정확도를 나타냄을 알 수 있다.

도 18은 재훈련에 의한 양자화된 뉴럴 네트워크의 정확도 변화에 대한 시뮬레이션 결과를 도시한 도면이다.

도 18을 참고하면, 고정 소수점 타입으로 양자화된 뉴럴 네트워크라 할지라도, 재훈련을 통해 정확도가 부동 소수점 타입의 뉴럴 네트워크보다 향상될 수 있음을 알 수 있다.

도 19는 일 실시예에 따른 전자 시스템을 나타내는 블록도이다.

도 19를 참고하면, 전자 시스템(1900)은 뉴럴 네트워크를 기초로 입력 데이터를 실시간으로 분석하여 유효한 정보를 추출하고, 추출된 정보를 기초로 상황 판단을 하거나 또는 전자 시스템(1900)이 탑재되는 전자 디바이스의 구성들을 제어할 수 있다. 예컨대 전자 시스템(1900)은 드론(drone), 첨단 운전자 보조 시스템(Advanced Drivers Assistance System; ADAS) 등과 같은 로봇 장치, 스마트 TV, 스마트폰, 의료 디바이스, 모바일 디바이스, 영상 표시 디바이스, 계측 디바이스, IoT 디바이스 등에 적용될 수 있으며, 이 외에도 다양한 종류의 전자 디바이스들 중 적어도 하나에 탑재될 수 있다.

전자 시스템(1900)은 프로세서(1910), RAM(1920), 뉴럴 네트워크 장치(1930), 메모리(1940), 센서 모듈(1950) 및 통신 모듈(1960)을 포함할 수 있다. 전자 시스템(1900)은 입출력 모듈, 보안 모듈, 전력 제어 장치 등을 더 포함할 수 있다. 전자 시스템(1900)의 하드웨어 구성들 중 일부는 적어도 하나의 반도체 칩에 탑재될 수 있다. 뉴럴 네트워크 장치(1930)는 앞서 설명된 뉴럴 네트워크 전용 하드웨어 가속기 자체 또는 이를 포함하는 장치일 수 있다.

프로세서(1910)는 전자 시스템(1900)의 전반적인 동작을 제어한다. 프로세서(1910)는 하나의 프로세서 코어(Single Core)를 포함하거나, 복수의 프로세서 코어들(Multi-Core)을 포함할 수 있다. 프로세서(1910)는 메모리(1940)에 저장된 프로그램들 및/또는 데이터를 처리 또는 실행할 수 있다. 일 실시예에 있어서, 프로세서(1910)는 메모리(1940)에 저장된 프로그램들을 실행함으로써, 뉴럴 네트워크 장치(1930)의 기능을 제어할 수 있다. 프로세서(1910)는 CPU, GPU, AP 등으로 구현될 수 있다.

RAM(1920)은 프로그램들, 데이터, 또는 명령들(instructions)을 일시적으로 저장할 수 있다. 예컨대 메모리(1940)에 저장된 프로그램들 및/또는 데이터는 프로세서(1910)의 제어 또는 부팅 코드에 따라 RAM(1920)에 일시적으로 저장될 수 있다. RAM(1920)은 DRAM(Dynamic RAM) 또는 SRAM(Static RAM) 등의 메모리로 구현될 수 있다.

뉴럴 네트워크 장치(1930)는 수신되는 입력 데이터를 기초로 뉴럴 네트워크의 연산을 수행하고, 수행 결과를 기초로 정보 신호를 생성할 수 있다. 뉴럴 네트워크는 Convolutional Neural Networks(CNN), Recurrent Neural Networks(RNN), Deep Belief Networks, Restricted Boltzman Machines 등을 포함할 수 있으나 이에 제한되지 않는다. 뉴럴 네트워크 장치(1930)는 앞서 설명된 고정 소수점 타입으로 양자화된 뉴럴 네트워크를 이용하여 처리를 수행하는 하드웨어로서, 앞서 설명된 뉴럴 네트워크 전용 하드웨어 가속기에 해당될 수 있다.

정보 신호는 음성 인식 신호, 사물 인식 신호, 영상 인식 신호, 생체 정보 인식 신호 등과 같은 다양한 종류의 인식 신호 중 하나를 포함할 수 있다. 예를 들어, 뉴럴 네트워크 장치(1930)는 비디오 스트림에 포함되는 프레임 데이터를 입력 데이터로서 수신하고, 프레임 데이터로부터 프레임 데이터가 나타내는 이미지에 포함된 사물에 대한 인식 신호를 생성할 수 있다. 그러나, 이에 제한되는 것은 아니며, 전자 시스템(1900)이 탑재된 전자 장치의 종류 또는 기능에 따라 뉴럴 네트워크 장치(1930)는 다양한 종류의 입력 데이터를 수신할 수 있고, 입력 데이터에 따른 인식 신호를 생성할 수 있다.

메모리(1940)는 데이터를 저장하기 위한 저장 장소로서, OS(Operating System), 각종 프로그램들, 및 각종 데이터를 저장할 수 있다. 실시예에 있어서, 메모리(1940)는 뉴럴 네트워크 장치(1930)의 연산 수행 과정에서 생성되는 중간 결과들, 예컨대 출력 피처 맵을 출력 피처 리스트 또는 출력 피처 매트릭스 형태로 저장할 수 있다. 실시예에 있어서, 메모리(1940)에는 압축된 출력 피처 맵이 저장될 수 있다. 또한, 메모리(1940)는 뉴럴 네트워크 장치(1930)에서 이용되는 양자화된 뉴럴 네트워크 데이터, 예컨대, 파라미터들, 웨이트 맵 또는 웨이트 리스트를 저장할 수 있다.

메모리(1940)는 DRAM일 수 있으나, 이에 한정되는 것은 아니다. 메모리(1940)는 휘발성 메모리 또는 불휘발성 메모리 중 적어도 하나를 포함할 수 있다. 불휘발성 메모리는 ROM, PROM, EPROM, EEPROM, 플래시 메모리, PRAM, MRAM, RRAM, FRAM 등을 포함한다. 휘발성 메모리는 DRAM, SRAM, SDRAM, PRAM, MRAM, RRAM, FeRAM 등을 포함한다. 실시예에 있어서, 메모리(1940)는 HDD, SSD, CF, SD, Micro-SD, Mini-SD, xD 또는 Memory Stick 중 적어도 하나를 포함할 수 있다.

센서 모듈(1950)은 전자 시스템(1900)이 탑재되는 전자 장치 주변의 정보를 수집할 수 있다. 센서 모듈(1950)은 전자 장치의 외부로부터 신호(예컨대 영상 신호, 음성 신호, 자기 신호, 생체 신호, 터치 신호 등)를 센싱 또는 수신하고, 센싱 또는 수신된 신호를 데이터로 변환할 수 있다. 이를 위해, 센서 모듈(1950)은 센싱 장치, 예컨대 마이크, 촬상 장치, 이미지 센서, 라이더(LIDAR; light detection and ranging) 센서, 초음파 센서, 적외선 센서, 바이오 센서, 및 터치 센서 등 다양한 종류의 센싱 장치 중 적어도 하나를 포함할 수 있다.

센서 모듈(1950)은 변환된 데이터를 뉴럴 네트워크 장치(1930)에 입력 데이터로서 제공할 수 있다. 예를 들어, 센서 모듈(1950)은 이미지 센서를 포함할 수 있으며, 전자 장치의 외부 환경을 촬영하여 비디오 스트림을 생성하고, 비디오 스트림의 연속하는 데이터 프레임을 뉴럴 네트워크 장치(1930)에 입력 데이터로서 순서대로 제공할 수 있다. 그러나 이에 제한되는 것은 아니며 센서 모듈(1950)은 다양한 종류의 데이터를 뉴럴 네트워크 장치(1930)에 제공할 수 있다.

통신 모듈(1960)은 외부 장치와 통신할 수 있는 다양한 유선 또는 무선 인터페이스를 구비할 수 있다. 예컨대 통신 모듈(1960)은 유선 근거리통신망(Local Area Network; LAN), Wi-fi(Wireless Fidelity)와 같은 무선 근거리 통신망 (Wireless Local Area Network; WLAN), 블루투스(Bluetooth)와 같은 무선 개인 통신망(Wireless Personal Area Network; WPAN), 무선 USB (Wireless Universal Serial Bus), Zigbee, NFC (Near Field Communication), RFID (Radio-frequency identification), PLC(Power Line communication), 또는 3G (3rd Generation), 4G (4th Generation), LTE (Long Term Evolution) 등 이동 통신망(mobile cellular network)에 접속 가능한 통신 인터페이스 등을 포함할 수 있다.

실시 예에 있어서, 통신 모듈(1960)은 외부로부터 양자화된 뉴럴 네트워크에 관한 데이터를 수신할 수 있다. 여기서, 외부는 도 3의 뉴럴 네트워크 양자화 장치(10)와 같이 방대한 양의 데이터를 기초로 훈련을 수행하고, 훈련된 뉴럴 네트워크를 고정 소수점 타입으로 양자화하고, 양자화된 뉴럴 네트워크 데이터를 전자 시스템(1900)에 제공하는 디바이스일 수 있다. 수신된 양자화된 뉴럴 네트워크 데이터는 메모리(1940)에 저장될 수 있다.

도 20은 일 실시예에 따른 뉴럴 네트워크의 파라미터들을 양자화하는 방법의 흐름도이다. 도 20에 도시된, 뉴럴 네트워크의 파라미터들의 양자화 방법은, 앞서 설명된 도면들에서 설명된 실시예들에 관련되므로, 이하 생략된 내용이라 할지라도, 앞서 도면들에서 설명된 내용들은 도 20의 방법에도 적용될 수 있다.

2010 단계에서, 프로세서(110)는 부동 소수점들을 이용하여 미리 훈련된 뉴럴 네트워크의 데이터로부터, 피처 맵들 및 커널들 각각에 포함된 각 채널에서 이용된 부동 소수점 타입의 파라미터 값들에 대한 채널 별 통계적 분포를 분석한다.

2020 단계에서, 프로세서(110)는 채널 별 통계적 분포에 기초하여, 파라미터 값들의 분포 범위를 통계적으로 커버하는 채널 별 파라미터의 고정 소수점 표현을 결정한다.

2030 단계에서, 프로세서(110)는 채널 별 고정 소수점 표현의 파라미터로 컨볼루션 연산을 수행한 결과에 기초하여 바이어스 및 채널 별 웨이트의 프랙션 길이들을 결정한다.

2040 단계에서, 프로세서(110)는 결정된 프랙션 길이들의 바이어스 및 채널 별 웨이트를 갖는, 고정 소수점 타입의 양자화된 뉴럴 네트워크를 생성한다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

뉴럴 네트워크의 파라미터들을 양자화하는 방법에 있어서,
부동 소수점들을 이용하여 미리 훈련된 뉴럴 네트워크의 데이터로부터, 피처 맵들 및 커널들 각각에 포함된 각 채널에서 이용된 부동 소수점 타입의 파라미터 값들에 대한 채널 별 통계적 분포를 분석하는 단계;
상기 채널 별 통계적 분포에 기초하여, 상기 파라미터 값들의 분포 범위를 통계적으로 커버하는 상기 채널 별 파라미터의 고정 소수점 표현을 결정하는 단계;
상기 채널 별 고정 소수점 표현의 파라미터로 컨볼루션 연산을 수행한 결과에 기초하여 바이어스 및 상기 채널 별 웨이트의 프랙션 길이들을 결정하는 단계; 및
상기 결정된 프랙션 길이들의 상기 바이어스 및 상기 채널 별 웨이트를 갖는, 고정 소수점 타입의 양자화된 뉴럴 네트워크를 생성하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 분석하는 단계는
상기 뉴럴 네트워크가 미리 훈련되는 동안 상기 각 채널에서 이용되었던 상기 부동 소수점 타입의 액티베이션들, 웨이트들 및 바이어스들의 상기 파라미터 값들에 대한 상기 채널 별 통계량을 구함으로써, 상기 통계적 분포를 분석하는, 방법.
제 1 항에 있어서,
상기 컨볼루션 연산은
MAC(multiply-accumulate) 연산 및 Add 연산을 수행하는, 복수의 채널들 간의 부분 합(partial sum) 연산을 포함하고,
상기 프랙션 길이들을 결정하는 단계는
상기 결정된 고정 소수점 표현에 의한 입력 액티베이션들의 프랙션 길이들 및 웨이트들의 프랙션 길이들에 기초하여, 상기 부분 합 연산의 결과에 대응하는 상기 바이어스의 상기 프랙션 길이를 결정하는, 방법.
제 3 항에 있어서,
상기 바이어스의 상기 결정된 프랙션 길이는
상기 MAC 연산의 결과로 구한 고정 소수점 표현들의 프랙션 길이들 중 최대 프랙션 길이에 기초하여 결정되는, 방법.
제 4 항에 있어서,
상기 부분 합 연산은
제 1 채널의 제 1 입력 액티베이션 및 제 1 웨이트에 대한 제 1 MAC 연산, 제 2 채널의 제 2 입력 액티베이션 및 제 2 웨이트에 대한 제 2 MAC 연산, 및 상기 제 1 MAC 연산의 결과와 상기 제 2 MAC 연산의 결과에 대한 Add 연산을 포함하고,
상기 프랙션 길이들을 결정하는 단계는
상기 제 1 MAC 연산의 결과에 대응하는 제 1 고정 소수점 표현의 제 1 프랙션 길이 및 상기 제 2 MAC 연산의 결과에 대응하는 제 2 고정 소수점 표현의 제 2 프랙션 길이를 획득하는 단계; 및
상기 제 1 프랙션 길이 및 상기 제 2 프랙션 길이 중에서 최대 프랙션 길이에 기초하여, 상기 Add 연산의 결과에 대응하는 상기 바이어스의 상기 프랙션 길이를 결정하는 단계를 포함하는, 방법.
제 5 항에 있어서,
상기 프랙션 길이들을 결정하는 단계는
상기 제 1 고정 소수점 표현 및 상기 제 2 고정 소수점 표현 중에서 보다 작은 프랙션 길이를 갖는 고정 소수점 표현의 프랙션 길이를, 상기 바이어스의 상기 결정된 프랙션 길이에 기초하여 비트-쉬프팅하는 단계를 더 포함하고,
상기 양자화된 뉴럴 네트워크는, 상기 비트-쉬프팅의 정도에 대한 정보를 포함하는, 방법.
제 3 항에 있어서,
상기 바이어스의 상기 결정된 프랙션 길이는 상기 MAC 연산의 결과로 구한 고정 소수점 표현들의 프랙션 길이들 중 최소 프랙션 길이에 대응하고,
상기 프랙션 길이들을 결정하는 단계는
상기 고정 소수점 표현들의 상기 프랙션 길이들의 차이만큼 상기 웨이트들 중 적어도 하나의 프랙션 길이를 감소시켜 상기 채널 별 웨이트의 상기 프랙션 길이들을 결정하는, 방법.
제 7 항에 있어서,
상기 부분 합 연산은
제 1 채널의 제 1 입력 액티베이션 및 제 1 웨이트에 대한 제 1 MAC 연산, 제 2 채널의 제 2 입력 액티베이션 및 제 2 웨이트에 대한 제 2 MAC 연산, 및 상기 제 1 MAC 연산의 결과와 상기 제 2 MAC 연산의 결과에 대한 Add 연산을 포함하고,
상기 프랙션 길이들을 결정하는 단계는
상기 제 1 MAC 연산의 결과에 대응하는 제 1 고정 소수점 표현의 제 1 프랙션 길이 및 상기 제 2 MAC 연산의 결과에 대응하는 제 2 고정 소수점 표현의 제 2 프랙션 길이를 획득하는 단계; 및
상기 제 1 프랙션 길이 및 상기 제 2 프랙션 길이 중에서 최소 프랙션 길이를, 상기 Add 연산의 결과에 대응하는 상기 바이어스의 상기 프랙션 길이로 결정하는 단계; 및
상기 제 1 MAC 연산 및 상기 제 2 MAC 연산 중에서 상기 최소 프랙션 길이를 갖는 고정 소수점 표현을 구한 MAC 연산에 입력된 웨이트의 프랙션 길이를, 상기 제 1 프랙션 길이 및 상기 제 2 프랙션 길이의 차이만큼 감소시켜 조정하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 채널 별 통계적 분포는
정규 분포 및 라플라스 분포 중 어느 하나로 근사화된 분포에 대응하고,
상기 고정 소수점 표현을 결정하는 단계는
상기 채널 별 통계적 분포로부터 획득된 상기 각 채널 별 상기 파라미터 값들의 평균, 분산, 표준편차, 최대값, 최소값 중 적어도 하나를 이용하여 정의된 상기 채널 별 프랙션 길이에 기초하여 상기 고정 소수점 표현을 결정하는, 방법.
제 1 항에 있어서,
상기 프랙션 길이들의 상기 결정이 완료된 이후에, 미세 조정(fine-tuning)을 위해 상기 바이어스 및 상기 채널 별 웨이트의 상기 결정된 프랙션 길이들을 제약조건(constraint)으로 하여 상기 양자화된 뉴럴 네트워크를 재훈련(retraining)하는 단계를 더 포함하는, 방법.
적어도 하나의 프로그램이 저장된 메모리; 및
상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크의 파라미터들을 양자화하는 프로세서를 포함하고,
상기 프로세서는,
부동 소수점들을 이용하여 미리 훈련된 뉴럴 네트워크의 데이터로부터, 피처 맵들 및 커널들 각각에 포함된 각 채널에서 이용된 부동 소수점 타입의 파라미터 값들에 대한 채널 별 통계적 분포를 분석하고,
상기 채널 별 통계적 분포에 기초하여, 상기 파라미터 값들의 분포 범위를 통계적으로 커버하는 상기 채널 별 파라미터의 고정 소수점 표현을 결정하고,
상기 채널 별 고정 소수점 표현의 파라미터로 컨볼루션 연산을 수행한 결과에 기초하여 바이어스 및 상기 채널 별 웨이트의 프랙션 길이들을 결정하고,
상기 결정된 프랙션 길이들의 상기 바이어스 및 상기 채널 별 웨이트를 갖는, 고정 소수점 타입의 양자화된 뉴럴 네트워크를 생성하는, 장치.
제 11 항에 있어서,
상기 프로세서는
상기 뉴럴 네트워크가 미리 훈련되는 동안 상기 각 채널에서 이용되었던 상기 부동 소수점 타입의 액티베이션들, 웨이트들 및 바이어스들의 상기 파라미터 값들에 대한 상기 채널 별 통계량을 구함으로써, 상기 통계적 분포를 분석하는, 장치.
제 11 항에 있어서,
상기 컨볼루션 연산은
MAC(multiply-accumulate) 연산 및 Add 연산을 수행하는, 복수의 채널들 간의 부분 합(partial sum) 연산을 포함하고,
상기 프로세서는
상기 결정된 고정 소수점 표현에 의한 입력 액티베이션들의 프랙션 길이들 및 웨이트들의 프랙션 길이들에 기초하여, 상기 부분 합 연산의 결과에 대응하는 상기 바이어스의 상기 프랙션 길이를 결정하는, 장치.
제 13 항에 있어서,
상기 바이어스의 상기 결정된 프랙션 길이는
상기 MAC 연산의 결과로 구한 고정 소수점 표현들의 프랙션 길이들 중 최대 프랙션 길이에 기초하여 결정되는, 장치.
제 14 항에 있어서,
상기 부분 합 연산은
제 1 채널의 제 1 입력 액티베이션 및 제 1 웨이트에 대한 제 1 MAC 연산, 제 2 채널의 제 2 입력 액티베이션 및 제 2 웨이트에 대한 제 2 MAC 연산, 및 상기 제 1 MAC 연산의 결과와 상기 제 2 MAC 연산의 결과에 대한 Add 연산을 포함하고,
상기 프로세서는
상기 제 1 MAC 연산의 결과에 대응하는 제 1 고정 소수점 표현의 제 1 프랙션 길이 및 상기 제 2 MAC 연산의 결과에 대응하는 제 2 고정 소수점 표현의 제 2 프랙션 길이를 획득하고,
상기 제 1 프랙션 길이 및 상기 제 2 프랙션 길이 중에서 최대 프랙션 길이에 기초하여, 상기 Add 연산의 결과에 대응하는 상기 바이어스의 상기 프랙션 길이를 결정하는, 장치.
제 15 항에 있어서,
상기 프로세서는
상기 제 1 고정 소수점 표현 및 상기 제 2 고정 소수점 표현 중에서 보다 작은 프랙션 길이를 갖는 고정 소수점 표현의 프랙션 길이를, 상기 바이어스의 상기 결정된 프랙션 길이에 기초하여 비트-쉬프팅하는, 장치.
제 13 항에 있어서,
상기 바이어스의 상기 결정된 프랙션 길이는 상기 MAC 연산의 결과로 구한 고정 소수점 표현들의 프랙션 길이들 중 최소 프랙션 길이에 대응하고,
상기 프로세서는
상기 고정 소수점 표현들의 상기 프랙션 길이들의 차이만큼 상기 웨이트들 중 적어도 하나의 프랙션 길이를 감소시켜 상기 채널 별 웨이트의 상기 프랙션 길이들을 결정하는, 장치.
제 17 항에 있어서,
상기 부분 합 연산은
제 1 채널의 제 1 입력 액티베이션 및 제 1 웨이트에 대한 제 1 MAC 연산, 제 2 채널의 제 2 입력 액티베이션 및 제 2 웨이트에 대한 제 2 MAC 연산, 및 상기 제 1 MAC 연산의 결과와 상기 제 2 MAC 연산의 결과에 대한 Add 연산을 포함하고,
상기 프로세서는
상기 제 1 MAC 연산의 결과에 대응하는 제 1 고정 소수점 표현의 제 1 프랙션 길이 및 상기 제 2 MAC 연산의 결과에 대응하는 제 2 고정 소수점 표현의 제 2 프랙션 길이를 획득하고,
상기 제 1 프랙션 길이 및 상기 제 2 프랙션 길이 중에서 최소 프랙션 길이를, 상기 Add 연산의 결과에 대응하는 상기 바이어스의 상기 프랙션 길이로 결정하고,
상기 제 1 MAC 연산 및 상기 제 2 MAC 연산 중에서 상기 최소 프랙션 길이를 갖는 고정 소수점 표현을 구한 MAC 연산에 입력된 웨이트의 프랙션 길이를, 상기 제 1 프랙션 길이 및 상기 제 2 프랙션 길이의 차이만큼 감소시켜 조정하는, 장치.
제 1 항에 있어서,
상기 채널 별 통계적 분포는
정규 분포 및 라플라스 분포 중 어느 하나로 근사화된 분포에 대응하고,
상기 프로세서는
상기 채널 별 통계적 분포로부터 획득된 상기 각 채널 별 상기 파라미터 값들의 평균, 분산, 표준편차, 최대값, 최소값 중 적어도 하나를 이용하여 정의된 상기 채널 별 프랙션 길이에 기초하여 상기 고정 소수점 표현을 결정하는, 장치.
제 11 항에 있어서,
상기 프로세서는
상기 프랙션 길이들의 상기 결정이 완료된 이후에, 미세 조정(fine-tuning)을 위해 상기 바이어스 및 상기 채널 별 웨이트의 상기 결정된 프랙션 길이들을 제약조건(constraint)으로 하여 상기 양자화된 뉴럴 네트워크를 재훈련(retraining)하는, 장치.