KR102633343B1

KR102633343B1 - 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치

Info

Publication number: KR102633343B1
Application number: KR1020230108119A
Authority: KR
Inventors: 곽종훈; 박종희
Original assignee: 한국전자기술연구원
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2024-02-05

Abstract

딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화 파라미터 예측 모델 기반 양자화 방법 및 장치가 제공된다. 본 발명의 실시예에 따른 양자화 방법은, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하고, 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하며, 양자화 파라미터 예측 모델은 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이다. 이에 의해, 다양한 딥러닝 네트워크들에 대해 적응적으로 학습 중 양자화 파리미터를 예측할 수 있는 딥러닝 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있게 된다.

Description

딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화 파라미터 예측 모델 기반 양자화 방법 및 장치{Quantization method and device based on deep learning network architecture encoding and aware training parameter prediction model}

본 발명은 인공지능 경량화 기술에 관한 것으로, 더욱 상세하게는 딥러닝 네트워크를 사용하여 인식을 수행하는 지능형 인지 시스템에서 하드웨어에 모델을 탑재하는데 필수적인 양자화 방법에 관한 것이다.

다양한 산업 분야에서 딥러닝 기술이 활용됨에 따라 네트워크 모델의 비대한 크기로 인한 하드웨어 탑재의 어려움을 해결하기 위해 효과적으로 모델을 압축하는 경량화 기술에 대한 관심이 높아지고 있다. 경량화 기술 중 양자화 기법은 대표적인 모델 압축기법으로서 부동 소수점(32-bit)으로 구성된 딥러닝 모델을 정수형 변환을 통해 모델의 크기를 줄이는 기법이다.

양자화 기법은 기 학습된 딥러닝 모델을 통계적 정보 분석을 기반으로 양자화를 수행하는 학습 후 양자화(Post Training Quantization : PTQ) 방법과 학습 데이터를 이용하여 딥러닝 모델을 학습하는 과정에서 양자화 파라미터를 함께 학습하는 학습 중 양자화(Quantization Aware Training : QAT) 방법으로 나뉜다.

종래의 학습 후 양자화 방법은 일정량의 캘리브레이션 데이터를 기준으로 기 학습된 딥러닝 모델의 가중치와 활성화 데이터의 통계적 정보를(최대, 최소, 평균, 분산등) 이용하여 양자화를 수행한다. 일반적으로, 학습 후 양자화 방법은 학습 중 양자화와 달리 양자화 파라미터 생성을 위한 별도의 학습 과정이 필요없다는 점에서 양자화 속도에 이점이 있지만, 학습과정에서 양자화로 인한 변화하는 딥러닝 모델의 손실을 감소시키는 방향으로 양자화 파라미터를 학습하는 학습 중 양자화기법 대비 비트 정밀도가 낮은 환경일수록 모델의 정확도가 떨어지는 단점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 양자화 손실을 최소화하고 기존 모델의 정확도 보존하며 추가 학습 비용 없는 강건한 양자화 모델을 생성하기 위한 방안으로, 다양한 딥러닝 네트워크 구조에 적응적으로 양자화 파라미터를 예측할 수 있는 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있는 양자화 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 딥러닝 네트워크 양자화 방법은 양자화 대상 딥러닝 네트워크를 입력받는 단계; 입력된 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 생성하는 단계; 생성된 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 한다.

양자화 파라미터는, 학습 중 양자화(Quantization Aware Training) 파리미터일 수 있다.

양자화 파라미터 예측 모델의 학습 데이터는, 딥러닝 네트워크들의 아키텍처들에 대한 인코딩 벡터들과 딥러닝 네트워크들에 대한 학습 중 양자화 기법으로 생성한 레이어별 양자화 파라미터들을 포함할 수 있다.

레이어별 인코딩 벡터는, 딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함할 수 있다.

레이어별 가중치 커널 데이터는, 레이어별 가중치 커널의 입력 채널수, 출력 채널수, 폭, 높이, 그룹수 및 가중치 커널 데이터의 통계적 정보를 포함할 수 있다.

레이어별 활성화 데이터는, 레이어별 입력 활성화 데이터의 출력채널 수, 폭, 높이 및 레이어별 입력 활성화 데이터의 통계적 정보를 포함할 수 있다.

통계적 정보는, 최대값, 최소값, 평균 및 표준편차를 포함할 수 있다.

레이어별 인코딩 벡터는, 가중치에 대한 양자화 비트수, 활성화 데이터에 대한 양자화 비트수 및 대상 레이어와 연결된 shortcut connection 유무를 나타내는 데이터를 포함할 수 있다.

본 발명에 따른 딥러닝 네트워크 양자화 방법은 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 더 포함할 수 있다.

본 발명의 다른 측면에 따르면, 양자화 대상 딥러닝 네트워크를 입력받아, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 생성하고, 생성된 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하는 프로세서; 및 프로세서에 필요한 저장 공간을 제공하는 저장부;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 하는 딥러닝 네트워크 양자화 장치가 제공된다.

본 발명의 또다른 측면에 따르면, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계; 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 하는 딥러닝 네트워크 양자화 방법이 제공된다.

본 발명의 또다른 측면에 따르면, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하고, 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 프로세서; 및 프로세서에 필요한 저장 공간을 제공하는 저장부;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 하는 딥러닝 네트워크 양자화 장치가 제공된다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 다양한 딥러닝 네트워크 구조에 적응적으로 양자화 파라미터를 예측할 수 있는 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있게 된다.

특히 본 발명의 실시예들에 따르면, 별도의 학습 과정 없이 양자화 대상 딥러닝 네트워크에 적응적인 양자화 파라미터를 빠르게 생성할 수 있고, 낮은 비트 환경에서 학습 효과가 반영된 양자화 파라미터 생성을 통해 정확도를 보존할 수 있게 된다.

도 1은 본 발명의 실시예에 적용가능한 학습 중 양자화 파라미터 예측 모델의 설명에 제공되는 도면,
도 2는 학습 중 양자화 파라미터 예측 모델의 학습 과정을 나타낸 도면,
도 3은 학습된 학습 중 양자화 파라미터 예측 모델을 이용한 딥러닝 네트워크 양자화 방법의 설명에 제공되는 도면,
도 4는, 도 3의 S130단계 및 S140단계에 대한 설명에 제공되는 도면, 그리고,
도 5는 본 발명의 다른 실시예에 따른 딥러닝 네트워크 양자화 장치의 구성을 도시한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는 다양한 딥러닝 네트워크들에 대해 적응적으로 학습 중 양자화(Quantization Aware Training : QAT) 파리미터를 예측할 수 있는 딥러닝 네트워크 모델을 이용하여, 학습 후 양자화(Post Training Quantization : PTQ) 과정을 통해 학습 중 양자화(QAT) 수준의 정확도를 확보할 수 있는 방법을 제시한다.

본 발명의 실시예에서 제시하는 양자화 방법은, 양자화 대상이 되는 딥러닝 네트워크를 학습하는 중에 학습 중 양자화 파리미터를 획득하는 기존 학습 중 양자화 방법과 달리, 양자화 대상이 되는 딥러닝 네트워크의 아키텍처로부터 학습 중 양자화 파리미터를 예측할 수 있는 네트워크 모델인 학습 중 양자화 파라미터 예측 모델를 이용하여 학습 중 양자화 파리미터를 획득한다.

또한 본 발명의 실시예에서 제시하는 양자화 방법은, 학습 후 양자화 과정에서 학습 중 양자화 파리미터를 이용한다는 점에서, 기존 학습 후 양자화 방법과 차이가 있다.

이를 통해 본 발명의 실시예에서는 학습 후 양자화 과정과 동등한 속도로 양자화가 이루어지면서도, 정확도는 학습 중 양자화 수준을 확보할 수 있다.

도 1은 본 발명의 실시예에 적용가능한 학습 중 양자화 파라미터 예측 모델의 설명에 제공되는 도면이다. 학습 중 양자화 파라미터 예측 모델은 양자화 대상이 되는 딥러닝 네트워크의 아키텍처로부터 딥러닝 네트워크의 학습 중 양자화 파리미터를 예측할 수 있도록 학습된 딥러닝 네트워크 모델이다.

이를 위해, 기존의 학습 중 양자화 기법을 통해 다양한 딥러닝 네트워크들에 대해 생성한 다양한 딥러닝 양자화 모델들을 이용하여 학습 데이터를 구성하는데, 학습 데이터는 '딥러닝 네트워크들의 아키텍처들'과 '딥러닝 양자화 모델들의 레이어별 양자화 파라미터들'로 구성된다.

기존의 학습 중 양자화 기법에 적용되는 딥러닝 네트워크들과 영상 데이터들로써, 이미지 task별로 대표적인 딥러닝 네트워크들(예: 분류-Resnet, VGG, efficientnet, mobilenet 등, 검출-Faster-RCNN, SSD 등, 분할-Unet, segnet, Deeplab 등)과 영상 데이터들(예: 분류-imagenet, cifar10/100 등, 검출-pascal voc, coco 등, 분할-pascal voc, cityscapes 등)이 사용될 수 있다.

한편, 대상 이미지 task에 속하는 딥러닝 네트워크들의 아키텍처는 아키텍처 인코더에 의해 인코딩 벡터(V_encoding)로 표현되는데, 인코딩 벡터에는 다음과 같이 레이어별 가중치 커널 데이터와 활성화 데이터 및 양자화 비트수와 sc 데이터가 포함된다.

V_encoding = [w_ic, w_oc, w_width, w_height, w_g, w_max, w_min, w_mean, w_std, a_oc, a_width, a_height, a_min, a_max, a_mean, a_std, b_w, b_a, sc]

w: 가중치 데이터, a: 입력 활성화 데이터, b: 양자화 비트수, sc : shortcut connection

레이어별 가중치 커널 데이터에는, 레이어별 가중치 커널의 입력 채널수(w_ic), 출력 채널수(w_oc)와 커널의 폭(w_width), 높이(w_height), 그룹수(w_g), 그리고 가중치 커널 데이터의 최대값(w_max), 최소값(w_min), 평균(w_mean), 표준편차(w_std)와 같은 통계적 정보가 포함된다.

레이어별 활성화 데이터에는, 레이어별 입력 활성화 데이터의 출력채널 수(a_oc), 폭(a_width), 높이(a_height)와 레이어별 입력 활성화 데이터의 최대(a_max), 최소(a_min), 평균(a_mean), 표준편차(a_std)와 같은 통계적 정보가 포함된다. 여기서 입력 활성화 데이터는 대상 레이어를 통과하는 이전 레이어의 출력 활성화 데이터를 의미하며, 첫 번째 레이어의 경우 딥러닝 네트워크로 입력되는 영상 데이터가 입력 활성화 데이터가 된다.

양자화 비트수에는, 가중치에 대한 양자화 비트수(b_w)와 활성화 데이터에 대한 양자화 비트수(b_a)가 포함된다. sc 데이터는 대상 레이어와 연결된 shortcut connection 유무가 바이너리(1/0) 형태로 인코딩된 데이터이다.

딥러닝 네트워크들의 레이어별 양자화 파라미터들은 양자화 파라미터 예측 모델의 학습을 위한 ground truth(y_gt=[S_w, S_a, zp_a]) 정보로 활용된다. 한편 학습 중 양자화 파라미터 예측 모델이 예측해야 하는 학습 중 양자화 파라미터는 네트워크 양자화 구조(대칭/비대칭)에 따라 개수가 달라질 수 있다. 본 발명의 실시예에서는 하드웨어에서 가속화와 정확도 성능을 최대화 하기 위하여. 가중치 데이터에 대하여 대칭(symmetric), 활성화 데이터에 대하여 비대칭(asymmetric) 양자화를 기본 동작 구조로 적용한다. 따라서, 학습 중 양자화 파라미터 예측 모델의 출력은 가중치 커널의 scale(S_w) 요소값과, 활성화 데이터의 scale(S_a) 요소값, zero-point(zp_a) 값으로 구성된다.

한편 본 발명의 실시예에서 상정한 양자화 구조는 예시적인 것으로, 위와 다른 양자화 구조가 적용되는 경우에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다.

도 2는 학습 중 양자화 파라미터 예측 모델의 학습 과정을 나타낸 도면이다. 도시된 바와 같이 먼저 학습 중 양자화 파라미터 예측 모델의 학습 데이터로 다양한 딥러닝 네트워크들에 대한 네트워크 아키텍처들을 인코딩한 인코딩 벡터들과 해당 딥러닝 네트워크들의 레이어별 양자화 파라미터들(Ground Truth)을 생성한다.

한편 학습 중 양자화 파라미터 예측 모델은 다수의 MLP(Multi-Layer Perceptron) 레이어로 구성가능하며, 양자화 구조(대칭/비대칭)에 따라 최종 레이어의 차원이 결정된다. 예를 들면, 가중치 데이터에 대칭 양자화, 활성화 데이터에 대해 비대칭 양자화를 적용하면, 최종 출력 차원은 3차원(S_w, S_a, zp_a)이 된다.

학습 중 양자화 파라미터 예측 모델에 대한 학습으로 딥러닝 네트워크들에 대한 네트워크 아키텍처(인코딩 벡터)들을 입력하여 예측한 레이어별 양자화 파라미터들과 ground truth 간의 손실이 줄어드는 방향으로 지도 학습이 가능하다.

학습이 완료된 학습 중 양자화 파라미터 예측 모델은 학습 데이터에 포함되지 않은 다른 딥러닝 네트워크에 대하여도 아키텍처로부터 적응적으로 레이어별 양자화 파라미터들을 예측하여 생성할 수 있으며, 이를 이용하여 기존 학습 중 양자화 기법과 동등한 수준의 정확도를 확보할 수 있다.

도 3은 학습된 학습 중 양자화 파라미터 예측 모델을 이용한 딥러닝 네트워크 양자화 방법의 설명에 제공되는 도면이다. 양자화 대상이 되는 딥러닝 네트워크에 대한 양자화 모델을 생성하는 과정이다.

먼저, 양자화 대상 딥러닝 네트워크 모델이 입력되면(S110), 모델의 아키텍처를 모사하는 레이어별 인코딩 벡터를 생성한다(S120). 인코딩 벡터(V_encoding)에 대해서는 전술한 바 있다.

인코딩 벡터의 요소들 중 가중치 데이터와 관련된 요소값은 기존에 학습된 양자화 이전 full precision(32bits) 네트워크 모델의 가중치를 기준으로 계산하며, 활성화 데이터에 대한 값은 캘리브레이션 데이터를 입력시 레이어별 입력 활성화 데이터에 대한 통계적 정보를 기반으로 계산한다.

추가적으로, 양자화 비트수는 목표로 하는 양자화 비트수를 입력하며, shortcut 값은 레이어에 연결된 shortcut 연결 유무를 1,0 바이너리 값으로 입력한다.

다음, S120단계에서 생성된 레이어별 인코딩 벡터를 학습 중 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성한다(S130). 레이어별 양자화가 완료되면 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 네트워크의 가중치 데이터와 활성화 데이터에 대한 양자화를 수행한다(S140).

도 3의 S130단계 및 S140단계에 대해, 이하에서 도 4를 참조하여 상세히 설명한다.

도시된 바와 같이 학습 중 양자화 파라미터 예측 모델에 의해 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터의 생성은 딥러닝 네트워크에 캘리브레이션 영상 데이터를 통과시키며 하나의 레이어씩 순차적으로 수행한다.

최종적으로 전체 레이어에 대한 양자화 파라미터 생성 과정이 완료되면, 생성된 양자화 파라미터를 기반으로 네트워크의 가중치 데이터와 활성화 데이터에 대한 양자화를 수행한다. 이때, 양자화 과정은 위에서 상정한 양자화 구조에 따라 가중치 데이터에 대해서는 대칭 양자화, 활성화 데이터에 대해서는 비대칭 양자화를 적용하여 다음 식 (1),(2)와 같이 수행하며, 수행 방식은 선택한 양자화 구조에 따라 달라질 수 있다.

(1)

(2)

위 식 (1),(2)에서 W는 레이어의 가중치 커널 데이터, A는 레이어의 입력 활성화 데이터, zp_a는 zero point, S는 양자화 범위 내의 간격 크기를 나타내는 scale 값, n과 p는 양자화 범위의 하한/상한값, f, q는 양자화 적용 전/후를 나타내며, clamp는 데이터를 양자화 범위내로 clipping하는 연산, round는 반올림 연산을 나타낸다.

이와 같은 양자화 과정을 통해 생성된 양자화 모델은 정확도 측면에서 학습 중 양자화를 통해 생성된 양자화 모델의 정확도를 확보할 수 있으며, 양자화 파라미터 예측 모델을 통해 기존 학습 데이터에 포함되지 않은 네트워크 모델에 대해서도 적응적으로 학습 중 양자화 파라미터를 생성하여 강건한 양자화 성능을 확보할 수 있다.

도 5는 본 발명의 다른 실시예에 따른 딥러닝 네트워크 양자화 시스템의 구성을 도시한 도면이다.

도 5는 본 발명의 다른 실시예에 따른 딥러닝 네트워크 양자화 장치의 구성을 도시한 도면이다.

본 발명의 실시예에 따른 딥러닝 네트워크 양자화 장치는 도시된 바와 같이 통신부(210), 출력부(220), 프로세서(230), 입력부(240) 및 저장부(250)를 포함하여 구성되는 컴퓨팅 시스템으로 구현할 수 있다.

통신부(210)는 외부 네트워크 또는 외부 기기와 연결을 위한 통신 인터페이스이고, 출력부(220)는 프로세서(230)에 의한 연산 수행 결과가 표시되는 출력 수단이며, 입력부(240)는 사용자 명령을 입력받아 프로세서(230)로 전달하는 사용자 인터페이스이다.

프로세서(230)는 전술한 도 2에 도시된 절차에 따라 학습 중 양자화 파라미터 예측 모델을 학습시키고, 전술한 도 3에 도시된 절차에 따라 학습된 학습 중 양자화 파라미터 예측 모델을 이용하여 양자화 대상이 되는 딥러닝 네트워크를 양자화한다.

저장부(250)는 프로세서(230)가 기능하고 동작함에 있어 필요한 저장 공간을 제공한다.

지금까지 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화 파라미터 예측 모델 기반 양자화 방법 및 장치에 대해 바람직한 실시예들을 들어 상세히 설명하였다.

위 실시예에서는 다양한 딥러닝 네트워크들에 대해 적응적으로 학습 중 양자화 파리미터를 예측할 수 있는 딥러닝 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있는 방법을 제시하였다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

딥러닝 네트워크 아키텍처
아키텍처 인코더
인코딩 벡터 :
- 레이어별 가중치 커널 데이터
- 레이어별 활성화 데이터
- 양자화 비트수
- sc 데이터
학습 중 양자화 파라미터 예측 모델
레이어별 양자화 파라미터

Claims

딥러닝 네트워크 양자화 장치가, 양자화 대상 딥러닝 네트워크를 입력받는 단계;
딥러닝 네트워크 양자화 장치가, 입력된 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
청구항 1에 있어서,
양자화 파라미터는,
학습 중 양자화(Quantization Aware Training) 파라미터인 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
청구항 2에 있어서,
양자화 파라미터 예측 모델의 학습 데이터는,
딥러닝 네트워크들의 아키텍처들에 대한 인코딩 벡터들과 딥러닝 네트워크들에 대한 학습 중 양자화 기법으로 생성한 레이어별 양자화 파라미터들을 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
삭제
청구항 1에 있어서,
레이어별 가중치 커널 데이터는,
레이어별 가중치 커널의 입력 채널수, 출력 채널수, 폭, 높이, 그룹수 및 가중치 커널 데이터의 통계적 정보를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
청구항 1에 있어서,
레이어별 활성화 데이터는,
레이어별 입력 활성화 데이터의 출력채널 수, 폭, 높이 및 레이어별 입력 활성화 데이터의 통계적 정보를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
청구항 5 또는 청구항 6에 있어서,
통계적 정보는,
최대값, 최소값, 평균 및 표준편차를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
청구항 1에 있어서,
레이어별 인코딩 벡터는,
가중치에 대한 양자화 비트수, 활성화 데이터에 대한 양자화 비트수 및 대상 레이어와 연결된 shortcut connection 유무를 나타내는 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
청구항 1에 있어서,
딥러닝 네트워크 양자화 장치가, 레이어별 양자화 파라미터 생성이 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 더 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
양자화 대상 딥러닝 네트워크를 입력받아, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하는 프로세서; 및
프로세서가 레이어별 양자화 파라미터를 생성하는데 필요한 저장 공간을 제공하는 저장부;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 장치.
딥러닝 네트워크 양자화 장치가, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계;
딥러닝 네트워크 양자화 장치가, 레이어별 양자화 파라미터 생성이 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하고, 레이어별 양자화 파라미터 생성이 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 프로세서; 및
프로세서가 레이어별 양자화 파라미터를 생성하고, 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는데 필요한 저장 공간을 제공하는 저장부;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 장치.