KR102633343B1 - 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치 - Google Patents
딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치 Download PDFInfo
- Publication number
- KR102633343B1 KR102633343B1 KR1020230108119A KR20230108119A KR102633343B1 KR 102633343 B1 KR102633343 B1 KR 102633343B1 KR 1020230108119 A KR1020230108119 A KR 1020230108119A KR 20230108119 A KR20230108119 A KR 20230108119A KR 102633343 B1 KR102633343 B1 KR 102633343B1
- Authority
- KR
- South Korea
- Prior art keywords
- quantization
- layer
- deep learning
- learning network
- data
- Prior art date
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 244
- 238000013135 deep learning Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000004913 activation Effects 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000013136 deep learning model Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000013137 model compression technique Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화 파라미터 예측 모델 기반 양자화 방법 및 장치가 제공된다. 본 발명의 실시예에 따른 양자화 방법은, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하고, 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하며, 양자화 파라미터 예측 모델은 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이다. 이에 의해, 다양한 딥러닝 네트워크들에 대해 적응적으로 학습 중 양자화 파리미터를 예측할 수 있는 딥러닝 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있게 된다.
Description
본 발명은 인공지능 경량화 기술에 관한 것으로, 더욱 상세하게는 딥러닝 네트워크를 사용하여 인식을 수행하는 지능형 인지 시스템에서 하드웨어에 모델을 탑재하는데 필수적인 양자화 방법에 관한 것이다.
다양한 산업 분야에서 딥러닝 기술이 활용됨에 따라 네트워크 모델의 비대한 크기로 인한 하드웨어 탑재의 어려움을 해결하기 위해 효과적으로 모델을 압축하는 경량화 기술에 대한 관심이 높아지고 있다. 경량화 기술 중 양자화 기법은 대표적인 모델 압축기법으로서 부동 소수점(32-bit)으로 구성된 딥러닝 모델을 정수형 변환을 통해 모델의 크기를 줄이는 기법이다.
양자화 기법은 기 학습된 딥러닝 모델을 통계적 정보 분석을 기반으로 양자화를 수행하는 학습 후 양자화(Post Training Quantization : PTQ) 방법과 학습 데이터를 이용하여 딥러닝 모델을 학습하는 과정에서 양자화 파라미터를 함께 학습하는 학습 중 양자화(Quantization Aware Training : QAT) 방법으로 나뉜다.
종래의 학습 후 양자화 방법은 일정량의 캘리브레이션 데이터를 기준으로 기 학습된 딥러닝 모델의 가중치와 활성화 데이터의 통계적 정보를(최대, 최소, 평균, 분산등) 이용하여 양자화를 수행한다. 일반적으로, 학습 후 양자화 방법은 학습 중 양자화와 달리 양자화 파라미터 생성을 위한 별도의 학습 과정이 필요없다는 점에서 양자화 속도에 이점이 있지만, 학습과정에서 양자화로 인한 변화하는 딥러닝 모델의 손실을 감소시키는 방향으로 양자화 파라미터를 학습하는 학습 중 양자화기법 대비 비트 정밀도가 낮은 환경일수록 모델의 정확도가 떨어지는 단점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 양자화 손실을 최소화하고 기존 모델의 정확도 보존하며 추가 학습 비용 없는 강건한 양자화 모델을 생성하기 위한 방안으로, 다양한 딥러닝 네트워크 구조에 적응적으로 양자화 파라미터를 예측할 수 있는 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있는 양자화 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 딥러닝 네트워크 양자화 방법은 양자화 대상 딥러닝 네트워크를 입력받는 단계; 입력된 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 생성하는 단계; 생성된 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 한다.
양자화 파라미터는, 학습 중 양자화(Quantization Aware Training) 파리미터일 수 있다.
양자화 파라미터 예측 모델의 학습 데이터는, 딥러닝 네트워크들의 아키텍처들에 대한 인코딩 벡터들과 딥러닝 네트워크들에 대한 학습 중 양자화 기법으로 생성한 레이어별 양자화 파라미터들을 포함할 수 있다.
레이어별 인코딩 벡터는, 딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함할 수 있다.
레이어별 가중치 커널 데이터는, 레이어별 가중치 커널의 입력 채널수, 출력 채널수, 폭, 높이, 그룹수 및 가중치 커널 데이터의 통계적 정보를 포함할 수 있다.
레이어별 활성화 데이터는, 레이어별 입력 활성화 데이터의 출력채널 수, 폭, 높이 및 레이어별 입력 활성화 데이터의 통계적 정보를 포함할 수 있다.
통계적 정보는, 최대값, 최소값, 평균 및 표준편차를 포함할 수 있다.
레이어별 인코딩 벡터는, 가중치에 대한 양자화 비트수, 활성화 데이터에 대한 양자화 비트수 및 대상 레이어와 연결된 shortcut connection 유무를 나타내는 데이터를 포함할 수 있다.
본 발명에 따른 딥러닝 네트워크 양자화 방법은 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, 양자화 대상 딥러닝 네트워크를 입력받아, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 생성하고, 생성된 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하는 프로세서; 및 프로세서에 필요한 저장 공간을 제공하는 저장부;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 하는 딥러닝 네트워크 양자화 장치가 제공된다.
본 발명의 또다른 측면에 따르면, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계; 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 하는 딥러닝 네트워크 양자화 방법이 제공된다.
본 발명의 또다른 측면에 따르면, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하고, 레이어별 양자화가 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 프로세서; 및 프로세서에 필요한 저장 공간을 제공하는 저장부;를 포함하고, 양자화 파라미터 예측 모델은, 입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델인 것을 특징으로 하는 딥러닝 네트워크 양자화 장치가 제공된다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 다양한 딥러닝 네트워크 구조에 적응적으로 양자화 파라미터를 예측할 수 있는 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있게 된다.
특히 본 발명의 실시예들에 따르면, 별도의 학습 과정 없이 양자화 대상 딥러닝 네트워크에 적응적인 양자화 파라미터를 빠르게 생성할 수 있고, 낮은 비트 환경에서 학습 효과가 반영된 양자화 파라미터 생성을 통해 정확도를 보존할 수 있게 된다.
도 1은 본 발명의 실시예에 적용가능한 학습 중 양자화 파라미터 예측 모델의 설명에 제공되는 도면,
도 2는 학습 중 양자화 파라미터 예측 모델의 학습 과정을 나타낸 도면,
도 3은 학습된 학습 중 양자화 파라미터 예측 모델을 이용한 딥러닝 네트워크 양자화 방법의 설명에 제공되는 도면,
도 4는, 도 3의 S130단계 및 S140단계에 대한 설명에 제공되는 도면, 그리고,
도 5는 본 발명의 다른 실시예에 따른 딥러닝 네트워크 양자화 장치의 구성을 도시한 도면이다.
도 2는 학습 중 양자화 파라미터 예측 모델의 학습 과정을 나타낸 도면,
도 3은 학습된 학습 중 양자화 파라미터 예측 모델을 이용한 딥러닝 네트워크 양자화 방법의 설명에 제공되는 도면,
도 4는, 도 3의 S130단계 및 S140단계에 대한 설명에 제공되는 도면, 그리고,
도 5는 본 발명의 다른 실시예에 따른 딥러닝 네트워크 양자화 장치의 구성을 도시한 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명의 실시예에서는 다양한 딥러닝 네트워크들에 대해 적응적으로 학습 중 양자화(Quantization Aware Training : QAT) 파리미터를 예측할 수 있는 딥러닝 네트워크 모델을 이용하여, 학습 후 양자화(Post Training Quantization : PTQ) 과정을 통해 학습 중 양자화(QAT) 수준의 정확도를 확보할 수 있는 방법을 제시한다.
본 발명의 실시예에서 제시하는 양자화 방법은, 양자화 대상이 되는 딥러닝 네트워크를 학습하는 중에 학습 중 양자화 파리미터를 획득하는 기존 학습 중 양자화 방법과 달리, 양자화 대상이 되는 딥러닝 네트워크의 아키텍처로부터 학습 중 양자화 파리미터를 예측할 수 있는 네트워크 모델인 학습 중 양자화 파라미터 예측 모델를 이용하여 학습 중 양자화 파리미터를 획득한다.
또한 본 발명의 실시예에서 제시하는 양자화 방법은, 학습 후 양자화 과정에서 학습 중 양자화 파리미터를 이용한다는 점에서, 기존 학습 후 양자화 방법과 차이가 있다.
이를 통해 본 발명의 실시예에서는 학습 후 양자화 과정과 동등한 속도로 양자화가 이루어지면서도, 정확도는 학습 중 양자화 수준을 확보할 수 있다.
도 1은 본 발명의 실시예에 적용가능한 학습 중 양자화 파라미터 예측 모델의 설명에 제공되는 도면이다. 학습 중 양자화 파라미터 예측 모델은 양자화 대상이 되는 딥러닝 네트워크의 아키텍처로부터 딥러닝 네트워크의 학습 중 양자화 파리미터를 예측할 수 있도록 학습된 딥러닝 네트워크 모델이다.
이를 위해, 기존의 학습 중 양자화 기법을 통해 다양한 딥러닝 네트워크들에 대해 생성한 다양한 딥러닝 양자화 모델들을 이용하여 학습 데이터를 구성하는데, 학습 데이터는 '딥러닝 네트워크들의 아키텍처들'과 '딥러닝 양자화 모델들의 레이어별 양자화 파라미터들'로 구성된다.
기존의 학습 중 양자화 기법에 적용되는 딥러닝 네트워크들과 영상 데이터들로써, 이미지 task별로 대표적인 딥러닝 네트워크들(예: 분류-Resnet, VGG, efficientnet, mobilenet 등, 검출-Faster-RCNN, SSD 등, 분할-Unet, segnet, Deeplab 등)과 영상 데이터들(예: 분류-imagenet, cifar10/100 등, 검출-pascal voc, coco 등, 분할-pascal voc, cityscapes 등)이 사용될 수 있다.
한편, 대상 이미지 task에 속하는 딥러닝 네트워크들의 아키텍처는 아키텍처 인코더에 의해 인코딩 벡터(Vencoding)로 표현되는데, 인코딩 벡터에는 다음과 같이 레이어별 가중치 커널 데이터와 활성화 데이터 및 양자화 비트수와 sc 데이터가 포함된다.
Vencoding = [wic, woc, wwidth, wheight, wg, wmax, wmin, wmean, wstd, aoc, awidth, aheight, amin, amax, amean, astd, bw, ba, sc]
w: 가중치 데이터, a: 입력 활성화 데이터, b: 양자화 비트수, sc : shortcut connection
레이어별 가중치 커널 데이터에는, 레이어별 가중치 커널의 입력 채널수(wic), 출력 채널수(woc)와 커널의 폭(wwidth), 높이(wheight), 그룹수(wg), 그리고 가중치 커널 데이터의 최대값(wmax), 최소값(wmin), 평균(wmean), 표준편차(wstd)와 같은 통계적 정보가 포함된다.
레이어별 활성화 데이터에는, 레이어별 입력 활성화 데이터의 출력채널 수(aoc), 폭(awidth), 높이(aheight)와 레이어별 입력 활성화 데이터의 최대(amax), 최소(amin), 평균(amean), 표준편차(astd)와 같은 통계적 정보가 포함된다. 여기서 입력 활성화 데이터는 대상 레이어를 통과하는 이전 레이어의 출력 활성화 데이터를 의미하며, 첫 번째 레이어의 경우 딥러닝 네트워크로 입력되는 영상 데이터가 입력 활성화 데이터가 된다.
양자화 비트수에는, 가중치에 대한 양자화 비트수(bw)와 활성화 데이터에 대한 양자화 비트수(ba)가 포함된다. sc 데이터는 대상 레이어와 연결된 shortcut connection 유무가 바이너리(1/0) 형태로 인코딩된 데이터이다.
딥러닝 네트워크들의 레이어별 양자화 파라미터들은 양자화 파라미터 예측 모델의 학습을 위한 ground truth(ygt=[Sw, Sa, zpa]) 정보로 활용된다. 한편 학습 중 양자화 파라미터 예측 모델이 예측해야 하는 학습 중 양자화 파라미터는 네트워크 양자화 구조(대칭/비대칭)에 따라 개수가 달라질 수 있다. 본 발명의 실시예에서는 하드웨어에서 가속화와 정확도 성능을 최대화 하기 위하여. 가중치 데이터에 대하여 대칭(symmetric), 활성화 데이터에 대하여 비대칭(asymmetric) 양자화를 기본 동작 구조로 적용한다. 따라서, 학습 중 양자화 파라미터 예측 모델의 출력은 가중치 커널의 scale(Sw) 요소값과, 활성화 데이터의 scale(Sa) 요소값, zero-point(zpa) 값으로 구성된다.
한편 본 발명의 실시예에서 상정한 양자화 구조는 예시적인 것으로, 위와 다른 양자화 구조가 적용되는 경우에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다.
도 2는 학습 중 양자화 파라미터 예측 모델의 학습 과정을 나타낸 도면이다. 도시된 바와 같이 먼저 학습 중 양자화 파라미터 예측 모델의 학습 데이터로 다양한 딥러닝 네트워크들에 대한 네트워크 아키텍처들을 인코딩한 인코딩 벡터들과 해당 딥러닝 네트워크들의 레이어별 양자화 파라미터들(Ground Truth)을 생성한다.
한편 학습 중 양자화 파라미터 예측 모델은 다수의 MLP(Multi-Layer Perceptron) 레이어로 구성가능하며, 양자화 구조(대칭/비대칭)에 따라 최종 레이어의 차원이 결정된다. 예를 들면, 가중치 데이터에 대칭 양자화, 활성화 데이터에 대해 비대칭 양자화를 적용하면, 최종 출력 차원은 3차원(Sw, Sa, zpa)이 된다.
학습 중 양자화 파라미터 예측 모델에 대한 학습으로 딥러닝 네트워크들에 대한 네트워크 아키텍처(인코딩 벡터)들을 입력하여 예측한 레이어별 양자화 파라미터들과 ground truth 간의 손실이 줄어드는 방향으로 지도 학습이 가능하다.
학습이 완료된 학습 중 양자화 파라미터 예측 모델은 학습 데이터에 포함되지 않은 다른 딥러닝 네트워크에 대하여도 아키텍처로부터 적응적으로 레이어별 양자화 파라미터들을 예측하여 생성할 수 있으며, 이를 이용하여 기존 학습 중 양자화 기법과 동등한 수준의 정확도를 확보할 수 있다.
도 3은 학습된 학습 중 양자화 파라미터 예측 모델을 이용한 딥러닝 네트워크 양자화 방법의 설명에 제공되는 도면이다. 양자화 대상이 되는 딥러닝 네트워크에 대한 양자화 모델을 생성하는 과정이다.
먼저, 양자화 대상 딥러닝 네트워크 모델이 입력되면(S110), 모델의 아키텍처를 모사하는 레이어별 인코딩 벡터를 생성한다(S120). 인코딩 벡터(Vencoding)에 대해서는 전술한 바 있다.
인코딩 벡터의 요소들 중 가중치 데이터와 관련된 요소값은 기존에 학습된 양자화 이전 full precision(32bits) 네트워크 모델의 가중치를 기준으로 계산하며, 활성화 데이터에 대한 값은 캘리브레이션 데이터를 입력시 레이어별 입력 활성화 데이터에 대한 통계적 정보를 기반으로 계산한다.
추가적으로, 양자화 비트수는 목표로 하는 양자화 비트수를 입력하며, shortcut 값은 레이어에 연결된 shortcut 연결 유무를 1,0 바이너리 값으로 입력한다.
다음, S120단계에서 생성된 레이어별 인코딩 벡터를 학습 중 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성한다(S130). 레이어별 양자화가 완료되면 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 네트워크의 가중치 데이터와 활성화 데이터에 대한 양자화를 수행한다(S140).
도 3의 S130단계 및 S140단계에 대해, 이하에서 도 4를 참조하여 상세히 설명한다.
도시된 바와 같이 학습 중 양자화 파라미터 예측 모델에 의해 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터의 생성은 딥러닝 네트워크에 캘리브레이션 영상 데이터를 통과시키며 하나의 레이어씩 순차적으로 수행한다.
최종적으로 전체 레이어에 대한 양자화 파라미터 생성 과정이 완료되면, 생성된 양자화 파라미터를 기반으로 네트워크의 가중치 데이터와 활성화 데이터에 대한 양자화를 수행한다. 이때, 양자화 과정은 위에서 상정한 양자화 구조에 따라 가중치 데이터에 대해서는 대칭 양자화, 활성화 데이터에 대해서는 비대칭 양자화를 적용하여 다음 식 (1),(2)와 같이 수행하며, 수행 방식은 선택한 양자화 구조에 따라 달라질 수 있다.
(1)
(2)
위 식 (1),(2)에서 W는 레이어의 가중치 커널 데이터, A는 레이어의 입력 활성화 데이터, zpa는 zero point, S는 양자화 범위 내의 간격 크기를 나타내는 scale 값, n과 p는 양자화 범위의 하한/상한값, f, q는 양자화 적용 전/후를 나타내며, clamp는 데이터를 양자화 범위내로 clipping하는 연산, round는 반올림 연산을 나타낸다.
이와 같은 양자화 과정을 통해 생성된 양자화 모델은 정확도 측면에서 학습 중 양자화를 통해 생성된 양자화 모델의 정확도를 확보할 수 있으며, 양자화 파라미터 예측 모델을 통해 기존 학습 데이터에 포함되지 않은 네트워크 모델에 대해서도 적응적으로 학습 중 양자화 파라미터를 생성하여 강건한 양자화 성능을 확보할 수 있다.
도 5는 본 발명의 다른 실시예에 따른 딥러닝 네트워크 양자화 시스템의 구성을 도시한 도면이다.
도 5는 본 발명의 다른 실시예에 따른 딥러닝 네트워크 양자화 장치의 구성을 도시한 도면이다.
본 발명의 실시예에 따른 딥러닝 네트워크 양자화 장치는 도시된 바와 같이 통신부(210), 출력부(220), 프로세서(230), 입력부(240) 및 저장부(250)를 포함하여 구성되는 컴퓨팅 시스템으로 구현할 수 있다.
통신부(210)는 외부 네트워크 또는 외부 기기와 연결을 위한 통신 인터페이스이고, 출력부(220)는 프로세서(230)에 의한 연산 수행 결과가 표시되는 출력 수단이며, 입력부(240)는 사용자 명령을 입력받아 프로세서(230)로 전달하는 사용자 인터페이스이다.
프로세서(230)는 전술한 도 2에 도시된 절차에 따라 학습 중 양자화 파라미터 예측 모델을 학습시키고, 전술한 도 3에 도시된 절차에 따라 학습된 학습 중 양자화 파라미터 예측 모델을 이용하여 양자화 대상이 되는 딥러닝 네트워크를 양자화한다.
저장부(250)는 프로세서(230)가 기능하고 동작함에 있어 필요한 저장 공간을 제공한다.
지금까지 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화 파라미터 예측 모델 기반 양자화 방법 및 장치에 대해 바람직한 실시예들을 들어 상세히 설명하였다.
위 실시예에서는 다양한 딥러닝 네트워크들에 대해 적응적으로 학습 중 양자화 파리미터를 예측할 수 있는 딥러닝 네트워크 모델을 이용하여, 학습 후 양자화 과정을 통해 학습 중 양자화 수준의 정확도를 확보할 수 있는 방법을 제시하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
딥러닝 네트워크 아키텍처
아키텍처 인코더
인코딩 벡터 :
- 레이어별 가중치 커널 데이터
- 레이어별 활성화 데이터
- 양자화 비트수
- sc 데이터
학습 중 양자화 파라미터 예측 모델
레이어별 양자화 파라미터
아키텍처 인코더
인코딩 벡터 :
- 레이어별 가중치 커널 데이터
- 레이어별 활성화 데이터
- 양자화 비트수
- sc 데이터
학습 중 양자화 파라미터 예측 모델
레이어별 양자화 파라미터
Claims (12)
- 딥러닝 네트워크 양자화 장치가, 양자화 대상 딥러닝 네트워크를 입력받는 단계;
딥러닝 네트워크 양자화 장치가, 입력된 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 청구항 1에 있어서,
양자화 파라미터는,
학습 중 양자화(Quantization Aware Training) 파라미터인 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 청구항 2에 있어서,
양자화 파라미터 예측 모델의 학습 데이터는,
딥러닝 네트워크들의 아키텍처들에 대한 인코딩 벡터들과 딥러닝 네트워크들에 대한 학습 중 양자화 기법으로 생성한 레이어별 양자화 파라미터들을 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 삭제
- 청구항 1에 있어서,
레이어별 가중치 커널 데이터는,
레이어별 가중치 커널의 입력 채널수, 출력 채널수, 폭, 높이, 그룹수 및 가중치 커널 데이터의 통계적 정보를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 청구항 1에 있어서,
레이어별 활성화 데이터는,
레이어별 입력 활성화 데이터의 출력채널 수, 폭, 높이 및 레이어별 입력 활성화 데이터의 통계적 정보를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 청구항 5 또는 청구항 6에 있어서,
통계적 정보는,
최대값, 최소값, 평균 및 표준편차를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 청구항 1에 있어서,
레이어별 인코딩 벡터는,
가중치에 대한 양자화 비트수, 활성화 데이터에 대한 양자화 비트수 및 대상 레이어와 연결된 shortcut connection 유무를 나타내는 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 청구항 1에 있어서,
딥러닝 네트워크 양자화 장치가, 레이어별 양자화 파라미터 생성이 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 더 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 양자화 대상 딥러닝 네트워크를 입력받아, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하는 프로세서; 및
프로세서가 레이어별 양자화 파라미터를 생성하는데 필요한 저장 공간을 제공하는 저장부;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 장치.
- 딥러닝 네트워크 양자화 장치가, 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여, 레이어별 양자화 파라미터를 생성하는 단계;
딥러닝 네트워크 양자화 장치가, 레이어별 양자화 파라미터 생성이 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 단계;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 방법.
- 딥러닝 네트워크의 아키텍처를 모사하는 레이어별 인코딩 벡터를 양자화 파라미터 예측 모델에 입력하여 레이어별 양자화 파라미터를 생성하고, 레이어별 양자화 파라미터 생성이 완료된 딥러닝 네트워크의 전체 레이어에 대한 양자화 파라미터를 기반으로 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는 프로세서; 및
프로세서가 레이어별 양자화 파라미터를 생성하고, 가중치 데이터와 활성화 데이터에 대한 양자화를 수행하는데 필요한 저장 공간을 제공하는 저장부;를 포함하고,
양자화 파라미터 예측 모델은,
입력되는 레이어별 인코딩 벡터로부터 레이어별 양자화 파라미터를 예측하도록 학습된 딥러닝 모델이며,
레이어별 인코딩 벡터는,
딥러닝 네트워크의 레이어별 가중치 커널 데이터 및 레이어별 활성화 데이터를 포함하는 것을 특징으로 하는 딥러닝 네트워크 양자화 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230108119A KR102633343B1 (ko) | 2023-08-18 | 2023-08-18 | 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230108119A KR102633343B1 (ko) | 2023-08-18 | 2023-08-18 | 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102633343B1 true KR102633343B1 (ko) | 2024-02-05 |
Family
ID=89903917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230108119A KR102633343B1 (ko) | 2023-08-18 | 2023-08-18 | 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102633343B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210004306A (ko) * | 2019-07-04 | 2021-01-13 | 삼성전자주식회사 | 뉴럴 네트워크 장치 및 뉴럴 네트워크의 파라미터 양자화 방법 |
KR102316528B1 (ko) * | 2021-01-15 | 2021-10-25 | 주식회사 노타 | 하드웨어 친화적인 신경망 구조 탐색 기반 신경망 데이터 양자화 기법 |
-
2023
- 2023-08-18 KR KR1020230108119A patent/KR102633343B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210004306A (ko) * | 2019-07-04 | 2021-01-13 | 삼성전자주식회사 | 뉴럴 네트워크 장치 및 뉴럴 네트워크의 파라미터 양자화 방법 |
KR102316528B1 (ko) * | 2021-01-15 | 2021-10-25 | 주식회사 노타 | 하드웨어 친화적인 신경망 구조 탐색 기반 신경망 데이터 양자화 기법 |
Non-Patent Citations (3)
Title |
---|
J. Kwak 등, "Quantization Aware Training with Order Strategy for CNN," 2022 IEEE Int. Conf. on Consumer Electronics-Asia * |
V. Kryzhanovskiy 등, "QPP: Real-Time Quantization Parameter Prediction for Deep Neural Networks," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition * |
X. Zhu 등, "ADAPTIVE LAYERWISE QUANTIZATION FOR DEEP NEURAL NETWORK," 2018 IEEE International Conference on Multimedia and Expo * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102589303B1 (ko) | 고정 소수점 타입의 뉴럴 네트워크를 생성하는 방법 및 장치 | |
Li et al. | Additive powers-of-two quantization: An efficient non-uniform discretization for neural networks | |
US10789734B2 (en) | Method and device for data quantization | |
JP2020009444A (ja) | ニューラルネットワークにおいてパラメータを処理する方法及び装置 | |
CN111352965A (zh) | 序列挖掘模型的训练方法、序列数据的处理方法及设备 | |
US11551054B2 (en) | System-aware selective quantization for performance optimized distributed deep learning | |
KR102592585B1 (ko) | 번역 모델 구축 방법 및 장치 | |
Garg et al. | Confounding tradeoffs for neural network quantization | |
CN111105017A (zh) | 神经网络量化方法、装置及电子设备 | |
KR20210076691A (ko) | 프레임워크 간 뉴럴 네트워크의 학습을 검증하는 방법 및 장치 | |
KR20220042455A (ko) | 마이크로-구조화된 가중치 프루닝 및 가중치 통합을 이용한 신경 네트워크 모델 압축을 위한 방법 및 장치 | |
CN117217280A (zh) | 神经网络模型优化方法、装置及计算设备 | |
US20220187486A1 (en) | Computer system and data processing method | |
KR102633343B1 (ko) | 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치 | |
CN113055546A (zh) | 处理图像的系统和方法 | |
KR20240057542A (ko) | 딥러닝 네트워크 특성 기반 양자화 방법 및 장치 | |
US20220405561A1 (en) | Electronic device and controlling method of electronic device | |
KR20240102421A (ko) | 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법 | |
US20230115067A1 (en) | Controlling a bias of a machine learning module background | |
CN117648964A (zh) | 模型压缩方法、装置以及相关设备 | |
CN115062769A (zh) | 基于知识蒸馏的模型训练方法、装置、设备及存储介质 | |
KR20230059435A (ko) | 뉴럴 네트워크의 압축 장치 및 방법 | |
CN113033817A (zh) | 基于隐空间的ood检测方法、装置、服务器及存储介质 | |
CN118628876B (zh) | 目标检测模型的量化感知训练方法、装置、设备及介质 | |
CN113780518B (zh) | 网络架构优化方法、终端设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |