KR20230066700A - 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법 - Google Patents

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법 Download PDF

Info

Publication number
KR20230066700A
KR20230066700A KR1020210151957A KR20210151957A KR20230066700A KR 20230066700 A KR20230066700 A KR 20230066700A KR 1020210151957 A KR1020210151957 A KR 1020210151957A KR 20210151957 A KR20210151957 A KR 20210151957A KR 20230066700 A KR20230066700 A KR 20230066700A
Authority
KR
South Korea
Prior art keywords
deep learning
data
learning model
parameters
poisson distribution
Prior art date
Application number
KR1020210151957A
Other languages
English (en)
Inventor
이상설
박종희
장성준
성민용
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020210151957A priority Critical patent/KR20230066700A/ko
Priority to PCT/KR2021/016094 priority patent/WO2023080292A1/ko
Publication of KR20230066700A publication Critical patent/KR20230066700A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 딥러닝 모델 처리 방법은, 데이터들의 푸아송 분포를 산출하고, 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산하며, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하고, 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여 딥러닝 모델을 학습시킨다. 이에 의해, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있게 된다.

Description

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법{Apparatus and method for generating adaptive parameters for deep learning accelerators}
본 발명은 딥러닝 가속장치에 관한 것으로, 더욱 상세하게는 서버에서 학습이 완료된 딥러닝 모델을 딥러닝 가속장치에 사용하기 위해 최적화하는 기술에 관한 것이다.
서버에서 학습이 완료된 모델을 신규 디바이스에 동작시키기 위해서는 학습에 사용된 모든 데이터 및 테스트에 사용된 모든 데이터를 이용하여 딥러닝 파라미터 재생성을 위한 재학습을 수행하여야 한다.
즉 신규 디바이스의 딥러닝 모델에 대해 재학습을 수행하여 최소한의 성능 손실을 갖는 딥러닝 파라미터를 생성한 후 최종 어플리케이션에 업데이트하는 형태로 개발하고 있다.
신규 디바이스가 학습에 이용하였던 데이터들과 학습 결과로 생성된 딥러닝 모델 파라미터의 데이터 표현형을 지원하지 않는 경우를 위해 양자화가 필요할 수 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 신규 디바이스가 학습에 이용할 데이터들과 학습 결과로 생성된 딥러닝 모델 파라미터를 신규 디바이스에서 지원하는 데이터로 경량화하기 위한 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 모델 처리 방법은, 데이터들의 푸아송 분포를 산출하는 단계; 산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하는 단계; 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 단계; 및 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함한다.
딥러닝 모델은, 서버에서 학습 데이터들로 학습되고 테스트 데이터들로 테스트된 후에 디바이스의 프로세서에서 구동될 수 있다.
그리고 양자화 파라미터는, 프로세서의 데이터 표현형을 기초로 결정 될 수 있다.
양자화 파라미터는, 데이터들과 딥러닝 모델 파라미터들의 비트수를 프로세서에서 지원하는 연산 비트수로 양자화하기 위한 파라미터일 수 있다.
또한 데이터들은, 학습 데이터들을 제외한 테스트 데이터들만을 포함할 수 있다.
계산 단계는, 산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하는 단계; 유효 범위를 다수의 구간들로 분할하는 단계; 분할된 구간들에 양자화 파라미터를 부여하는 단계;를 포함할 수 있다.
양자화 파라미터는, 스케일과 바이어스를 포함할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 딥러닝 가속장치는, 데이터들의 푸아송 분포를 산출하는 산출부; 산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하고, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 양자화부; 및 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 프로세서;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 신규 디바이스가 딥러닝 모델의 재학습에 이용할 데이터들로 학습 데이터들을 배제하고 테스트 데이터들만을 이용함으로써, 신규 디바이스에서 처리할 데이터를 경량화하는 것이 가능해진다.
또한, 본 발명의 실시예들에 따르면, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있게 된다.
도 1은 NPU를 이용한 딥러닝 모델 구동 방법의 설명에 제공되는 도면,
도 2는 학습 모델 데이터에 대한 파라미터 분포도,
도 3은 본 발명의 일 실시예에 따른 딥러닝 가속장치의 구조를 도시한 도면,
도 4는 본 발명의 다른 실시예에 따른 딥러닝 모델 재학습 방법의 설명에 제공되는 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
디바이스에서 딥러닝 모델은 NPU(Neural Processing Unit)라고 하는 프로세서에서 학습되고 구동된다. 고성능 GPU와 많은 양의 메모리를 보유하고 있는 서버 와 달리 리소스와 파워가 제한적인 소형 디바이스의 경우 필요한 연산량과 메모리 사용량을 줄이는 방법으로 하드웨어가 개발되고 있다.
도 1은 NPU를 이용한 딥러닝 모델 구동 방법의 설명에 제공되는 도면이다. 도시된 바와 같이, 추론(Inference) 과정에서는 Weight와 NPU를 동작시키기 위한 파라미터를 필요로 한다. NPU는 FP32 외에 극도로 정제된 비트(INT8, INT4, FP8, FP16 등)로의 동작이 대부분이어서, 서버에서의 학습 데이터와 학습 결과를 그대로 이용할 수는 없다.
이를 위하여 대부분 양자화(Quantization) 과정을 거치게 되는데 양자화를 거치게 되면, 데이터들은 모델이 필요로 하는 데이터 포맷 외에 스케일(Scale)과 제로 포인트(Zero point) 생성을 위한 바이어스(Bias)를 포함하는 데이터로 변화하게 된다.
데이터 양자화는 딥러닝 모델에서 주로 시용되는 ONNX(Open Neural Network Exchange) 모델로 수행할 수 있다. 특히, ONNX 모델의 경우 Fixed point 처리를 위한 모델 변환에도 유용하게 사용할 수 있어, 현재 많은 개발 환경의 다른 함수들을 변환할 수 있는 거의 유일한 방법이기도 하다. 그러나, ONNX 변환만으로는 모든 환경에서 구동할 수는 없다. 구동하는 시스템에 맞는 함수, 데이터 표현형 변환을 필요로 한다.
ONNX 모델은 NPU-Aware 한 파라미터 생성을 위하여 보통은 Min-Max 값을 이용하여 양자화를 수행하거나, Non-uniform한 구간에서는 파라미터를 서로 다른 스케일로 변환하여 양자화를 수행한다.
그러나, 실제로 성능을 확인하기 위한 공개된 데이터셋 외에 일반적인 카메라로부터 입력된 연속된 데이터셋을 이용하는 객체 분류/객체 인식 등을 위한 NPU에서 시간에 따라 유효한 파라미터 분포도를 보면, 도 2에 도시된 바와 같이 시간이 증가함에 따라 단위 시간 안에 유사한 위치에서 유효한 데이터가 발생하는 확률이 푸아송 분포(Poisson Distribution)을 보임을 실험적으로 확인할 수 있었다.
즉, 기존 학습된 데이터 셋 없이 테스트 데이터 셋 만을 이용하여 데이터 분포에서 원하는 수준의 값만을 유지(data-free self-quantization)하는 결과를 얻을 수 있음을 알아 내었다.
Figure pat00001
위 식은 아래 식(이항분포)에서 n이 무한대로 갔을 때의 극한을 이용하여 유도하면 위와 같이 간단한 수식으로 변경된다.
Figure pat00002
λ = n × p (평균 적용되는 value), x : 실제 적용된 값
이에 따라, 적용할 환경이 외부에서 모든 데이터 셋을 제공받지 못하는 환경으로, 최적의 추론기 성능을 보장하기 위하여 NPU에서 지원하는 연산 비트수 및 스케일 정보를 입력받아 근사시킬 데이터를 판단하면 최적의 데이터 표현형 및 0으로 없애는 포인트를 결정할 수 있다.
실험을 통하여 확인한 결과 특정 비트로 양자화 시 확률분포에서 n이 15보다 크고 p가 0.04보다 작으면, 근사화 했을 때 큰 열화 없이 데이터 표현이 가능하며, 성능 열화가 적음을 확인하였다.
이는 n과 p에 따른 확률 분포의 그래프가 보통의 푸아송 분포를 가지지 못할 경우 성능의 열화가 크게 나타나게 되므로, 푸아송 분포와 이항 분포의 확률 질량함수가 유사한 경우가 최적의 파라미터 생성 조건이 된다. 푸아송 분포는 이항 분포를 근사화 시킨 형태로, 이항 분포에 가까울수록 높은 성능이 기대된다. 두 개의 분포사이의 distance는 간단히 L1-norm/L2-norm 등의 간단한 연산만을 이용하여 구할 수 있다.
그러므로, 푸아송 분포를 기반으로 NPU에 맞는 양자화를 수행하고, PE(Processing Element)에 맞게 데이터를 적절히 나눠서 파라미터를 분리해 주면 다양한 NPU에서도 이용가능한(NPU-aware) 적응적 파라미터 생성이 가능하게 될 것이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 가속장치의 구조를 도시한 도면이다. 본 발명의 실시예에 따른 딥러닝 가속장치는, 도시된 바와 같이, 푸아송 분포 산출부(110), 양자화부(120) 및 NPU(130)를 포함하여 구성된다.
NPU(130)는 딥러닝 모델을 학습시키고, 학습된 딥러닝 모델로 추론을 수행하기 위한 프로세서이다. 딥러닝 모델 학습시, NPU(130)는 딥러닝 모델을 학습시킨 학습 서버에서 이용한 데이터들과 학습 결과를 활용한다.
푸아송 분포 산출부(110)는 학습 서버가 딥러닝 모델을 학습시키는데 이용한 데이터들에 대한 푸아송 분포를 산출한다.
양자화부(120)는 푸아송 분포 산출부(110)에서 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산하고, 계산한 양자화 파라미터로 딥러닝 모델 학습에 이용할 데이터들과 딥러닝 모델 파라미터들을 양자화한다.
양자화부(120)에 의해 계산되는 양자화 파라미터는 NPU의 데이터 표현형을 기초로 결정된다. 즉, 양자화 파라미터는 딥러닝 모델로 입력할 데이터들과 딥러닝 모델 파라미터들의 비트수를 NPU에서 지원하는 연산 비트수로 양자화하기 위한 파라미터로 결정된다.
도 3에 도시된 딥러닝 가속장치의 NPU(130)에서 추론 모델로 기능할 딥러닝 모델의 파라미터들을 NPU(130)에 맞게 업데이트 하는 과정에 대해, 이하에서 도 4를 참조하여 상세히 설명한다.
도 4는 본 발명의 다른 실시예에 따른 딥러닝 모델 재학습 방법의 설명에 제공되는 흐름도이다.
도시된 바와 같이, 먼저 딥러닝 모델을 학습 서버에서 학습시키고 테스트한다(S210). S210단계의 학습과 테스트에 의해 딥러닝 모델 파라미터가 최적으로 설정된다.
S210단계에서 딥러닝 모델을 학습시키는 학습 서버는 딥러닝 가속장치(100)에 비해 고성능의 컴퓨팅 파워와 풍부한 리소스를 보유하고 있다. 학습은 학습 데이터를 이용하여, 테스트는 테스트 데이터를 이용하여 수행되며, 테스트 데이터는 학습 데이터에 비해 소량이다.
이후, 딥러닝 모델을 딥러닝 가속장치에 탑재한다(S220). S210단계에서 학습 서버에 의해 학습된 딥러닝 모델과 동일한 구조의 모델이지만 학습이 되지 않은 상태이다.
푸아송 분포 산출부(110)는 S210단계에서 이용된 테스트 데이터들에 대한 푸아송 분포를 산출한다(S230). S230단계에서 푸아송 분포 산출에 이용되는 데이터들은 학습 데이터들을 제외하고 테스트 데이터들만을 포함한다. 방대한 양인 학습 데이터들이 배제되고 소량의 테스트 데이터들만 연산 대상이 되므로, 딥러닝 가속장치에 부담이 없다.
다음, 양자화부(120)는 S230단계에서 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산한다(S240). S240단계에서 계산되는 양자화 파라미터에는 스케일과 바이어스를 포함한다.
S240단계에서는 S230단계에서 산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하고, 설정한 유효 범위를 다수의 구간들로 분할하여, 분할된 구간들에 양자화 파라미터를 각각 부여하는 방식으로 수행된다.
이후, 양자화부(120)는 S240단계에서 계산된 양자화 파라미터를 이용하여, S210단계에서 이용된 테스트 데이터들과 S210단계에서의 학습으로 생성된 딥러닝 모델 파라미터들을 양자화한다(S250).
그러면, NPU(130)는 S250단계에서 양자화된 테스트 데이터들과 딥러닝 모델 파라미터들을 이용하여, S220단계에서 탑재된 딥러닝 모델을 학습시킨다(S260). 구체적으로, 양자화된 모델 파라미터들을 딥러닝 모델에 전이시키고, 양자화된 테스트 데이터들로 학습시키게 된다. 이에 의해, 탑재된 딥러닝 모델은 딥러닝 가속장치의 NPU(130)에 맞게 최적화 된다.
지금까지, 딥러닝 가속장치의 딥러닝 모델을 최적화 하는 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.
본 발명의 실시예들에서는, 신규 디바이스가 딥러닝 모델의 재학습에 이용할 데이터들로 학습 데이터들을 배제하고 테스트 데이터들만을 이용함으로써, 신규 디바이스에서 처리할 데이터를 경량화하고, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있도록 하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 푸아송 분포 산출부
120 : 양자화부
130 : NPU

Claims (8)

  1. 데이터들의 푸아송 분포를 산출하는 단계;
    산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하는 단계;
    계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 단계; 및
    양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  2. 청구항 1에 있어서,
    딥러닝 모델은,
    서버에서 학습 데이터들로 학습되고 테스트 데이터들로 테스트된 후에 디바이스의 프로세서에서 구동되는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  3. 청구항 2에 있어서,
    양자화 파라미터는,
    프로세서의 데이터 표현형을 기초로 결정되는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  4. 청구항 3에 있어서,
    양자화 파라미터는,
    데이터들과 딥러닝 모델 파라미터들의 비트수를 프로세서에서 지원하는 연산 비트수로 양자화하기 위한 파라미터인 것을 특징으로 하는 딥러닝 모델 처리 방법.
  5. 청구항 2에 있어서,
    데이터들은,
    학습 데이터들을 제외한 테스트 데이터들만을 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  6. 청구항 1에 있어서,
    계산 단계는,
    산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하는 단계;
    유효 범위를 다수의 구간들로 분할하는 단계;
    분할된 구간들에 양자화 파라미터를 부여하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  7. 청구항 6에 있어서,
    양자화 파라미터는,
    스케일과 바이어스를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  8. 데이터들의 푸아송 분포를 산출하는 산출부;
    산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하고, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 양자화부; 및
    양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 프로세서;를 포함하는 것을 특징으로 하는 딥러닝 가속장치.
KR1020210151957A 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법 KR20230066700A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210151957A KR20230066700A (ko) 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
PCT/KR2021/016094 WO2023080292A1 (ko) 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210151957A KR20230066700A (ko) 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230066700A true KR20230066700A (ko) 2023-05-16

Family

ID=86241697

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210151957A KR20230066700A (ko) 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20230066700A (ko)
WO (1) WO2023080292A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060291591A1 (en) * 2005-06-22 2006-12-28 Kaushik Ghosh Estimating bit error probability (BEP) in an edge wireless system
KR102601604B1 (ko) * 2017-08-04 2023-11-13 삼성전자주식회사 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치
KR102415214B1 (ko) * 2017-12-22 2022-06-30 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
CN109635938B (zh) * 2018-12-29 2022-05-17 电子科技大学 一种自主学习脉冲神经网络权值量化方法
KR20210004306A (ko) * 2019-07-04 2021-01-13 삼성전자주식회사 뉴럴 네트워크 장치 및 뉴럴 네트워크의 파라미터 양자화 방법

Also Published As

Publication number Publication date
WO2023080292A1 (ko) 2023-05-11

Similar Documents

Publication Publication Date Title
CN111652367B (zh) 一种数据处理方法及相关产品
US20190138887A1 (en) Systems, methods, and media for gated recurrent neural networks with reduced parameter gating signals and/or memory-cell units
US20160358070A1 (en) Automatic tuning of artificial neural networks
US20210019152A1 (en) Data parallelism in distributed training of artificial intelligence models
US20220164666A1 (en) Efficient mixed-precision search for quantizers in artificial neural networks
EP3738080A1 (en) Learning compressible features
US11281999B2 (en) Predictive accuracy of classifiers using balanced training sets
EP3999960A1 (en) Executing large artificial intelligence models on memory-constrained devices
US11625583B2 (en) Quality monitoring and hidden quantization in artificial neural network computations
Huai et al. Zerobn: Learning compact neural networks for latency-critical edge systems
Huai et al. Latency-constrained DNN architecture learning for edge systems using zerorized batch normalization
US20200242445A1 (en) Generic quantization of artificial neural networks
CN112840358B (zh) 用于深度神经网络的基于光标的自适应量化
KR20230066700A (ko) 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
US20220292342A1 (en) Communication Efficient Federated/Distributed Learning of Neural Networks
US11410036B2 (en) Arithmetic processing apparatus, control method, and non-transitory computer-readable recording medium having stored therein control program
CN110852361B (zh) 基于改进深度神经网络的图像分类方法、装置与电子设备
CN115836298A (zh) 能量约束下量化的自动选择和滤波器移除优化
US11989653B2 (en) Pseudo-rounding in artificial neural networks
KR20230068508A (ko) 효율적인 딥러닝 학습을 위한 메모리 구조 및 제어 방법
US20230342613A1 (en) System and method for integer only quantization aware training on edge devices
US12033077B2 (en) Learning compressible features
WO2023160406A1 (en) Neural network inference quantization
KR102633343B1 (ko) 딥러닝 네트워크 아키텍처 인코딩과 학습 중 양자화파라미터 예측 모델 기반 양자화 방법 및 장치
JP6992864B1 (ja) ニューラルネットワーク軽量化装置、ニューラルネットワーク軽量化方法およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination