WO2022146080A1 - 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법 - Google Patents

딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법 Download PDF

Info

Publication number
WO2022146080A1
WO2022146080A1 PCT/KR2021/020293 KR2021020293W WO2022146080A1 WO 2022146080 A1 WO2022146080 A1 WO 2022146080A1 KR 2021020293 W KR2021020293 W KR 2021020293W WO 2022146080 A1 WO2022146080 A1 WO 2022146080A1
Authority
WO
WIPO (PCT)
Prior art keywords
uncertainty
quantization
image data
determined
selecting
Prior art date
Application number
PCT/KR2021/020293
Other languages
English (en)
French (fr)
Inventor
류욱상
전지예
이혁재
임경종
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to US18/270,649 priority Critical patent/US20240071070A1/en
Publication of WO2022146080A1 publication Critical patent/WO2022146080A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Definitions

  • the present invention relates to an algorithm capable of dynamically changing the quantization precision of a deep learning network.
  • Deep learning is a widely used technology in the fields of artificial intelligence (AI) and computer vision.
  • Various deep-learning architectures such as convolutional neural networks (CNNs), deep-belief networks (DBNs), and autoencoders, are used for visual object recognition, automatic dialog recognition , natural language processing, and music/acoustic signal processing have been shown to produce state-of-the-art results.
  • CNNs convolutional neural networks
  • DNNs deep-belief networks
  • autoencoders are used for visual object recognition, automatic dialog recognition , natural language processing, and music/acoustic signal processing have been shown to produce state-of-the-art results.
  • a major effort in deep learning has been focused on software implementations for various network architectures, learning algorithms, and applications.
  • DNN deep neural network
  • a quantization method was introduced to reduce the amount of deep learning computation.
  • the quantization precision of bits is fixed for each layer when learning is completed, and the quantization precision does not change at runtime of the deep learning network. there was.
  • a commonly used deep learning network quantization technique has a disadvantage that it cannot be changed at runtime after the deep learning network finishes learning and the quantization precision is determined.
  • the present invention performs quantization corresponding to a plurality of different number of bits for a deep learning network that performs object recognition on an arbitrary image, and quantizes a plurality of quantizations corresponding to the number of bits, respectively.
  • generating a model receiving image data as an input of the deep learning network; determining uncertainty of the input image data; based on the determined uncertainty, among the plurality of quantization models Selecting one, performing object recognition of the image data using the selected quantization model, and outputting a label corresponding to the image data as an object recognition result.
  • the quantization precision of the deep learning network is dynamically changed according to the characteristics of the input data, there is an advantage in that the association efficiency of the deep learning network is maximized.
  • FIG. 1 is a flowchart illustrating a dynamic quantization method performed by an image recognition apparatus according to the present invention.
  • FIG. 2 is a conceptual diagram illustrating components included in the control unit of the image recognition apparatus according to the present invention.
  • 3 is a conceptual diagram related to an uncertainty determination period.
  • FIG. 1 shows an image recognition method to which a dynamic quantization precision variable algorithm of a deep learning network according to the present invention is applied.
  • the controller of the image recognition apparatus performs quantization corresponding to a plurality of different bit numbers for a deep learning network that performs object recognition on an arbitrary image, and the bit A plurality of quantization models each corresponding to a number may be generated ( S101 ).
  • the first quantization model may be generated by quantizing the main network to 8 bits.
  • a second quantization model may be generated by quantizing the main network to 4 bits
  • a third quantization model may be generated by quantizing the main network to 2 bits.
  • the above example is for convenience of explanation, and the number of quantization models may be variably set according to the complexity of the main network, and a quantization distance may be variously applied.
  • the number of quantization models may be variably adjusted according to processor performance or memory performance of the image recognition apparatus.
  • the present invention proposes a variable quantization method that minimizes performance degradation by generating a plurality of quantization models and selecting one of a plurality of quantization models generated in advance based on the uncertainty of input data.
  • image data which is an object of object recognition, is received (S102).
  • controller of the image recognition apparatus may determine the uncertainty of the input image data (S103).
  • the controller of the image recognition apparatus may determine the uncertainty of the input image data.
  • the controller may determine the uncertainty of the image data based on a class related to object recognition of the main network.
  • the amount of computation required to perform the uncertainty determination step S103 is smaller than the amount of computation required for the deep learning network to perform object recognition.
  • the controller may mount the uncertainty determination network separately from the above-described main network.
  • the uncertainty determination network is preferably composed of a smaller number of layers than the main network (deep learning network).
  • the uncertainty determination network may not be used.
  • An embodiment in which uncertainty is determined for each frame of a predetermined period will be described in more detail below in the description related to FIG. 3 .
  • the uncertainty determination step S103 is also preferably performed by a model obtained by quantizing the uncertainty determination network to a predetermined number of bits.
  • the step of determining the uncertainty 103 includes a process of calculating a probability that the input image data corresponds to a plurality of classes related to object recognition of a deep learning network, and based on the probability calculated for each of the plurality of classes This may include the process of calculating the uncertainty score.
  • the uncertainty may be determined for every frame of the input image data.
  • uncertainty may be determined for each preset period with respect to input image data.
  • the step of determining the uncertainty of the input image data for each preset period may include the step of determining the uncertainty for each predetermined number of frames.
  • the default value of the period for determining the uncertainty may be 2 frames or 3 frames.
  • the period for determining the uncertainty may be changed according to a predetermined condition.
  • the period for determining the uncertainty may be changed based on the uncertainty value determined in one frame.
  • one frame may be the last frame for which uncertainty is determined.
  • the controller may select any one of the plurality of quantization models ( S104 ), perform object recognition of the input image data using the selected quantization model, and obtain the image data as the object recognition result.
  • a label corresponding to may be output (S105).
  • the controller may select the first quantization model when the determined uncertainty is equal to or greater than a preset first reference value.
  • the controller may select the third quantization model.
  • the controller may select a first quantization model having relatively high performance to perform object recognition. Conversely, when the uncertainty of the input image data is less than or equal to the second reference value, which is the lower reference value, the controller may select a third quantization model with lower performance to perform object recognition.
  • the selecting of one of the plurality of quantization models based on the determined uncertainty may include selecting one of the plurality of quantization models using the determined uncertainty in the case of a frame for which the uncertainty is determined. and, in the case of a frame in which uncertainty is not determined, selecting any one of the plurality of quantization models using the uncertainty determined in the previous frame.
  • FIG. 2 is a conceptual diagram showing the components of an image recognition apparatus for performing object recognition to which the above-described quantization method is applied.
  • an uncertainty determination unit 202 for performing a precision determination technique for performing a precision determination technique
  • a neural network accelerator 204 for performing dynamic variation with any one of a plurality of quantization models for performing post-processing of object recognition based on a result output from the neural network accelerator 204 is shown.
  • control unit 200 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented
  • the quantization precision of the deep learning network is dynamically changed according to the characteristics of the input data, there is an advantage in that the association efficiency of the deep learning network is maximized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계와, 상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계와, 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계와, 상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계 및 상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 한다.

Description

딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
본 발명은 딥러닝 네트워크의 양자화 정밀도를 동적으로 변경할 수 있는 알고리즘에 관한 것이다.
딥 러닝은 인공 지능(artificial intelligence, AI) 및 컴퓨터 비전(computer vision) 분야에서 널리 사용되는 기술이다. 컨볼루션 뉴럴 네트워크들(convolution neural networks, CNNs), 심층-신뢰 네트워크들(deep-belief networks, DBNs), 및 오토인코더들(autoencoders)과 같은 다양한 딥-러닝 아키텍쳐들은 시각적인 객체 인식, 자동 대화 인식, 자연 언어 처리, 및 음악/음향 신호 처리와 같은 작업들에 대한 최신의 결과들을 생성하는 것으로 보여왔다. 딥 러닝의 주된 노력은 다양한 네트워크 아키텍쳐들, 러닝 알고리즘들, 및 어플리케이션들에 대한 소프트웨어 구현에 포커싱 되어왔다.
최근에는, 심층 신경망(Deep Neural Network, DNN)을 저전력으로 효율적으로 사용하기 위한 하드웨어 가속기에 대한 연구가 활발히 진행되고 있다. 뉴럴 네트워크를 처리하는 장치는 복잡한 입력 데이터에 대한 많은 양의 연산을 필요로 한다.
특히 저전력 및 저성능으로 구현되는 디바이스에서, 뉴럴 네트워크를 이용하여 대량의 입력 데이터를 실시간으로 분석하여 원하는 정보를 추출하기 위해서는 뉴럴 네트워크에 관한 연산을 효율적으로 처리할 수 있는 기술이 요구된다.
구체적으로, 딥러닝 연산량을 줄이기 위해 양자화 방법이 도입되었다. 그러나, 기존의 딥러닝 네트워크 양자화는 학습이 완료되면 레이어마다 비트의 양자화 정밀도가 고정되어, 딥러닝 네트워크의 런타임(Run-time) 시 양자화 정밀도가 변경되지 않으므로, 효율적인 연산을 수행할 수 없는 문제점이 있었다.
즉, 일반적으로 사용되는 딥러닝 네트워크 양자화 기술은, 해당 딥러닝 네트워크가 학습을 마치고 양자화 정밀도가 결정되게 되면, 추후 런타임에는 변경이 불가능한 단점이 있었다.
입력 데이터마다 요구되는 최적의 정밀도가 다를 수 있지만 위와 같은 기존의 양자화 방법으로는 추론 시에 정밀도 가변이 불가능하기 때문에 이에 따른 신경망 가속기의 소비전력 효율이 떨어지는 문제점이 존재한다.
본 발명의 기술적 과제는 위와 같은 기존 양자화의 한계를 극복하고 저전력에서 구현 가능한 딥러닝 네트워크의 양자화 정밀도 가변 알고리즘을 제공하는 것이다.
본 발명의 기술적 과제는 입력 데이터에 따라 양자화 정밀도를 동적으로 변경할 수 있는 딥러닝 네트워크 및 그의 양자화 정밀도 가변 알고리즘을 제공하는 것이다.
본 발명의 기술적 과제는 신경망 가속기의 소비 전력 효율을 향상시키기 위해, 입력 데이터에 최적화된 양자화 정밀도를 적용하여 추론을 할 수 있는 딥러닝 네트워크 및 그의 양자화 정밀도 가변 알고리즘을 제공하는 것이다.
상기한 과제를 해결하기 위해 본 발명은 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계와, 상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계와, 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계와, 상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계 및 상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 입력 데이터의 특성에 따라 딥러닝 네트워크의 양자화 정밀도가 동적으로 변경하므로, 딥러닝 네트워크의 연상 효율성이 극대화되는 장점이 있다.
도 1은 본 발명에 따른 영상인식장치가 수행하는 동적 양자화 방법을 나타내는 흐름도이다.
도 2는 본 발명에 따른 영상인식장치의 제어부에 포함된 구성요소를 나타내는 개념도이다.
도 3은 불확실도 판단 주기와 관련된 개념도이다.
임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계;
상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계;
미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계;
상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계; 및
상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 하는 영상 인식 방법.
본 발명의 목적 및 효과는 다음의 상세한 설명을 통하여 보다 분명해질 것이나 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 이하에서 개시되는 실시 예에 한정되지 않는다. 또한 도면에서 본 발명을 명확하게 개시하기 위해서 본 발명과 관계없는 부분은 생략하였으며, 도면에서 동일하거나 유사한 부호들은 동일하거나 유사한 구성요소들을 나타낸다.
도 1에서는 본 발명에 따른 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘을 적용한 영상 인식 방법이 도시된다.
도 1에 도시된 것과 같이, 본 발명에 따른 영상 인식 장치의 제어부는 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성할 수 있다(S101).
예를 들어, 메인 네트워크를 8비트로 양자화 하여 제1 양자화 모델을 생성할 수 있다. 또한, 메인 네트워크를 4비트로 양자화 하여 제2 양자화 모델을 생성하고, 2비트로 양자화 하여 제3 양자화 모델을 생성할 수 있다.
한편, 상기 예는 설명의 편의를 위한 것이고, 메인 네트워크의 복잡도에 따라, 양자화 모델의 개수는 가변적으로 설정될 수 있으며, 양자화 거리 또한 다양하게 적용될 수 있다.
또한, 양자화 모델의 개수는 영상인식장치의 프로세서 성능이나, 메모리 성능에 따라 가변적으로 조절될 수도 있다.
서버 환경에 비해 전력 소모에 대한 제약이 많은 모바일 환경 또는 엣지 환경에서는 전력 효율을 높이기 위해서 실수 연산을 정수 연산으로 대체하기 위한 데이터 양자화 (quantization) 기술이 개발되고 있다.
신경망 처리에 작은 비트-너비(bit-width)의 정수 연산을 사용하면 단위 연산당 소모 전력과 데이터 전송 전력을 줄일 수 있어 전력 소모 효과가 상당하다.
하지만, 연산 정밀도를 낮춘만큼 인식 정화도가 저하되는 트레이드-오프가 발생하는 문제점이 있다.
본 발명에서는 이를 해결하기 위해, 양자화 모델을 복수 개 생성하고, 입력 데이터의 불확실도에 근거하여 미리 생성된 복수의 양자화 모델 중 어느 하나를 선택함으로써, 성능 저하를 최소화한 가변적 양자화 방법을 제안한다.
양자화 모델링이 완료된 후, 사물인식의 객체인 이미지 데이터를 입력 받는다(S102).
아울러, 본 발명에 따른 영상 인식 장치의 제어부는 입력된 이미지 데이터의 불확실도를 판단할 수 있다(S103).
상술한 바와 같이 복수의 양자화 모델 중 어느 하나를 가변적으로 적용하기 위해서, 본 발명에 따른 영상 인식 장치의 제어부는 입력된 이미지 데이터의 불확실도를 판단할 수 있다.
구체적으로, 상기 제어부는 메인 네트워크의 사물인식과 관련된 클래스에 근거하여, 상기 이미지 데이터의 불확실도를 판단할 수 있다.
다만, 불확실도 판단 단계(S103)를 수행하기 위해 소요되는 연산량은 딥러닝 네트워크가 사물인식을 수행하기 위해 소요되는 연산량보다 작다.
즉, 불확실도 판단 단계(S103)를 수행하는 별도의 네트워크로서, 제어부는 불확실도 판단 네트워크를 상술한 메인 네트워크와 별도로 탑재할 수 있다.
이때, 불확실도 판단 네트워크는, 메인 네트워크(딥러닝 네트워크)보다 작은 수의 레이어로 구성되는 것이 바람직하다.
한편, 다른 실시예에서, 불확실도를 이미지 데이터의 매 프레임마다 판단하지 않고, 이전 프레임의 메인 네트워크에서 추출된 불확실도를 활용하는 경우, 불확실도 판단 네트워크를 사용하지 않을 수도 있다. 불확실도를 일정 주기의 프레임마다 판단하는 실시예에 대해서는 이하 도 3과 관련된 설명에서 보다 자세히 서술한다.
또한, 불확실도 판단 단계(S103) 역시, 상기 불확실도 판단 네트워크를 소정의 비트 수로 양자화한 모델에 의해 수행되는 것이 바람직하다.
일 실시예에서, 불확실도를 판단하는 단계(103)는, 입력된 이미지 데이터가 딥러닝 네트워크의 사물인식과 관련된 복수의 클래스에 대응될 확률을 산출하는 과정과, 복수의 클래스 별로 산출된 확률에 근거하여 불확실도 점수를 산출하는 과정을 포함할 수 있다.
일 실시예에서, 불확실도는 입력된 이미지 데이터의 매 프레임 마다 판단될 수 있다.
다른 실시예에서, 도 3을 참조하면, 불확실도는 입력된 이미지 데이터에 대해, 미리 설정된 주기마다 판단될 수 있다.
즉, 미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계는, 소정 개수의 프레임 마다 불확실도를 판단하는 과정을 포함할 수 있다.
이와 같이, 매 프레임마다 불확실도를 판단하지 않고, 일정 주기마다 판단하는 경우, 불확실도를 판단하기 위한 연산량을 감소시킬 수 있는 효과가 도출된다.
동영상과 같은 연속성을 가진 이미지 데이터의 경우, 불확실도를 판단하지 않는 프레임에 대해서는, 이전 프레임에서 판단 또는 산출된 불확실도를 이용하더라도 정확도 측면에서 거의 손해가 없으므로, 매 프레임이 아닌 일정 주기의 프레임 마다 불확실도를 산출함으로써, 효율적인 연산이 가능하다.
일 예에서, 불확실도를 판단하는 주기의 디폴트 값은 2 프레임 또는 3 프레임일 수 있다. 아울러, 불확실도를 판단하는 주기는 소정의 조건에 따라 변경될 수도 있다.
예를 들어, 불확실도를 판단하는 주기는 일 프레임에서 판단된 불확실도 값에 근거하여 변경될 수 있다. 여기에서 일 프레임은 마지막으로 불확실도가 판단된 프레임일 수 있다.
이와 같이, 불확실도가 판단되면, 제어부는 복수의 양자화 모델 중 어느 하나를 선택(S104)할 수 있으며, 선택된 양자화 모델을 이용하여 입력된 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력(S105)할 수 있다.
구체적으로 제어부는 복수의 양자화 모델 중 어느 하나를 선택하는 단계(S104)를 수행함에 있어서, 판단된 불확실도가 미리 설정된 제1 기준치 이상인 경우, 제1 양자화 모델을 선택할 수 있다.
또한, 제어부는 판단된 불확실도가 미리 설정된 제2 기준치 이하인 경우, 제3 양자화 모델을 선택할 수 있다.
즉, 제어부는 입력 이미지 데이터의 불확실도가 상한 기준치인 제1 기준치 이상인 경우, 상대적으로 성능이 높은 제1 양자화 모델을 선택하여 사물인식을 수행할 수 있다. 반대로, 제어부는 입력 이미지 데이터의 불확실도가 하한 기준치인 제2 기준치 이하인 경우, 보다 성능이 낮은 제3 양자화 모델을 선택하여 사물인식을 수행할 수 있다.
일 실시예에서, 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는, 불확실도가 판단된 프레임의 경우, 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정과, 불확실도가 판단되지 않은 프레임의 경우, 이전 프레임에서 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정을 포함할 수 있다.
이와 같이, 본 발명에서는 사물인식을 수행하는 양자화 모델을 가변적으로 선택함으로써, 전력 소모와 성능 유지 목표를 동시에 달성할 수 있다.
도 2에서는 상술한 양자화 방법을 적용한 사물인식을 수행하는 영상인식장치의 구성요소를 나타내는 개념도가 도시된다.
도 2를 참조하면, 영상인식장치의 제어부(200)의 구성요소로서, 정밀도 결정기술을 수행하는 불확실도 판단부(202), 복수의 양자화 모델 중 어느 하나로 동적 가변을 수행하는 신경망 가속기(204), 신경망 가속기(204)로부터 출력받은 결과를 근거로, 사물인식 후처리를 수행하는 후처리부(205)가 도시된다.
상기 제어부(200)의 구성요소들은 물리적으로 동일한 연산장치에 구현될 수도 있으며, 필요에 따라 서로 다른 연산장치에 구현될 수도 있다. 일 예로, 후처리부(20
상기한 본 발명의 바람직한 실시예는 예시의 목적으로 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경 및 부가가 가능할 것이며 이러한 수정, 변경 및 부가는 상기의 특허청구 범위에 속하는 것으로 보아야 할 것이다. 또한 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상술한 예시적인 시스템에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타낸 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
본 발명에 따르면, 입력 데이터의 특성에 따라 딥러닝 네트워크의 양자화 정밀도가 동적으로 변경하므로, 딥러닝 네트워크의 연상 효율성이 극대화되는 장점이 있다.

Claims (9)

  1. 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계;
    상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계;
    미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계;
    상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계; 및
    상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 하는 영상 인식 방법.
  2. 제1항에 있어서,
    상기 미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계는,
    소정 개수의 프레임 마다 불확실도를 판단하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  3. 제2항에 있어서,
    상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,
    불확실도가 판단된 프레임의 경우, 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정과,
    불확실도가 판단되지 않은 프레임의 경우, 이전 프레임에서 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  4. 제2항에 있어서,
    상기 판단된 불확실도에 근거하여, 불확실도를 판단하는 주기를 변경하는 단계를 더 포함하는 것을 특징으로 하는 영상 인식 방법.
  5. 제1항에 있어서,
    상기 복수의 양자화 모델을 생성하는 단계는,
    8 비트에 대응되는 제1 양자화 모델을 생성하는 과정과,
    4 비트에 대응되는 제2 양자화 모델을 생성하는 과정과,
    2 비트에 대응되는 제3 양자화 모델을 생성하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  6. 제5항에 있어서,
    상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,
    상기 판단된 불확실도가 미리 설정된 제1 기준치 이상인 경우, 제1 양자화 모델을 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  7. 제6항에 있어서,
    상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,
    상기 판단된 불확실도가 미리 설정된 제2 기준치 이하인 경우, 제3 양자화 모델을 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  8. 제1항에 있어서,
    상기 불확실도를 판단하는 단계는,
    상기 입력된 이미지 데이터가 상기 딥러닝 네트워크의 사물인식과 관련된 복수의 클래스에 대응될 확률을 산출하는 과정과,
    상기 복수의 클래스 별로 산출된 확률에 근거하여 불확실도 점수를 산출하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  9. 제1항에 있어서,
    상기 불확실도를 판단하는 단계는,
    상기 딥러닝 네트워크와 별도의 불확실도 판단 네트워크에 의해 수행되며,
    상기 불확실도 판단 네트워크는, 상기 딥러닝 네트워크보다 작은 수의 레이어로 구성되는 것을 특징으로 하는 영상 인식 방법.
PCT/KR2021/020293 2020-12-31 2021-12-30 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법 WO2022146080A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/270,649 US20240071070A1 (en) 2020-12-31 2021-12-30 Algorithm and method for dynamically changing quantization precision of deep-learning network

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0190012 2020-12-31
KR20200190012 2020-12-31

Publications (1)

Publication Number Publication Date
WO2022146080A1 true WO2022146080A1 (ko) 2022-07-07

Family

ID=82259953

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/020293 WO2022146080A1 (ko) 2020-12-31 2021-12-30 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법

Country Status (3)

Country Link
US (1) US20240071070A1 (ko)
KR (1) KR20220097329A (ko)
WO (1) WO2022146080A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240026400A (ko) * 2022-08-19 2024-02-28 한국전자기술연구원 딥러닝 기반의 행동인식 장치 및 방법
KR20240031702A (ko) 2022-09-01 2024-03-08 주식회사 이엠텍 신경망 모델의 양자화 파라미터 설정 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102029852B1 (ko) * 2019-04-09 2019-10-08 세종대학교 산학협력단 환경에 따라 신경망 모델을 선택하는 객체 인식 장치 및 그 방법
CN110689112A (zh) * 2019-09-02 2020-01-14 杭州深睿博联科技有限公司 数据处理的方法及装置
KR20200075071A (ko) * 2018-12-07 2020-06-26 서울대학교산학협력단 불확실성 예측을 위한 샘플링 모델 생성 장치 및 방법, 불확실성 예측 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200075071A (ko) * 2018-12-07 2020-06-26 서울대학교산학협력단 불확실성 예측을 위한 샘플링 모델 생성 장치 및 방법, 불확실성 예측 장치
KR102029852B1 (ko) * 2019-04-09 2019-10-08 세종대학교 산학협력단 환경에 따라 신경망 모델을 선택하는 객체 인식 장치 및 그 방법
CN110689112A (zh) * 2019-09-02 2020-01-14 杭州深睿博联科技有限公司 数据处理的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIN QING; YANG LINJIE; LIAO ZHENYU: "AdaBits: Neural Network Quantization With Adaptive Bit-Widths", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 13 June 2020 (2020-06-13), pages 2143 - 2153, XP033803607, DOI: 10.1109/CVPR42600.2020.00222 *
PRATEETH NAYAK; DAVID ZHANG; SEK CHAI: "Bit Efficient Quantization for Deep Neural Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 7 October 2019 (2019-10-07), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081513832 *

Also Published As

Publication number Publication date
KR20220097329A (ko) 2022-07-07
US20240071070A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
WO2022146080A1 (ko) 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
WO2020159016A1 (ko) 하드웨어 구현에 적합한 신경망 파라미터 최적화 방법, 신경망 연산방법 및 그 장치
CN113469355B (zh) 分布式系统中的多模型训练管道
CN112101525A (zh) 一种通过nas设计神经网络的方法、装置和系统
CN109871942B (zh) 神经网络的训练方法和装置、系统、存储介质
CN113792621B (zh) 一种基于fpga的目标检测加速器设计方法
WO2020165629A1 (en) Quality monitoring and hidden quantization in artificial neural network computations
US11366984B1 (en) Verifying a target object based on confidence coefficients generated by trained models
WO2022145550A1 (ko) 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
WO2020091139A1 (ko) 시뮬레이션-가이드된 반복적 프루닝을 사용하는 효율적인 네트워크 압축
WO2022163985A1 (ko) 인공지능 추론모델을 경량화하는 방법 및 시스템
WO2023113372A1 (ko) 불균형 데이터에 대한 딥러닝 분류 모델 성능을 향상시키기 위한 레이블 기반 샘플 추출 장치 및 그 방법
CN113139650A (zh) 深度学习模型的调优方法和计算装置
WO2022080790A1 (en) Systems and methods for automatic mixed-precision quantization search
WO2023033194A1 (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
WO2023017884A1 (ko) 디바이스에서 딥러닝 모델의 레이턴시를 예측하는 방법 및 시스템
CN115906936A (zh) 一种神经网络训练及推理方法、装置、终端及存储介质
CN114282665A (zh) 神经网络模型的并行训练方法、装置以及电子设备
CN113269320A (zh) 处理单元、计算装置、片上系统、数据中心和相关方法
CN113971454A (zh) 深度学习模型的量化方法和相关装置
WO2023090499A1 (ko) 심층신경망을 위한 희소성 학습 기반 필터 프루닝 기법
WO2023080292A1 (ko) 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
WO2023022255A1 (ko) 프루닝을 이용한 딥러닝 모델 경량화 방법 및 시스템
WO2023277448A1 (ko) 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템
WO2022107951A1 (ko) 초경량 딥러닝 네트워크 학습 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21915877

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18270649

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21915877

Country of ref document: EP

Kind code of ref document: A1