WO2022145550A1 - 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법 - Google Patents

딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법 Download PDF

Info

Publication number
WO2022145550A1
WO2022145550A1 PCT/KR2020/019503 KR2020019503W WO2022145550A1 WO 2022145550 A1 WO2022145550 A1 WO 2022145550A1 KR 2020019503 W KR2020019503 W KR 2020019503W WO 2022145550 A1 WO2022145550 A1 WO 2022145550A1
Authority
WO
WIPO (PCT)
Prior art keywords
quantization
deep learning
uncertainty
image data
learning network
Prior art date
Application number
PCT/KR2020/019503
Other languages
English (en)
French (fr)
Inventor
류욱상
이혁재
류수정
전지예
임경종
Original Assignee
서울대학교산학렵력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학렵력단 filed Critical 서울대학교산학렵력단
Priority to US18/270,638 priority Critical patent/US20240062537A1/en
Priority to PCT/KR2020/019503 priority patent/WO2022145550A1/ko
Publication of WO2022145550A1 publication Critical patent/WO2022145550A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to an algorithm capable of dynamically changing the quantization precision of a deep learning network.
  • Deep learning is a widely used technology in the fields of artificial intelligence (AI) and computer vision.
  • Various deep-learning architectures such as convolutional neural networks (CNNs), deep-belief networks (DBNs), and autoencoders, are used for visual object recognition, automatic dialog recognition , natural language processing, and music/acoustic signal processing have been shown to produce state-of-the-art results.
  • CNNs convolutional neural networks
  • DNNs deep-belief networks
  • autoencoders are used for visual object recognition, automatic dialog recognition , natural language processing, and music/acoustic signal processing have been shown to produce state-of-the-art results.
  • a major effort in deep learning has been focused on software implementations for various network architectures, learning algorithms, and applications.
  • DNN deep neural network
  • a quantization method was introduced to reduce the amount of deep learning computation.
  • the quantization precision of bits is fixed for each layer when learning is completed, and the quantization precision does not change at runtime of the deep learning network. there was.
  • a commonly used deep learning network quantization technique has a disadvantage that it cannot be changed at runtime after the deep learning network finishes learning and the quantization precision is determined.
  • Deep learning is a widely used technology in the fields of artificial intelligence (AI) and computer vision.
  • Various deep-learning architectures such as convolutional neural networks (CNNs), deep-belief networks (DBNs), and autoencoders, are used for visual object recognition, automatic dialog recognition , natural language processing, and music/acoustic signal processing have been shown to produce state-of-the-art results.
  • CNNs convolutional neural networks
  • DNNs deep-belief networks
  • autoencoders are used for visual object recognition, automatic dialog recognition , natural language processing, and music/acoustic signal processing have been shown to produce state-of-the-art results.
  • a major effort in deep learning has been focused on software implementations for various network architectures, learning algorithms, and applications.
  • DNN deep neural network
  • a quantization method was introduced to reduce the amount of deep learning computation.
  • the quantization precision of bits is fixed for each layer when learning is completed, and the quantization precision does not change at runtime of the deep learning network. there was.
  • a commonly used deep learning network quantization technique has a disadvantage that it cannot be changed at runtime after the deep learning network finishes learning and the quantization precision is determined.
  • the present invention performs quantization corresponding to a plurality of different number of bits for a deep learning network that performs object recognition on an arbitrary image, and quantizes a plurality of quantizations corresponding to the number of bits, respectively.
  • generating a model receiving image data as an input of the deep learning network; determining uncertainty of the input image data; based on the determined uncertainty, among the plurality of quantization models Selecting one, performing object recognition of the image data using the selected quantization model, and outputting a label corresponding to the image data as an object recognition result.
  • FIG. 1 is a flowchart illustrating a dynamic quantization method performed by an image recognition apparatus according to the present invention.
  • FIG. 2 is a conceptual diagram illustrating components included in the control unit of the image recognition apparatus according to the present invention.
  • the first quantization model may be generated by quantizing the main network to 8 bits.
  • a second quantization model may be generated by quantizing the main network to 4 bits
  • a third quantization model may be generated by quantizing the main network to 2 bits.
  • the present invention proposes a variable quantization method that minimizes performance degradation by generating a plurality of quantization models and selecting one of a plurality of quantization models generated in advance based on the uncertainty of input data.
  • controller of the image recognition apparatus may determine the uncertainty of the input image data (S103).
  • the controller of the image recognition apparatus may determine the uncertainty of the input image data.
  • the controller may determine the uncertainty of the image data based on a class related to object recognition of the main network.
  • the amount of computation required to perform the uncertainty determination step S103 is smaller than the amount of computation required for the deep learning network to perform object recognition.
  • the controller may select any one of the plurality of quantization models ( S104 ), perform object recognition of the input image data using the selected quantization model, and obtain the image data as the object recognition result.
  • a label corresponding to can be output (S105).
  • the controller may select a first quantization model having relatively high performance to perform object recognition. Conversely, when the uncertainty of the input image data is less than or equal to the second reference value, which is the lower reference value, the controller may select a third quantization model with lower performance to perform object recognition.
  • FIG. 2 is a conceptual diagram showing the components of an image recognition apparatus for performing object recognition to which the above-described quantization method is applied.
  • control unit 200 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented in different arithmetic units if necessary.
  • the post-processing unit 20 may be physically implemented in the same arithmetic unit, or may be implemented
  • the quantization precision of the deep learning network is dynamically changed according to the characteristics of the input data, there is an advantage in that the association efficiency of the deep learning network is maximized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계와, 상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계와, 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계와, 상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계 및 상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 한다.

Description

딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
본 발명은 딥러닝 네트워크의 양자화 정밀도를 동적으로 변경할 수 있는 알고리즘에 관한 것이다.
딥 러닝은 인공 지능(artificial intelligence, AI) 및 컴퓨터 비전(computer vision) 분야에서 널리 사용되는 기술이다. 컨볼루션 뉴럴 네트워크들(convolution neural networks, CNNs), 심층-신뢰 네트워크들(deep-belief networks, DBNs), 및 오토인코더들(autoencoders)과 같은 다양한 딥-러닝 아키텍쳐들은 시각적인 객체 인식, 자동 대화 인식, 자연 언어 처리, 및 음악/음향 신호 처리와 같은 작업들에 대한 최신의 결과들을 생성하는 것으로 보여왔다. 딥 러닝의 주된 노력은 다양한 네트워크 아키텍쳐들, 러닝 알고리즘들, 및 어플리케이션들에 대한 소프트웨어 구현에 포커싱 되어왔다.
최근에는, 심층 신경망(Deep Neural Network, DNN)을 저전력으로 효율적으로 사용하기 위한 하드웨어 가속기에 대한 연구가 활발히 진행되고 있다. 뉴럴 네트워크를 처리하는 장치는 복잡한 입력 데이터에 대한 많은 양의 연산을 필요로 한다.
특히 저전력 및 저성능으로 구현되는 디바이스에서, 뉴럴 네트워크를 이용하여 대량의 입력 데이터를 실시간으로 분석하여 원하는 정보를 추출하기 위해서는 뉴럴 네트워크에 관한 연산을 효율적으로 처리할 수 있는 기술이 요구된다.
구체적으로, 딥러닝 연산량을 줄이기 위해 양자화 방법이 도입되었다. 그러나, 기존의 딥러닝 네트워크 양자화는 학습이 완료되면 레이어마다 비트의 양자화 정밀도가 고정되어, 딥러닝 네트워크의 런타임(Run-time) 시 양자화 정밀도가 변경되지 않으므로, 효율적인 연산을 수행할 수 없는 문제점이 있었다.
즉, 일반적으로 사용되는 딥러닝 네트워크 양자화 기술은, 해당 딥러닝 네트워크가 학습을 마치고 양자화 정밀도가 결정되게 되면, 추후 런타임에는 변경이 불가능한 단점이 있었다.
입력 데이터마다 요구되는 최적의 정밀도가 다를 수 있지만 위와 같은 기존의 양자화 방법으로는 추론 시에 정밀도 가변이 불가능하기 때문에 이에 따른 신경망 가속기의 소비전력 효율이 떨어지는 문제점이 존재한다.
딥 러닝은 인공 지능(artificial intelligence, AI) 및 컴퓨터 비전(computer vision) 분야에서 널리 사용되는 기술이다. 컨볼루션 뉴럴 네트워크들(convolution neural networks, CNNs), 심층-신뢰 네트워크들(deep-belief networks, DBNs), 및 오토인코더들(autoencoders)과 같은 다양한 딥-러닝 아키텍쳐들은 시각적인 객체 인식, 자동 대화 인식, 자연 언어 처리, 및 음악/음향 신호 처리와 같은 작업들에 대한 최신의 결과들을 생성하는 것으로 보여왔다. 딥 러닝의 주된 노력은 다양한 네트워크 아키텍쳐들, 러닝 알고리즘들, 및 어플리케이션들에 대한 소프트웨어 구현에 포커싱 되어왔다.
최근에는, 심층 신경망(Deep Neural Network, DNN)을 저전력으로 효율적으로 사용하기 위한 하드웨어 가속기에 대한 연구가 활발히 진행되고 있다. 뉴럴 네트워크를 처리하는 장치는 복잡한 입력 데이터에 대한 많은 양의 연산을 필요로 한다.
특히 저전력 및 저성능으로 구현되는 디바이스에서, 뉴럴 네트워크를 이용하여 대량의 입력 데이터를 실시간으로 분석하여 원하는 정보를 추출하기 위해서는 뉴럴 네트워크에 관한 연산을 효율적으로 처리할 수 있는 기술이 요구된다.
구체적으로, 딥러닝 연산량을 줄이기 위해 양자화 방법이 도입되었다. 그러나, 기존의 딥러닝 네트워크 양자화는 학습이 완료되면 레이어마다 비트의 양자화 정밀도가 고정되어, 딥러닝 네트워크의 런타임(Run-time) 시 양자화 정밀도가 변경되지 않으므로, 효율적인 연산을 수행할 수 없는 문제점이 있었다.
즉, 일반적으로 사용되는 딥러닝 네트워크 양자화 기술은, 해당 딥러닝 네트워크가 학습을 마치고 양자화 정밀도가 결정되게 되면, 추후 런타임에는 변경이 불가능한 단점이 있었다.
입력 데이터마다 요구되는 최적의 정밀도가 다를 수 있지만 위와 같은 기존의 양자화 방법으로는 추론 시에 정밀도 가변이 불가능하기 때문에 이에 따른 신경망 가속기의 소비전력 효율이 떨어지는 문제점이 존재한다.
상기한 과제를 해결하기 위해 본 발명은 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계와, 상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계와, 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계와, 상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계 및 상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 입력 데이터의 특성에 따라 딥러닝 네트워크의 양자화 정밀도가 동적으로 변경하므로, 딥러닝 네트워크의 연상 효율성이 극대화되는 장점이 있다.
도 1은 본 발명에 따른 영상인식장치가 수행하는 동적 양자화 방법을 나타내는 흐름도이다.
도 2는 본 발명에 따른 영상인식장치의 제어부에 포함된 구성요소를 나타내는 개념도이다.
임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계;
상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계;
상기 입력된 이미지 데이터의 불확실도를 판단하는 단계;
상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계; 및
상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 영상 인식 방법.
본 발명의 목적 및 효과는 다음의 상세한 설명을 통하여 보다 분명해질 것이나 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 이하에서 개시되는 실시 예에 한정되지 않는다. 또한 도면에서 본 발명을 명확하게 개시하기 위해서 본 발명과 관계없는 부분은 생략하였으며, 도면에서 동일하거나 유사한 부호들은 동일하거나 유사한 구성요소들을 나타낸다.
도 1에서는 본 발명에 따른 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘을 적용한 영상 인식 방법이 도시된다.
도 1에 도시된 것과 같이, 본 발명에 따른 영상 인식 장치의 제어부는 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성할 수 있다(S101).
예를 들어, 메인 네트워크를 8비트로 양자화 하여 제1 양자화 모델을 생성할 수 있다. 또한, 메인 네트워크를 4비트로 양자화 하여 제2 양자화 모델을 생성하고, 2비트로 양자화 하여 제3 양자화 모델을 생성할 수 있다.
한편, 상기 예는 설명의 편의를 위한 것이고, 메인 네트워크의 복잡도에 따라, 양자화 모델의 개수는 가변적으로 설정될 수 있으며, 양자화 거리 또한 다양하게 적용될 수 있다.
또한, 양자화 모델의 개수는 영상인식장치의 프로세서 성능이나, 메모리 성능에 따라 가변적으로 조절될 수도 있다.
서버 환경에 비해 전력 소모에 대한 제약이 많은 모바일 환경 또는 엣지 환경에서는 전력 효율을 높이기 위해서 실수 연산을 정수 연산으로 대체하기 위한 데이터 양자화 (quantization) 기술이 개발되고 있다.
신경망 처리에 작은 비트-너비(bit-width)의 정수 연산을 사용하면 단위 연산당 소모 전력과 데이터 전송 전력을 줄일 수 있어 전력 소모 효과가 상당하다.
하지만, 연산 정밀도를 낮춘만큼 인식 정화도가 저하되는 트레이드-오프가 발생하는 문제점이 있다.
본 발명에서는 이를 해결하기 위해, 양자화 모델을 복수 개 생성하고, 입력 데이터의 불확실도에 근거하여 미리 생성된 복수의 양자화 모델 중 어느 하나를 선택함으로써, 성능 저하를 최소화한 가변적 양자화 방법을 제안한다.
양자화 모델링이 완료된 후, 사물인식의 객체인 이미지 데이터를 입력 받는다(S102).
아울러, 본 발명에 따른 영상 인식 장치의 제어부는 입력된 이미지 데이터의 불확실도를 판단할 수 있다(S103).
상술한 바와 같이 복수의 양자화 모델 중 어느 하나를 가변적으로 적용하기 위해서, 본 발명에 따른 영상 인식 장치의 제어부는 입력된 이미지 데이터의 불확실도를 판단할 수 있다.
구체적으로, 상기 제어부는 메인 네트워크의 사물인식과 관련된 클래스에 근거하여, 상기 이미지 데이터의 불확실도를 판단할 수 있다.
다만, 불확실도 판단 단계(S103)를 수행하기 위해 소요되는 연산량은 딥러닝 네트워크가 사물인식을 수행하기 위해 소요되는 연산량보다 작다.
즉, 불확실도 판단 단계(S103)를 수행하는 별도의 네트워크로서, 제어부는 불확실도 판단 네트워크를 상술한 메인 네트워크와 별도로 탑재할 수 있다.
이때, 불확실도 판단 네트워크는, 메인 네트워크(딥러닝 네트워크)보다 작은 수의 레이어로 구성되는 것이 바람직하다.
또한, 불확실도 판단 단계(S103) 역시, 상기 불확실도 판단 네트워크를 소정의 비트 수로 양자화한 모델에 의해 수행되는 것이 바람직하다.
일 실시예에서, 불확실도를 판단하는 단계(103)는, 입력된 이미지 데이터가 딥러닝 네트워크의 사물인식과 관련된 복수의 클래스에 대응될 확률을 산출하는 과정과, 복수의 클래스 별로 산출된 확률에 근거하여 불확실도 점수를 산출하는 과정을 포함할 수 있다.
이와 같이, 불확실도가 판단되면, 제어부는 복수의 양자화 모델 중 어느 하나를 선택(S104)할 수 있으며, 선택된 양자화 모델을 이용하여 입력된 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력(S105)할 수 있다.
구체적으로 제어부는 복수의 양자화 모델 중 어느 하나를 선택하는 단계(S104)를 수행함에 있어서, 판단된 불확실도가 미리 설정된 제1 기준치 이상인 경우, 제1 양자화 모델을 선택할 수 있다.
또한, 제어부는 판단된 불확실도가 미리 설정된 제2 기준치 이하인 경우, 제3 양자화 모델을 선택할 수 있다.
즉, 제어부는 입력 이미지 데이터의 불확실도가 상한 기준치인 제1 기준치 이상인 경우, 상대적으로 성능이 높은 제1 양자화 모델을 선택하여 사물인식을 수행할 수 있다. 반대로, 제어부는 입력 이미지 데이터의 불확실도가 하한 기준치인 제2 기준치 이하인 경우, 보다 성능이 낮은 제3 양자화 모델을 선택하여 사물인식을 수행할 수 있다.
이와 같이, 본 발명에서는 사물인식을 수행하는 양자화 모델을 가변적으로 선택함으로써, 전력 소모와 성능 유지 목표를 동시에 달성할 수 있다.
도 2에서는 상술한 양자화 방법을 적용한 사물인식을 수행하는 영상인식장치의 구성요소를 나타내는 개념도가 도시된다.
도 2를 참조하면, 영상인식장치의 제어부(200)의 구성요소로서, 정밀도 결정기술을 수행하는 불확실도 판단부(202), 복수의 양자화 모델 중 어느 하나로 동적 가변을 수행하는 신경망 가속기(204), 신경망 가속기(204)로부터 출력받은 결과를 근거로, 사물인식 후처리를 수행하는 후처리부(205)가 도시된다.
상기 제어부(200)의 구성요소들은 물리적으로 동일한 연산장치에 구현될 수도 있으며, 필요에 따라 서로 다른 연산장치에 구현될 수도 있다. 일 예로, 후처리부(20
상기한 본 발명의 바람직한 실시예는 예시의 목적으로 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경 및 부가가 가능할 것이며 이러한 수정, 변경 및 부가는 상기의 특허청구 범위에 속하는 것으로 보아야 할 것이다. 또한 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상술한 예시적인 시스템에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타낸 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
[이 발명을 지원한 국가연구개발사업]
과제고유번호: 1711117125
과제번호: 2020-0-01080-001
부처명: 과학기술정보통신부
과제관리(전문)기관명: 정보통신기획평가원
연구사업명 : 차세대지능형반도체기술개발(설계)(R&D)
연구과제명 : 가변 정밀도 고속-다중 사물인식 딥러닝 프로세서 기술 개발
기여율: 1/1
과제수행기관명: 오픈엣지테크놀로지 주식회사
연구기간: 2020. 04. 01 ~ 2020. 12. 31
본 발명에 따르면, 입력 데이터의 특성에 따라 딥러닝 네트워크의 양자화 정밀도가 동적으로 변경하므로, 딥러닝 네트워크의 연상 효율성이 극대화되는 장점이 있다.

Claims (6)

  1. 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계;
    상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계;
    상기 입력된 이미지 데이터의 불확실도를 판단하는 단계;
    상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계; 및
    상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 영상 인식 방법.
  2. 제1항에 있어서,
    상기 복수의 양자화 모델을 생성하는 단계는,
    8 비트에 대응되는 제1 양자화 모델을 생성하는 과정과,
    4 비트에 대응되는 제2 양자화 모델을 생성하는 과정과,
    2 비트에 대응되는 제3 양자화 모델을 생성하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  3. 제2항에 있어서,
    상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,
    상기 판단된 불확실도가 미리 설정된 제1 기준치 이상인 경우, 제1 양자화 모델을 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  4. 제3항에 있어서,
    상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,
    상기 판단된 불확실도가 미리 설정된 제2 기준치 이하인 경우, 제3 양자화 모델을 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  5. 제1항에 있어서,
    상기 불확실도를 판단하는 단계는,
    상기 입력된 이미지 데이터가 상기 딥러닝 네트워크의 사물인식과 관련된 복수의 클래스에 대응될 확률을 산출하는 과정과,
    상기 복수의 클래스 별로 산출된 확률에 근거하여 불확실도 점수를 산출하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
  6. 제1항에 있어서,
    상기 불확실도를 판단하는 단계는,
    상기 딥러닝 네트워크와 별도의 불확실도 판단 네트워크에 의해 수행되며,
    상기 불확실도 판단 네트워크는, 상기 딥러닝 네트워크보다 작은 수의 레이어로 구성되는 것을 특징으로 하는 영상 인식 방법.
PCT/KR2020/019503 2020-12-31 2020-12-31 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법 WO2022145550A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/270,638 US20240062537A1 (en) 2020-12-31 2020-12-31 Algorithm and method for dynamically varying quantization precision of deep learning network
PCT/KR2020/019503 WO2022145550A1 (ko) 2020-12-31 2020-12-31 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/019503 WO2022145550A1 (ko) 2020-12-31 2020-12-31 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법

Publications (1)

Publication Number Publication Date
WO2022145550A1 true WO2022145550A1 (ko) 2022-07-07

Family

ID=82259251

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/019503 WO2022145550A1 (ko) 2020-12-31 2020-12-31 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법

Country Status (2)

Country Link
US (1) US20240062537A1 (ko)
WO (1) WO2022145550A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328646A1 (en) * 2015-05-08 2016-11-10 Qualcomm Incorporated Fixed point neural network based on floating point neural network quantization
US20180285736A1 (en) * 2017-04-04 2018-10-04 Hailo Technologies Ltd. Data Driven Quantization Optimization Of Weights And Input Data In An Artificial Neural Network
US20190188557A1 (en) * 2017-12-20 2019-06-20 Advanced Micro Devices, Inc. Adaptive quantization for neural networks
KR20190076916A (ko) * 2017-12-22 2019-07-02 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
US20200394523A1 (en) * 2019-06-12 2020-12-17 Shanghai Cambricon Information Technology Co., Ltd Neural Network Quantization Parameter Determination Method and Related Products

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328646A1 (en) * 2015-05-08 2016-11-10 Qualcomm Incorporated Fixed point neural network based on floating point neural network quantization
US20180285736A1 (en) * 2017-04-04 2018-10-04 Hailo Technologies Ltd. Data Driven Quantization Optimization Of Weights And Input Data In An Artificial Neural Network
US20190188557A1 (en) * 2017-12-20 2019-06-20 Advanced Micro Devices, Inc. Adaptive quantization for neural networks
KR20190076916A (ko) * 2017-12-22 2019-07-02 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
US20200394523A1 (en) * 2019-06-12 2020-12-17 Shanghai Cambricon Information Technology Co., Ltd Neural Network Quantization Parameter Determination Method and Related Products

Also Published As

Publication number Publication date
US20240062537A1 (en) 2024-02-22

Similar Documents

Publication Publication Date Title
WO2022146080A1 (ko) 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
US11295208B2 (en) Robust gradient weight compression schemes for deep learning applications
CN112101525A (zh) 一种通过nas设计神经网络的方法、装置和系统
CN110969251A (zh) 基于无标签数据的神经网络模型量化方法及装置
CN113469355B (zh) 分布式系统中的多模型训练管道
CN113821332B (zh) 自动机器学习系统效能调优方法、装置、设备及介质
CN110689136B (zh) 一种深度学习模型获得方法、装置、设备及存储介质
WO2023207039A1 (zh) 数据处理方法、装置、设备以及存储介质
CN109214543A (zh) 数据处理方法及装置
WO2022145550A1 (ko) 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
WO2022163985A1 (ko) 인공지능 추론모델을 경량화하는 방법 및 시스템
CN113139650A (zh) 深度学习模型的调优方法和计算装置
CN114548382B (zh) 迁移训练方法、装置、设备、存储介质及程序产品
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
WO2024135870A1 (ko) 효율적인 객체 감지를 위한 입력 단위 네트워크 양자화 방법을 수행하는 영상인식장치
CN114282665A (zh) 神经网络模型的并行训练方法、装置以及电子设备
WO2020184892A1 (ko) 모바일 앱 사용자의 빅데이터 분석 모델 실시간 생성을 위한 딥러닝 오차 최소화 시스템 및 그 제어방법
WO2024128372A1 (ko) 차세대 고속 경량 객체인식 fpga npu 시스템을 위한 계산유닛, 버퍼 및 데이터 이동 최적화 방법론
CN113239077B (zh) 一种基于神经网络的搜索方法、系统和计算机可读存储介质
WO2023080292A1 (ko) 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
WO2023022255A1 (ko) 프루닝을 이용한 딥러닝 모델 경량화 방법 및 시스템
CN116959489B (zh) 语音模型的量化方法、装置、服务器及存储介质
CN110598578B (zh) 身份识别方法、身份识别系统的训练方法、装置及设备
WO2022107951A1 (ko) 초경량 딥러닝 네트워크 학습 방법
CN112766490B (zh) 特征变量学习方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20968094

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18270638

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20968094

Country of ref document: EP

Kind code of ref document: A1