WO2023128024A1 - 딥러닝 네트워크 양자화 처리 방법 및 시스템 - Google Patents

딥러닝 네트워크 양자화 처리 방법 및 시스템 Download PDF

Info

Publication number
WO2023128024A1
WO2023128024A1 PCT/KR2021/020322 KR2021020322W WO2023128024A1 WO 2023128024 A1 WO2023128024 A1 WO 2023128024A1 KR 2021020322 W KR2021020322 W KR 2021020322W WO 2023128024 A1 WO2023128024 A1 WO 2023128024A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
quantization
convolution operation
deep learning
learning network
Prior art date
Application number
PCT/KR2021/020322
Other languages
English (en)
French (fr)
Inventor
이상설
성민용
장성준
박종희
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2023128024A1 publication Critical patent/WO2023128024A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/153Multidimensional correlation or convolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a method and system for processing data through a deep learning network, and more particularly, a network lightweight technology for improving the speed of deep learning inference and reducing the size of network parameters in processing data through a deep learning network. It relates to a quantization processing method and system.
  • Deep learning networks are introducing various lightweight algorithms due to the size of parameters and the amount of computation.
  • Quantization technology a representative lightweight algorithm, is a technology that is essential for network operation in hardware deep learning accelerators. It reduces the size of deep learning network parameters through the quantization process and replaces floating-point operations with integer operations to reduce computational complexity. It is possible to lower
  • QAT Quantization Aware Training
  • the present invention has been made to solve the above problems, and an object of the present invention is to modify necessary data among data outside the clipping range and process the modified data to obtain original data, thereby deep learning
  • An object of the present invention is to provide a quantization processing method and system capable of improving inference speed and minimizing performance degradation that occurs when quantization is performed after learning.
  • Another object of the present invention is to provide a quantization processing method and system implemented with a calculation structure requiring a minimum calculation overhead in consideration of a hardware structure.
  • a quantization processing system performs convolution of a quantized network based on quantized activation and weight. performing an operation; and performing, by the quantization processing system, re-quantization of the result of the convolution operation to generate an input activation of a next layer, wherein the step of performing the convolution operation includes a predetermined clipping range
  • step of correcting necessary data among the external data to be within a preset clipping range and performing re-quantization original data is obtained by processing the corrected data.
  • the quantized activation and weight are read and a final single result is generated through the multiplication operation and the addition operation, but after the multiplication operation, the required data is selected for the required data among the data outside the predetermined clipping range. It is possible to perform an operation to come within a predetermined clipping range.
  • location information of necessary data to be operated to be within a predetermined clipping range may be stored separately from the necessary data.
  • a mask of data size or coordinate values of the required data may be stored in order to store location information of the required data.
  • only the shift operation may be performed when required data is brought within a preset clipping range in order to minimize additional hardware operation overhead.
  • the modified data when necessary data is modified by performing a shift operation, out-of-range data processing information including information on the value of the modified data and the performed shift operation is generated, and at this time, In the performing of re-quantization, the modified data may be restored to original data using generated out-of-range data processing information.
  • the original value before quantization is performed through an operation opposite to the performed shift operation. data can be obtained.
  • a deep learning network quantization processing system performs a convolution operation of a quantized network based on quantized activation and weight, but a preset clipping range
  • a convolution operation module that modifies necessary data among data outside a clipping range to come within a preset clipping range; and a re-quantization module that performs re-quantization on the result of the convolution operation to generate input activation of the next layer, and processes the modified data to obtain original data when the modified data is confirmed.
  • the speed of deep learning inference is improved, and after learning Performance deterioration occurring during quantization can be minimized.
  • FIG. 1 is a diagram provided for explanation of a deep learning network quantization processing system according to an embodiment of the present invention
  • FIG. 2 is a diagram provided for a detailed description of a processor according to an embodiment of the present invention.
  • FIG. 3 is a diagram provided for explanation of a deep learning network quantization processing method according to an embodiment of the present invention.
  • FIG. 4 is a diagram provided for explanation of a process of correcting necessary data (data outside the range) among data outside the clipping range according to an embodiment of the present invention
  • FIG. 5 is a diagram provided for explanation of a process of processing out-of-range data according to an embodiment of the present invention.
  • FIG. 6 is a diagram provided for a detailed description of a process of performing a convolution operation according to an embodiment of the present invention.
  • FIG. 7 is a diagram provided for explanation of data quantization according to a conventional quantization method
  • FIG. 8 is a diagram provided for a detailed description of a process of performing a convolution operation of quantized data according to a conventional quantization method
  • FIG. 10 is a diagram provided for a detailed description of a process of performing a convolution operation on quantized data according to an embodiment of the present invention.
  • FIG. 1 is a diagram provided for explanation of a deep learning network quantization processing system according to an embodiment of the present invention.
  • the deep learning network quantization processing system improves the speed of deep learning inference by correcting necessary data among data outside the clipping range and processing the modified data to obtain original data, and quantization after learning Performance deterioration that occurs during execution can be minimized.
  • this deep learning network quantization processing system is implemented with a calculation structure that requires only a minimum calculation overhead in consideration of the hardware structure, and only index data and simple calculation (shift) modules are used without changing multipliers in existing hardware accelerators. By adding, quantization can be performed with minimal addition of operations.
  • the deep learning network quantization processing system may include a communication unit 100 , a processor 200 and a storage unit 300 .
  • the communication unit 100 may be connected to an external device or server through a network to transmit/receive data necessary for the processor 200 to operate.
  • the storage unit 300 is a storage medium for storing programs and data necessary for the processor 200 to operate.
  • the processor 200 performs a convolution operation on the quantized network based on the quantized activation and weight, and re-quantizes the result of the convolution operation to generate an input activation of the next layer. can be performed.
  • the processor 200 may modify necessary data among data outside the preset clipping range to come within the preset clipping range.
  • the processor 200 may obtain original data by processing the modified data in the process of performing re-quantization.
  • FIG. 2 is a diagram provided for a detailed description of a processor 200 according to one embodiment of the present invention.
  • the processor 200 may include a convolution operation module 210 and a re-quantization module 220.
  • the convolution operation module 210 may perform a convolution operation of the quantized network based on the quantized activation and weight, and in the process of performing the convolution operation, a predetermined clipping range ( Among data outside the clipping range, necessary data may be modified to come within the preset clipping range.
  • the convolution operation module 210 reads the quantized activations and weights and generates a final single result through a multiplication operation and an addition operation.
  • An operation may be performed to bring data into a preset clipping range.
  • the re-quantization module 220 may perform re-quantization of the result of the convolution operation in order to generate an input activation of a next layer, and in the process of performing the re-quantization, the original data is processed by processing the modified data. can be obtained
  • the re-quantization module 220 performs an operation opposite to the shift operation performed when it is confirmed that the activation value currently being multiplied through position information of the modified data is a value modified before re-quantization is performed.
  • Original data before quantization may be obtained.
  • FIG. 3 is a diagram provided to explain a deep learning network quantization processing method according to an embodiment of the present invention.
  • the deep learning network quantization processing method according to this embodiment may be executed by the deep learning network quantization processing system described above with reference to FIGS. 1 and 2 .
  • the deep learning network quantization processing method may perform a convolution operation on a quantized network based on quantized activations and weights using a convolution operation module 210 .
  • the deep learning network quantization processing method reads quantized activations and weights and performs a multiplication operation (S310).
  • a final single result may be generated by performing an operation to come in (S320) and then performing an addition operation (S330).
  • the deep learning network quantization processing method performs re-quantization of the result of the convolution operation using the re-quantization module 220, and in this process, corrected data may be processed to obtain original data (S340). .
  • FIG. 4 is a diagram provided to explain a process of correcting necessary data (out of range data) among data outside a clipping range according to an embodiment of the present invention.
  • a clipping range of data is set using a preset clipping algorithm, and the clipped data is converted to fit the data range according to quantization bits to obtain high-precision data. can be expressed as quantized data.
  • a value generally called an outlier is removed during clipping, and a final quantization range is derived by deriving the minimum/maximum values of data after removal.
  • the present deep learning network quantization processing method can minimize additional hardware calculation complexity while preserving the data of the outlier through the use of an additional calculation module.
  • FIG. 5 is a diagram provided to explain a process of processing out-of-range data according to an embodiment of the present invention.
  • location information of necessary data to be operated to be within the clipping range may be stored separately from the necessary data (S540).
  • a mask of the size of the data or coordinate values of the required data is stored in order to store the location information of the required data, but the mask of the size of the data or the coordinate values of the required data It can be stored separately from necessary data.
  • FIG. 6 is a diagram provided for a detailed description of a process of performing a convolution operation according to an embodiment of the present invention.
  • the deep learning network quantization processing method reads quantized activations and weights and performs a multiplication operation (S610). It is possible to perform an operation to come within the set clipping range (S620).
  • the deep learning network quantization processing method when performing an operation to bring necessary data within a preset clipping range in the process of performing a convolution operation, only shift operations are performed during correction operations to bring necessary data within a preset clipping range. By doing so, additional hardware computational overhead can be minimized.
  • value correction occurs through information on the data position during convolution operation in a later layer, and through this process, an operation to minimize quantization error can be performed. there is.
  • the shift performed Original data before quantization may be obtained through an operation opposite to the operation.
  • FIG. 7 is a diagram provided for explaining data quantization according to a conventional quantization method
  • FIG. 8 is a diagram provided for a detailed description of a process of performing a convolution operation on quantized data according to a conventional quantization method.
  • a clipping method is predefined before performing a network, and high-precision data is converted into target quantization-bit precision data when quantization is performed through the corresponding method.
  • -5000 to 5000 is set as the clipping range due to the clipping algorithm, and therefore, an outlier such as '7165' is mapped to '127', the maximum value of the quantization range, by the set clipping algorithm.
  • the value originally meant by the corresponding data is a value corresponding to the quantization range standard of 182, but is clipped to '127' due to the signed 8-bit quantization range, and the quantization error is amplified by multiplying the corresponding value with the weight. cause it to
  • FIG. 8 shows an example of a convolution operation process of quantized data in the process of FIG. 7 . It should have been quantized to data corresponding to 182, but the value quantized to '127' is multiplied by the weight value '114' through operation (3), resulting in a quantization error of approximately (182 - 127) * 114 level.
  • FIG. 9 is a diagram provided for explanation of data quantization according to an embodiment of the present invention
  • FIG. 10 is a diagram provided for detailed explanation of a process of performing a convolution operation on quantized data according to an embodiment of the present invention. .
  • the deep learning network quantization processing method performs a shift operation to, when necessary data is modified, generates out-of-range data processing information including information on the value of the modified data and the performed shift operation, and the corresponding data
  • information representing the location of the corresponding data may be stored separately.
  • the generated out-of-range data processing information may be used to restore data modified in the process of performing re-quantization to original data.
  • the '91' value is the value obtained by performing the light shift 1 operation in the process of FIG.
  • the raft shift 1 operation of '(3)' can be performed.
  • the deep learning network quantization processing method utilizes previously stored data position information in the process of performing the raft shift operation, and when the corresponding data is modified data, it is possible to perform the shift operation after the multiplication operation.
  • the technical spirit of the present invention can also be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment.
  • technical ideas according to various embodiments of the present invention may be implemented in the form of computer readable codes recorded on a computer readable recording medium.
  • the computer-readable recording medium may be any data storage device that can be read by a computer and store data.
  • the computer-readable recording medium may be ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, and the like.
  • computer readable codes or programs stored on a computer readable recording medium may be transmitted through a network connected between computers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

딥러닝 네트워크 양자화 처리 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 딥러닝 네트워크 양자화 처리 방법은, 양자화 처리 시스템이, 양자화된 액티베이션(Activation) 및 가중치(Weight)를 기반으로 양자화된 네트워크의 컨벌루션(Convolution) 연산을 수행하는 단계; 및 양자화 처리 시스템이, 다음 레이어의 입력 액티베이션을 생성하기 위해, 컨벌루션 연산 결과의 재-양자화를 수행하는 단계;를 포함하고, 이때, 컨벌루션 연산을 수행하는 단계는, 기설정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 기설정된 클리핑 범위 안으로 들어오도록 수정하고, 재-양자화를 수행하는 단계는, 수정된 데이터를 처리하여 원래 데이터를 획득한다. 이에 의해, 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 수정하고, 수정된 데이터를 처리하여 원래 데이터를 획득함으로써, 딥러닝 추론 속도을 향상시키고, 학습 후 양자화 수행 시 발생하는 성능 열화 최소화할 수 있다.

Description

딥러닝 네트워크 양자화 처리 방법 및 시스템
본 발명은 딥러닝 네트워크를 통해 데이터를 처리하는 방법 및 시스템에 관한 것으로, 더욱 상세하게는 딥러닝 네트워크를 통해 데이터를 처리를 수행함에 있어 딥러닝 추론 속도 향상 및 네트워크 파라미터 크기 감소를 위한 네트워크 경량화 기술 중 양자화 처리 방법 및 시스템에 관한 것이다.
딥러닝 네트워크는 파라미터의 크기 및 연산량으로 인해 다양한 경량화 알고리즘이 도입되고 있다.
대표적인 경량화 알고리즘인 양자화 기술의 경우 하드웨어 딥러닝 가속기에서의 네트워크 동작을 위해서는 필수적으로 사용되는 기술로, 양자화 과정을 통해 딥러닝 네트워크 파라미터의 크기를 줄이고 부동소수점 연산을 정수 연산으로 대체하여 수행함으로써 연산 복잡도를 낮추는 것이 가능하다.
딥러닝 네트워크 파라미터 크기 및 연산량을 줄이기 위해 경량화 알고리즘 도입 외 네트워크 자체의 구조를 머신러닝을 통해 도출해 내는 등 인공신경망 내 연산을 최소화하면서 기존 성능을 유지하도록 하는 연구가 진행 중이나 이러한 경량 네트워크의 경우 학습 후 양자화 기술 적용 시 내부 데이터의 비 균일한 특성으로 인해 양자화 과정 중 성능이 크게 떨어지는 것이 보고되어 있으며, 이러한 문제를 해결하기 위해 데이터 특성에 맞는 다양한 양자화 범위 클리핑(clipping) 알고리즘이 도입되고 있다.
하지만 양자화 범위의 설정 방식에 따라 필요한 데이터가 버려지거나 과도한 범위로 인한 양자화 정밀도 하락으로 인한 성능 열화가 발생하는 문제가 있다.
양자화 과정에서 발생하는 성능 하락 문제를 해결하기 위해 학습 과정에서 양자화를 고려하는 방식인 양자화 인식 훈련(Quantization Aware Training, QAT) 기술이 도입되고 있으나 양자화 옵션/조건에 따라 전체 학습 과정을 처음부터 다시 수행해야 하는 문제가 있어 알고리즘의 테스트/도입에 많은 시간이 소요된다는 문제가 있다.
또한 기학습된 인공신경망 네트워크 만을 전달받아 하드웨어 가속기 등에 포팅하고자 하는 경우 네트워크에 대한 재-학습이 불가능하므로 양자화 인식 훈련 방식의 양자화가 불가능하다는 문제가 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 수정하고, 수정된 데이터를 처리하여 원래 데이터를 획득함으로써, 딥러닝 추론 속도을 향상시키고, 학습 후 양자화 수행 시 발생하는 성능 열화 최소화할 수 있는 양자화 처리 방법 및 시스템을 제공함에 있다.
그리고 본 발명의 다른 목적은, 하드웨어 구조를 고려하여, 최소한의 연산 오버헤드만을 필요로 하는 연산 구조로 구현되는 양자화 처리 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 네트워크 양자화 처리 방법은, 양자화 처리 시스템이, 양자화된 액티베이션(Activation) 및 가중치(Weight)를 기반으로 양자화된 네트워크의 컨벌루션(Convolution) 연산을 수행하는 단계; 및 양자화 처리 시스템이, 다음 레이어의 입력 액티베이션을 생성하기 위해, 컨벌루션 연산 결과의 재-양자화를 수행하는 단계;를 포함하고, 이때, 컨벌루션 연산을 수행하는 단계는, 기설정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 기설정된 클리핑 범위 안으로 들어오도록 수정하고, 재-양자화를 수행하는 단계는, 수정된 데이터를 처리하여 원래 데이터를 획득한다.
또한, 컨벌루션 연산을 수행하는 단계는, 양자화된 액티베이션 및 가중치를 읽어들여 곱셈 연산 및 덧셈 연산을 통한 최종 단일 결과를 생성하되, 곱셈 연산 후 기설정된 클리핑 범위 밖의 데이터 중 필요 데이터를 대상으로 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 연산을 수행할 수 있다.
그리고 컨벌루션 연산을 수행하는 단계는, 기설정된 클리핑 범위 안으로 들어오도록 하는 연산을 수행하고자 하는 필요 데이터의 위치 정보를 필요 데이터와 분리하여 저장할 수 있다.
또한, 컨벌루션 연산을 수행하는 단계는, 필요 데이터의 위치 정보를 저장하기 위해, 데이터 크기의 마스크(Mask) 또는 필요 데이터의 좌표값을 저장할 수 있다.
그리고 컨벌루션 연산을 수행하는 단계는, 추가 하드웨어 연산 오버헤드를 최소화하기 위해, 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 경우, 시프트 연산만을 수행할 수 있다.
또한, 컨벌루션 연산을 수행하는 단계는, 시프트 연산을 수행하여, 필요 데이터를 수정하는 경우, 수정된 데이터의 값 및 수행된 시프트 연산에 대한 정보를 포함하는 범위 외 데이터 처리 정보를 생성하고, 이때, 재-양자화를 수행하는 단계는, 생성된 범위 외 데이터 처리 정보를 이용하여 수정된 데이터를 원래 데이터로 복원할 수 있다.
그리고 재-양자화를 수행하는 단계는, 수정된 데이터의 위치 정보를 통해 현재 곱해지는 액티베이션 값이 재-양자화의 수행 전 수정된 값인 것으로 확인되는 경우, 수행된 시프트 연산의 반대 연산을 통하여 양자화 전 원래 데이터를 획득할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 딥러닝 네트워크 양자화 처리 시스템은, 양자화된 액티베이션(Activation) 및 가중치(Weight)를 기반으로 양자화된 네트워크의 컨벌루션(Convolution) 연산을 수행하되, 기설정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 기설정된 클리핑 범위 안으로 들어오도록 수정하는 컨벌루션 연산 모듈; 및 다음 레이어의 입력 액티베이션을 생성하기 위해, 컨벌루션 연산 결과의 재-양자화를 수행하되, 수정된 데이터가 확인되면, 수정된 데이터를 처리하여 원래 데이터를 획득하는 재-양자화 모듈;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 수정하고, 수정된 데이터를 처리하여 원래 데이터를 획득함으로써, 딥러닝 추론 속도을 향상시키고, 학습 후 양자화 수행 시 발생하는 성능 열화 최소화할 수 있다.
더불어, 하드웨어 구조를 고려하여, 최소한의 연산 오버헤드만을 필요로 하는 연산 구조로 구현되어, 기존 하드웨어 가속기 내 곱셈기의 변화 없이 인덱스 데이터 및 단순 연산(shift) 모듈만을 추가함으로써 최소한의 연산 추가를 통해 양자화를 수행할 수 있다.
도 1은, 본 발명의 일 실시예에 따른 딥러닝 네트워크 양자화 처리 시스템의 설명에 제공된 도면,
도 2는, 본 발명의 일 실시예에 따른 프로세서의 상세 설명에 제공된 도면,
도 3은, 본 발명의 일 실시예에 따른 딥러닝 네트워크 양자화 처리 방법의 설명에 제공된 도면,
도 4는, 본 발명의 일 실시예에 따른 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터(범위 외 데이터)를 수정하는 과정의 설명에 제공된 도면,
도 5는, 본 발명의 일 실시예에 따른 범위 외 데이터를 처리하는 과정의 설명에 제공된 도면,
도 6은, 본 발명의 일 실시예에 따른 컨벌루션 연산을 수행하는 과정의 상세 설명에 제공된 도면,
도 7은, 종래의 양자화 방법에 따른 데이터 양자화의 설명에 제공된 도면,
도 8은, 종래의 양자화 방법에 따라 양자화된 데이터의 컨벌루션 연산을 수행하는 과정의 상세 설명에 제공된 도면,
도 9는, 본 발명의 일 실시예에 따른 데이터 양자화의 설명에 제공된 도면, 그리고
도 10은, 본 발명의 일 실시예에 따른 양자화된 데이터의 컨벌루션 연산을 수행하는 과정의 상세 설명에 제공된 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은, 본 발명의 일 실시예에 따른 딥러닝 네트워크 양자화 처리 시스템의 설명에 제공된 도면이다.
본 실시예에 따른 딥러닝 네트워크 양자화 처리 시스템은, 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 수정하고, 수정된 데이터를 처리하여 원래 데이터를 획득함으로써, 딥러닝 추론 속도을 향상시키고, 학습 후 양자화 수행 시 발생하는 성능 열화 최소화할 수 있다.
더불어, 본 딥러닝 네트워크 양자화 처리 시스템은, 하드웨어 구조를 고려하여, 최소한의 연산 오버헤드만을 필요로 하는 연산 구조로 구현되어, 기존 하드웨어 가속기 내 곱셈기의 변화 없이 인덱스 데이터 및 단순 연산(shift) 모듈만을 추가함으로써 최소한의 연산 추가를 통해 양자화를 수행할 수 있다.
이를 위해, 딥러닝 네트워크 양자화 처리 시스템은, 통신부(100), 프로세서(200) 및 저장부(300)를 포함할 수 있다.
통신부(100)는, 외부 기기 또는 서버와 네트워크로 연결되어, 프로세서(200)가 동작함에 있어 필요한 데이터를 송수신할 수 있다.
저장부(300)는, 프로세서(200)가 동작함에 있어 필요한 프로그램 및 데이터를 저장하는 저장 매체이다.
프로세서(200)는, 양자화된 액티베이션(Activation) 및 가중치(Weight)를 기반으로 양자화된 네트워크의 컨벌루션(Convolution) 연산을 수행하고, 다음 레이어의 입력 액티베이션을 생성하기 위해, 컨벌루션 연산 결과의 재-양자화를 수행할 수 있다.
이때, 프로세서(200)는, 컨벌루션 연산을 수행하는 과정에서, 기설정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 기설정된 클리핑 범위 안으로 들어오도록 수정할 수 있다.
그리고 프로세서(200)는, 재-양자화를 수행하는 과정에서, 수정된 데이터를 처리하여 원래 데이터를 획득할 수 있다.
도 2는, 본 발명의 일 실시예에 따른 프로세서(200)의 상세 설명에 제공된 도면이다.
도 2를 참조하면, 프로세서(200)는, 컨벌루션 연산 모듈(210) 및 재-양자화 모듈(220)을 포함할 수 있다.
컨벌루션 연산 모듈(210)은, 양자화된 액티베이션(Activation) 및 가중치(Weight)를 기반으로 양자화된 네트워크의 컨벌루션(Convolution) 연산을 수행할 수 있으며, 컨벌루션 연산을 수행하는 과정에서, 기설정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 기설정된 클리핑 범위 안으로 들어오도록 수정할 수 있다.
예를 들면, 컨벌루션 연산 모듈(210)은, 양자화된 액티베이션 및 가중치를 읽어들여 곱셈 연산 및 덧셈 연산을 통한 최종 단일 결과를 생성하되, 곱셈 연산 후 기설정된 클리핑 범위 밖의 데이터 중 필요 데이터를 대상으로 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 연산을 수행할 수 있다.
재-양자화 모듈(220)은, 다음 레이어의 입력 액티베이션을 생성하기 위해, 컨벌루션 연산 결과의 재-양자화를 수행할 수 있으며, 재-양자화를 수행하는 과정에서, 수정된 데이터를 처리하여 원래 데이터를 획득할 수 있다.
예를 들면, 재-양자화 모듈(220)은, 수정된 데이터의 위치 정보를 통해 현재 곱해지는 액티베이션 값이 재-양자화의 수행 전 수정된 값인 것으로 확인되는 경우, 수행된 시프트 연산의 반대 연산을 통하여 양자화 전 원래 데이터를 획득할 수 있다.
컨벌루션 연산 모듈(210) 및 재-양자화 모듈(220)에 대한 더욱 상세한 설명은 도 3 내지 도 10을 참조하여 후술하기로 한다.
도 3은, 본 발명의 일 실시예에 따른 딥러닝 네트워크 양자화 처리 방법의 설명에 제공된 도면이다.
본 실시예에 따른 딥러닝 네트워크 양자화 처리 방법은, 도 1 내지 도 2를 참조하여 전술한 딥러닝 네트워크 양자화 처리 시스템에 의해 실행될 수 있다.
도 3을 참조하면, 딥러닝 네트워크 양자화 처리 방법은, 컨벌루션 연산 모듈(210)을 이용하여 양자화된 액티베이션 및 가중치를 기반으로 양자화된 네트워크의 컨벌루션 연산을 수행할 수 있다.
구체적으로, 딥러닝 네트워크 양자화 처리 방법은, 양자화된 액티베이션 및 가중치를 읽어들여 곱셈 연산을 수행하되(S310), 곱셈 연산 후 기설정된 클리핑 범위 밖의 데이터 중 필요 데이터를 대상으로 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 연산을 수행하고(S320), 이후 덧셈 연산을 수행하여 최종 단일 결과를 생성할 수 있다(S330).
그리고 딥러닝 네트워크 양자화 처리 방법은, 재-양자화 모듈(220)을 이용하여 컨벌루션 연산 결과의 재-양자화를 수행하고, 이 과정에서, 수정된 데이터를 처리하여 원래 데이터를 획득할 수 있다(S340).
도 4는, 본 발명의 일 실시예에 따른 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터(범위 외 데이터)를 수정하는 과정의 설명에 제공된 도면이다.
도 4를 참조하면, 종래의 양자화 방법(일반적인 양자화 방법)은, 기설정된 클리핑 알고리즘을 이용하여 데이터의 클리핑 범위를 설정하고, 클리핑된 데이터를 양자화 비트에 따른 데이터 범위에 맞게 변환하여 높은 정밀도의 데이터를 양자화된 데이터로 나타낼 수 있다.
이때, 양자화에 사용된 스케일 값을 저장하고, 추후 역-양자화가 필요한 경우 해당 스케일 값을 통해 기존 정밀도의 데이터를 복원해 낸다.
이러한 종래의 양자화 방법은, 모든 데이터를 양자화된 값으로 나타내려고 하는 경우, 양자화 후 데이터의 세밀한 표현이 어려워 양자화 오류가 증가하는 문제가 발생할 수 있다.
도 4에 예시된 바와 같이 만약 7165 값을 양자화된 범위로 나타내고자 하는 경우, 불필요하게 넓은 범위를 -127~128 사이의 값으로 맵핑하게 되어 양자화된 값들의 오차가 증가하게 된다.
따라서, 종래의 양자화 방법에서는 일반적으로 이상점(outlier)이라고 불리는 값이 클리핑 시 제거되며, 제거 후 데이터의 최소/최대 값을 도출하여 최종 양자화 범위를 도출하게 된다.
반면에, 본 딥러닝 네트워크 양자화 처리 방법은, 추가적인 연산 모듈 사용을 통해 해당 이상점의 데이터를 보존하면서, 추가적인 하드웨어 연산 복잡도를 최소화할 수 있다.
도 5는, 본 발명의 일 실시예에 따른 범위 외 데이터를 처리하는 과정의 설명에 제공된 도면이다.
도 5를 참조하면, 본 딥러닝 네트워크 양자화 처리 방법은, 클리핑 범위가 결정되면(S510), 결정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 선택하고(S520), 선택된 필요 데이터(=범위 외 데이터)의 데이터 값을 수정하여 수정된 데이터 값이 클리핑 범위 안으로 들어오도록 할 수 있다(S530).
이때, 딥러닝 네트워크 양자화 처리 방법은, 클리핑 범위 안으로 들어오도록 하는 연산을 수행하고자 하는 필요 데이터의 위치 정보를 필요 데이터와 분리하여 저장할 수 있다(S540).
예를 들면, 딥러닝 네트워크 양자화 처리 방법은, 필요 데이터의 위치 정보를 저장하기 위해, 데이터 크기의 마스크(Mask) 또는 필요 데이터의 좌표 값을 저장하되, 데이터 크기의 마스크 또는 필요 데이터의 좌표 값을 필요 데이터와 분리하여 저장할 수 있다.
그리고 딥러닝 네트워크 양자화 처리 방법은, 전술한 바와 같이 컨벌루션 연산이 수행된 이후, 컨벌루션 연산 결과의 재-양자화를 수행하면서, 데이터 값이 수정된 수정 데이터(=필요 데이터=범위 외 데이터)를 처리하여 원래 데이터를 획득할 수 있다(S550).
도 6은, 본 발명의 일 실시예에 따른 컨벌루션 연산을 수행하는 과정의 상세 설명에 제공된 도면이다.
도 6을 참조하면, 딥러닝 네트워크 양자화 처리 방법은, 양자화된 액티베이션 및 가중치를 읽어들여 곱셈 연산을 수행하되(S610), 곱셈 연산 후 기설정된 클리핑 범위 밖의 데이터 중 필요 데이터를 대상으로 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 연산을 수행할 수 있다(S620).
구체적으로, 딥러닝 네트워크 양자화 처리 방법은, 컨벌루션 연산을 수행하는 과정에서 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 연산 수행 시, 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 수정 작업 중 시프트 연산만을 수행함으로써, 추가 하드웨어 연산 오버헤드를 최소화할 수 있다.
그리고 딥러닝 네트워크 양자화 처리 방법은, 수정된 데이터 값의 경우, 추후 레이어에서의 컨볼루션 연산 시 데이터 위치에 대한 정보를 통해 값 보정이 일어나며, 해당 과정을 통해 양자화 에러를 최소화하는 연산이 수행될 수 있다.
또한, 딥러닝 네트워크 양자화 처리 방법은, 재-양자화를 수행하는 과정에서, 수정된 데이터의 위치 정보를 통해 현재 곱해지는 액티베이션 값이 재-양자화의 수행 전 수정된 값인 것으로 확인되는 경우, 수행된 시프트 연산의 반대 연산을 통하여 양자화 전 원래 데이터를 획득할 수 있다.
이후, 딥러닝 네트워크 양자화 처리 방법은, 덧셈 연산을 통해 값이 누적되며(S630), 커널(kernel) 내 모든 가중치에 대한 연산이 완료된 경우 최종 컨벌루션 결과를 도출할 수 있다(S640).
도 7은, 종래의 양자화 방법에 따른 데이터 양자화의 설명에 제공된 도면이고, 도 8은, 종래의 양자화 방법에 따라 양자화된 데이터의 컨벌루션 연산을 수행하는 과정의 상세 설명에 제공된 도면이다.
종래의 양자화 방법에서는 네트워크 수행 전 클리핑 방식이 미리 정의되며, 해당 방식을 통해 양자화 수행 시 높은 정밀도의 데이터가 목표로 하는 양자화 비트의 정밀도 데이터로 변환된다.
도 7에서는 클리핑 알고리즘으로 인해 -5000 ~ 5000이 클리핑 범위로 설정되었으며, 이로 인해 '7165'와 같은 이상점의 경우, 설정된 클리핑 알고리즘에 의해 양자화 범위 최대 값인 '127'로 맵핑된다.
즉, 해당 데이터가 원래 의미하는 값은 양자화 범위 기준 182에 해당하는 값이나, 서명된(signed) 8 비트 양자화 범위로 인해 '127'로 클리핑 되었으며, 해당 값이 가중치와 곱해짐으로써 양자화 에러를 증폭시키는 원인이 된다.
도 8은, 도 7 과정에서 양자화된 데이터의 컨벌루션 연산 과정 예시를 나타낸다. 182에 상응하는 데이터로 양자화되어야 했으나 '127'로 양자화된 값은 (3) 연산을 통해 가중치 값인 '114'와 곱해짐으로써 대략 (182 - 127) * 114 수준의 양자화 에러를 발생시키게 된다.
도 9는, 본 발명의 일 실시예에 따른 데이터 양자화의 설명에 제공된 도면이고, 도 10은, 본 발명의 일 실시예에 따른 양자화된 데이터의 컨벌루션 연산을 수행하는 과정의 상세 설명에 제공된 도면이다.
본 딥러닝 네트워크 양자화 처리 방법은, 이상점 중 필요 데이터로서, 양자화 에러를 유발할 것으로 예상되는 값인 '7165'가 선택된다고 가정하면, 해당 데이터를 라이트 시프트 1 연산을 수행함으로써 양자화 범위 내 값인 '3582'로 값을 수정할 수 잇다.
이때, 딥러닝 네트워크 양자화 처리 방법은, 시프트 연산을 수행하여, 필요 데이터를 수정하는 경우, 수정된 데이터의 값 및 수행된 시프트 연산에 대한 정보를 포함하는 범위 외 데이터 처리 정보를 생성하고, 해당 데이터가 수정된 데이터임을 나타내기 위해 해당 데이터의 위치를 나타내는 정보를 별도로 저장할 수 있다.
그리고 생성된 범위 외 데이터 처리 정보는, 재-양자화를 수행하는 과정에서 수정된 데이터를 원래 데이터로 복원하는데 이용될 수 있다.
도 10을 참조하면, '91' 값은 도 9의 과정에서 라이트 시프트 1 연산이 수행된 값이므로, 딥러닝 네트워크 양자화 처리 방법은, 정확한 컨벌루션 연산 결과의 획득을 위해 (3)의 곱셈 연산 후, (3)'의 래프트 시프트 1 연산을 수행할 수 있다.
그리고 딥러닝 네트워크 양자화 처리 방법은, 상기 래프트 시프트 연산을 수행하는 과정에서 이미 저장된 데이터 위치 정보를 활용하며, 해당 데이터가 수정된 데이터일 때 곱셈 연산 후 시프트 연산을 수행하도록 할 수 있다.
이를 통해, 양자화 스케일을 통해 변환되는 값인 182에 해당하는 값을 가중치와 곱해주는 효과를 얻을 수 있다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (8)

  1. 양자화 처리 시스템이, 양자화된 액티베이션(Activation) 및 가중치(Weight)를 기반으로 양자화된 네트워크의 컨벌루션(Convolution) 연산을 수행하는 단계; 및
    양자화 처리 시스템이, 다음 레이어의 입력 액티베이션을 생성하기 위해, 컨벌루션 연산 결과의 재-양자화를 수행하는 단계;를 포함하고,
    컨벌루션 연산을 수행하는 단계는,
    기설정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 기설정된 클리핑 범위 안으로 들어오도록 수정하고,
    재-양자화를 수행하는 단계는,
    수정된 데이터를 처리하여 원래 데이터를 획득하는 것을 특징으로 하는 딥러닝 네트워크 양자화 처리 방법.
  2. 청구항 1에 있어서,
    컨벌루션 연산을 수행하는 단계는,
    양자화된 액티베이션 및 가중치를 읽어들여 곱셈 연산 및 덧셈 연산을 통한 최종 단일 결과를 생성하되,
    곱셈 연산 후 기설정된 클리핑 범위 밖의 데이터 중 필요 데이터를 대상으로 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 연산을 수행하는 것을 특징으로 하는 딥러닝 네트워크 양자화 처리 방법.
  3. 청구항 2에 있어서,
    컨벌루션 연산을 수행하는 단계는,
    기설정된 클리핑 범위 안으로 들어오도록 하는 연산을 수행하고자 하는 필요 데이터의 위치 정보를 필요 데이터와 분리하여 저장하는 것을 특징으로 하는 딥러닝 네트워크 양자화 처리 방법.
  4. 청구항 3에 있어서,
    컨벌루션 연산을 수행하는 단계는,
    필요 데이터의 위치 정보를 저장하기 위해, 데이터 크기의 마스크(Mask) 또는 필요 데이터의 좌표값을 저장하는 것을 특징으로 하는 딥러닝 네트워크 양자화 처리 방법.
  5. 청구항 3에 있어서,
    컨벌루션 연산을 수행하는 단계는,
    추가 하드웨어 연산 오버헤드를 최소화하기 위해, 필요 데이터가 기설정된 클리핑 범위 안으로 들어오도록 하는 경우, 시프트 연산만을 수행하는 것을 특징으로 하는 딥러닝 네트워크 양자화 처리 방법.
  6. 청구항 5에 있어서,
    컨벌루션 연산을 수행하는 단계는,
    시프트 연산을 수행하여, 필요 데이터를 수정하는 경우, 수정된 데이터의 값 및 수행된 시프트 연산에 대한 정보를 포함하는 범위 외 데이터 처리 정보를 생성하고,
    재-양자화를 수행하는 단계는,
    생성된 범위 외 데이터 처리 정보를 이용하여 수정된 데이터를 원래 데이터로 복원하는 것을 특징으로 하는 딥러닝 네트워크 양자화 처리 방법.
  7. 청구항 6에 있어서,
    재-양자화를 수행하는 단계는,
    수정된 데이터의 위치 정보를 통해 현재 곱해지는 액티베이션 값이 재-양자화의 수행 전 수정된 값인 것으로 확인되는 경우, 수행된 시프트 연산의 반대 연산을 통하여 양자화 전 원래 데이터를 획득하는 것을 특징으로 하는 딥러닝 네트워크 양자화 처리 방법.
  8. 양자화된 액티베이션(Activation) 및 가중치(Weight)를 기반으로 양자화된 네트워크의 컨벌루션(Convolution) 연산을 수행하되, 기설정된 클리핑 범위(Clipping range) 밖의 데이터 중 필요 데이터를 기설정된 클리핑 범위 안으로 들어오도록 수정하는 컨벌루션 연산 모듈; 및
    다음 레이어의 입력 액티베이션을 생성하기 위해, 컨벌루션 연산 결과의 재-양자화를 수행하되, 수정된 데이터가 확인되면, 수정된 데이터를 처리하여 원래 데이터를 획득하는 재-양자화 모듈;를 포함하는 딥러닝 네트워크 양자화 처리 시스템.
PCT/KR2021/020322 2021-12-30 2021-12-30 딥러닝 네트워크 양자화 처리 방법 및 시스템 WO2023128024A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0192988 2021-12-30
KR1020210192988A KR20230102665A (ko) 2021-12-30 2021-12-30 딥러닝 네트워크 양자화 처리 방법 및 시스템

Publications (1)

Publication Number Publication Date
WO2023128024A1 true WO2023128024A1 (ko) 2023-07-06

Family

ID=86999334

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/020322 WO2023128024A1 (ko) 2021-12-30 2021-12-30 딥러닝 네트워크 양자화 처리 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR20230102665A (ko)
WO (1) WO2023128024A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190076916A (ko) * 2017-12-22 2019-07-02 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
JP2020009048A (ja) * 2018-07-05 2020-01-16 株式会社日立製作所 ニューラルネットワークの学習装置および学習方法
US20200364552A1 (en) * 2019-05-13 2020-11-19 Baidu Usa Llc Quantization method of improving the model inference accuracy
JP2021530769A (ja) * 2019-06-12 2021-11-11 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co., Ltd. ニューラルネットワークにおける量子化パラメータの確定方法および関連製品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190076916A (ko) * 2017-12-22 2019-07-02 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
JP2020009048A (ja) * 2018-07-05 2020-01-16 株式会社日立製作所 ニューラルネットワークの学習装置および学習方法
US20200364552A1 (en) * 2019-05-13 2020-11-19 Baidu Usa Llc Quantization method of improving the model inference accuracy
JP2021530769A (ja) * 2019-06-12 2021-11-11 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co., Ltd. ニューラルネットワークにおける量子化パラメータの確定方法および関連製品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHAO RITCHIE, HU YUWEI, DOTZEL JORDAN, DE SA CHRISTOPHER, ZHANG ZHIRU: "Improving Neural Network Quantization without Retraining using Outlier Channel Splitting", ARXIV:1901.09504V3, 22 May 2019 (2019-05-22), pages 1 - 10, XP093073204, Retrieved from the Internet <URL:https://arxiv.org/pdf/1901.09504.pdf> [retrieved on 20230811], DOI: 10.48550/arxiv.1901.09504 *

Also Published As

Publication number Publication date
KR20230102665A (ko) 2023-07-07

Similar Documents

Publication Publication Date Title
WO2020159016A1 (ko) 하드웨어 구현에 적합한 신경망 파라미터 최적화 방법, 신경망 연산방법 및 그 장치
WO2021033981A1 (ko) Dna 저장 장치의 연성 정보 기반 복호화 방법, 프로그램 및 장치
WO2022146080A1 (ko) 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
WO2023128024A1 (ko) 딥러닝 네트워크 양자화 처리 방법 및 시스템
WO2020096102A1 (ko) 인공지능 실행가속을 위한 인공지능 실행모델 설정방법 및 인공지능 실행가속시스템
WO2023277448A1 (ko) 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템
WO2023200280A1 (ko) 보정된 이미지 기반 심박 추정 방법 및 그 장치
WO2020091139A1 (ko) 시뮬레이션-가이드된 반복적 프루닝을 사용하는 효율적인 네트워크 압축
WO2023003432A1 (ko) 신경망의 양자화를 위한 포화 비율 기반 양자화 범위의 결정 방법 및 장치
WO2022030805A1 (ko) 데이터 라벨을 자동 교정하는 음성 인식 시스템 및 방법
WO2022181988A1 (ko) Cnn 기반의 자동 라벨 마스크 교정 방법 및 이를 이용한 시스템
WO2020213757A1 (ko) 단어 유사도 판단 방법
WO2021086108A1 (ko) 로봇 비전 시스템을 위한 자동 캘리브레이션 방법 및 장치
WO2019208869A1 (ko) 학습을 이용한 얼굴 특징점 검출 방법 및 장치
WO2024111736A1 (ko) 합성곱 연산을 위한 데이터 처리 방법 및 컴퓨팅 장치
WO2011007970A1 (en) Method and apparatus for processing image
WO2024135861A1 (ko) 가변 데이터 표현형을 적용한 딥러닝 학습 방법 및 이를 적용한 모바일 디바이스
WO2023080292A1 (ko) 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
WO2022145713A1 (ko) 인공 신경망 모델을 경량화하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2022260392A1 (ko) 단말에서 동작하는 이미지 프로세싱 인공 신경망 모델 생성 방법 및 시스템
WO2023014124A1 (ko) 신경망 파라미터의 양자화 방법 및 장치
WO2022005057A1 (ko) 행렬 인덱스 정보 생성 방법, 행렬 인덱스 정보를 이용하는 행렬 처리 방법, 장치
WO2023085458A1 (ko) 경량 딥러닝 학습 메모리 제어 방법 및 장치
WO2024128631A1 (ko) 행렬 인덱스 정보 생성 방법, 행렬 인덱스 정보를 이용하는 행렬 처리 방법
WO2021112431A1 (ko) 선박의 지연 가능성 판단 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21970093

Country of ref document: EP

Kind code of ref document: A1