KR102486619B1 - 양자화 모델에서의 메모리 사용량과 대역폭 감축을 위한 데이터 저장 방법 및 시스템 - Google Patents
양자화 모델에서의 메모리 사용량과 대역폭 감축을 위한 데이터 저장 방법 및 시스템 Download PDFInfo
- Publication number
- KR102486619B1 KR102486619B1 KR1020220064991A KR20220064991A KR102486619B1 KR 102486619 B1 KR102486619 B1 KR 102486619B1 KR 1020220064991 A KR1020220064991 A KR 1020220064991A KR 20220064991 A KR20220064991 A KR 20220064991A KR 102486619 B1 KR102486619 B1 KR 102486619B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- processor
- packing
- chip memory
- quantized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012856 packing Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000013500 data storage Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
- G06F3/0661—Format or protocol conversion arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
도 2는 4-비트 양자화에서의 재양자화 과정과 데이터 패킹의 예를 도시한 도면이다.
도 3은 본 발명의 일실시예에 있어서, 감소 작업을 이용한 효율적인 병렬 멀티플 데이터 패킹의 예를 도시한 도면이다.
도 4는 종래의 데이터 패킹의 예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 데이터 패킹의 예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 7은 본 발명의 일실시예에 따른 데이터 저장 방법의 예를 도시한 흐름도이다.
Claims (10)
- 적어도 하나의 프로세서 및 온-칩 메모리(on-chip memory)를 포함하는 컴퓨터 장치에 의해 수행되는 데이터 저장 방법에 있어서,
상기 적어도 하나의 프로세서에 의해, 양자화된 모델을 이용한 딥러닝 연산의 처리 이후의 상기 양자화된 모델의 출력 데이터에 대해 상기 딥러닝 연산에 따른 비트 수의 불일치를 고려하여 상기 출력 데이터의 비트 수를 양자화 비트 수로 조절하도록, 상기 출력 데이터에 대한 재양자화 연산을 처리하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 재양자화 연산에 따라 양자화된 출력 데이터를 패킹하는 단계
를 포함하되,
상기 재양자화 연산 및 상기 패킹은 상기 적어도 하나의 프로세서의 레지스터에서 수행되고, 상기 패킹된 데이터는 상기 적어도 하나의 프로세서의 온-칩 메모리에 저장되는 것을 특징으로 하는 데이터 저장 방법. - 제1항에 있어서,
상기 온-칩 메모리는 프로그래머가 캐시의 사용을 명시적으로 제어 가능한 사용자-제어 온-칩 메모리(user-controlled on-chip memory)를 포함하는 것을 특징으로 하는 데이터 저장 방법. - 제1항에 있어서,
상기 양자화된 출력 데이터의 패킹은,
감소 작업(reduction operation)을 통해 SIMD(Single Instruction Multiple Data) 및 SIMT(Single Instruction Multiple Thread) 환경에서 복수의 데이터를 병렬적으로 처리하여 진행되는 것을 특징으로 하는 데이터 저장 방법. - 제1항에 있어서,
상기 양자화된 출력 데이터의 패킹은,
상기 패킹의 대상이 되는 데이터의 수 p에 대해 log2p의 단계로 상기 패킹의 대상이 되는 데이터를 병렬적으로 처리하여 진행되는 것을 특징으로 하는 데이터 저장 방법. - 컴퓨터 장치와 결합되어 제1항 내지 제4항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
- 제1항 내지 제4항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체.
- 컴퓨터 장치에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서; 및
온-칩 메모리(on-chip memory)
를 포함하고,
상기 적어도 하나의 프로세서에 의해,
양자화된 모델을 이용한 딥러닝 연산의 처리 이후의 출력 데이터에 대해 상기 딥러닝 연산에 따른 비트 수의 불일치를 고려하여 상기 출력 데이터의 비트 수를 양자화 비트 수로 조절하도록, 상기 출력 데이터에 대한 재양자화 연산을 처리하고,
상기 재양자화 연산에 따라 양자화된 출력 데이터를 패킹하고,
상기 재양자화 연산 및 상기 패킹은 상기 적어도 하나의 프로세서의 레지스터에서 수행되고, 상기 패킹된 데이터는 상기 적어도 하나의 프로세서의 온-칩 메모리에 저장되는 것
을 특징으로 하는 컴퓨터 장치. - 제7항에 있어서,
상기 온-칩 메모리는 프로그래머가 캐시의 사용을 명시적으로 제어 가능한 사용자-제어 온-칩 메모리(user-controlled on-chip memory)를 포함하는 것을 특징으로 하는 컴퓨터 장치. - 제7항에 있어서,
상기 양자화된 출력 데이터의 패킹은,
감소 작업(reduction operation)을 통해 SIMD(Single Instruction Multiple Data) 및 SIMT(Single Instruction Multiple Thread) 환경에서 복수의 데이터를 병렬적으로 처리하여 진행되는 것
을 특징으로 하는 컴퓨터 장치. - 제7항에 있어서,
상기 양자화된 출력 데이터의 패킹은,
상기 패킹의 대상이 되는 데이터의 수 p에 대해 log2p의 단계로 상기 패킹의 대상이 되는 데이터를 병렬적으로 처리하여 진행되는 것
을 특징으로 하는 컴퓨터 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220064991A KR102486619B1 (ko) | 2022-05-26 | 2022-05-26 | 양자화 모델에서의 메모리 사용량과 대역폭 감축을 위한 데이터 저장 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220064991A KR102486619B1 (ko) | 2022-05-26 | 2022-05-26 | 양자화 모델에서의 메모리 사용량과 대역폭 감축을 위한 데이터 저장 방법 및 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102486619B1 true KR102486619B1 (ko) | 2023-01-11 |
Family
ID=84892384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220064991A Active KR102486619B1 (ko) | 2022-05-26 | 2022-05-26 | 양자화 모델에서의 메모리 사용량과 대역폭 감축을 위한 데이터 저장 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102486619B1 (ko) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180082344A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 가중치 비트 감축을 위한 반복적인 딥 러닝 양자화 알고리즘 및 방법 |
KR102040106B1 (ko) * | 2018-10-29 | 2019-11-27 | 주식회사 크립토랩 | 실수 평문에 대한 동형 암호화 방법 |
KR20220030106A (ko) * | 2020-09-02 | 2022-03-10 | 삼성전자주식회사 | 저장 장치, 저장 장치의 동작 방법 및 이를 포함한 전자 장치 |
-
2022
- 2022-05-26 KR KR1020220064991A patent/KR102486619B1/ko active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180082344A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 가중치 비트 감축을 위한 반복적인 딥 러닝 양자화 알고리즘 및 방법 |
KR102040106B1 (ko) * | 2018-10-29 | 2019-11-27 | 주식회사 크립토랩 | 실수 평문에 대한 동형 암호화 방법 |
KR20220030106A (ko) * | 2020-09-02 | 2022-03-10 | 삼성전자주식회사 | 저장 장치, 저장 장치의 동작 방법 및 이를 포함한 전자 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102465896B1 (ko) | 집약성을 개선하기 위한 머신 학습 모델들의 수정 | |
US11580386B2 (en) | Convolutional layer acceleration unit, embedded system having the same, and method for operating the embedded system | |
KR102525080B1 (ko) | 신경 네트워크 명령어 세트 아키텍처 | |
US9910714B2 (en) | Scriptable dynamic load balancing in computer systems | |
KR102810851B1 (ko) | 공유 스크래치패드 메모리를 사용한 벡터 축소들 | |
US12072953B2 (en) | Asymmetric allocation of SRAM and data layout for efficient matrix-matrix multiplication | |
KR20230017220A (ko) | 기계 학습 가속도계를 위한 적층 다이 | |
JP2013512511A (ja) | 複数メモリ特定用途向けデジタル信号プロセッサ | |
CN113077042A (zh) | 卷积神经网络的数据重用与高效处理方法 | |
KR20240052056A (ko) | 캐시 메모리, 로컬 데이터 저장소 및 레지스터 파일 간의 저장소 공유 프로세싱 디바이스 및 방법 | |
US20220222177A1 (en) | Systems, apparatus, articles of manufacture, and methods for improved data transfer for heterogeneous programs | |
KR102486619B1 (ko) | 양자화 모델에서의 메모리 사용량과 대역폭 감축을 위한 데이터 저장 방법 및 시스템 | |
US9569191B2 (en) | Dynamic programming platform for implementing bulk data operators in a multithreaded environment | |
KR20210157636A (ko) | 가속기, 가속기의 동작 방법 및 이를 포함한 가속기 시스템 | |
CN114218152B (zh) | 流处理方法、处理电路和电子设备 | |
CN119225918A (zh) | 一种算子处理方法及相关装置 | |
KR102597182B1 (ko) | 입력 해상도 변경에 따른 특징맵 해상도 변경 방법 및 시스템 | |
KR20240104560A (ko) | 통합 가상 메모리 관리 방법 및 장치 | |
US12073317B2 (en) | Method and system for processing a neural network | |
KR20220049325A (ko) | 가속기 및 이를 포함한 전자 장치 | |
KR102672641B1 (ko) | 인공지능을 위한 하드웨어의 동작 및 데이터 정밀도를 검증하기 위한 방법 및 시스템 | |
US20240403140A1 (en) | System and method for reallocation of gpu power | |
US11307860B1 (en) | Iterating group sum of multiple accumulate operations | |
US20240248764A1 (en) | Efficient data processing, arbitration and prioritization | |
HK40044948A (en) | Modifying machine learning models to improve locality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20220526 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20220527 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20220526 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220818 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20221129 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230105 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230106 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |