KR20230135781A

KR20230135781A - 데이터 형식에 따른 인공 신경망 성능 예측 방법 및 장치

Info

Publication number: KR20230135781A
Application number: KR1020220033175A
Authority: KR
Inventors: 전동석; 이순우
Original assignee: 서울대학교산학협력단
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2023-09-26
Also published as: WO2023177026A1

Abstract

데이터 형식에 따른 인공 신경망의 성능을 예측하는 방법 및 장치가 제공된다. 이로써 학습할 인공 신경망에 적합한 저-정밀도(low-precision) 데이터 형식(data format)을 찾고 높은 성능으로 저-정밀도 학습을 수행할 수 있다.

Description

데이터 형식에 따른 인공 신경망 성능 예측 방법 및 장치{METHOD AND APPARATUS FOR PREDICTING PERFORMANCE OF ARTIFICIAL NEURAL NETWORK ACCORINDG TO DATA FORMAT}

본 발명은 인공 신경망 방법 및 장치에 관한 것으로, 인공 신경망 훈련에 적합한 저-정밀도(low-precision) 데이터 형식(data format)을 찾기 위하여 데이터 형식에 따른 인공 신경망의 성능을 예측하는 방법 및 장치에 관한 것이다.

이하에서 기술되는 내용은 본 발명의 실시예와 관련되는 배경 정보를 제공할 목적으로 기재된 것일 뿐이고, 기술되는 내용들이 당연하게 종래기술을 구성하는 것은 아니다.

대부분의 인공 신경망은 학습을 위해 매우 많은 양의 연산을 필요로 하며 소모 전력 역시 매우 높다. 이를 해결하고자 저-정밀도(low-precision) 데이터 표현형을 인공신경망 학습에 적용하려는 연구가 계속되고 있다.

최근 연구에서는 8-bit 부동 소수점(floating-point) 데이터 표현형을 적용하여 일부 모델에서 성능 저하를 크게 줄이는 결과를 보였으나, 아직 각 모델별로 어떠한 데이터 표현형이 최적인지 밝혀지지는 않았다.

특히, 최근 개발되고 있는 거대규모 인공 신경망은 학습에 매우 오랜 시간이 필요하기 때문에 학습 성능과 데이터 표현형 사이의 관계를 확인하는 것이 불가능하다.

또한, 기존에는 미리 학습 성능을 예측하는 방법이 없으므로 실제 인공 신경망을 대상으로 학습을 완료한 후 성능을 비교해야 하며, 이 때 신경망이 크고 데이터가 많을수록 학습에 필요한 시간과 전력 등의 비용이 급격히 커진다는 문제가 있다.

따라서 데이터 형식에 따른 인공 신경망 학습 성능 예측 기술이 필요하다.

한편, 전술한 선행기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

전술한 한계점을 극복하기 위하여, 본 발명의 일 과제는 빠른 시간 안에 인공 신경망을 위한 최적의 데이터 표현형과 연산 회로 구현 방법을 결정할 수 있도록 하는 인공 신경망 성능 예측 방법 및 장치를 제공하는 것이다.

본 발명의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.

본 발명의 일 실시예에 따른 프로세서를 포함한 인공 신경망 성능 예측 장치에 의해 실행되는 데이터 형식에 따른 인공 신경망 성능 예측 방법은, 후보 데이터 형식(candidate data format)을 사용할 인공 신경망의 구역(zone) 및 피연산자(operand)를 결정하는 단계, 상기 구역에서 상기 피연산자에 원본 데이터 형식을 적용하여 입력 데이터에 대한 상기 인공 신경망의 제 1 모의 실행에 의해 제 1 파라미터 기울기를 획득하는 단계, 상기 구역에서 상기 피연산자에 상기 후보 데이터 형식을 적용하여 상기 입력 데이터에 대한 상기 인공 신경망의 제 2 모의 실행에 의해 제 2 파라미터 기울기를 획득하는 단계; 및 상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기에 기반하여 상기 후보 데이터 형식에 따른 성능 지표를 결정하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 데이터 형식에 따른 인공 신경망 성능 예측 장치는, 적어도 하나의 명령어를 저장하는 메모리 및 프로세서를 포함하고, 상기 적어도 하나의 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 후보 데이터 형식(candidate data format)을 사용할 인공 신경망의 구역(zone) 및 피연산자(operand)를 결정하고, 상기 구역에서 상기 피연산자에 원본 데이터 형식을 적용하여 입력 데이터에 대한 상기 인공 신경망의 제 1 모의 실행에 의해 제 1 파라미터 기울기를 획득하고, 상기 구역에서 상기 피연산자에 상기 후보 데이터 형식을 적용하여 상기 입력 데이터에 대한 상기 인공 신경망의 제 2 모의 실행에 의해 제 2 파라미터 기울기를 획득하고, 상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기에 기반하여 상기 후보 데이터 형식에 따른 성능 지표를 결정하도록 구성될 수 있다.

전술한 것 외의 다른 측면, 특징, 및 이점이 이하의 도면, 청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

실시예에 의하면, 전체 학습 대비 매우 짧은 시간과 비용으로 데이터 형식에 따른 인공 신경망의 성능 비교가 가능하다.

실시예에 의하면, 실시간으로 학습할 신경망에 적합한 데이터 형식을 찾고 높은 성능으로 저-정밀도 학습을 수행할 수 있다.

실시예에 의하면, 저-정밀도 학습의 가장 큰 단점인 낮은 성능을 보완하여 저비용 고성능 신경망 학습을 수행하는 것이 가능하며, 이에 최적화된 고성능, 고효율 NPU 설계에도 적용할 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 실시예에 따른 인공 신경망 성능 예측 장치의 블록도이다.
도 2는 실시예에 따른 인공 신경망 성능 예측 방법의 흐름도이다.
도 3a 및 도 3b는 실시예에 따른 인공 신경망 성능 예측에서 구역(zone)을 예시적으로 설명하기 위한 도면이다.
도 4는 실시예에 따른 인공 신경망 성능 예측을 위한 성능 지표를 설명하기 위한 도면이다.
도 5a 내지 도 5c는 실시예에 따른 인공 신경망 성능 예측 과정의 모의 실행을 설명하기 위한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예들에 한정되지 않는다. 이하 실시 예에서는 본 발명을 명확하게 설명하기 위해서 설명과 직접적인 관계가 없는 부분을 생략하지만, 본 발명의 사상이 적용된 장치 또는 시스템을 구현함에 있어서, 이와 같이 생략된 구성이 불필요함을 의미하는 것은 아니다. 아울러, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조번호를 사용한다.

이하의 설명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안되며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 또한, 이하의 설명에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하의 설명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

인공 신경망 학습 과정을 저-정밀도 연산으로 구현하기 위해서 연산의 어느 부분이 성능에 민감한지, 그리고 어떠한 데이터 표현형이 더 좋은 성능을 보이는지 확인하는 과정이 필수적이다.

기존 연구에서는 여러 딥러닝 모델을 대상으로 실제로 학습을 진행하여 최종 성능을 비교하는 과정이 필요하다. 이는 간단한 태스크의 경우 학습에 드는 시간과 비용이 적지만, 신경망이 거대해지고 태스크가 복잡해지면 여러 가지 경우를 학습을 통해 비교하는 것에 매우 오랜 시간과 비용을 소모하게 된다.

실시예에 따른 인공 신경망 성능 예측 기술은 실제로 각 모델을 학습하지 않고도 각 저-정밀도 데이터 표현형이 성능에 얼마나 영향을 미치는지 비교할 수 있다.

이하 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 실시예에 따른 인공 신경망 성능 예측 장치의 블록도이다.

실시예에 따른 인공 신경망 성능 예측 장치(100)는 적어도 하나의 명령어를 저장하는 메모리(120) 및 프로세서(110)를 포함한다. 이와 같은 구성은 예시적인 것이고, 인공 신경망 성능 예측 장치(100)는 도 1에 도시된 구성 중 일부를 포함하거나, 도 1에 도시되지 않았으나 장치의 작동을 위해 필요한 구성을 추가로 포함할 수 있다.

프로세서(110)는 일종의 중앙처리장치로서, 메모리(120)에 저장된 하나 이상의 명령어를 실행하여 인공 신경망 성능 예측 장치(100)의 동작을 제어할 수 있다.

프로세서(110)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 프로세서(110)는 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다.

이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로서, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 이에 한정되는 것은 아니다. 프로세서(110)는 하나 이상의 프로세서를 포함할 수 있다.

프로세서(110)는 메모리(120)에 저장된 프로그램, 명령어들에 기반하여 실시예에 따른 인공 신경망 성능 예측 방법을 실행할 수 있다.

메모리(120)는 인공 신경망과 더불어 입력 데이터, 파라미터 양자화 과정 및 인공 신경망 연산 과정에서 발생하는 중간 데이터 및 연산 결과 등을 저장할 수 있다.

한편, 인공 신경망은 다층 퍼셉트론(Multi-Layer Perceptron; MLP), 합성곱 신경망(Convolutional Neural Network; CNN), 순환 신경망(Recurrent Neural Network; RNN), 장단기 기억 신경망(Long Short Term Memory; LSTM), 오토 인코더(Auto Encoder), 생산적 적대 신경망(Generative Adversarial Network; GAN), 그래프 신경망(Graph Neural Network; GNN) 등 다양한 구조의 인공 신경망을 포함하며, 이에 제한되지 않고 실시예에 따른 파라미터 양자화에 기반한 인공 신경망 성능 예측 장치(100)는 특정 인공 신경망에 제한되지 않고 다양한 구조의 인공 신경망의 성능 예측에 적용가능하다.

메모리(120)는 내장 메모리 및/또는 외장 메모리를 포함할 수 있으며, DRAM, SRAM, 또는 SDRAM 등과 같은 휘발성 메모리, OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND 플래시 메모리, 또는 NOR 플래시 메모리 등과 같은 비휘발성 메모리, SSD, CF(compact flash) 카드, SD 카드, Micro-SD 카드, Mini-SD 카드, Xd 카드, 또는 메모리 스틱(memory stick) 등과 같은 플래시 드라이브, 또는 HDD와 같은 저장 장치를 포함할 수 있다. 메모리(120)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 이에 한정되는 것은 아니다.

인공 신경망 성능 예측 장치(100)는 적어도 하나의 명령어를 저장하는 메모리(120) 및 프로세서(110)를 포함하고, 적어도 하나의 명령어는 프로세서(110)에 의해 실행될 때 프로세서(110)로 하여금, 후보 데이터 형식(candidate data format)을 사용할 인공 신경망의 구역(zone) 및 피연산자(operand)를 결정하고, 결정된 구역에서 피연산자에 원본 데이터 형식을 적용하여 입력 데이터에 대한 인공 신경망의 제 1 모의 실행에 의해 제 1 파라미터 기울기를 획득하고, 결정된 구역에서 피연산자에 후보 데이터 형식을 적용하여 입력 데이터에 대한 인공 신경망의 제 2 모의 실행에 의해 제 2 파라미터 기울기를 획득하고, 제 1 파라미터 기울기 및 제 2 파라미터 기울기에 기반하여 후보 데이터 형식에 따른 성능 지표를 결정하도록 구성될 수 있다.

일 예에서, 후보 데이터 형식은 원본 데이터 형식보다 저-정밀도인 적어도 하나의 데이터 형식을 포함한다.

여기서, 후보 데이터 형식은 저-정밀도(low-precision) 데이터 형식이고 원본 데이터 형식은 고-정밀도(high-precision) 데이터 형식 또는 인공 신경망 예측 장치(100)에서 지원가능한 최대-정밀도(full-precision) 데이터 형식이다.

저-정밀도(low-precision)는 예를 들어 INT4, INT8, FP130 (Logarithmic format), FP134, FP143, FP152 등을 의미한다. 여기서 FP1xy 에서 x는 floating point format의 exponent bit 수, y는 floating point format의 mantissa bit 수를 의미한다.

고-정밀도(high-precision)는 예를 들어 Single Precision Floating Point (FP32), Double Precision Floating point (FP64), Half Precision Floating point (FP16), Brain Floating Point (bfloat16) 등을 의미한다.

일 예에서 적어도 하나의 명령어는 프로세서(110)에 의해 실행될 때 프로세서(110)로 하여금, 성능 지표를 결정하기 위하여, 제 1 파라미터 기울기 및 제 2 파라미터 기울기 사이의 거리(magnitude)를 결정하고, 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기 사이의 각도(misalignment)를 결정하도록 구성될 수 있다.

일 예에서 적어도 하나의 명령어는 프로세서(110)에 의해 실행될 때 프로세서(110)로 하여금, 인공 신경망의 구역 및 피연산자를 결정하기 위하여, 인공 신경망의 순방향 경로와 연계된 제 1 구역을 결정하고, 제 1 구역의 순방향 전파와 연계된 활성화 값을 피연산자로 결정하도록 구성될 수 있다.

일 예에서, 적어도 하나의 명령어는 프로세서(110)에 의해 실행될 때 프로세서(110)로 하여금, 인공 신경망의 구역 및 피연산자를 결정하기 위하여, 인공 신경망의 역방향 경로와 연계된 제 2 구역을 결정하고, 제 2 구역의 역방향 전파와 연계된 활성화 기울기 및 가중치 기울기 중 적어도 하나를 상기 피연산자로 결정하도록 구성될 수 있다.

일 예에서, 적어도 하나의 명령어는 프로세서(110)에 의해 실행될 때 프로세서(110)로 하여금, 인공 신경망의 구역 및 피연산자를 결정하기 위하여, 인공 신경망의 적어도 하나의 계층과 연계된 제 3 구역을 결정하고, 제 3 구역의 활성화 값, 활성화 기울기 및 가중치 기울기 중 적어도 하나를 피연산자로 결정하도록 구성될 수 있다.

일 예에서, 후보 데이터 형식은 적어도 하나의 후보 데이터 형식을 포함하고, 적어도 하나의 명령어는 프로세서(110)에 의해 실행될 때 프로세서(110)로 하여금, 성능 지표에 기반하여 적어도 하나의 후보 데이터 형식 중 상기 구역에 대한 최적 데이터 형식을 결정하도록 구성될 수 있다.

인공 신경망을 저-정밀도로 학습할 때, 파라미터(parameter)를 제외하고 활성화 값(activation), 활성화 기울기(activation gradient)를 나타내는 오차(error), 파라미터 기울기(parameter gradient)를 나타내는 가중치 기울기(weight gradient)를 각각 저-정밀도로 표현할 수 있다.

이는 파라미터를 갱신하는 값에 오차를 발생시키고 부정확한 값으로 학습시킬 수 있으며, 이러한 오차가 저-정밀도 학습에서 성능 하락으로 이어질 수 있다.

실시예에 따른 인공 신경망 성능 예측 방법 및 장치는 저-정밀도 학습에서 각 데이터 형식을 적용하였을 때 파라미터를 갱신하는 값을 얼마나 정확하게 얻을 수 있는 지를 비교함으로써 여러 데이터 표현형 간의 성능을 비교할 수 있다.

도 2는 실시예에 따른 인공 신경망 성능 예측 방법의 흐름도이다.

실시예에 따른 인공 신경망 성능 예측 방법은 후보 데이터 형식(candidate data format)을 사용할 인공 신경망의 구역(zone) 및 피연산자(operand)를 결정하는 단계(S1), 결정된 구역에서 피연산자에 원본 데이터 형식을 적용하여 입력 데이터에 대한 인공 신경망의 제 1 모의 실행에 의해 제 1 파라미터 기울기를 획득하는 단계(S2), 결정된 구역에서 피연산자에 후보 데이터 형식을 적용하여 입력 데이터에 대한 인공 신경망의 제 2 모의 실행에 의해 제 2 파라미터 기울기를 획득하는 단계(S3) 및 제 1 파라미터 기울기 및 제 2 파라미터 기울기에 기반하여 후보 데이터 형식에 따른 성능 지표를 결정하는 단계(S4)를 포함한다.

단계(S1)는, 프로세서(110)에 의해, 후보 데이터 형식을 적용할 인공 신경망의 구역 및 피연산자를 결정한다. 즉, 단계(S1)에서 프로세서(110)는 저-정밀도 학습을 적용할 후보 구역 및 후보 피연산자를 결정한다.

후보 데이터 형식은 저-정밀도(low-precision) 데이터 형식이고, 단계(S2)에서 후술할 원본 데이터 형식은 고-정밀도(high-precision) 데이터 형식 또는 인공 신경망 예측 장치(100)에서 지원가능한 최대-정밀도(full-precision) 데이터 형식을 의미한다. 후보 데이터 형식은 후보 데이터 형식은 원본 데이터 형식보다 저-정밀도(low-precision)인 적어도 하나의 데이터 형식을 포함할 수 있다.

단계(S1)에서 프로세서(110)는 인공 신경망의 순방향 경로 또는 역방향 경로 상의 구역을 후보 데이터 형식을 적용할 구역으로 결정할 수 있다. 단계(S1)에서 프로세서(110)는 인공 신경망의 적어도 하나의 계층을 후보 데이터 형식을 적용할 구역으로 결정할 수 있다. 이에 대하여는 도 3a 및 도 3b를 참조하여 후술한다.

피연산자는 파라미터(parameter)를 제외하고 활성화 값(activation), 활성화 기울기(activation gradient)를 나타내는 오차(error) 및 파라미터 기울기(parameter gradient)를 나타내는 가중치 기울기(weight gradient) 중 적어도 하나를 포함한다. 이에 대하여는 도 5a, 도 5b 및 도 5c를 참조하여 후술한다.

단계(S2)는, 프로세서(110)에 의해, 단계(S1)에서 결정된 구역에서 피연산자에 원본 데이터 형식을 적용하여 입력 데이터에 대한 인공 신경망의 제 1 모의 실행에 의해 제 1 파라미터 기울기를 획득한다.

입력 데이터는 신경망에서 학습할 학습 데이터 전부 또는 일부를 선택하여 사용할 수 있다.

모의 실행은 인공 신경망의 순방향 경로를 따라 활성화 값(activation)을 결정하고 역방향 경로를 따라 가중치 기울기를 결정하는 과정을 포함한다. 예를 들어 모의 실행은 입력 데이터에 대하여 1회 실행될 수 있다. 예를 들어 모의 실행은 가중치 갱신은 실행하지 않을 수 있다.

예를 들어 모의 실행은 원본 데이터 형식을 적용한 제 1 모의 실행 및 후보 데이터 형식을 적용한 제 2 모의 실행을 포함한다.

단계(S2)에서 프로세서(110)는 인공 신경망의 순방향 경로를 따라 활성화 값(activation)을 결정하고 역방향 경로를 따라 제 1가중치 기울기를 결정한다.

단계(S3)은 프로세서(110)에 의해, 단계(S1)에서 결정된 구역에서 피연산자에 후보 데이터 형식을 적용하여 입력 데이터에 대한 인공 신경망의 제 2 모의 실행에 의해 제 2 파라미터 기울기를 획득한다.

단계(S3)에서 프로세서(110)는 단계(S2)의 제 1 모의 실행과 마찬가지로 인공 신경망의 순방향 경로를 따라 활성화 값(activation)을 결정하고 역방향 경로를 따라 제 2 가중치 기울기를 결정한다.

단계(S4)는 프로세서(110)에 의해 제 1 파라미터 기울기 및 제 2 파라미터 기울기에 기반하여 후보 데이터 형식에 따른 성능 지표를 결정한다.

단계(S4)은 프로세서(110)에 의해 제 1 파라미터 기울기 및 제 2 파라미터 기울기 사이의 거리를 결정하는 단계 및 제 1 파라미터 기울기 및 제 2 파라미터 기울기 사이의 각도를 결정하는 단계를 포함할 수 있다.

성능 지표는 인공 신경망의 파라미터를 갱신하는 값에 발생한 오차를 비교하기 위한 지표를 의미한다. 오차가 작을수록 인공 신경망의 성능은 우수한 것이며, 성능 지표는 이와 같은 오차의 크기와 연관된다.

일 예에서 성능 지표는 거리 지표(magnitude indicator)(I_MAGNITUDE) 및 각도 지표(misalignment indicator)(I_MISALIGN)를 포함하며, 이에 대하여는 도 4를 참조하여 후술한다.

실시예에 따른 인공 신경망 성능 예측 방법은 프로세서(110)에 의해 단계(S4)에서 결정된 성능 지표에 기반하여 적어도 하나의 후보 데이터 형식 중 단계(S1)에서 결정된 구역에 대한 최적 데이터 형식을 결정하는 단계를 더 포함할 수 있다. 예를 들어, 프로세서(110)는 성능 지표가 가장 좋은 후보 데이터 형식을 최적 데이터 형식으로 결정할 수 있다.

전술한 단계(S1)에서 프로세서(110)는 후보 데이터 형식을 적용할 적어도 하나의 구역을 결정할 수 있다.

프로세서(110)는 단계(S1)에서 결정된 적어도 하나의 구역의 각각에 대하여 적어도 하나의 후보 데이터 형식을 적용하는 모든 조합에 대하여 전술한 단계(S1) 내지 단계(S4)를 수행하고, 성능 지표가 가장 좋은 조합을 인공 신경망의 저-정밀도 학습에 사용할 수 있다.

프로세서(110)는 단계(S1)에서 후보 데이터 형식을 적용할 적어도 하나의 구역을 결정하고, 각 구역에 대하여 순차적으로 성능 지표가 가장 좋은 후보 데이터 형식을 각 구역에 대한 데이터 형식으로 결정하여, 인공 신경망의 저-정밀도 학습에 사용할 수 있다.

도 3a 및 도 3b는 실시예에 따른 인공 신경망 성능 예측에서 구역(zone)을 예시적으로 설명하기 위한 도면이다.

실시예에 의하면, 도 2를 참조하여 단계(S1)에서 후보 데이터 형식을 사용할 신경망 구역을 지정할 수 있다. 예를 들어, 신경망의 각 층별로 다른 데이터 형식을 사용할 수 있다. 예를 들어, 피연산자(activation, error, weight gradient) 별로 다른 데이터 형식을 사용할 수 있다.

도 3a는 순방향 경로(Forward Path)에 따른 구역(Z1_1) 및 역방향 경로(Backward Path)에 따른 구역(Z1_2)를 예시적으로 도시한다.

도 2를 참조하여 단계(S1)은 인공 신경망의 순방향 경로(Forward Path)와 연계된 제 1 구역을 결정하는 단계 및 제 1 구역의 순방향 전파와 연계된 활성화 값을 피연산자로 결정하는 단계를 포함할 수 있다.

예시적인 제 1 구역(Z1_1)은 활성화 값(activation)을 후보 데이터 형식을 적용할 피연산자로 결정할 수 있다.

도 2를 참조하여 단계(S1)은 상기 인공 신경망의 역방향 경로(Backward Path)와 연계된 제 2 구역을 결정하는 단계 및 제 2 구역의 역방향 전파와 연계된 활성화 기울기 및 가중치 기울기 중 적어도 하나를 상기 피연산자로 결정하는 단계를 포함할 수 있다.

예시적인 제 2 구역(Z1_2)은 오차(error) 및 기울기 가중치(weight gradient) 중 적어도 하나를 후보 데이터 형식을 적용할 피연산자로 결정할 수 있다.

도 3b는 인공 신경망의 계층별 구역(Z2_1, Z2_2 및 Z2_3)을 예시적으로 도시한다.

도 2를 참조하여 단계(S1)은 인공 신경망의 적어도 하나의 계층과 연계된 제 3 구역을 결정하는 단계 및 제 3 구역의 활성화 값, 활성화 기울기 및 가중치 기울기 중 적어도 하나를 상기 피연산자로 결정하는 단계를 포함할 수 있다.

예시적인 제 3 구역(Z2_1, Z2_2 및 Z2_3)은 각 계층(layer)의 활성화 값(activation), 오차(error) 및 기울기 가중치(weight gradient) 중 적어도 하나를 후보 데이터 형식을 적용할 피연산자로 결정할 수 있다.

도 4는 실시예에 따른 인공 신경망 성능 예측을 위한 성능 지표를 설명하기 위한 도면이다.

실시예에 따른 인공 신경망 성능 예측의 성능 지표는 인공 신경망의 파라미터를 갱신하는 값에 발생한 오차를 비교하기 위한 지표를 의미한다.

일 예에서 성능 지표는 거리 지표(magnitude indicator)(I_MAGNITUDE) 및 각도 지표(misalignment indicator)(I_MISALIGN)를 포함한다.

거리 지표는 피연산자를 양자화하지 않은 최대-정밀도(full precision)로 얻은 원본 가중치 기울기(weight gradient)(WG1)와 피연산자의 양자화에 의해 저-정밀도를 적용하여 얻은 가중치 기울기(WG2)가 주어졌을 때, 두 벡터 사이의 거리 오차를 의미한다.

각도 지표는 피연산자를 양자화하지 않은 최대-정밀도(full precision)로 얻은 원본 가중치 기울기(weight gradient)(WG1)와 피연산자의 양자화에 의해 저-정밀도를 적용하여 얻은 가중치 기울기(WG2)가 주어졌을 때,두 벡터 사이의 각도 오차를 의미한다.

즉, 거리 지표(I_MAGNITUDE) 또는 각도 지표(I_MISALIGNMENT)가 작을수록 피연산자에 적용한 저-정밀도 데이터 형식이 해당 인공 신경망에 더 적합한 데이터 형식이라고 할 수 있다.

도 5a 내지 도 5c는 실시예에 따른 인공 신경망 성능 예측 과정의 모의 실행을 설명하기 위한 도면이다.

도 2를 참조하여 단계(S3)의 모의 실행에서, 단계(S1)에서 결정된 구역의 피연산자는 동일한 또는 서로 다른 후보 데이터 형식에 의해 양자화되고 저-정밀도로 표현된다.

여기서 피연산자는 파라미터(parameter)를 제외하고 활성화 값(activation), 활성화 기울기(activation gradient)를 나타내는 오차(error) 및 파라미터 기울기(parameter gradient)를 나타내는 가중치 기울기(weight gradient) 중 적어도 하나를 포함한다.

도 5a는 모의 실행의 순방향 경로(forward path)에서 활성화 값(Activation)에 대한 연산을 예시적으로 보여준다.

현재 계층(l)의 활성화 값(Activationl)과 가중치(Weightl)는 각각 양자화(Q)되어 저-정밀도로 가중합(Forward GENERAL Matrix Multiplication; Forward GEMM)된 후 각각 활성화 함수(ReLu/tanh/Sigmoid) 또는 양자화(Q)-정규화(BatchNorm)를 거쳐서 다시 양자화(Q)된 새로운 활성화 파라미터(Activationl+1)로 출력되어 후속 계층(l+1)로 순전파된다.

도 5b는 모의 실행의 역방향 경로(backward path)에서 오차(Error)에 대한 연산을 예시적으로 보여준다.

후속 계층(l+1)에서 현재 계층(l)으로 역전파된 오차(Errorl+1)와 현재 노드의 가중치(Weightl)는 각각 양자화(Q)되어 가중합(Backward GENERAL Matrix Multiplication; Backward GEMM)된 후 각각 활성화 함수(ReLu/tanh/Sigmoid) 또는 양자화(Q)-정규화(BatchNorm)를 거쳐서 다시 양자화(Q)된 새로운 오차(Errorl)를 출력한다.

도 5c는 모의 실행에서 기울기(Weight Gradient)에 대한 연산을 예시적으로 보여준다.

현재 노드의 활성화 값(Activationl)과 후속 계층(l+1)에서 현재 계층(l)으로 역전파된 오차(Errorl+1)는 각각 양자화(Q)되어 가중합(Gradient GENERAL Matrix Multiplication; Gradient GEMM)된 후 다시 양자화(Q)되어 새로운 가중치 기울기(Weight Gradientl)를 출력한다.

한편, 제안한 기법의 성능 예측치와 실제 학습 성능이 일치하는지 확인하고자 ResNet-18, ResNet-101, MobileNet, 2-Layer LSTM, Transformer 모델에 4가지 정수 및 부동소수점 8-bit 데이터 형식을 적용하여 학습하였고, 모두 경향이 일치함을 확인하였다.

실시예에 따른 인공 신경망 성능 예측은 모든 유형의 신경망 구조와 태스크에 대해 저-정밀도(low-precision) 학습을 수행하는 경우 적용 가능하고, 인공 신경망을 저-정밀도로 학습할 때 가장 좋은 성능을 보이는 데이터 표현형과 연산 방식을 짧은 시간과 비용으로 찾을 수 있다.

특히, 실시예에 따른 인공 신경망 성능 예측은 클라우드, 모바일, IoT 등의 환경에서 대규모 인공 신경망 학습을 수행하고자 할 때 적용 가능하다. 실시예에 의하면 저-정밀도 데이터 형식으로 신경망을 학습하고자 할 때 적합한 데이터 형식을 빠르게 찾을 수 있으므로, 클라우드 혹은 모바일, IoT 기기에서 다양한 신경망을 학습시킬 때 실시간으로 최적의 데이터 형식을 선택하고 성능 하락 없이 저전력 저-정밀도 학습이 가능하며, 저-정밀도 학습의 경우 높은 에너지 효율성을 얻을 수 있다.

최근 인공신경망 모델의 복잡도가 큰 폭으로 증가함에 따라, 다수의 GPU로 구성된 데이터센터의 고성능 서버에서도 인공신경망 학습에 어려움을 겪고 있다. 따라서, IBM, Intel과 같은 서버용 프로세서의 선도 기업에서도 저-정밀도로 인공신경망을 학습할 수 있는 전용 프로세서 개발에 박차를 가하고 있다.

실시예에 따른 인공 신경망 성능 예측 기술은 여러 종류의 대규모 인공신경망 구조와 태스크에 대해 최적화된 데이터 표현형과 연산 회로 구조를 매우 짧은 시간과 낮은 비용으로 도출할 수 있다는 큰 장점을 가진다. 따라서 고성능 인공신경망 학습 프로세서나 edge device를 위한 NPU 개발에 직접적으로 적용이 가능하다.

전술한 본 발명의 실시예에 따른 방법은 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 비 일시적 기록 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 비 일시적 기록 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.

이상 설명된 본 발명의 실시예에 대한 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 인공 신경망 성능 예측 장치
110: 프로세서
120: 메모리

Claims

프로세서를 포함한 인공 신경망 성능 예측 장치에 의해 실행되는 데이터 형식에 따른 인공 신경망 성능 예측 방법에 있어서,
후보 데이터 형식(candidate data format)을 사용할 인공 신경망의 구역(zone) 및 피연산자(operand)를 결정하는 단계;
상기 구역에서 상기 피연산자에 원본 데이터 형식을 적용하여 입력 데이터에 대한 상기 인공 신경망의 제 1 모의 실행에 의해 제 1 파라미터 기울기를 획득하는 단계; 및
상기 구역에서 상기 피연산자에 상기 후보 데이터 형식을 적용하여 상기 입력 데이터에 대한 상기 인공 신경망의 제 2 모의 실행에 의해 제 2 파라미터 기울기를 획득하는 단계;
상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기에 기반하여 상기 후보 데이터 형식에 따른 성능 지표를 결정하는 단계를 포함하는,
인공 신경망 성능 예측 방법.
제 1 항에 있어서,
상기 후보 데이터 형식은 상기 원본 데이터 형식보다 저-정밀도(low-precision)인 적어도 하나의 데이터 형식을 포함하는,
인공 신경망 성능 예측 방법.
제 1 항에 있어서,
상기 피연산자는 활성화 값(activation), 활성화 기울기를 나타내는 오차(error) 및 가중치 기울기(weight gradient) 중 적어도 하나를 포함하는,
인공 신경망 성능 예측 방법.
제 1 항에 있어서,
상기 성능 지표를 결정하는 단계는,
상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기 사이의 거리(magnitude)를 결정하는 단계; 및
상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기 사이의 각도(misalignment)를 결정하는 단계를 포함하는,
인공 신경망 성능 예측 방법.
제 1 항에 있어서,
상기 인공 신경망의 구역 및 피연산자를 결정하는 단계는,
상기 인공 신경망의 순방향 경로(Forward Path)와 연계된 제 1 구역을 결정하는 단계; 및
상기 제 1 구역의 순방향 전파와 연계된 활성화 값을 상기 피연산자로 결정하는 단계를 포함하는,
인공 신경망 성능 예측 방법.
제 1 항에 있어서,
상기 인공 신경망의 구역 및 피연산자를 결정하는 단계는,
상기 인공 신경망의 역방향 경로(Backward Path)와 연계된 제 2 구역을 결정하는 단계; 및
상기 제 2 구역의 역방향 전파와 연계된 활성화 기울기 및 가중치 기울기 중 적어도 하나를 상기 피연산자로 결정하는 단계를 포함하는,
인공 신경망 성능 예측 방법.
제 1 항에 있어서,
상기 인공 신경망의 구역 및 피연산자를 결정하는 단계는,
상기 인공 신경망의 적어도 하나의 계층과 연계된 제 3 구역을 결정하는 단계; 및
상기 제 3 구역의 활성화 값, 활성화 기울기 및 가중치 기울기 중 적어도 하나를 상기 피연산자로 결정하는 단계를 포함하는,
인공 신경망 성능 예측 방법.
제 1 항에 있어서,
상기 후보 데이터 형식은 적어도 하나의 후보 데이터 형식을 포함하고,
상기 성능 지표에 기반하여 상기 적어도 하나의 후보 데이터 형식 중 상기 구역에 대한 최적 데이터 형식을 결정하는 단계를 더 포함하는,
인공 신경망 성능 예측 방법.
데이터 형식에 따른 인공 신경망 성능 예측 장치에 있어서,
적어도 하나의 명령어를 저장하는 메모리; 및
프로세서를 포함하고, 상기 적어도 하나의 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
후보 데이터 형식(candidate data format)을 사용할 인공 신경망의 구역(zone) 및 피연산자(operand)를 결정하고,
상기 구역에서 상기 피연산자에 원본 데이터 형식을 적용하여 입력 데이터에 대한 상기 인공 신경망의 제 1 모의 실행에 의해 제 1 파라미터 기울기를 획득하고,
상기 구역에서 상기 피연산자에 상기 후보 데이터 형식을 적용하여 상기 입력 데이터에 대한 상기 인공 신경망의 제 2 모의 실행에 의해 제 2 파라미터 기울기를 획득하고,
상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기에 기반하여 상기 후보 데이터 형식에 따른 성능 지표를 결정하도록 구성되는,
인공 신경망 성능 예측 장치.
제 9 항에 있어서,
상기 후보 데이터 형식은 상기 원본 데이터 형식보다 저-정밀도인 적어도 하나의 데이터 형식을 포함하는,
인공 신경망 성능 예측 장치.
제 9 항에 있어서,
상기 적어도 하나의 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 상기 성능 지표를 결정하기 위하여,
상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기 사이의 거리(magnitude)를 결정하고,
상기 제 1 파라미터 기울기 및 상기 제 2 파라미터 기울기 사이의 각도(misalignment)를 결정하도록 구성되는,
인공 신경망 성능 예측 장치.
제 9 항에 있어서,
상기 적어도 하나의 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 상기 인공 신경망의 구역 및 피연산자를 결정하기 위하여,
상기 인공 신경망의 순방향 경로와 연계된 제 1 구역을 결정하고, 상기 제 1 구역의 순방향 전파와 연계된 활성화 값을 상기 피연산자로 결정하도록 구성되는,
인공 신경망 성능 예측 장치.
제 9 항에 있어서,
상기 적어도 하나의 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 상기 인공 신경망의 구역 및 피연산자를 결정하기 위하여,
상기 인공 신경망의 역방향 경로와 연계된 제 2 구역을 결정하고, 상기 제 2 구역의 역방향 전파와 연계된 활성화 기울기 및 가중치 기울기 중 적어도 하나를 상기 피연산자로 결정하도록 구성되는,
인공 신경망 성능 예측 장치.
제 9 항에 있어서,
상기 적어도 하나의 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 상기 인공 신경망의 구역 및 피연산자를 결정하기 위하여,
상기 인공 신경망의 적어도 하나의 계층과 연계된 제 3 구역을 결정하고, 상기 제 3 구역의 활성화 값, 활성화 기울기 및 가중치 기울기 중 적어도 하나를 상기 피연산자로 결정하도록 구성되는,
인공 신경망 성능 예측 장치.
제 9 항에 있어서,
상기 후보 데이터 형식은 적어도 하나의 후보 데이터 형식을 포함하고, 상기 적어도 하나의 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
상기 성능 지표에 기반하여 상기 적어도 하나의 후보 데이터 형식 중 상기 구역에 대한 최적 데이터 형식을 결정하도록 구성되는,
인공 신경망 성능 예측 장치.
프로세서에 의해 제 1 항 내지 제 8 항 중 어느 한 항에 따른 인공 신경망 성능 예측 방법을 실행하기 위한 적어도 하나의 명령어를 포함한 컴퓨터 프로그램을 저장한 컴퓨터 판독가능한 비 일시적 기록 매체.