WO2021107170A1

WO2021107170A1 - 저전력 딥러닝 가속 장치

Info

Publication number: WO2021107170A1
Application number: PCT/KR2019/016337
Authority: WO
Inventors: 이상설; 장성준
Original assignee: 전자부품연구원
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-06-03
Also published as: KR20210064589A; KR102453628B1

Abstract

딥러닝 가속 장치의 효과적이고 효율적인 저전력 동작을 가능하게 하기 위한 방안으로, 저장 블록들 마다 그리고 연산 블록들 마다 개별적으로 전원 인가를 제어하는 딥러닝 가속장치가 제공된다. 본 발명의 실시예에 따른 딥러닝 가속장치는 다수의 저장 블록들로 구분되는 메모리; 다수의 연산 블록들로 구분되는 프로세서; 및 저장 블록들 마다 개별적으로 전원 인가를 제어하고, 연산 블록들 마다 개별적으로 전원 인가를 제어하는 전원 제어기;를 포함한다. 이에 의해, 딥러닝 가속장치에서 저장 블록들 마다 그리고 연산 블록들 마다 개별적으로 전원 인가를 제어하여, 딥러닝 가속 장치의 효과적이고 효율적인 저전력 동작을 가능하게 할 수 있다.

Description

저전력 딥러닝 가속 장치

본 발명은 인공지능 기술을 활용한 영상 처리 및 SoC(System on Chip) 기술에 관한 것으로, 더욱 상세하게는 딥러닝 가속기 하드웨어의 저전력 동작을 위한 설계 방안에 관한 것이다.

딥러닝 가속 장치의 저전력화는 딥러닝 가속 장치가 모바일 단말에 구현된 경우에 특히 요구되는데, 필요없는 연산 블록의 전원을 비인가하거나, 클럭을 제어하여 저전력 동작을 수행하여야 한다.

현재 널리 활용되고 있는 기법은 클럭 게이팅에 의한 전원 관리 방법인데, 전원 관리 툴에 의존한 것이 대부분으로써 큰 전력 감소를 기대하기 어려운 면이 있다.

뿐만 아니라, 연산 비트수를 줄이거나 바이너리 형태의 연산 수행으로 인하여 딥러닝 결과의 정확도를 저하시키는 문제도 있다.

딥러닝 가속 장치의 효과적이고 효율적인 저전력 동작을 가능하게 하기 위한 방안이 필요하다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 딥러닝 가속 장치의 효과적이고 효율적인 저전력 동작을 가능하게 하기 위한 방안으로, 저장 블록들 마다 그리고 연산 블록들 마다 개별적으로 전원 인가를 제어하는 딥러닝 가속장치를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 가속장치는 다수의 저장 블록들로 구분되는 메모리; 다수의 연산 블록들로 구분되는 프로세서; 및 저장 블록들 마다 개별적으로 전원 인가를 제어하고, 연산 블록들 마다 개별적으로 전원 인가를 제어하는 전원 제어기;를 포함한다.

전원 제어기는, 저장 블록들에 대한 프로세서의 접근 패턴을 기초로, 저장 블록들 마다 개별적으로 전원 인가를 제어할 수 있다.

전원 제어기는, 프로세서가 접근할 저장 블록들에만 전원이 인가되도록 제어할 수 있다.

메모리에는, Input Feature map 및 딥러닝 네트워크의 Weight가 저장될 수 있다.

본 발명에 따른 딥러닝 가속장치는 메모리에 저장된 Input Feature map에서 데이터가 '0'인 부분들을 확인하는 제1 체커; 및 메모리에 저장된 Weight에서 데이터가 '0'인 부분들을 확인하는 제2 체커;를 더 포함하고, 전원 제어기는, 제1 체커와 제2 체커의 확인 결과를 기초로, 전원을 인가하지 않을 연산 블록들을 결정할 수 있다.

본 발명에 따른 딥러닝 가속장치는 연산 블록들에서 연산에 의해 데이터가 '0'이 되는 부분들을 확인하는 제3 체커;를 더 포함하고, 전원 제어기는, 제3 체커의 확인 결과를 기초로, 전원을 인가하지 않을 연산 블록들을 결정할 수 있다.

연산 블록들에서의 연산은, 딥러닝 연산, 압축, 암호화, Approximate Computing, Quantization 중 적어도 하나를 포함할 수 있다.

본 발명의 다른 측면에 따르면, 딥러닝 가속장치의 메모리에 구분된 다수의 저장 블록들 마다 개별적으로 전원 인가를 제어하는 단계; 및 딥러닝 가속장치의 프로세서에 구분된 다수의 연산 블록들 마다 개별적으로 전원 인가를 제어하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 가속장치의 전원 제어 방법이 제공된다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 딥러닝 가속장치에서 저장 블록들 마다 그리고 연산 블록들 마다 개별적으로 전원 인가를 제어하여, 딥러닝 가속 장치의 효과적이고 효율적인 저전력 동작을 가능하게 할 수 있다.

또한, 본 발명의 실시예들에 따르면, 저전력의 동작이 가능함에 따라 모바일 장치에 딥러닝 가속장치의 적용이 용이해지며, 제로 체크에 의한 불필요한 연산의 배제로 딥러닝 처리 속도까지도 개선시킬 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 저전력 딥러닝 가속장치의 블럭도,

도 2는, 도 1에 도시된 전원 제어기의 상세 블럭도,

도 3은 메모리 전원 제어기에 의해 저장 블록들의 전원이 제어되고 있는 상태를 예시한 도면,

도 4는 메인 전원 제어기에 의해 연산 블록들의 전원이 제어되고 있는 상태를 예시한 도면, 그리고,

도 5는 본 발명의 다른 실시예에 따른 저전력 딥러닝 가속 방법의 설명에 제공되는 흐름도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 저전력 딥러닝 가속장치의 블럭도이다. 본 발명의 실시예에 따른 딥러닝 가속장치는, 메모리 접근 패턴 분석을 통한 저장 블록 별 전원 관리와 제로 체크(Zero Check)를 통한 연산 블록 별 전원 관리를 통해 전력 소모를 줄인다.

이와 같은 기능을 수행하는, 본 발명의 실시예에 따른 저전력 딥러닝 가속장치는, 도 1에 도시된 바와 같이, 통신 인터페이스(110), 프로세서(120), 메모리(130) 및 전원 제어기(140)를 포함하여 구성된다.

통신 인터페이스(110)는 외부 디바이스, 이를 테면, 외부 메모리(미도시)와 데이터를 주고 받기 위한 통신 수단이다.

프로세서(120)는 딥러닝 연산, 압축, 암호화, Approximate Computing, Quantization 등을 수행하기 위한 리소스로, 다수의 연산 블록(Processing Element)들로 구분된다.

메모리(130)는 Input Feature map, 딥러닝 네트워크의 Weight, Output Feature map 등이 저장되는 버퍼를 생성하여 사용하는 딥러닝 가속장치의 내부 메모리이다. 메모리(130)는 다수의 저장 블록들로 구분된다.

전원 제어기(140)는 통신 인터페이스(110), 프로세서(120) 및 메모리(130)에서의 전원 사용을 제어한다. 특히, 프로세서(120)와 메모리(130)에 대해서는 블록 단위로 전원 인가를 제어한다.

즉, 전원 제어기(140)는 프로세서(120)를 구성하는 저장 블록들 마다 개별적으로 개별적으로 전원 인가/차단을 제어하고, 메모리(130)를 구성하는 연산 블록들 마다 개별적으로 전원 인가/차단을 제어한다.

전원 제어기(140)의 상세 구성과 동작에 대해, 이하에서 도 2 내지 도 4를 참조하여 상세히 설명한다.

도 2는, 도 1에 도시된 전원 제어기(140)의 상세 블럭도이다. 도시된 바와 같이, 전원 제어기(140)는, 메인 전원 제어기(141), 메모리 전원 제어기(142), Weight 제로 체커(Zero checker)(143), Ifmap 제로 체커(144), 연산 결과 제로 체커(145)를 포함하여 구성된다.

메모리 전원 제어기(142)는 메모리(130)를 구성하는 저장 블록들에 대한 프로세서(120)의 접근 패턴을 기초로, 저장 블록들 마다 개별적으로 전원 인가를 제어한다.

구체적으로, 메모리 전원 제어기(142)는 프로세서(120)가 접근할 저장 블록들에만 전원이 인가되고, 프로세서(120)가 접근하지 않을 저장 블록들에는 전원이 인가되지 않도록, 저장 블록들의 전원 공급을 제어한다.

도 3에는 메모리 전원 제어기(142)에 의해 저장 블록들의 전원이 제어되고 있는 상태를 예시하였다. 도 3에서 On으로 표기되어 있고 빗금이 표시된 MB(Memory Block)들은 메모리 전원 제어기(142)에 의해 전원이 인가되는 저장 블록들이다. 반면, 도 3에서 Off로 표기되어 있고 빗금이 표시되어 있지 않은 MB들은 메모리 전원 제어기(142)에 의해 전원이 인가되지 않는 저장 블록들이다.

메모리(130)에 저장되는 Input Feature map, 딥러닝 네트워크의 Weight, Output Feature map에 대해 프로세서(120)는 랜덤한 접근 패턴으로 데이터를 요청하는 아닌, 규칙성이 있는 순차적 접근 패턴으로 데이터를 요청한다.

이에 따라, 순차적 접근 패턴을 고려하여, 메모리(130)의 저장 블록을 프로세서(120)의 연산 블록의 크기 단위로 분리하며, 읽기/쓰기 어드레스를 기반으로 한 저장 블록 On/Off를 적용하여 메모리(130)에서의 파워 소모를 최소화 할 수 있다.

메인 전원 제어기(141)는 제로 체커들(143,144,145)의 확인 결과를 참조하여, 프로세서(120)를 구성하는 연산 블록들 중 전원을 인가할 연산 블록들을 결정하고, 전원을 차단할 연산 블록들을 결정한다.

Weight 제로 체커(143)는 메모리(130)의 저장 블록에 저장된 Weight에서 데이터가 '0'인 부분들을 확인하고, Ifmap 제로 체커(144)는 메모리(130)의 저장 블록에 저장된 Input Feature map에서 데이터가 '0'인 부분들을 확인한다.

연산 결과 제로 체커(145)는 프로세서(120)의 연산 블록들에서 연산에 의해 데이터가 '0'이 되는 부분들을 확인한다. 구체적으로, 연산 블록들에 의한 딥러닝 연산, 압축, Approximate Computing, Quantization 등에 의해, 데이터가 '0'이 되는 부분들을 확인한다.

메인 전원 제어기(141)는 제로 체커들(143,144,145)에 의해 확인된 '0'이 되는 부분들을 기초로, 연산 결과가 '0'이 될 연산 블록들에 대해서는 전원을 차단할 것으로 결정한다.

딥러닝 연산 및 이에 수반되는 연산에서는 데이터에 '0'이 많이 존재한다. 이에, 제로 체커들(143,144,145)을 통한 확인으로 결과가 '0'이 되는 불필요한 연산 블록들을 Off 시키는 기능을 메인 전원 제어기(141)에 구현한 것이다.

도 4에는 메인 전원 제어기(141)에 의해 연산 블록들의 전원이 제어되고 있는 상태를 예시하였다. 도 3에서 On으로 표기되어 있고 빗금이 표시된 PE(Processing Element)들은 메인 전원 제어기(141)에 의해 전원이 인가되는 연산 블록들이다. 반면, 도 4에서 Off로 표기되어 있고 빗금이 표시되어 있지 않은 PE들은 메인 전원 제어기(141)에 의해 전원이 인가되지 않는 연산 블록들이다.

딥러닝 가속 장치의 저전력화를 위해, 먼저, 메모리 전원 제어기(142)는 메모리(130)를 구성하는 저장 블록들에 대한 프로세서(120)의 접근 패턴을 파악한다(S210).

그리고, 프로세서(120)가 접근할 저장 블록들에만 전원을 인가하고 접근하지 않을 저장 블록들에는 전원이 인가되지 않도록 저장 블록들의 전원 공급을 제어한다(S220).

또한, Weight 제로 체커(143)는 메모리(130)의 저장 블록에 저장된 Weight에서 데이터가 '0'인 부분들을 확인하고(S230), Ifmap 제로 체커(144)는 메모리(130)의 저장 블록에 저장된 Input Feature map에서 데이터가 '0'인 부분들을 확인한다(S240).

그리고, 연산 결과 제로 체커(145)는 프로세서(120)의 연산 블록들에서 연산에 의해 데이터가 '0'이 되는 부분들을 확인한다(S250).

다음, 메인 전원 제어기(141)는 S230단계 내지 S250단계에서의 확인 결과를 참조하여, 프로세서(120)를 구성하는 연산 블록들 중 연산이 필요한 연산 블록들에만 전원이 인가되고, 연산이 필요하지 않은 연산 블록들에는 전원이 차단되도록 제어한다(S260).

지금까지, 딥러닝 가속 장치의 효과적이고 효율적인 저전력 동작을 가능하게 하기 위한 방안으로, 저장 블록들 마다 그리고 연산 블록들 마다 개별적으로 전원 인가를 제어하는 딥러닝 가속장치에 대해, 바람직한 실시예를 들어 상세히 설명하였다.

딥러닝 하드웨어 가속기에 적용 가능한 저전력 하드웨어의 장치가 필요하다는 필요에 의해, 본 발명의 실시예에서는 수 많은 데이터의 입출력을 필요로 하는 메모리 및 연산 블록의 전원 관리 기능을 적용하였고, 성능의 저하가 없는 딥러닝 가속 하드웨어 장치의 저전력 연산이 가능한 모델을 제시하였다.

본 발명의 실시예에 의해, 저전력 동작이 가능함에 따라. 모바일 장치에도 딥러닝 가속 장치의 적용이 용이해지며, 배터리 사용 시간 증가 등의 효과를 얻을 수 있다.

특히, 실시간 제로 체커 적용으로 불필요한 연산 블록의 연산 배제로 인하여 더욱 저전력으로 동작이 가능하며, 리소스 효율적 분배를 위하여 필요한 연산을 해당 연산기에 배정이 가능하여 가속기 데이터 처리 시간의 최소화 동작이 가능하다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

다수의 저장 블록들로 구분되는 메모리;

다수의 연산 블록들로 구분되는 프로세서; 및

저장 블록들 마다 개별적으로 전원 인가를 제어하고, 연산 블록들 마다 개별적으로 전원 인가를 제어하는 전원 제어기;를 포함하는 것을 특징으로 하는 딥러닝 가속장치.
청구항 1에 있어서,

전원 제어기는,

저장 블록들에 대한 프로세서의 접근 패턴을 기초로, 저장 블록들 마다 개별적으로 전원 인가를 제어하는 것을 특징으로 하는 딥러닝 가속장치.
청구항 2에 있어서,

전원 제어기는,

프로세서가 접근할 저장 블록들에만 전원이 인가되도록 제어하는 것을 특징으로 하는 딥러닝 가속장치.
청구항 1에 있어서,

메모리에는,

Input Feature map 및 딥러닝 네트워크의 Weight가 저장되는 것을 특징으로 하는 딥러닝 가속장치.
청구항 4에 있어서,

메모리에 저장된 Input Feature map에서 데이터가 '0'인 부분들을 확인하는 제1 체커; 및

메모리에 저장된 Weight에서 데이터가 '0'인 부분들을 확인하는 제2 체커;를 더 포함하고,

전원 제어기는,

제1 체커와 제2 체커의 확인 결과를 기초로, 전원을 인가하지 않을 연산 블록들을 결정하는 것을 특징으로 하는 딥러닝 가속장치.
청구항 5에 있어서,

연산 블록들에서 연산에 의해 데이터가 '0'이 되는 부분들을 확인하는 제3 체커;를 더 포함하고,

전원 제어기는,

제3 체커의 확인 결과를 기초로, 전원을 인가하지 않을 연산 블록들을 결정하는 것을 특징으로 하는 딥러닝 가속장치.
청구항 6에 있어서,

연산 블록들에서의 연산은,

딥러닝 연산, 압축, 암호화, Approximate Computing, Quantization 중 적어도 하나를 포함하는 것을 특징으로 하는 딥러닝 가속장치.
딥러닝 가속장치의 메모리에 구분된 다수의 저장 블록들 마다 개별적으로 전원 인가를 제어하는 단계; 및

딥러닝 가속장치의 프로세서에 구분된 다수의 연산 블록들 마다 개별적으로 전원 인가를 제어하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 가속장치의 전원 제어 방법.