WO2020153513A1

WO2020153513A1 - 딥러닝 가속 하드웨어 장치

Info

Publication number: WO2020153513A1
Application number: PCT/KR2019/000968
Authority: WO
Inventors: 이상설; 장성준
Original assignee: 전자부품연구원
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-07-30
Also published as: KR20200091672A; KR102368364B1

Abstract

딥러닝 가속 하드웨어 장치가 제공된다. 본 발명의 실시예에 따른 가속 하드웨어 장치는, 외부 메모리로부터 다채널의 IFmap과 Weight를 입력받는 캐쉬 캐쉬에 입력된 IFmap과 Weight를 구분하여 저장하는 다수의 라인 메모리들, 라인 메모리들에 구분되어 저장된 IFmap과 Weight를 각각 처리하여 저장하는 WDMA들을 포함한다. 이에 의해, 딥러닝 가속기에서 매번 동일한 채널/Weight 별 데이터 처리를 위해 외부 대용량의 메모리 접근 횟수를 줄이는 것이 가능하고, 데이터 재사용성을 높여줌과 동시에, Peak Bandwidth를 줄이고 Bandwidth를 적절히 분배하여 가속기의 데이터 버퍼링 시간의 최소화를 통한 처리 속도 향상이 가능하다.

Description

딥러닝 가속 하드웨어 장치

본 발명은 영상 처리를 위한 SoC(System on Chip) 기술에 관한 것으로, 더욱 상세하게는 입력 영상을 딥러닝 처리하기 위한 하드웨어 장치의 구조와 설계 방안에 관한 것이다.

종래의 기술은 대부분 입력 영상 데이터(feature map), 입력 컨볼루션 파라미터(Weight)를 재사용하기 위한 기술이 많이 발표되었다. 외부 메모리로부터 입력된 데이터를 최대한 많이 재사용하여 외부 메모리 접근을 줄여 준다는 것이 목적이다.

보통 외부 메모리 접근시에는 물리적 제약 사항인 외부 메모리 허용 Bandwidth를 넘어갈 수 없다. 즉, 하드웨어 크기가 커서 연산기의 할당을 충분히 할 수 있더라도, 외부 메모리로부터의 추가 데이터 공급이 어렵기 때문에 불필요한 연산기가 될 가능성이 높다. 따라서, Peak Memory bandwidth를 넘지 않는 한도에서 데이터 공급을 할 수 있도록 분석 및 최적화 설계를 진행해야 한다.

입력된 영상을 커널에 해당하는 데이터로 채널별로 생성하여 내부 또는 외부 공간에 저장을 하고, 해당 데이터를 불러들여 연산을 수행한다. 영상의 크기(Input feature map)가 클 경우에는 입력/생성된 데이터가 굉장히 크기 때문에 내부 메모리에 저장하는 방법은 불가능한 형태가 된다.

이는 하드웨어 구현 시에 외부 대용량/저속 저장공간에 해당 데이터를 저장하고, 매번 외부 저장공간으로의 데이터 패칭이 필요하게 되어 고속 처리를 할 수 없게 된다. 또한, 데이터 입출력시 Bandwidth의 증가가 불가피하다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 대용량의 외부 메모리 접근 횟수를 줄임과 동시에 데이터 요청을 예측 가능할 수 있고, 데이터 재사용성을 최대화 하며, Peak Bandwidth를 감소시킬 수 있는 구조의 딥러닝 가속 하드웨어 장치를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 가속 하드웨어 장치는, 외부 메모리로부터 다채널의 IFmap(Input Feature map)과 Weight를 입력받는 캐쉬; 캐쉬에 입력된 IFmap과 Weight를 구분하여 저장하는 다수의 라인 메모리들; 라인 메모리들에 구분되어 저장된 IFmap과 Weight를 각각 처리하여 저장하는 WDMA들;을 포함한다.

그리고, 다수의 라인 메모리들과 WDMA들은, Tiling 기법을 통해 Peak Bandwidth를 분산시킬 수 있다.

또한, 본 발명의 실시예에 따른 가속 하드웨어 장치는, WDMA들에 의해 생성된 OFmap(Output Feature map)을 외부 메모리에 저장하는 컨트롤러;를 더 포함할 수 있다.

그리고, WDMA들은, Width×Height×Input Channel×Output Channel의 연산량을 기반으로 연산을 수행할 수 있다.

또한, IFmap은 Width×Height×Input Channel의 크기를 갖고, OFmap은 Width×Height×Output Channel의 크기를 갖을 수 있다.

그리고, n×m 커널을 사용할 경우, Weight는 n×m×Input Channel×Output Channel의 크기를 갖을 수 있다.

또한, 타 블록의 bandwidth 상황에 따라 연산을 처리할 수 있다.

한편, 본 발명의 다른 실시예에 따른, DMA 방법은, 외부 메모리로부터 다채널의 IFmap(Input Feature map)과 Weight를 입력받는 단계; 캐쉬에 입력된 IFmap과 Weight를 구분하여 다수의 라인 메모리들에 저장하는 단계; 라인 메모리들에 구분되어 저장된 IFmap과 Weight를 각각 처리하여 WDMA들에 저장하는 단계;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 딥러닝 가속기에서 매번 동일한 채널/Weight 별 데이터 처리를 위해 외부 대용량의 메모리 접근 횟수를 줄이는 것이 가능하고, 데이터 재사용성을 높여줌과 동시에, Peak Bandwidth를 줄이고 Bandwidth를 적절히 분배하여 가속기의 데이터 버퍼링 시간의 최소화를 통한 처리 속도 향상이 가능하다.

도 1은 기존의 데이터 재사용 방법의 설명에 제공되는 도면,

도 2는 연산 처리를 위한 입출력 라인 메모리 형태를 예시한 도면,

도 3은 본 발명의 일 실시예에 따른 16채널 Tiling을 적용한 데이터 흐름도 및 DMA 구조의 딥러닝 가속 하드웨어 장치.

도 4는 채널 기반의 Tiling 처리된 결과를 저장하기 위한 Partial WDMA 구조를 도시한 도면, 그리고,

도 5는 외부 메모리 저장을 위한 메모리 할당을 예시한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 기존의 데이터 재사용 방법의 설명에 제공되는 도면이다. 도 1에 도시된 바와 같이, 영상을 생성하기 위한 커널이 Weight와 Image pixels을 이용하여 필터링을 한다.

여기서는, 필터링을 위하여 채널별로 순차적으로 연산하고 합산하는 방법, 여러 채널에 대해 동시 필터링을 적용하는 방법, 필터를 두고 다채널의 영상을 동시 처리 하는 방법 등으로 처리를 하고 있다.

하지만, 위 방법들을 이용할 경우 채널 증가 및 연산을 하기 위한 Feature map 데이터가 많은 경우에는 외부 메모리로부터의 데이터 입출력에 많은 시간을 소요하게 된다. 즉, 연산기의 수에 따른 데이터의 준비율이 떨어져 하드웨어 동작 시 속도 저하(core의 hold 상태 지속)가 발생한다.

도 2는 연산 처리를 위한 입출력 라인 메모리 형태(608x608일 경우)를 예시한 도면이다. 도 2는 3x3의 커널을 기본으로 사용할 경우, 라인 메모리 및 커널을 생성하여 1 clock에 데이터를 처리할 수 있는 구성이다. 연산된 결과(output feature map)의 경우에는 후 처리가 가능하도록 라인 메모리 버퍼로 구성을 하였다(Fxxxx).

데이터 처리에서 필요한 라인 메모리 형태로 데이터 처리 시 FPGA 등 하드웨어의 용량 한계에 따라 입출력 채널을 무한정 크게 할 수 없다. 이를 위해, 하드웨어에서 적용 가능한 최대의 연산기 및 라인 메모리를 미리 구성하고, 해당 하드웨어에 효율적으로 데이터를 공급하기 위한 구조를 설계하여야 한다.

도 3은 본 발명의 일 실시예에 따른 16채널 Tiling을 적용한 데이터 흐름도 및 DMA 구조의 딥러닝 가속 하드웨어 장치를 나타낸 도면이다. 도 3에서는 16 채널을 기본으로 하는 Tiling 개념을 도식화하였다.

CNN의 경우에는 Width×Height×Input Channel×Output Channel의 연산량을 기반으로 연산을 수행하게 된다.

CNN을 위한 각각의 Input Feature map(IFmap)의 경우에는 Width×Height×Input Channel의 크기, Weight의 경우에는 n×m 커널을 사용할 경우에는 n×m×Input Channel×Output Channel의 크기, Output Feature map(OFmap)의 경우에는 Width×Height×Output Channel의 크기를 갖는다.

도 3의 구조에서는, IFmap, Weight가 외부 메모리로부터의 데이터 입력을 필요로 하며, OFmap의 경우에는 외부 메모리로의 저장을 필요로 한다. 즉, 충분한 데이터의 입출력을 위한 입출력 Bandwidth가 굉장히 중요하다.

보통 연산 시 사전에 입력 데이터를 요청할 경우에 Peak Bandwidth를 필요로 하게 되므로, 해당 Peak값을 분산할 필요성이 있다. 이를 위해, 본 발명의 실시예에서는 Tiling 기법을 제시한다.

Tiling 기법은 AXI 인터페이스 상에서 연산기의 대기 없이 데이터를 입력 받을 수 있는 채널 수 및 커널 크기를 결정하여 16채널 혹은 32채널로 설정을 할 수 있다(연산을 위한 bit width에 따라 1,2,4,8,16,32,64,128 ... 등 축소/확장 가능 - 예시는 16/32만을 이용).

AXI 인터페이스의 bitwidth : 512bits, burst : 16, multiple outstanding: 8, Kernel : 3×3, Fmap : 17bits~32bits, Weight : 16 bits

도 3에서는, 16 채널을 기본으로 하게 되며, line memory 기반이므로 사전에 데이터를 RDMA로 미리 요청하여 DMA 캐쉬(110)에 저장하고, 이를 코어에서 불러들여 라인 메모리(120)에 구분하여 저장한다.

한 번의 multiple outstanding 요청으로 획득할 수 있는 데이터는 최대 32 클럭 이내에 {2048 데이터(32bits 기준) = 16 pixels × 16channel data}이며, 처리할 수 있는 데이터는 한 번에 2,304(3×3×16ch(in)×16ch(out))를 동시에 처리 및 WDMA(130)로의 저장(16 픽셀의 처리 및 출력으로 16채널 연산으로 인하여 RDMA/WDMA의 Bandwidth 여유가 있으므로, Peak bandwidth를 넘지 않음)이 가능하다.

위의 연산을 위하여 모든 데이터를 버퍼링한다면 병렬 처리수(Pcal)에 따라서 Pcal×n×m×Input Channel×Output Channel×2의 peak bandwidth가 필요하게 되며, 또한, Output Feature map의 누적연산을 위한 입출력 bitwidth 2배 크기의 덧셈용 버퍼를 필요로 한다

본 발명의 실시예에 따른 DMA 구조의 최대 bandwidth는 2,048 + 2,304를 크기만큼의 Constant Peak Bandwidth를 필요로 하게 되어, 타 블록의 bandwidth 상황에 따라 연산기의 Go/Stop 컨트롤을 즉각적으로 처리 가능하다(기존 방식으로 처리할 경우 해당 데이터의 입출력이 끝날 때까지 다른 AXI 채널은 hold 되어 있어 bus 채널 상황에 따른 대처가 느려짐).

도 4는 채널 기반의 Tiling 처리된 결과를 저장하기 위한 Partial WDMA 구조를 도시한 도면이다. 도 4에 도시된 바와 같이, 출력 채널별로 연산을 수행하고 WDMA cache에 1 multiple outstanding 처리가 가능한 데이터가 누적 입력될 경우 WDMA Address 컨트롤러(140)를 통하여 외부 메모리에 저장하게 된다. 도 5에는 외부 메모리 저장을 위한 메모리 할당을 예시하였다.

지금까지, 딥러닝 가속 하드웨어 장치에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시예에서는, 대용량의 외부 메모리 접근 횟수를 줄임과 동시에 데이터 요청을 예측 가능할 수 있고, 데이터 재사용성을 최대화 하며, Peak Bandwidth를 감소시킬 수 있는 구조의 딥러닝 가속 하드웨어 장치를 제시하였다.

본 발명의 실시예에 따른 딥러닝 가속 하드웨어 장치는, 채널 기반 Tiling 기법을 적용한 가속기용 하드웨어 구조, 라인 메모리 형태의 연산을 위한 하드웨어 구조 및 BUS 트래픽 예측을 통해 가속기의 속도 조절이 가능한 구조를 갖는다.

이에 의해, 딥러닝 가속기에서 매번 동일한 채널/Weight 별 데이터 처리를 위해 외부 대용량의 메모리 접근 횟수를 줄이는 것이 가능하고, 데이터 재사용성을 높여줌과 동시에, Peak Bandwidth를 줄이고 Bandwidth를 적절히 분배하여 가속기의 데이터 버퍼링 시간의 최소화를 통한 처리 속도 향상이 가능해진다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

외부 메모리로부터 다채널의 IFmap(Input Feature map)과 Weight를 입력받는 캐쉬;

캐쉬에 입력된 IFmap과 Weight를 구분하여 저장하는 다수의 라인 메모리들;

라인 메모리들에 구분되어 저장된 IFmap과 Weight를 각각 처리하여 저장하는 WDMA들;을 포함하는 것을 특징으로 하는 가속 하드웨어 장치.
청구항 1에 있어서,

다수의 라인 메모리들과 WDMA들은,

Tiling 기법을 통해 Peak Bandwidth를 분산시키는 것을 특징으로 하는 가속 하드웨어 장치.
청구항 1에 있어서,

WDMA들에 의해 생성된 OFmap(Output Feature map)을 외부 메모리에 저장하는 컨트롤러;를 더 포함하는 것을 특징으로 하는 가속 하드웨어 장치.
청구항 1에 있어서,

WDMA들은,

Width×Height×Input Channel×Output Channel의 연산량을 기반으로 연산을 수행하는 CNN을 위한 것을 특징으로 하는 가속 하드웨어 장치.
청구항 4에 있어서,

IFmap은 Width×Height×Input Channel의 크기를 갖고,

OFmap은 Width×Height×Output Channel의 크기를 갖는 것을 특징으로 하는 가속 하드웨어 장치.
청구항 5에 있어서,

n×m 커널을 사용할 경우, Weight는 n×m×Input Channel×Output Channel의 크기를 갖는 것을 특징으로 하는 가속 하드웨어 장치.
청구항 1에 있어서,

타 블록의 bandwidth 상황에 따라 연산을 처리하는 것을 특징으로 하는 가속 하드웨어 장치.
외부 메모리로부터 다채널의 IFmap(Input Feature map)과 Weight를 입력받는 단계;

캐쉬에 입력된 IFmap과 Weight를 구분하여 다수의 라인 메모리들에 저장하는 단계;

라인 메모리들에 구분되어 저장된 IFmap과 Weight를 각각 처리하여 WDMA들에 저장하는 단계;를 포함하는 것을 특징으로 하는 DMA 방법.