WO2021117942A1

WO2021117942A1 - 저복잡도 딥러닝 가속 하드웨어 데이터 가공장치

Info

Publication number: WO2021117942A1
Application number: PCT/KR2019/017592
Authority: WO
Inventors: 이상설; 장성준; 박종희
Original assignee: 전자부품연구원
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2021-06-17
Also published as: KR20210074681A

Abstract

외부 메모리 접근 횟수를 줄임과 동시에 데이터 요청을 예측 가능한 구조로 설계하고, 데이터 재사용성의 최대화 하며, Peak Bandwidth의 감소할 수 있는 딥러닝 가속기 하드웨어가 제공된다. 본 발명의 실시예에 따른, 딥러닝 가속기는 입력 데이터를 연산하는 딥러닝 가속기; 딥러닝 가속기의 출력 데이터를 압축하는 인코더; 및 인코더에서 압축된 출력 데이터를 외부 메모리에 기록하는 WDMA;를 포함하고, 인코더는, 출력 데이터의 컨텍스트를 기초로, 각기 다른 압축 방식을 선택적으로 적용하여 출력 데이터를 압축한다. 이에 의해, 딥러닝 가속기에서 매번 동일한 채널/Weight 별 데이터 처리를 위해 외부 대용량의 메모리 접근 횟수를 줄이는 것이 가능해진다.

Description

저복잡도 딥러닝 가속 하드웨어 데이터 가공장치

본 발명은 인공지능을 이용한 영상 처리 하드웨어 기술에 관한 것으로, 더욱 상세하게는 입력 영상에 대해 딥러닝 처리하는 하드웨어 가속기의 구조 및 이의 설계 방법에 관한 것이다.

딥러닝 처리를 위한 하드웨어 가속기에서 입력 영상 데이터(Feature map)와 입력 컨볼루션 파라미터(Weight)를 재사용하기 위한 기술들이 많이 연구&개발되고 있다. 외부 메모리로부터 입력된 데이터를 최대한 많이 재사용함으로써, 외부 메모리 접근을 줄여 주기 위함이다.

한편, 입력 영상에서 커널로 연산할 데이터를 채널 별로 생성하여 내부 또는 외부 메모리에 저장을 하고, 해당 데이터를 불러들여 연산을 수행하고 있는데, 입력 영상 데이터의 크기가 클 경우에는 메모리에 쓰기/읽기에 많은 전력을 소모하게 된다.

또한, 하드웨어 구현 시에 외부 대용량/저속 메모리에 해당 데이터를 저장하는 경우, 외부 메모리으로의 매번 데이터 패칭이 필요하게 되어 고속 처리를 할 수 없을 뿐만 아니라, 데이터 입출력시 Bandwidth의 증가가 불가피하다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 외부 메모리 접근 횟수를 줄임과 동시에 데이터 요청을 예측 가능한 구조로 설계하고, 데이터 재사용성의 최대화 하며, Peak Bandwidth의 감소할 수 있는 딥러닝 가속기 하드웨어를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 가속기는 입력 데이터를 연산하는 딥러닝 가속기; 딥러닝 가속기의 출력 데이터를 압축하는 인코더; 및 인코더에서 압축된 출력 데이터를 외부 메모리에 기록하는 WDMA;를 포함하고, 인코더는, 출력 데이터의 컨텍스트를 기초로, 각기 다른 압축 방식을 선택적으로 적용하여 출력 데이터를 압축한다.

인코더는, 출력 데이터에 대해, 무손실 압축을 수행할 수 있다.

인코더는, 출력 데이터들이 동일한 경우, 동일한 데이터의 개수를 이용하여 출력 데이터들을 인코딩할 수 있다.

인코더는, 출력 데이터들이 다른 경우, 데이터들 간의 차이를 이용하여 출력 데이터들을 인코딩할 수 있다.

압축 데이터는, 압축 스트림에 채널 단위로 구분되어 수록되고, 압축 스트림은, 압축 스트림에서 압축 데이터의 위치와 길이에 대한 정보가 수록되는 헤더를 포함할 수 있다.

본 발명에 따른 딥러닝 가속기는 외부 메모리로부터 압축된 입력 데이터를 읽어오는 RDMA; RDMA가 읽어온 압축된 입력 데이터를 신장시키는 디코더;를 더 포함하고, 딥러닝 가속기는, 디코더에서 신장된 입력 데이터를 연산할 수 있다.

RDMA는, 입력 받을 채널의 개수를 적응적으로 결정할 수 있다.

본 발명의 다른 측면에 따르면, 딥러닝 가속기가, 입력 데이터를 연산하는 단계; 인코더가, 딥러닝 가속기에서 출력되는 데이터의 컨텍스트를 결정하는 단계; 결정된 컨텍스트를 기초로, 인코더가 각기 다른 압축 방식을 선택적으로 적용하여 출력 데이터를 압축하는 단계; WDMA가, 압축된 출력 데이터를 외부 메모리에 기록하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 가속기 데이터 처리 방법이 제공된다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 딥러닝 가속기에서 매번 동일한 채널/Weight 별 데이터 처리를 위해 외부 대용량의 메모리 접근 횟수를 줄이는 것이 가능해진다.

또한, 본 발명의 실시예들에 따르면, 딥러닝 가속기에서 데이터 재사용성을 높여줌과 동시에, Peak Bandwidth를 줄여, 데이터 버퍼링 시간의 최소화를 통해 처리 속도를 향상시킬 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 저복잡도 딥러닝 하드웨어 가속기의 블럭도,

도 2는 16 채널 타일링을 적용한 DMA 구조와 데이터 흐름을 도식화한 도면,

도 3은 Loseless 인코더의 구성과 데이터 입출력 흐름을 도시한 도면, 그리고,

도 4는 다중 채널 기반 딥러닝 데이터 압축 스트림 구조를 도시한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 저복잡도 딥러닝 하드웨어 가속기의 블럭도이다.

본 발명의 실시예에 따른 딥러닝 하드웨어 가속기는, 도 1에 도시된 바와 같이, RDMA(Read Direct Memory Access)(110), Loseless 디코더(120), CNN(Convolutional Neural Network) 가속기(130), Loseless 디코더(140) 및 WDMA(Write Direct Memory Access)(150)를 포함하여 구성된다.

RDMA(110)는 외부 메모리로부터 입력 데이터를 읽어와 내부 캐시에 저장한다. 입력 데이터에는 IFmap(Input Feature map)과 컨볼루션 파라미터(Weight)를 포함한다.

입력 데이터는 무손실 압축되어 있다. 이에 따라, Loseless 디코더(140)는 RDMA(110)가 읽어 온 입력 데이터를 Lossless Decoding 하여 압축된 입력 데이터를 신장시킨다.

CNN 가속기(130)는 Loseless 디코더(140)에서 압축 해제된 입력 데이터를 연산하고, 연산 결과를 출력한다. CNN 가속기(130)의 출력 데이터는 OFmap(Output Feature map)이다.

Loseless 인코더(140)는 CNN 가속기(130)의 출력 데이터를 무손실 압축하여 WDMA(150)의 캐시에 저장한다. 그러면, WDMA(150)는 Loseless 디코더(120)에서 압축된 출력 데이터를 외부 메모리에 기록한다.

도 1에 도시된 RDMA(110)와 WDMA(150)의 상세 동작에 대해, 이하에서 도 2를 참조하여 상세히 설명한다. 도 2에는 16 채널 타일링(Tiling)을 적용한 DMA 구조와 데이터 흐름을 도식화한 도면이다.

CNN의 경우에는 Width×Height×Input Channel×Output Channel의 연산량을 기반으로 연산을 수행하게 된다. CNN을 위한 각각의 IFmap의 크기는 Width×Height×Input Channel이고, Weight의 크기는 n×m 커널을 사용할 경우 n×m×Input Channel×Output Channel이며, OFmap의 크기는 Width×Height×Output Channel이다.

IFmap, Weight는 외부 메모리로부터 입력되며, OFmap은 외부 메모리로 기록된다. 데이터의 입출력시에는 Bandwidth가 굉장히 중요하다. 딥러닝 연산을 위해 입력 데이터를 요청할 경우에 Peak Bandwidth를 필요로 하므로, 해당 Peak Bandwidth를 분산할 필요성이 있다.

이에 따라, 본 발명의 실시예에서는, AXI 인터페이스 상에서 연산기의 대기 없이 데이터를 입력받을 수 있는 채널의 개수를 결정한다. 이를 테면, 2 채널, 4 채널, 8 채널, 16 채널, 32 채널 중 하나를 선택적으로 설정할 수 있다. 연산을 위한 bit width에 따라 선택 가능한 채널의 개수를 확장하거나 축소할 수 있다.

예를 들어, AXI 인터페이스의 bitwidth가 512bits, burst가 16, multiple outstanding이 8, Kernel 사이즈가 3×3, Fmap이 17bits~32 bits, Weight가 16 bit라고 한다면, 16 채널을 선택하고, 라인 메모리 기반이므로 사전에 데이터를 RDMA(110)로 미리 요청하여 내부 캐쉬에 저장하고, 이를 코어에서 불러들여 라인 메모리를 구성할 수 있다.

한 번의 multiple outstanding 요청으로 획득할 수 있는 데이터는 최대 32 클럭 이내에 {2048 데이터(32bits 기준) = 16 pixels × 16channel data}이며, 처리할 수 있는 데이터는 한번에 처리 가능한 연산은 2,304(3×3×16ch(in)×16ch(out))를 동시에 처리 및 WDMA(150)로 저장이 가능하다. 16 픽셀의 처리 및 출력으로 16채널 연산으로 인하여 RDMA(110)/WDMA(150)의 Bandwidth가 여유가 있으므로, Peak Bandwidth를 넘지 않는다.

도 1에 도시된 Loseless 디코더(120)와 Loseless 디코더(140)의 상세 동작에 대해, 이하에서 상세히 설명한다.

위의 예시에 따른 연산을 위하여 모든 데이터를 버퍼링 한다면 병렬 처리수(Pcal)에 따라서 Pcal×n×m×Input Channel×Output Channel×2의 Peak Bandwidth가 필요하게 되며, 또한, OFmap의 누적연산을 위한 입출력 bit width 2배 크기의 덧셈용 버퍼를 필요로 한다.

따라서, 위의 예시에서와 같이 데이터를 처리할 경우 데이터의 입출력에 많은 전력을 소모하게 되며, 데이터의 입출력을 위한 컨트롤이 굉장히 복잡할 수밖에 없다.

이에 따라, 데이터의 감소를 위하여, 딥러닝 데이터를 압축, 구체적으로 Layer 단위 특히 그 내부의 채널 단위로 압축하여 데이터의 압축률을 높일 수 있다. IFmap과 OFmap은 영상과 동일한 형태이기 때문이며, 압축시 영상 압축 방식과 동일한 방식을 이용할 수 있다.

도 3에 Loseless 디코더(120)의 구성과 데이터 입출력 흐름을 도시하였다. 도시된 바와 같이, Loseless 디코더(120)는 CNN 가속기(130)의 출력 데이터인 OFmap의 컨텍스트를 기초로, 2가지 압축 방식을 선택적으로 적용한다.

하나는 Regular Mode에 따른 무손실 압축이다. 압축할 OFmap의 데이터들이 서로 다른 경우에 데이터들 간의 차이값을 이용하여 출력 데이터들을 인코딩하는 방식이다.

다른 하나는 Run Mode에 따른 무손실 압축이다. 압축할 OFmap의 데이터들이 모두 같은 경우에, 같은 데이터의 개수를 이용하여 출력 데이터들을 인코딩하는 방식이다.

도 4는 다중 채널 기반 딥러닝 데이터 압축 스트림 구조를 도시한 도면이다. 압축 스트림에는 압축 데이터들이 채널 단위로 구분되어 수록되어 있다. 또한, 랜덤 액세스를 지원하기 위하여, 압축 스트림의 헤더에는 압축 데이터들의 위치/길이 정보가 수록되어 있다.

도시된 압축 스트림의 구조는 OFmap은 물론, IFmap과 Weight에도 적용될 수 있다.

지금까지, 저복잡도 딥러닝 하드웨어 가속기에 대해, 바람직한 실시예들을 들어 상세히 설명하였다.

본 발명의 실시예에서는, 입력 받는 채널의 개수를 적응적으로 설정하고, 입출력에 소모되는 전력을 줄이고 컨트롤을 단순화하기 위해 데이터를 무손실 압축된 데이터로 구현하였다.

또한, 압축 스트림에는 압축 데이터를 채널 단위로 구분하여 수록하고, 구분자에 대한 정보를 압축 스트림의 헤더에 수록하여, 랜덤 액세스가 가능하도록 하였다.

이를 통해, 딥러닝 하드웨어 가속기에서 매번 동일한 채널/Weight 별 데이터 처리를 위해, 외부 대용량의 메모리 접근 횟수를 줄일 수 있고, 데이터 재사용성을 높여줌과 동시에, Peak Bandwidth를 줄이고 데이터 버퍼링 시간의 최소화를 통해 처리 속도를 향상시킬 수 있게 된다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

입력 데이터를 연산하는 딥러닝 가속기;

딥러닝 가속기의 출력 데이터를 압축하는 인코더; 및

인코더에서 압축된 출력 데이터를 외부 메모리에 기록하는 WDMA;를 포함하고,

인코더는,

출력 데이터의 컨텍스트를 기초로, 각기 다른 압축 방식을 선택적으로 적용하여 출력 데이터를 압축하는 것을 특징으로 하는 딥러닝 가속기.
청구항 1에 있어서.

인코더는,

출력 데이터에 대해, 무손실 압축을 수행하는 것을 특징으로 하는 딥러닝 가속기.
청구항 2에 있어서,

인코더는,

출력 데이터들이 동일한 경우, 동일한 데이터의 개수를 이용하여 출력 데이터들을 인코딩하는 것을 특징으로 하는 딥러닝 가속기.
청구항 2에 있어서,

인코더는,

출력 데이터들이 다른 경우, 데이터들 간의 차이를 이용하여 출력 데이터들을 인코딩하는 것을 특징으로 하는 딥러닝 가속기.
청구항 1에 있어서,

압축 데이터는,

압축 스트림에 채널 단위로 구분되어 수록되고,

압축 스트림은,

압축 스트림에서 압축 데이터의 위치와 길이에 대한 정보가 수록되는 헤더를 포함하는 것을 특징으로 하는 딥러닝 가속기.
청구항 1에 있어서,

외부 메모리로부터 압축된 입력 데이터를 읽어오는 RDMA;

RDMA가 읽어온 압축된 입력 데이터를 신장시키는 디코더;를 더 포함하고,

딥러닝 가속기는,

디코더에서 신장된 입력 데이터를 연산하는 것을 특징으로 하는 딥러닝 가속기.
청구항 6에 있어서,

RDMA는,

입력 받을 채널의 개수를 적응적으로 결정하는 것을 특징으로 하는 딥러닝 가속기.
딥러닝 가속기가, 입력 데이터를 연산하는 단계;

인코더가, 딥러닝 가속기에서 출력되는 데이터의 컨텍스트를 결정하는 단계;

결정된 컨텍스트를 기초로, 인코더가 각기 다른 압축 방식을 선택적으로 적용하여 출력 데이터를 압축하는 단계;

WDMA가, 압축된 출력 데이터를 외부 메모리에 기록하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 가속기 데이터 처리 방법.