WO2021100900A1

WO2021100900A1 - 적응형 딥러닝 가속 장치 및 방법

Info

Publication number: WO2021100900A1
Application number: PCT/KR2019/015929
Authority: WO
Inventors: 이상설; 장성준; 박종희
Original assignee: 전자부품연구원
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2021-05-27
Also published as: KR20210061583A; KR102334473B1

Abstract

다른 디바이스들과 함께 외부 메모리를 공유하여 외부 메모리의 접근 패턴을 예측할 수 없는 상태에서도, 하드웨어 속도를 적응적으로 제어할 수 있는 딥러닝 가속 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 딥러닝 가속 장치는 외부 메모리에 직접 접근하여, 외부 메모리로부터 딥러닝 연산을 위한 데이터를 읽어들이는 RDMA(Read Direct Memory Access); RDMA에서 읽어들인 데이터가 저장되는 제1 버퍼; RDMA와 제1 버퍼의 상황을 파악하는 체커; 및 제1 버퍼에 저장된 데이터로 딥러닝 연산을 수행하는 연산기; 체커에서 파악된 상황을 기초로, 연산기의 동작 속도를 가변시키는 제어기;를 포함한다. 이에 의해, 다른 디바이스들과 함께 외부 메모리를 공유하여 외부 메모리의 접근 패턴을 예측할 수 없는 상태에서도, 하드웨어 속도를 적응적으로 제어할 수 있게 된다.

Description

적응형 딥러닝 가속 장치 및 방법

본 발명은 영상 처리 및 SoC(System on Chip) 기술에 관한 것으로, 더욱 상세하게는 딥러닝 연산시 하드웨어 속도를 제어할 수 있는 딥러닝 가속 장치 및 방법에 관한 것이다.

딥러닝 하드웨어 가속기에 대한 대부분의 연구 개발은 입력되는 데이터(Feature map)외 컨볼루션 파라미터(Weight)를 최대한 많이 처리하는 것에 초점이 맞추어져 있다.

하지만, 딥러닝 하드웨어 가속기가 접근하여야 하는 외부 메모리에의 물리적 제약 사항인 외부 메모리 허용 Bandwidth 라는 제약이 있다. 즉, 딥러닝 하드웨어 가속기의 성능이 뛰어나 연산기 할당을 충분이 할 수 있다 하더라도, 외부 메모리로부터의 데이터를 공급이 빠르게 이루어지지 않으면, 빠른 연산을 수행할 수 없는 상태가 된다.

만약, 딥러닝 하드웨어 가속기가 외부 메모리를 단독으로 사용하는 경우라면, 가속기의 Bandwidth 상황을 사전 예측할 수 있어 Peak Memory bandwidth를 넘지 않는 한도에서, 외부 메모리부터의 데이터 공급이 최적화되도록 설계할 수 있다.

그러나, 작은 시스템의 경우에는 딥러닝 하드웨어 가속기가 단독으로 외부 메모리를 사용하는 것은 아주 드물며, 다른 인터페이스나 메인 프로세서와 함께 외부 메모리를 공유하여 사용하여야 한다. 이 경우에는 외부 메모리의 접근 상황을 예측할 수 없어 위 설계 방법을 적용할 수 없는 문제가 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 다른 디바이스들과 함께 외부 메모리를 공유하여 외부 메모리의 접근 패턴을 예측할 수 없는 상태에서도, 하드웨어 속도를 적응적으로 제어할 수 있는 딥러닝 가속 장치 및 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 가속 장치는 외부 메모리에 직접 접근하여, 외부 메모리로부터 딥러닝 연산을 위한 데이터를 읽어들이는 RDMA(Read Direct Memory Access); RDMA에서 읽어들인 데이터가 저장되는 제1 버퍼; RDMA와 제1 버퍼의 상황을 파악하는 체커; 및 제1 버퍼에 저장된 데이터로 딥러닝 연산을 수행하는 연산기; 체커에서 파악된 상황을 기초로, 연산기의 동작 속도를 가변시키는 제어기;를 포함한다.

본 발명에 따른 딥러닝 가속 장치는 연산기에서 딥러닝 연산된 데이터가 저장되는 제2 버퍼; 외부 메모리에 직접 접근하여, 제2 버퍼에 저장된 데이터를 외부 메모리에 기록하는 WDMA(Write Direct Memory Access);를 더 포함하고, 체커는, WDMA와 제2 버퍼의 상황을 더 파악할 수 있다.

체커는, RDMA와 WDMA의 bandwidth 상황을 파악하고, 제어기는, 파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 동작 여부를 제어할 수 있다.

제어기는, 파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 Enable 간격을 제어할 수 있다.

제어기는, 파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 Enable 신호 간격을 제어할 수 있다.

제어기는, 파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 Enable 신호 길이를 제어할 수 있다.

제어기는, 파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기에 인가되는 클럭의 속도를 제어할 수 있다.

본 발명의 다른 측면에 따르면, RDMA(Read Direct Memory Access)가, 외부 메모리에 직접 접근하여, 외부 메모리로부터 딥러닝 연산을 위한 데이터를 읽어들이는 단계; 제1 버퍼가, RDMA가 읽어들인 데이터를 저장하는 단계; 연산기가, 제1 버퍼에 저장된 데이터로 딥러닝 연산을 수행하는 단계; 체커가. RDMA와 제1 버퍼의 상황을 파악하는 단계; 및 제어기가, 체커에서 파악된 상황을 기초로, 연산기의 동작 속도를 가변시키는 단계;를 포함하는 것을 특징으로 하는 딥러닝 가속 방법이 제공된다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 다른 디바이스들과 함께 외부 메모리를 공유하여 외부 메모리의 접근 패턴을 예측할 수 없는 상태에서도, 하드웨어 속도를 적응적으로 제어할 수 있게 된다.

특히, 본 발명의 실시예들에 따르면, 딥러닝 가속기에서 매번 동일한 채널/Weight 별 데이터 처리를 위해 대용량의 외부 메모리 접근에 따른 연산 속도 제어가 가능하며, Peak Bandwidth 상황에서 연산기의 연산 속도 혹은 연산율을 적절히 분배하여 가속기의 데이터 버퍼링 속도의 영향을 최소화할 수 있게 된다.

도 1은 본 발명이 적용 가능한 딥러닝 가속 장치를 도시한 도면,

도 2는 본 발명의 일 실시예에 따른 딥러닝 가속 장치의 구조를 도시한 블럭도,

도 3은, 도 2에 도시된 연산기(130)의 상세 구조를 도시한 블럭도,

도 4는 본 발명의 다른 실시예에 따른 딥러닝 가속 장치의 동작 제어 방법의 설명에 제공되는 흐름도,

도 5는, 도 2에 도시된 딥러닝 가속 장치의 구성을 개념적으로 나타낸 블럭도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명이 적용 가능한 딥러닝 가속 장치를 도시한 도면이다. 도시된 딥러닝 가속 장치는, RDMA(Read Direct Memory Access)(110), 입력 버퍼(120), 연산기(130), 출력 버퍼(140), WDMA(Write Direct Memory Access)(150)를 포함하여 구성된다.

딥러닝 가속 장치는 외부 메모리(10)로부터 데이터를 입력받아 딥러닝 연산을 수행하고, 연산 결과를 외부 메모리(10)로 출력하여 저장한다.

외부 메모리(10)로부터 입력받는 데이터는 IFmap(Input Feature map : 입력 영상의 특징 데이터)와 Weight(딥러닝 모델의 컨볼루션 파라미터)이고, 외부 메모리(10)로 출력하는 딥러닝 연산 결과는 OFmap(Outut Feature map)이다.

연산기(130)는 입력 버퍼(120)에 저장된 데이터로 딥러닝 연산을 수행한다. 이 과정에서, 연산기(130)는 필터링을 위하여 채널별 순차적으로 연산하여 합산하고, 여러 채널에 동시 필터링을 적용하며, 필터를 두고 다채널의 영상을 동시 처리할 수 있다.

그러나, 단순히 위의 기법들을 이용할 경우, 채널의 증가 및 연산을 하기 위한 IFmap 데이터가 많은 경우에는 외부 메모리(10)로부터의 데이터 입출력에 많은 시간을 소요하게 된다.

즉, 데이터 입출력에 많은 시간을 소요할 경우 연산기(130)의 동작을 수행하기 위한 데이터의 준비율이 떨어져 하드웨어 동작 시 속도 저하가 발생(core의 hold 상태 지속) 한다.

이는 전체적인 속도의 저하 혹은 Bandwidth를 고려한 하드웨어 구조의 재설계를 필요로 하게 된다.

위에서 설명한 바와 같이 다수의 연산을 수행하는 구조에서는 IFmap, Weight가 외부 메모리(10)로 부터의 데이터 입력을 필요로 하며, OFmap의 경우에는 외부 메모리(10)에 저장을 필요로 한다.

즉, 충분한 데이터의 입출력을 위한 입출력 Bandwidth가 굉장히 중요하다. 보통 연산시 사전에 입력 데이터를 요청할 경우에 Peak Bandwidth를 필요로 하게 되므로, 해당 Peak값을 분산할 필요성이 있다.

해당 Peak 값을 고려하여 다양한 하드웨어 구현 방법이 나왔으나, 딥러닝 가속 장치의 내부 구조만을 위한 것이 대부분이며, 전체 코어의 동작에만 한정되어 있는 실정이다.

이에 따라, 본 발명의 실시예에서는, 입력된 데이터를 이용하는 딥러닝 연산 가속 처리를 위하여, 딥러닝 연산을 수행함에 있어 하드웨어 리소스 상태를 지속적으로 관리하며, 하드웨어 속도를 적응적으로 제어하는 기법을 제시한다.

구체적으로, 본 발명의 실시예에서는, 시스템 내의 다른 프로세서나 다른 인터페이스에 의해 외부 메모리(10)가 공유되는 환경으로 인해 외부 메모리(10)의 접근 패턴을 전혀 예측할 수 없는 상태에서도, 하드웨어 속도를 적응적으로 제어할 수 있는 적응형 딥러닝 가속 장치의 하드웨어 구조를 제시한다.

도 2는 본 발명의 일 실시예에 따른 딥러닝 가속 장치의 구조를 도시한 블럭도이다. 본 발명의 실시예에 따른 딥러닝 가속 장치는, 도 2에 도시된 바와 같이, RDMA(110), 입력 버퍼(120), 연산기(130), 출력 버퍼(140), WDMA(150), 체커(Checker)(160) 및 제어기(Controller)(170)를 포함하여 구성된다.

RDMA(110)는 외부 메모리(10)에 직접 접근하여, 외부 메모리(10)로부터 딥러닝 연산을 위한 데이터를 읽어들이는 모듈이다. 입력 버퍼(120)는 RDMA(110)에서 읽어들인 데이터가 저장되는 버퍼이다.

RDMA(110)가 외부 메모리(10)로부터 읽어들여 입력 버퍼(120)에 저장하는 데이터는, IFmap과 Weight이다.

연산기(130)는 입력 버퍼(120)에 저장된 데이터로 딥러닝 연산을 수행하기 위한 모듈이다. 도 3은, 도 2에 도시된 연산기(130)의 상세 구조를 도시한 블럭도이다.

도시된 바와 같이, 연산기(130)는 딥러닝 연산을 위해 필요한 컨볼루션 연산 모듈(131), 어드레스 트리 모듈(132), 배치 정규화 모듈(133), Add Bias 모듈(134), Activation 모듈(135) 및 Maxpool 모듈(136)을 포함한다.

출력 버퍼(140)는 연산기(130)에서 딥러닝 연산된 데이터인 OFmap이 저장되는 버퍼이다. WDMA(150)는 외부 메모리(10)에 직접 접근하여, 출력 버퍼(140)에 저장된 데이터를 외부 메모리(10)에 기록한다.

체커(160)는 RDMA(110)와 입력 버퍼(120)를 체크하고 출력 버퍼(140)와 WDMA(150)를 체크하여, RDMA(110)의 bandwidth 상황과 WDMA(150)의 bandwidth 상황을 파악한다.

제어기(170)는 체커(160)에서 파악된 DMA bandwidth 상황(채널 상황)을 기초로, 연산기(130)의 동작 속도가 가변되도록 제어한다.

구체적으로, 제어기(170)는 DMA bandwidth 상황에 따라, 연산기(130)의 Enable 신호의 간격, Enable 신호의 길이 등을 제어할 수 있다. 나아가, 제어기(170)는 DMA bandwidth 상황에 따라, 연산기(130)에 인가되는 클럭의 속도를 제어하는 것도 가능하다.

본 발명의 실시예에 따른 딥러닝 가속 장치의 사양이 다음과 같이 설계된 경우를 상정한다.

외부 메모리(10)와 DMA(110,150) 간 인터페이스인 AXI 인터페이스의bitwidth : 512bits

burst : 16

multiple outstanding : 8

Kernel : 3×3

Fmap : 17bits~32bits

Weight : 16 bits

16채널의 입력 데이터를 처리하여 16채널의 출력 데이터를 연산한다면, 라인 메모리 기반이므로 사전에 데이터를 RDMA(110)로 미리 요청하여 DMA 캐쉬에 저장하고, 이를 입력 버퍼(120)에서 불러들여 라인 메모리를 구성한다.

한 번의 multiple outstanding 요청으로 획득할 수 있는 데이터는 최대 32클럭 이내에 2048 데이터(32bits 기준) = 16 pixels × 16channel data 이며, 2,304(3×3×16ch(in)×16ch(out))를 연산기(130)에서 동시에 처리하여 출력 버퍼(140)로 저장이 가능하다.

위의 연산을 위하여, 모든 데이터를 버퍼링한다면 병렬 처리수(Pcal)에 따라서 Pcal×n×m×Input Channel×Output Channel×2의 peak bandwidth가 필요하게 되며, 또한, OFmap의 누적 연산을 위한 입출력 bitwidth의 2배 크기의 덧셈용 버퍼를 필요로 한다

그러나, AXI 채널에 여유가 없어 입출력을 위한 Delay가 커지거나, RDMA(110)와 WDMA(150)의 속도가 상이할 경우에는 이를 처리하기 위하여 연산기(130)의 속도를 줄이거나 아예 동작을 하지 못하게 하는 기능이 없다면, 데이터의 부족 현상이 발생하거나, 출력 버퍼(140)가 넘치는 현상이 발생하게 된다.

하지만, 본 발명의 실시예에 따른 딥러닝 가속 장치에서는 입출력을 위한 DMA bandwidth 상황에 따라 연산기(130)의 Go/Stop 제어가 가능할 뿐만 아니라, 연산기(130)로 인가되는 클럭 속도를 제어하여, 연산기(130)의 동작/속도를 DMA bandwidth 상황에 따라 적응적으로 제어할 수 있다.

기존 방식으로 처리한다고 하면, 해당 데이터의 입출력이 끝날 때 까지 다른 AXI 채널은 hold 되어 있어 bus 채널 상황에 따른 대처가 느려지게 될 것이다.

도 4는 본 발명의 다른 실시예에 따른 딥러닝 가속 장치의 동작 제어 방법의 설명에 제공되는 흐름도이다.

도시된 바와 같이, 딥러닝 가속 장치의 RDMA(110)는 외부 메모리(10)로부터 딥러닝 연산을 위한 데이터를 읽어들여 입력 버퍼(120)에 저장한다(S210).

다음, 연산기(130)가 S210단계에서 저장된 데이터로 딥러닝 연산을 수행하고, 딥러닝 연산 결과를 출력 버퍼(140)에 저장한다(S220).

그러면, WDMA(150)는 S220단계에서 저장된 데이터를 외부 메모리(10)에 저장한다(S230).

S210단계 내지 S230단계가 수행되는 중에, 체커(160)는 RDMA(110)와 입력 버퍼(120)를 체크하고 출력 버퍼(140)와 WDMA(150)를 체크하여, DMA bandwidth 상황을 파악한다(S240).

그리고, 제어기(170)는 S240단계에서 파악된 DMA bandwidth 상황을 기초로, 연산기(130)의 동작 속도가 가변되도록 제어한다(S350). S350단계에서 연산기(130)의 속도 제어는 Enable 신호의 간격, Enable 신호의 길이 등을 조절하거나 인가되는 클럭의 속도를 제어하는 방식으로 수행된다.

도 5는, 도 2에 도시된 딥러닝 가속 장치의 구성을 개념적으로 나타낸 도면이다. 도시된 바와 같이, 본 발명의 실시예에 따른 딥러닝 가속 장치는, 통신부(101), 프로세서(102) 및 저장부(103)를 포함하여 구성된다.

통신부(101)는 외부 메모리(10)와 데이터를 전달하기 위한 통신 수단으로, 전술한 RDMA(110)와 WDMA(150)가 이에 해당한다.

프로세서(102)는 딥러닝 가속 장치에서 필요한 연산과 제어를 수행하기 위해 필요한 구성으로, 전술한 연산기(130), 체커(160) 및 제어기(170)가 이에 해당한다.

저장부(103)는 외부 메모리(10)로부터 입력되는 데이터와 외부 메모리(10)로 출력할 데이터가 임시 저장되는 저장소로, 전술한 입력 버퍼(120)와 출력 버퍼(140)가 이에 해당한다.

지금까지, 적응형 딥러닝 가속 장치 및 방법에 대해, 바람직한 실시예를 들어 상세히 설명하였다.

본 발명의 실시예에서는, 입력 데이터 및 입력 컨볼루션 파라미터의 준비 상황을 지속적으로 확인하여 하드웨어 속도를 가변시키는 구조를 통해, 적절한 속도 제어로 저전력 처리가 가능하고, 할당된 연산기의 세부 동작 제어로 다양한 네트워크에 적용 가능하다.

구체적으로, 본 발명의 실시예에 따른 적응형 딥러닝 가속 장치는, 대용량의 외부 메모리 접근의 예측 불가능한 상황에서도 동작 가능한 구조로 설계되며, 저전력 하드웨어 처리 기법을 적용하며, 실제 시스템에서의 다양한 상황에서 적용 가능할 수 있다.

또한, 본 발명의 실시예서는, 딥러닝 가속 장치에서 매번 동일한 채널/Weight 별 데이터 처리를 위해, 외부 대용량의 메모리 접근에 따른 연산 속도 제어가 가능한 하드웨어 구조를 채택하였다.

나아가, 데이터 재사용성을 높여줌과 동시에, Peak Bandwidth 상황에서 연산기의 연산 속도 혹은 연산율을 적절히 분배하여 가속기의 데이터 버퍼링 속도의 영향 최소화할 수 있도록 하였다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

외부 메모리에 직접 접근하여, 외부 메모리로부터 딥러닝 연산을 위한 데이터를 읽어들이는 RDMA(Read Direct Memory Access);

RDMA에서 읽어들인 데이터가 저장되는 제1 버퍼;

RDMA와 제1 버퍼의 상황을 파악하는 체커; 및

제1 버퍼에 저장된 데이터로 딥러닝 연산을 수행하는 연산기;

체커에서 파악된 상황을 기초로, 연산기의 동작 속도를 가변시키는 제어기;를 포함하는 것을 특징으로 하는 딥러닝 가속 장치.
청구항 1에 있어서,

연산기에서 딥러닝 연산된 데이터가 저장되는 제2 버퍼;

외부 메모리에 직접 접근하여, 제2 버퍼에 저장된 데이터를 외부 메모리에 기록하는 WDMA(Write Direct Memory Access);를 더 포함하고,

체커는,

WDMA와 제2 버퍼의 상황을 더 파악하는 것을 특징으로 하는 딥러닝 가속 장치.
청구항 2에 있어서,

체커는,

RDMA와 WDMA의 bandwidth 상황을 파악하고,

제어기는,

파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 동작 여부를 제어하는 것을 특징으로 하는 딥러닝 가속 장치.
청구항 3에 있어서,

제어기는,

파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 Enable 간격을 제어하는 것을 특징으로 하는 딥러닝 가속 장치.
청구항 4에 있어서,

제어기는,

파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 Enable 신호 간격을 제어하는 것을 특징으로 하는 딥러닝 가속 장치.
청구항 4에 있어서,

제어기는,

파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기의 Enable 신호 길이를 제어하는 것을 특징으로 하는 딥러닝 가속 장치.
청구항 1에 있어서,

제어기는,

파악된 RDMA와 WDMA의 bandwidth 상황에 따라, 연산기에 인가되는 클럭의 속도를 제어하는 것을 특징으로 하는 딥러닝 가속 장치.
RDMA(Read Direct Memory Access)가, 외부 메모리에 직접 접근하여, 외부 메모리로부터 딥러닝 연산을 위한 데이터를 읽어들이는 단계;

제1 버퍼가, RDMA가 읽어들인 데이터를 저장하는 단계;

연산기가, 제1 버퍼에 저장된 데이터로 딥러닝 연산을 수행하는 단계;

체커가. RDMA와 제1 버퍼의 상황을 파악하는 단계; 및

제어기가, 체커에서 파악된 상황을 기초로, 연산기의 동작 속도를 가변시키는 단계;를 포함하는 것을 특징으로 하는 딥러닝 가속 방법.