WO2020116672A1

WO2020116672A1 - 딥러닝 하드웨어 가속장치

Info

Publication number: WO2020116672A1
Application number: PCT/KR2018/015308
Authority: WO
Inventors: 이상설; 장성준
Original assignee: 전자부품연구원
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2020-06-11
Also published as: KR102023855B1

Abstract

im2col과 같은 전처리기를 사용하지 않고, 입력 영상만으로 데이터를 처리하는 딥러닝 하드웨어 가속장치가 제공된다. 본 발명의 실시예에 따른 딥러닝 하드웨어 가속장치는 입력 영상의 라인들 중 일부 픽셀들을 저장하는 제1 레지스터들; 입력 영상의 라인들 중 나머지 픽셀들을 저장하는 제1 메모리들; 및 레지스터들에 저장된 픽셀들을 이용하여 연산을 수행하는 제1 커널;을 포함한다. 이에 의해, im2col과 같은 전처리기를 사용하지 않고 입력 영상만으로 데이터를 처리함으로써, 하드웨어 구조에 적합한 딥러닝 하드웨어 가속장치를 구현할 수 있다.

Description

딥러닝 하드웨어 가속장치

본 발명은 영상 처리를 위한 SoC(System on Chip) 기술에 관한 것으로, 더욱 상세하게는 입력 영상을 딥러닝 처리하기 위한 하드웨어 가속장치의 구조와 설계 방안에 관한 것이다.

도 1은 im2col(image to column operation)의 개념을 나타낸 도면이다. im2col은 슬라이딩 윈도우와 유사한 기능을 수행하여 컨볼루션을 위한 데이터를 생성하는 방식으로, GPU(Graphic Processing Unit)를 활용한다.

im2col은 입력 영상으로부터 커널에 해당하는 데이터를 채널 별로 생성하여 내부 또는 외부 공간에 저장을 하고, 해당 데이터를 불러들여 연산을 수행하는 과정을 거친다. im2col을 사용할 경우 빠른 속도로 데이터 연산을 수행할 수 있다고 되어 있다.

하지만, SoC 혹은 하드웨어 장치에서 위와 같은 방식은 사용이 불가능하다. 하드웨어의 특성상 메모리의 한계가 있기 때문이다. 특히, 입력 영상(Input Feature Map)의 크기가 클 경우에는 생성된 데이터가 굉장히 커지게 되어 저장 자체가 불가능한 형태가 된다.

따라서, im2col은 하드웨어 구현 시에 외부 대용량/저속 저장공간에 해당 데이터를 저장하고, 매번 외부 저장공간으로의 데이터 패칭이 필요하게 되어 고속 처리를 할 수 없는 형태가 된다.

또한, 입력 영상 기준으로 하나의 feature map이 32비트의 크기가 필요하게 되어 해당 데이터를 저장하는 메모리 공간이 크며, 데이터를 불러들일 때 Bandwidth가 많이 필요하게 된다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, im2col과 같은 전처리기를 사용하지 않고, 입력 영상만으로 데이터를 처리하는 딥러닝 하드웨어 가속장치를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 하드웨어 가속장치는 입력 영상의 라인들 중 일부 픽셀들을 저장하는 제1 레지스터들; 입력 영상의 라인들 중 나머지 픽셀들을 저장하는 제1 메모리들; 및 레지스터들에 저장된 픽셀들을 이용하여 연산을 수행하는 제1 커널;을 포함한다.

제1 레지스터들은, 픽셀 단위로 구분되어 있을 수 있다.

제1 메모리들은, 라인 단위로 구분되어 있을 수 있다.

제1 레지스터들 각각은 제1 메모리들 각각의 전단에 위치하여, 제1 레지스터들에 저장된 데이터들은 제1 메모리들로 시프트 될 수 있다.

제1 메모리들에 저장된 데이터들은, 다음 행에 위치한 제1 레지스터들로 시프트될 수 있다.

제1 레지스터들의 행×열 배열은, 커널이 연산을 위해 이용하는 필터의 행×열 규격에 의해 결정될 수 있다.

본 발명에 따른 딥러닝 하드웨어 가속장치는 제1 커널의 연산으로 생성된 데이터를 저장하는 제2 레지스터들; 제2 레지스터들 각각의 후단에 위치하여 시프트 되는 데이터들을 저장하는 제2 메모리들;을 더 포함할 수 있다.

본 발명의 다른 측면에 따르면, 제1 레지스터들이, 입력 영상의 라인들 중 일부 픽셀들을 저장하는 단계; 제1 메모리들이, 입력 영상의 라인들 중 나머지 픽셀들을 저장하는 단계; 및 제1 커널이, 레지스터들에 저장된 픽셀들을 이용하여 연산을 수행하는 단계;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, im2col과 같은 전처리기를 사용하지 않고 입력 영상만으로 데이터를 처리함으로써, 하드웨어 구조에 적합한 딥러닝 하드웨어 가속장치를 구현할 수 있다.

또한, 본 발명의 실시예들에 따르면, 영상의 해상도가 커짐에 상관 없이 메모리 증가 또는 비트수의 감소 없이 동일한 구조의 하드웨어 구조를 적용할 수 있어, 유연한 하드웨어 블럭 설계가 가능하다.

그리고, 본 발명의 실시예들에 따르면, 필요한 픽셀당 접근 횟수 감소로 메모리 패칭 횟수의 감소에 의한 속도 향상을 기대할 수 있다.

도 1은 im2col의 개념을 나타낸 도면,

도 2는 본 발명의 일 실시예에 따른 딥러닝 처리 시스템의 블록도,

도 3은, 도 2에 도시된 입력 영상 메모리의 저장 공간을 예시한 도면,

도 4는 본 발명의 다른 실시예에 따른 딥러닝 하드웨어 가속장치의 개념 설명에 제공되는 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1에 도시된 기존의 영상 생성 전처리기와 같이, 영상을 생성하기 위한 커널이 3개의 필터(2x2)를 이용한다고 가정하면, 영상 데이터를 필터의 크기에 맞게 미리 구성하고, 다음 커널의 계산을 위한 데이터를 생성하는데 평균 2픽셀의 데이터가 중첩되어 저장되어야 한다. 이는 전체 저장 공간 대비 2.25배가 되어, 많은 저장 공간을 요구하게 된다.

하지만, 본 발명의 실시예에 따른 딥러닝 하드웨어 가속장치는, 전처리된 영상이 아닌 입력 영상 혹은 처리된 영상만으로 구성하여, 하드웨어의 메모리 구조 측면에서 기본 필요 영역 만으로 구현이 가능하다.

도 2는 본 발명의 일 실시예에 따른 딥러닝 처리 시스템의 블록도이다. 본 발명의 실시예에 따른 딥러닝 처리 시스템은, 도 2에 도시된 바와 같이, 입력 영상 메모리(110), 딥러닝 가속장치(120) 및 처리부(130)를 포함한다.

입력 영상 메모리(110)는 입력 영상을 저장하는 메모리이다. 입력 영상 메모리(110)의 저장 공간을 도 3에 예시하였다. 도 3에서는 608×608 영상을 저장하기 위한 입력 영상 메모리(110)를 상정하였다.

도 3에 도시된 저장 공간은 한 개의 입력 채널을 위해 할당한 메모리이다. 해당 주소를 예측 가능한 주소값(라인-1)으로 할당(2nd line : 0x00001xxx, 608th line : 0x0025Fxxx) 하였다.

상정한 영상 규격은 설명을 위해 든 일 예에 해당하는 것으로, 다른 영상 규격에 대해서도 본 발명의 기술적 사상이 그대로 적용될 수 있음은 물론이다.

다시, 도 2를 참조하여 설명한다.

딥러닝 가속장치(120)는 im2col과 같은 전처리기를 사용하지 않고, 입력 영상 메모리(110)로부터 제공되는 입력 영상만으로 데이터로 연산을 수행한다. 딥러닝 가속장치(120)의 상세 구조에 대해서는 도 4를 참조하여 상세히 설명한다.

처리부(130)는 딥러닝 가속장치(120)에서 출력되는 연산 결과(Feature MaP)에 대해 필요한 후속 처리를 수행한다.

이하에서는, 도 2에 도시된 딥러닝 가속장치(120)에 대해, 도 4를 참조하여 상세히 설명한다. 도 4는 본 발명의 다른 실시예에 따른 딥러닝 하드웨어 가속장치의 개념 설명에 제공되는 도면이다.

본 발명의 실시예에 따른 딥러닝 가속장치(120)는, 도 4에 도시된 바와 같이, 버퍼(121), 레지스터 셋 #1(122), 블록 RAM 셋 #1(123), 필터 #1(124), 레지스터 셋 #2(125) 및 블록 RAM 셋 #2(126)를 포함하여 구성된다.

버퍼(121)는 입력 영상 메모리(110)에 저장된 입력 영상을 옮겨, 레지스터 셋 #1(122)에 픽셀 단위로 전달하기 위한 저장 공간이다.

레지스터 셋 #1(122)은 9개의 레지스터들(IF22 ~ IF00)이 3×3 으로 배열되어 구성된다. 그리고, 블록 RAM 셋 #1(123)은 2개의 블록 RAM들(Block RAM0, Block RAM1)이 라인 단위로 배열되어 구성된다.

버퍼(121)를 통해 출력되는 영상 픽셀은, 클럭 마다, 1행에 위치한 레지스터들(IF22,IF21,IF20)로 시프트 되면서 이동한 후, 1행에 위치한 블록 RAM(Block RAM0)에서 시프트 되면서 이동한 후에, 2행 1열에 위치한 레지스터(IF12)로 이동한다.

이동된 영상 픽셀은, 클럭 마다, 2행에 위치한 레지스터들(IF12,IF11,IF10)로 시프트 되면서 이동한 후, 2행에 위치한 블록 RAM(Block RAM1)에서 시프트 되면서 이동한 후에, 3행 1열에 위치한 레지스터(IF02)로 이동한다.

이동된 영상 픽셀은, 클럭 마다, 3행에 위치한 레지스터들(IF02,IF01,IF00)로 시프트 되면서 이동한다.

이 과정에서, 커널(미도시)은, 클럭 마다, 레지스터 셋 #1(122)에 저장된 9개의 영상 필셀 데이터들을 이용하여 필터 #1(124)로 연산을 수행한다.

도 4에 도시된 바와 같이, 본 발명의 실시예에 따른 딥러닝 가속장치(120)는, 레지스터 셋 #1(122)을 블록 RAM 셋 #1(123)의 전단에 위치시켜, 입력 영상 라인의 일부 픽셀들은 레지스터 셋 #1(122)에 저장되어 커널에 의해 연산에 이용되도록 하였다.

그리고, 다음 연산에 필요한 나머지 픽셀들은, 레지스터 셋 #1(122)의 후단에 위치한 블록 RAM 셋 #1(123)에 저장된 상태로 시프트 되도록 하여, 레지스터 셋 #1(122)으로 다시 전달되도록 하였다.

라인 단위로 구분되어 있는 블록 RAM 셋 #1(123)의 블록 RAM들(Block RAM0, Block RAM1)과 달리, 레지스터 셋 #1(122)을 구성하는 레지스터들(IF22 ~ IF00)은 픽셀 단위로 구분하여 구현함으로써, 커널이 픽셀 데이터들을 동일 클럭에 모두 취득할 수 있도록 하였다.

한편, 레지스터 셋 #1(122)의 규격 3×3은 커널 연산을 위해 이용하는 필터(124)의 규격 3×3에 일치시킨 것이다. 만약, 커널 연산을 위해 이용하는 필터(124)의 규격이 4×4 라면, 레지스터 셋 #1(122)도 4×4 레지스터들로 구현하여야 한다.

한편, 레지스터 셋 #2(125)는 16개의 레지스터들(F2321 ~ F0000)이 4×4 으로 배열되어 구성된다. 그리고, 블록 RAM 셋 #2(126)은 3개의 블록 RAM들(Block RAM0, Block RAM1, Block RAM2)이 라인 단위로 배열되어 구성된다.

커널에 의한 연산 결과(Feature Map Data)는, 클럭 마다, 1행에 위치한 레지스터들로 시프트 되면서 이동한 후, 1행에 위치한 블록 RAM에서 시프트 되면서 이동한 후에, 2행 1열에 위치한 레지스터로 이동한다.

이동된 연산 결과는, 클럭 마다, 2행에 위치한 레지스터들로 시프트 되면서 이동한 후, 2행에 위치한 블록 RAM에서 시프트 되면서 이동한 후에, 3행 1열에 위치한 레지스터로 이동한다.

그리고, 이동된 연산 결과는, 클럭 마다, 3행에 위치한 레지스터들로 시프트 되면서 이동한 후, 3행에 위치한 블록 RAM에서 시프트 되면서 이동한 후에, 4행 1열에 위치한 레지스터로 이동한다.

당므, 이동된 영상 픽셀은, 클럭 마다, 4행에 위치한 레지스터들로 시프트 되면서 이동한다.

이 과정에서, 커널(미도시)은, 클럭 마다, 레지스터 셋 #2(125)에 저장된 16개의 영상 필셀들을 이용하여 4×4 규격의 필터 #2(미도시)로 연산을 수행한다.

도 4에 도시된 딥러닝 가속장치(120)는 전체 구성의 일부만을 도시한 것이다. 도시된 딥러닝 가속장치(120)의 후단에 레지스터 셋과 블록 RAM 셋이 후속 연산을 위해 추가될 수 있음은 물론이다.

지금까지, 딥러닝 하드웨어 가속장치에 대해 바람직한 실시예를 들어 상세히 설명하였다.

본 발명의 실시예에서는, 입력 영상을 이용한 딥러닝 처리를 위한 하드웨어 가속기 구조 설계 방안을 제시하였다. 구체적으로, 본 발명의 실시예에서는, im2col과 같은 전처리기를 사용하지 않고, 단순한 구조로 알고리즘 변경에 따른 재설계 불필요하며, 불필요한 영상 생성 연산을 배제하여 처리 속도를 향상시킨 딥러닝 하드웨어 가속장치를 제시하였다.

이에 의해, 딥러닝 가속기에서 전처리를 거친 데이터를 사용하지 않고, 입력되는 영상만으로 데이터를 처리하여, 대용량의 메모리 접근 횟수를 줄이고, 커널 기반으로 처리하여 처리 속도 향상 및 전처리 영상 생성 연산의 배제를 기대할 수 있다.

또한, im2col과 같은 전처리기를 사용하지 않고 입력 영상만으로 데이터를 처리함으로써, 하드웨어 구조에 적합한 딥러닝 하드웨어 가속장치를 구현함으로써, 영상의 해상도가 커짐에 상관 없이 메모리 증가 또는 비트수의 감소 없이 동일한 구조의 하드웨어 구조를 적용할 수 있어, 유연한 하드웨어 블럭 설계가 가능하며, 필요한 픽셀당 접근 횟수 감소로 메모리 패칭 횟수의 감소에 의해 속도를 향상시킬 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

입력 영상의 라인들 중 일부 픽셀들을 저장하는 제1 레지스터들;

입력 영상의 라인들 중 나머지 픽셀들을 저장하는 제1 메모리들; 및

레지스터들에 저장된 픽셀들을 이용하여 연산을 수행하는 제1 커널;을 포함하는 것을 특징으로 하는 딥러닝 하드웨어 가속장치.
청구항 1에 있어서,

제1 레지스터들은,

픽셀 단위로 구분되어 있는 것을 특징으로 하는 딥러닝 하드웨어 가속장치.
청구항 2에 있어서,

제1 메모리들은,

라인 단위로 구분되어 있는 것을 특징으로 하는 딥러닝 하드웨어 가속장치.
청구항 3에 있어서,

제1 레지스터들 각각은 제1 메모리들 각각의 전단에 위치하여,

제1 레지스터들에 저장된 데이터들은 제1 메모리들로 시프트 되는 것을 특징으로 하는 딥러닝 하드웨어 가속장치.
청구항 4에 있어서,

제1 메모리들에 저장된 데이터들은,

다음 행에 위치한 제1 레지스터들로 시프트되는 것을 특징으로 하는 딥러닝 하드웨어 가속장치.
청구항 4에 있어서,

제1 레지스터들의 행×열 배열은,

커널이 연산을 위해 이용하는 필터의 행×열 규격에 의해 결정되는 것을 특징으로 하는 딥러닝 하드웨어 가속장치.
청구항 6에 있어서,

제1 커널의 연산으로 생성된 데이터를 저장하는 제2 레지스터들;

제2 레지스터들 각각의 후단에 위치하여 시프트 되는 데이터들을 저장하는 제2 메모리들;을 더 포함하는 것을 특징으로 하는 딥러닝 하드웨어 가속장치.
제1 레지스터들이, 입력 영상의 라인들 중 일부 픽셀들을 저장하는 단계;

제1 메모리들이, 입력 영상의 라인들 중 나머지 픽셀들을 저장하는 단계; 및

제1 커널이, 레지스터들에 저장된 픽셀들을 이용하여 연산을 수행하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 하드웨어 가속방법.