KR20180125843A

KR20180125843A - (국문)다양한 cnn 모델에 적용 가능한 하드웨어 분류기

Info

Publication number: KR20180125843A
Application number: KR1020170060690A
Authority: KR
Inventors: 정용진; 한성우
Original assignee: 광운대학교 산학협력단
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2018-11-26

Abstract

본 발명은 CNN 네트워크 모델에 유연하게 적용 가능한 하드웨어 분류기를 위한 방법이다. 블록 단위의 연산과 소프트웨어의 제어를 통해 다양한 크기의 네트워크에도 적용 가능 하도록 하드웨어를 설계한다.

Description

(국문)다양한 CNN 모델에 적용 가능한 하드웨어 분류기{A hardware classifier applicable to various CNN models}

본 발명은 객체를 학습 및 분류하는데 사용되는 CNN(Convolutional Neural Network)에 사용되는 분류기 구조에 대한 것으로, 단일 네트워크 모델을 분류하는데 특화된 하드웨어 구조가 아닌 다양한 네트워크 모델에 유연하게 적용 가능 한 하드웨어 분류기를 설계하는 것에 관한 것이다.

CNN은 영상처리 분야에서 뛰어난 검출율을 기록하고 있다. CNN을 연산하기 위해선 Convolution Layer -> Pooling Layer -> Fully-connected layer의 순으로 연산을 처리해야 한다.

CNN 분류를 하기 위한 네트워크 모델은 다양하며 제각기 다른 크기의 네트워크, Feature 개수를 가지게 된다. 또 한 동일한 네트워크 모델을 사용하더라도, 학습하는 방법에 따라 서로 다른 Feature 크기 및 개수를 가지게 된다.

서로 다른 크기의 네트워크 구조를 가지더라도, 최소 공통 연산 모듈의 단위가 존재하므로 해당 모듈을 이용해 다양한 네트워크 모델을 처리할 수 있다.

종래기술에 의해 하드웨어에 CNN 분류기를 구현한 경우 네트워크 자체의 변경, 네트워크의 크기 및 개수가 변경될 경우 새로운 하드웨어를 구현해야 하는 번거로움이 있다.

따라서 본 발명이 이루고자 하는 기술적 과제는 하드웨어로 CNN을 구현할 때 다양한 CNN 네트워크 모델과 네트워크의 크기에 유연하게 적용 가능하도록 CNN 하드웨어를 블록단위의 연산기로 설계하고, 이를 소프트웨어로 제어한다. 해당 구조는 하드웨어 및 소프트웨어의 처리를 필요하기 때문에 FPGA(Field Programmable Gate-Array)가 포함된 SoC(System on Chip)환경에서 동작한다.

위에서 설명한 바와 같이, FPGA(Field Programmable Gate-Array)가 포함된 SoC(System on Chip)환경에서 CNN을 이용하여 객체를 분류할 때, 적절한 크기의 블록 연산기와 소프트웨어로 처리함으로써 CNN 처리속도 향상을 위해 사용하는 하드웨어 사용이 용이해 지는 효과가 있다.

도 1은 CNN 네트워크 모델인 AlexNet이다.
도 2은 CNN 네트워크 모델인 VGG-Net이다.
도 3은 CNN 네트워크 모델인 LeNet이다.
도 4은 블록 단위의 Convolution/Pooling Layer 슈도코드이다.
도 5는 블록 단위의 Convolutional/Pooling Layer 예제이다.
도 6은 Fully-connected Layer 슈도코드이다.
도 7는 블록 단위의 Fully-connected 예제이다.

도 1,2,3과 같이 각각의 대표적인 CNN 네트워크 모델은 서로 필요로 하는 원본 image size, feature size, feature 개수, stride size, padding size 및 kernel size가 다르다. 그리고 CNN을 이용하여 객체를 분류할 경우 필요로 하는 연산량 또한 많아 GPU(Graphic Processing Unit), ASIC(Application Specific Integrated Circuit), FPGA와 같은 다양한 하드웨어를 이용하여 구현된다.

본 발명에서는 네트워크의 최소 feature 크기를 가지는 블록 단위의 반복 연산을 통해 다양한 CNN 네트워크 모델의 연산을 해결한다. 해당 블록단위의 연산은 FPGA 하드웨어에서 동작하며, 동작 횟수와 피 연산자는 소프트웨어를 통해 전달한다.

도 4,5와 같이 블록 단위의 연산을 위해 Convolution Layer의 블록 크기는 n*n으로 설정한다. 연산에 필요한 데이터의 전송 부하로 n의 크기는 최소 feature의 크기로 설정 하여 전송 부하를 감소시킨다. 연산 속도는 블록 단위의 연산에서 kernel size 만큼의 병렬 처리를 통해 연산 속도를 증가시킨다. 블록 단위의 Convolution 연산이 끝난 후 Pooling 연산을 수행한 뒤 다음 Layer의 연산을 수행한다.

도 6,7과 같이 Fully-connected Layer의 블록 크기는 m으로 설정한다. Fully-connected Layer는 내적 연산을 수행하므로 연산에 필요한 곱셈기가 k 만큼 필요로 한다. m개 의 블록 단위로 데이터를 가져오고, k개의 곱셈기를 이용해 m/k 횟수의 연산으로 하나의 블록 연산을 처리할 수 있다. Convolution Layer와 동일하게 Fully-connected layer의 최소 feature 크기로 블록의 크기를 설정하여 연산을 수행한다.

Convolution/Pooling Layer 블록 모듈과 Fully-connecetd 블록 모듈을 이용해 네트워크 크기에 맞게 반복 연산을 통해 CNN 연산을 수행하게 된다. 위와 같은 연산을 통해 동일한 네트워크 모델에서 feature의 개수 또는 크기가 변해도, 소프트웨어의 제어를 통해 하드웨어 변경 없이 수행할 수 있다.

Claims

Convolutional Neural Network의 연산을 처리하기 위한 블록 단위의 연산 모듈;
Convolution/Pooling Layer 연산 모듈;
Fully-connected Layer 모듈;
을 포함하고, 소프트웨어의 처리로 2개의 모듈을 반복시켜 CNN 연산을 수행하는 CNN 연산모듈.
청구항1에 있어서,
Convolution Layer 연산 모듈은 블록 단위의 데이터를 소프트웨어에서 FPGA의 블록 메모리에 전달 하여 병렬로 연산을 수행하는 장치, 연산을 위한 블록의 크기는 네트워크 모델의 최소 Feature 크기로 설정하여 다양한 크기의 네트워크 모델에도 적용 가능한 것을 특징으로 하는 연산 장치.
청구항1에 있어서,
Pooling Layer 연산 모듈은 Convolution Layer의 블록 단위 연산에서 Pooling 연산을 수행하기 위한 최소 데이터가 있을 경우 연산을 수행하는 장치, 블록단위의 빠른 연산을 수행하기 위해 연산 지연시간이 짧은 것을 특징으로 하는 연산 장치.
청구항1에 있어서,
Fully-connected 연산 모듈은 Convolution/Pooling Layer 연산을 마친 후 수행하는 모듈로 모든 피 연산자의 내적 연산을 수행하는 장치로, 블록 단위의 피 연산자와 다수의 곱셈기를 이용해 빠른 연산을 수행하는 것을 특징으로 하는 연산 장치.
청구항1에 있어서,
다수의 Feature와 크기를 가지는 네트워크 모델에 대해서 FPGA에 설계 한 Convolution/Pooling, Fully-connected을 소프트웨어의 제어를 통해 수행하는 장치, 소프트웨어를 통해 연산 모듈의 반복 횟수, 전달할 피 연산자, 수행할 연산 모듈을 결정하여 CNN 연산을 수행하는 것을 특징으로 하는 CNN 연산 처리 방법.