WO2019216513A1

WO2019216513A1 - 행 단위 연산 뉴럴 프로세서 및 이를 이용한 데이터 처리 방법

Info

Publication number: WO2019216513A1
Application number: PCT/KR2018/016049
Authority: WO
Inventors: 하순회; 강진택
Original assignee: 서울대학교산학협력단
Priority date: 2018-05-10
Filing date: 2018-12-17
Publication date: 2019-11-14
Also published as: KR20190129240A; KR102126857B1

Abstract

행 단위 연산 뉴럴 프로세서는 데이터를 입력하는 입력부, 상기 입력부에 입력된 입력 데이터에 대한 입력 특징 지도 로우 데이터의 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 특징 지도 온칩 메모리부, 상기 입력 데이터에 대한 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 필터 가중치 온칩 메모리부, 상기 특징 지도 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 입력 특징 지도 행데이터를 생성하는 특징 지도 버퍼부, 상기 필터 가중치 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 필터 가중치 행데이터를 생성하는 필터 가중치 버퍼부, 상기 입력 특징 지도 행데이터 및 상기 필터 가중치 행데이터를 요소별로 곱셈하여 합성곱 데이터를 생성하는 합성곱 계산부, 상기 합성곱 데이터로부터 부분합을 계산하는 가산 트리부 및 상기 가산 트리부로부터 연결되는 데이터 경로를 형성하는 파이프라인을 통해 상기 계산된 부분합을 전송 받아 저장하고, 상기 저장된 부분합을 출력하는 출력 버퍼부를 포함한다.

Description

행 단위 연산 뉴럴 프로세서 및 이를 이용한 데이터 처리 방법

본 발명은 행 단위 연산 뉴럴 프로세서 및 이를 이용한 데이터 처리 방법에 관한 것이다. 보다 상세하게는 행 단위 연산, 온칩 메모리 및 파이프라인을 이용하여 효율적인 데이터 처리를 제공하며, 벡터 연산을 위한 API를 이용하여 사용자가 다양한 구성 요소 및 데이터 경로를 프로그램할 수 있는 행 단위 연산 뉴럴 프로세서 및 이를 이용한 데이터 처리 방법에 관한 것이다.

일반적으로 뉴럴 프로세서란 신경망과 같이 계산량이 높은 네트워크 또는 시스템에서 사용하는 프로세서로서 뉴럴 엔진, 뉴로 프로세서, 뉴로 컴퓨터 등의 다양한 용어로 불리워지고 있다. 뉴럴 프로세서는 다양한 기계 학습(machine learning)분야에서 널리 사용되고 있으며, 특히 합성곱 기반의 심층 학습(딥 러닝: Deep Learning)인 CNN (Convolution Neural Network)에서 주로 사용되고 있다. CNN은 DNN (Deep Neural Network)의 일종으로 이미지 분류, 객체 인식 등의 다양한 기계 학습 응용에서 널리 사용되는 기술로써 네트워크에서 요구하는 계산량이 매우 높기 때문에 이를 하드웨어적으로 가속하는 하드웨어 가속기인 뉴럴 프로세서의 연산 성능은 CNN에서 매우 중요한 요소이다.

이러한 뉴럴 프로세서의 연산 성능을 개선하기 위해 다양한 방법이 제안되고 있으나, 일반적인 뉴럴 프로세서는 외부 메모리 및 연산 부분(합성곱 연산을 위한 부분, 활성화 부분, 풀링을 위한 부분)이 분리된 구조를 지니고 있어 메모리와 연산부 간의 데이터 전송을 위해 많은 시간 및 에너지가 소요되는 문제점은 여전히 해결되지 못하고 있다.

이에 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로, 본 발명의 목적은 메모리가 칩 내부의 데이터 경로에 포함되며 연산 성능 및 데이터 처리 시간이 개선된 행 단위 연산 뉴럴 프로세서를 제공하는 것이다.

또한 본 발명의 다른 목적은 메모리가 칩 내부의 데이터 경로에 포함되며 연산 성능 및 데이터 처리 시간이 개선된 행 단위 연산 뉴럴 프로세서를 이용한 행 단위 연산 데이터 처리 방법을 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 행 단위 연산 뉴럴 프로세서는 데이터를 입력하는 입력부, 상기 입력부에 입력된 입력 데이터에 대한 입력 특징 지도 로우 데이터의 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 특징 지도 온칩 메모리부, 상기 입력 데이터에 대한 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 필터 가중치 온칩 메모리부, 상기 특징 지도 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 입력 특징 지도 행데이터를 생성하는 특징 지도 버퍼부, 상기 필터 가중치 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 필터 가중치 행데이터를 생성하는 필터 가중치 버퍼부, 상기 입력 특징 지도 행데이터 및 상기 필터 가중치 행데이터를 요소별로 곱셈하여 합성곱 데이터를 생성하는 합성곱 계산부, 상기 합성곱 데이터로부터 부분합을 계산하는 가산 트리부 및 상기 가산 트리부로부터 연결되는 데이터 경로를 형성하는 파이프라인을 통해 상기 계산된 부분합을 전송 받아 저장하고, 상기 저장된 부분합을 출력하는 출력 버퍼부를 포함한다.

본 발명의 일 실시예에 있어서, 상기 행 단위 연산 뉴럴 프로세서는 상기 출력 버퍼부의 출력을 전송 받아 활성화 함수로부터 상기 출력의 활성 상태 및 비활성 상태를 결정하는 활성화 함수 계산부, 상기 활성화 함수 계산부의 출력을 저장하는 활성화 출력 온칩 메모리부 및 상기 출력 온칩 메모리부에 저장된 데이터를 풀링하는 풀링부를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 파이프라인은 상기 가산 트리부, 상기 출력 버퍼부, 상기 활성화 함수 계산부, 상기 출력 온칩 메모리부 및 상기 풀링부의 출력과 입력이 순차적으로 포인트 투 포인트(P2P: point to point)방식으로 연결되어 하나의 데이터 전송 경로를 형성할 수 있다.

본 발명의 일 실시예에 있어서, 상기 행 단위 연산 뉴럴 프로세서는 상기 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어하는 벡터 연산 API(Application Programming Interface) 를 지원하는 API 프로그램부를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 행 단위 연산 뉴럴 프로세서는 상기 풀링부의 출력은 상기 특징 지도 온칩 메모리부로 재입력 되고, 상기 출력 데이터의 저장과 상기 재입력 데이터의 처리가 동시에 수행되는 더블 버퍼를 포함하는 출력 재입력부를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 특징 지도 버퍼부는 상기 입력 특징 지도 행데이터를 재사용 하고, 상기 필터 가중치 버퍼부는 상기 필터 가중치 행데이터를 재사용 할 수 있다.

본 발명의 일 실시예에 있어서, 상기 입력 특징 지도 로우 데이터의 채널 크기는 2의 거듭제곱이고, 상기 특징 지도 온칩 메모리부의 메모리 폭은 2의 거듭제곱이고, 상기 입력 특징 지도 로우 데이터의 채널 크기와 동일하거나 채널 크기의 약수 또는 배수이며, 상기 필터 가중치 온칩 메모리부는 상기 필터 픽셀을 저장한 마지막 행에서 유효 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채우는 제로 패딩 기능을 수행할 수 있다.

본 발명의 일 실시예에 있어서, 상기 필터 가중치 버퍼부는 시프트 버퍼일 수 있다.

본 발명의 일 실시예에 있어서, 상기 필터 가중치 버퍼부는 상기 필터 가중치 온칩 메모리부의 행 폭의 배수의 크기를 갖는 순환 시프트 버퍼이고, 상기 순환 시프트 버퍼는 상기 필터 가중치 행데이터를 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트하며, 상기 필터 가중치 행데이터가 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행하고, 상기 필터 가중치 행데이터의 마지막 행을 시프트 한 후에는 상기 순환 시프트 버퍼의 전체 또는 일부를 0으로 초기화할 수 있다.

본 발명의 일 실시예에 있어서, 상기 행 단위 연산 뉴럴 프로세서는 칩 외부에 연결되어 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 추가적인 공간을 제공하는 외부 메모리를 더 포함할 수 있다.

상기한 본 발명의 목적을 실현하기 위한 행 단위 연산 데이터 처리 방법은, 행 단위 연산 뉴럴 프로세서를 이용해 데이터를 처리하는 시스템에서, 입력부가 데이터를 입력 받아 입력 데이터를 생성하는 단계, 특징 지도 온칩 메모리부가 상기 입력 특징 지도 로우 데이터의 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계, 필터 가중치 온칩 메모리부가 상기 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계, 특징 지도 버퍼부가 상기 특징 지도 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 입력 특징 지도 행데이터를 생성하는 단계, 필터 가중치 버퍼부가 상기 필터 가중치 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 필터 가중치 행데이터를 생성하는 단계, 합성곱 계산부가 상기 입력 특징 지도 행데이터 및 상기 필터 가중치 행데이터를 요소별로 곱셈하여 합성곱 데이터를 생성하는 단계,가산 트리부가 상기 합성곱 데이터로부터 부분합을 계산하는 단계 및 출력 버퍼부가 상기 가산 트리부로부터 연결되는 데이터 경로를 형성하는 파이프라인을 통해 상기 계산된 부분합을 전송 받아 저장하고, 상기 저장된 부분합을 출력하는 단계를 포함하고, 상기 특징 지도 로우 데이터를 저장하는 단계 및 상기 필터 가중치 로우 데이터를 저장하는 단계와 입력 특징 지도 행데이터를 생성하는 단계 및 필터 가중치 행데이터를 생성하는 단계는 병렬적으로 수행될 수 있다.

본 발명의 일 실시예에 있어서, 상기 행 단위 연산 데이터 처리 방법은 활성화 함수 계산부가 상기 출력 버퍼부의 출력을 전송 받아 활성화 함수로부터 상기 출력의 활성 상태 및 비활성 상태를 결정하는 단계, 출력 온칩 메모리부가 상기 활성화 함수 계산부의 출력을 저장하는 단계 및 풀링부가 상기 출력 온칩 메모리부에 저장된 데이터를 풀링하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 기 파이프라인은 상기 가산 트리부, 상기 출력 버퍼부, 상기 활성화 함수 계산부, 상기 출력 온칩 메모리부 및 상기 풀링부의 출력과 입력이 순차적으로 포인트 투 포인트(P2P: point to point)방식으로 연결되어 하나의 데이터 전송 경로를 형성할 수 있다.

본 발명의 일 실시예에 있어서, 상기 행 단위 연산 데이터 처리 방법은 API 프로그램부가 벡터 연산 API(Application Programming Interface) 를 이용해 상기 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 출력 재입력부가 상기 풀링부의 출력을 상기 특징 지도 온칩 메모리부로 재입력하는 단계를 더 포함하고, 상기 재입력하는 단계는 상기 출력 재입력부의 더블 버퍼가 상기 풀링부 출력의 저장 및 상기 재입력 데이터의 처리를 동시에 수행할 수 있다.

본 발명의 일 실시예에 있어서, 상기 입력 특징 지도 행데이터를 생성하는 단계는 상기 특징 지도 버퍼부가 상기 입력 특징 지도 행데이터를 재사용하는 단계를 포함하고, 상기 필터 가중치 행데이터를 생성하는 단계는 상기 필터 가중치 버퍼부가 상기 필터 가중치 행데이터를 재사용하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 입력 특징 지도 로우 데이터의 채널 크기는 2의 거듭제곱이고, 상기 특징 지도 온칩 메모리부의 메모리 폭은 2의 거듭제곱이고, 상기 입력 특징 지도 로우 데이터의 채널 크기와 동일하거나 채널 크기의 약수 또는 배수이며, 상기 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계는 필터 가중치 온칩 메모리부가 상기 필터 픽셀을 저장한 마지막 행에서 유효 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채우는 제로 패딩 기능을 수행하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 있어서, 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트 되어 상기 입력 특징 지도 행데이터와 출력 위치가 정렬될 수 있다.

본 발명의 일 실시예에 있어서, 상기 필터 가중치 행데이터를 생성하는 단계는 상기 필터 가중치 버퍼부의 순환 시프트 버퍼가 상기 필터 가중치 온칩 메모리의 한 행을 순환 시프트 버퍼에 저장하는 단계, 상기 필터 가중치 버퍼부에 저장된 데이터를 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트 하는 단계, 상기 필터 가중치 행데이터가 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행하는 단계, 데이터의 마지막 행을 시프트 한 후에 상기 순환 시프트 버퍼의 전체 또는 일부를 0으로 초기화 하는 단계를 더 포함하고, 필터 가중치 버퍼부의 순환 시프트 버퍼는 상기 필터 가중치 온칩 메모리부의 행 폭의 배수의 크기를 가질 수 있다.

본 발명의 일 실시예에 있어서, 상기 행 단위 연산 데이터 처리 방법은 외부 메모리가 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 단계를 더 포함할 수 있다.

본 발명의 실시예들에 따르면, 행 단위 연산 뉴럴 프로세서 및 이를 이용한 데이터 처리 방법은 입력부, 특징 지도 온칩 메모리부, 필터 가중치 온칩 메모리부, 특징 지도 버퍼부, 필터 가중치 버퍼부, 합성곱 계산부, 가산 트리부, 출력 버퍼부 및 파이프라인을 포함하며, 활성화 함수 계산부, 활성화 출력 온칩 메모리부, 풀링부, 출력 재입력부를 포함할 수 있다. 따라서, 메모리가 칩 내부에 배치되어 데이터 처리 경로에 통합됨으로써 하드웨어 구조와 동작이 단순화될 수 있으며, 합성곱, 활성화 함수, 풀링을 하나의 파이프라인으로 통합하고 출력 특징 지도를 다음 합성곱 단계의 입력 특징 지도로 바로 사용할 수 있도록 하여 계층간 연결 오버헤드를 최소화 할 수 있다.

또한, 본 발명은 벡터 API를 이용하여 온칩 메모리를 포함하는 각 구성 요소 및 데이터 경로를 사용자가 쉽게 프로그래밍 할 수 있고, 복수개의 필터를 이용하여 입력 특징 지도를 재사용함으로써 필터 개수의 비율만큼 성능을 향상 시킬 수 있어 확장이 용이하며, 합성곱 연산 외 다른 부분의 가속이 가능하도록 할 수 있어 완전연결 계층 등과 같은 다양한 계층의 가속이 가능할 수 있다.

도 1은 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서를 나타내는 구성도이다.

도 2는 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서를 나타내는 구성도이다.

도 3은 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법을 나타내는 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법을 나타내는 흐름도이다.

도 5는 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법의 입력 데이터를 생성하는 단계를 나타내는 흐름도이다.

도 6은 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계를 나타내는 흐름도이다.

도 7은 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법의 입력 특징 지도 행데이터를 생성하는 단계를 나타내는 흐름도이다.

도 8은 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법의 필터 가중치 행데이터를 생성하는 단계를 나타내는 흐름도이다.

도 9는 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서의 구조를 나타내는 도면이다.

도 10은 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서의 구조를 나타내는 도면이다.

도 11은 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서의 구조를 나타내는 도면이다.

도 12는 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 입력 특징 지도 로우 데이터 및 필터 가중치 로우 데이터의 배치 형태를 나타내는 도면이다.

도 13은 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 입력 특징 지도 로우 데이터 및 필터 가중치 로우 데이터의 배치 형태 나타내는 도면이다.

도 14는 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 입력 특징 지도 로우 데이터 및 필터 가중치 로우 데이터의 배치 형태를 나타내는 도면이다.

도 15는 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 합성곱 연산 과정을 나타내는 도면이다.

도 16은 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 벡터 연산 API를 나타내는 도면이다.

도 17은 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 벡터 연산 API를 나타내는 도면이다.

도 18은 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 벡터 API를 나타내는 도면이다.

도 19는 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서 및 행 단위 연산 데이터 처리 방법의 파이프라인의 수행을 나타내는 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 실시예들을 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다.

상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함하다" 또는 "이루어진다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서는 입력부(100), 특징 지도 온칩 메모리부(200), 필터 가중치 온칩 메모리부(300), 특징 지도 버퍼부(400), 필터 가중치 버퍼부(500), 합성곱 계산부(600), 가산 트리부(700) 및 출력 버퍼부(800)를 포함한다.

상기 입력부(100)는 합성곱 연산이 필요한 다양한 데이터를 입력 받을 수 있다. 예를 들면, 상기 입력부(100)에 입력된 입력 데이터는 이미지 데이터일 수 있다. 예를 들면, 상기 입력 데이터는 이미지이고, 가로 크기가 W, 세로 크기가 H인 2차원 이미지일 수 있다.

상기 특징 지도 온칩 메모리부(200)는 상기 입력부(100)에 입력된 입력 데이터에 대한 입력 특징 지도 로우 데이터의 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장할 수 있다. 상기 입력 특징 지도 로우 데이터는 상기 입력 데이터에 필터를 적용한 데이터일 수 있다. 상기 입력 픽셀은 상기 입력 특징 지도 로우 데이터를 처리하는 처리 단위로 나누어진 데이터일 수 있다. 도 12를 참조하여 예를 들면, CNN의 입력 데이터에 대한 6차원 루프 연산에서 채널 넘버 방향의 축을 Z축, 커널 높이 방향의 축을 Y축, 커널 너비 방향의 축을 X축이라고 할 때, 도 12의 (a)와 같은 일반적인 CNN의 6차원 루프 연산의 최초 3개의 루프 순환 연산의 순서가 X, Y, Z 축의 순서로 수행되는 것과는 다르게 도 12의 (b)와 같이 Z, Y, X 축의 순서로 수행되며, 이로 인해 각 입력 픽셀은 상기 Z축 및 상기 Y축으로 이루어진 ZY평면으로 분리된 데이터일 수 있고, 이러한 입력 픽셀은 채널 단위로 서로 인접하여 메모리의 각 행에 저장될 수 있다.

상기 입력 특징 지도 로우 데이터의 채널 크기는 2의 거듭제곱일 수 있다. 상기 채널 넘버의 최대값인 채널의 크기는 2의 거듭제곱일 수 있다. 상기 특징 지도 온칩 메모리부(200)의 메모리 폭은 2의 거듭제곱이고, 상기 입력 특징 지도 로우 데이터의 채널 크기와 동일하거나 채널 크기의 약수 또는 배수일 수 있다. 또는 상기 채널의 크기는 상기 특징 지도 온칩 메모리부(200)의 메모리 폭의 배수 또는 약수일 수 있다. 도 13을 참조하여 예를 들면, 상기 채널의 크기는 상기 특징 지도 온칩 메모리부(200)의 메모리 폭의 배수이고, 상기 입력 데이터를 상기 ZY평면 단위로 분리한 입력 픽셀은 상기 특징 지도 온칩 메모리부(200)에 서로 인접한 행에 순차적으로 저장될 수 있다.

상기 특징 지도 온칩 메모리부(200)의 행의 모든 원소들은 합성곱을 위한 의미 있는 연산이 될 수 있다. 상기 Z축 및 상기 Y축으로 이루어진 ZY평면은 상기 X축 및 상기 Y축으로 이루어진 XY 평면보다 픽셀의 개수가 더 많을 수 있다. 상기 특징 지도 온칩 메모리부(200)는 스크래치패드 메모리(SPM: Scratch Pad Memory)일 수 있다. 상기 특징 지도 온칩 메모리부(200)는 복수 개일 수 있다.

상기 필터 가중치 온칩 메모리부(300)는 상기 입력 데이터에 대한 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장할 수 있다. 상기 필터 가중치 로우 데이터는 상기 입력 데이터에 적용할 가중치 필터일 수 있다. 상기 필터 픽셀은 상기 가중치 필터를 처리하는 처리 단위로 나누어진 데이터일 수 있다. 도 12를 참조하여 예를 들면, CNN의 입력 데이터에 대한 6차원 루프 연산에서 채널 넘버 방향의 축을 Z축, 커널 높이 방향의 축을 Y축, 커널 너비 방향의 축을 X축이라고 할 때, 상기 필터 픽셀은 상기 Z축 및 상기 Y축으로 이루어진 ZY평면으로 분리된 데이터일 수 있고, 이러한 필터 픽셀은 채널 단위로 서로 인접하여 메모리의 각 행에 저장될 수 있다.

상기 필터 가중치 온칩 메모리부(300)는 상기 필터 가중치 로우 데이터를 저장한 마지막 행에서 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채우는 제로 패딩 기능을 수행할 수 있다. 이로 인해, 상기 필터 가중치 온칩 메모리부(300)는 행 단위로 정렬하여 데이터를 처리할 수 있다.

상기 가중치 필터의 크기는 상기 합성곱 계산부(600) 또는 상기 가산 트리부(700)의 계산 완료 단위를 결정할 수 있다. 예를 들면, 상기 가중치 필터의 크기가 K이고, 상기 특징 지도 온칩 메모리의 폭이 W이며, 상기 채널 크기가 C이고 C는 W에 x 배수일때, 상기 합성곱 계산부(600) 및 상기 가산 트리부(700)의 계산 완료 단위는 x에 K를 곱한 값일 수 있다. 상기 계산 완료 단위는 사이클 일 수 있다.

상기 필터 가중치 온칩 메모리부(300) 및 상기 특징 지도 온칩 메모리부(200)는 스크래치패드 메모리(SPM: Scratch Pad Memory)일 수 있다 .상기 필터 가중치 온칩 메모리부(300)는 복수 개일 수 있다. 상기 특징 지도 온칩 메모리부(200)와 상기 필터 가중치 온칩 메모리부(300)는 상기 입력 데이터가 처리되는 데이터 경로의 일부일 수 있다. 따라서, 메모리가 연산부와 동일한 데이터 경로를 갖는 일체화된 구조를 가질 수 있다.

상기 특징 지도 버퍼부(400)는 상기 특징 지도 온칩 메모리부(200)에 저장된 데이터를 행 단위로 저장하여 입력 특징 지도 행데이터를 생성할 수 있다.

상기 특징 지도 버퍼부(400)는 상기 입력 특징 지도 행데이터를 재사용할 수 있다. 도 10을 참조하여 예를 들면, 상기 필터 가중치 온칩 메모리부(300) 및 상기 필터 가중치 버퍼부(500)는 복수개이고, 상기 입력 특징 지도 행데이터는 상기 복수개의 상기 필터 가중치 행데이터에 적용될 수 있다. 따라서, 하나의 입력 특징 지도 행데이터는 다수의 필터 가중치 행데이터에 적용되어 상기 합성곱 계산부(600)로 입력되는 가중치 필터 단위 병렬화가 될 수 있다. 또한, 이러한 입력 특징 지도 행데이터 재사용 여부는 API 프로그램부(1300)에 의해 프로그램될 수 있다.

상기 필터 가중치 버퍼부(500)는 상기 필터 가중치 온칩 메모리부(300)에 저장된 데이터를 행 단위로 저장하여 필터 가중치 행데이터를 생성할 수 있다. 상기 필터 가중치 버퍼부(500)는 시프트 버퍼일 수 있다.

상기 필터 가중치 버퍼부(500)는 순환 시프트 버퍼일 수 있다. 상기 순환 시프트 버퍼는 상기 필터 가중치 온칩 메모리부(300)의 행 폭의 배수의 크기를 가질 수 있다. 예를 들면, 상기 순환 시프트 버퍼의 크기는 상기 필터 가중치 온칩 메모리부(300)의 행 폭의 두배일 수 있다.

상기 순환 시프트 버퍼는 상기 필터 가중치 행데이터를 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트 할 수 있다. 예를 들면, 상기 입력 특징 지도 로우 데이터의 시작 주소의 오프셋이 d인 경우 상기 순환 시프트 버퍼는 상기 필터 가중치 로우 데이터의 첫번째 행을 상기 필터 가중치 행데이터로 저장한 이후 다음 사이클에서 d 오프셋만큼 시프트 할 수 있다. 따라서, 상기 입력 특징 지도 행데이터의 원소들의 위치와 상기 필터 가중치 행데이터의 원소들의 위치가 정렬될 수 있다. 상기 순환 시프트 버퍼는 상기 필터 가중치 행데이터가 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행할 수 있다. 상기 시프트 된 필터 가중치 행데이터는 상기 입력 특징 지도 행데이터와 위치가 정렬되어 각 원소별로 상기 합성곱 계산부(600)로 전송될 수 있다.

상기 동작은 하나의 상기 필터 픽셀의 마지막 행까지 반복될 수 있다. 예를 들면, 상기 순환 시프트 버퍼는 상기 필터 픽셀의 최초의 행을 상기 필터 가중치 행데이터로 저장한 후 다음 사이클에서 상기 입력 특징 지도 로우 데이터의 시작 주소의 오프셋만큼 시프트 하고, 이를 합성곱 계산부(600)로 출력하며, 출력 후 상기 순환 시프트 버퍼의 내부 데이터를 상기 필터 가중치 온칩 메모리부(300)의 행 폭에서 상기 오프셋을 제외한 만큼을 시프트함과 동시에 상기 필터 가중치 로우 데이터의 다음 행을 상기 필터 가중치 행데이터로 저장한 후 이를 상기 필터 픽셀의 마지막행까지 반복할 수 있다.

상기 순환 시프트 버퍼는 상기 하나의 필터 픽셀의 마지막 행을 출력한 후 다음 필터 픽셀을 입력 받기전에 상기 순환 시프트 버퍼의 전체 또는 일부를 0으로 초기화할 수 있다. 예를 들면, 상기 하나의 필터 픽셀의 마지막행을 상기 합성곱 계산부(600)로 출력 후 시프트 할 때 다음 필터 픽셀의 첫번째 행을 저장하지 않고 시프트된 공간을 0으로 초기화할 수 있다. 또는 상기 순환 시프트 버퍼의 모든 공간을 초기화 할 수 있다.

도 14를 참조하여 예를 들면, 출력 특징 지도의 (x,y) 좌표에 있는 픽셀을 위한 합성곱 연산을 하고자 할 때, 입력 특징 지도의 가장 첫번째 원소가 행(row)의 시작점에서부터 d 원소 개수만큼 떨어져서 위치하게 된다. 연산을 위한 입력 특징 지도의 가장 첫번째 원소의 상기 특징 지도 온칩 메모리부(200)의 주소는 다음의 수학식 1에 의해 정의될 수 있다.

수학식 1

sA=CХfHХx+CХy

여기서, sA는 연산을 위한 입력 특징 지도의 가장 첫번째 원소의 상기 특징 지도 온칩 메모리부(200)의 주소, C는 채널 넘버(크기), fH는 입력 특징 지도의 너비, x는 출력 픽셀의 X축 좌표값, y는 출력 픽셀의 Y축 좌표값을 나타낸다.

상기 출력 픽셀은 상기 출력 특징 지도를 처리하는 처리 단위로 나누어진 데이터일 수 있다. 상기 출력 특징 지도는 상기 출력 버퍼부(800) 또는 풀링부(1100)의 출력일 수 있다.

따라서 입력 특징 지도의 첫번째 원소가 시작되는 오프셋인 d는 sA%W가 되고, ZY 평면을 구성하는 행의 개수는 다음의 수학식 2에 의해 정의될 수 있다.

수학식 2

nR=(CХK+d)/W

여기서, nR은 ZY 평면을 구성하는 행의 개수, C는 채널 넘버(크기), K는 가중치 필터의 크기, d는 시작 주소의 오프셋, W는 상기 필터 가중치 온칩 메모리부(300)의 폭을 나타낸다.

상기 필터 가중치 온칩 메모리부(300)의 경우 필터를 구성하는 필터 픽셀은 행의 경계에서 정렬(align)되므로, 필터 픽셀의 마지막 행에서 유효 데이터가 아닌 부분을 0으로 채우는 제로 패딩 기능을 수행하여 행을 정렬할 수 있다. 또한, 상기 필터 가중치 버퍼부는 상기 정렬된 행으로부터 상기 필터 가중치 행데이터를 생성할 수 있다.

상기 입력 특징 지도 로우 데이터의 채널의 크기가 2의 거듭제곱인 경우 그 시작 주소의 오프셋의 경우의 수가 한정되므로 상기 순환 시프트 버퍼의 구현 및 동작은 보다 단순화 될 수 있다.

도 15를 참조하여 예를 들면, 상기 입력 특징 지도 로우 데이터의 시작 주소의 오프셋인 d는 2이며, 상기 필터 가중치 버퍼부(500)의 순환 시프트 버퍼는 상기 필터 가중치 온칩 메모리부(300)의 폭인 W의 2배의 크기를 갖고, 내부의 데이터를 (W-d)만큼 시프트 함과 동시에 상기 필터 가중치 온칩 메모리부(300)에서 행단위로 데이터를 읽어서 저장하며, 이후 읽은 데이터를 d 만큼 시프트 하여 상기 합성곱 계산부(600)로 출력할 수 있다.

상기 필터 가중치 버퍼부(500)는 상기 필터 가중치 행데이터를 재사용할 수 있다. 예를 들면, 상기 필터 가중치 온칩 메모리부(300)의 행 폭이 채널 크기보다 클 경우, 일정 크기의 필터 가중치 버퍼부(500)를 상기 입력 특징 지도 행데이터에 반복하여 사용하여 재사용할 수 있다. 상기 필터 가중치 행데이터를 재사용할 경우 상기 필터 가중치 온칩 메모리부(300)에서 상기 필터 가중치 버퍼부(500)로 데이터가 이동하거나, 상기 필터 가중치 버퍼부(500) 내부의 시프트 버퍼에서 데이터가 시프트 되는 것을 생략할 수 있다. 또한, 이러한 필터 가중치 행데이터 재사용 여부는 API 프로그램부(1300)에 의해 프로그램될 수 있다.

예를 들면, 상기 필터 가중치 버퍼부(500)에 저장된 필터 가중치 행데이터는 상기 필터 가중치 온칩 메모리부(300)를 반복해서 접근하지 않고 다수의 입력 특징 지도 행데이터에 대한 합성곱 연산을 하는데 사용될 수 있다. 또한, 이러한 필터 가중치 행데이터 재사용 여부는 API 프로그램부(1300)에 의해 프로그램될 수 있다.

상기 특징 지도 온칩 메모리부(200) 및 상기 특징 지도 버퍼부(400)는 복수개일 수 있다.

상기 합성곱 계산부(600)는 상기 입력 특징 지도 행데이터 및 상기 필터 가중치 행데이터를 요소별로 곱셈하여 합성곱 데이터를 생성할 수 있다. 상기 합성곱 계산부(600)는 상기 특징 지도 버퍼부(400)에서 상기 입력 특징 지도 행데이터를, 상기 필터 가중치 버퍼부(500)에서 상기 필터 가중치 행데이터를 전송 받아 요소별로 곱셈(element-wise multiplication)을 할 수 있다. 상기 요소별 곱셈은 다수의 곱셈기에 의해 병렬 처리될 수 있다.

상기 가산 트리부(700)는 상기 합성곱 데이터로부터 부분합을 계산할 수 있다. 상기 가산 트리부(700)는 상기 합성곱 계산부(600)로부터 합성곱 데이터를 전송 받을 수 있다. 상기 가산트리의 부분합은 상기 가산트리로 다시 피드백 될 수 있다.

상기 출력 버퍼부(800)는 상기 가산 트리부(700)로부터 연결되는 데이터 경로를 형성하는 파이프라인을 통해 상기 계산된 부분합을 전송 받아 저장하고, 상기 저장된 부분합을 출력하는 출력 버퍼부(800)를 포함할 수 있다. 상기 출력 버퍼부(800)는 상기 가산 트리부(700)가 하나의 출력 픽셀 계산을 완료하면 그 결과를 저장할 수 있다. 상기 출력 버퍼부(800)의 출력은 상기 행 단위 연산 뉴럴 프로세서의 출력 특징 지도일 수 있다. 상기 출력 버퍼부(800)는 복수 개일 수 있다.

상기 파이프라인은 상기 가산 트리부(700), 상기 출력 버퍼부(800), 상기 활성화 함수 계산부(900), 상기 출력 온칩 메모리부 및 상기 풀링부(1100)의 출력과 입력이 순차적으로 포인트 투 포인트(P2P: point to point)방식으로 연결되어 하나의 데이터 전송 경로를 형성할 수 있다.

본 실시예에 따른 행 단위 연산 뉴럴 프로세서는 활성화 함수 계산부(900), 활성화 출력 온칩 메모리부(1000), 풀링부(1100) 및 출력 재입력부(1200)를 제외하고는 도 1의 행 단위 연산 뉴럴 프로세서와 실질적으로 동일하다. 따라서, 도 1의 행 단위 연산 뉴럴 프로세서와 동일한 구성요소는 동일한 도면 부호를 부여하고, 반복되는 설명은 생략한다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 행 단위 연산 뉴럴 프로세서는 활성화 함수 계산부(900), 활성화 출력 온칩 메모리부(1000), 풀링부(1100), 출력 재입력부(1200), API 프로그램부(1300) 및 외부 메모리(1400)를 포함할 수 있다.

도 9를 참조하여 상기 행 단위 연산 뉴럴 프로세서 구조의 예를 들면, 상기 행 단위 연산 뉴럴 프로세서는 특징 지도 온칩 메모리부(200), 필터 가중치 온칩 메모리부(300), 특징 지도 버퍼부(400), 필터 가중치 버퍼부(500), 합성곱 계산부(600), 가산 트리부(700), 출력 버퍼부(800), 활성화 함수 계산부(900), 활성화 출력 온칩 메모리부(1000), 풀링부(1100) 및 출력 재입력부(1200)를 포함할 수 있다. 도 9의 구조는 상기 입력부(100), 외부 입력 경로 및 외부 출력 경로가 생략된 형태이다.

상기 활성화 함수 계산부(900)는 상기 출력 버퍼부(800)의 출력을 전송 받아 활성화 함수로부터 상기 출력의 활성 상태 및 비활성 상태를 결정할 수 있다. 상기 출력 버퍼부(800)의 출력은 상기 활성화 함수 계산부(900)의 입력으로 연결될 수 있다. 상기 활성화 함수 계산부(900)는 ALU일 수 있다. 상기 활성화 함수 계산부(900)의 활성화 함수는 상기 API 프로그램부(1300)에 의해 입력 또는 변경될 수 있다.

상기 활성화 출력 온칩 메모리부(1000)는 상기 활성화 함수 계산부(900)의 출력을 저장할 수 있다. 상기 활성화 출력 온칩 메모리부(1000)는 상기 풀링부(1100)에서 풀링 연산을 하기에 충분한 크기일 수 있다. 상기 활성화 출력 온칩 메모리부(1000)는 상기 API 프로그램부(1300)에 의해 프로그램될 수 있다.

상기 풀링부(1100)는 상기 출력 온칩 메모리부에 저장된 데이터를 풀링하는 풀링부(1100)를 더 포함할 수 있다. 상기 풀링부(1100)는 상기 출력 온칩 메모리부의 출력을 입력으로 받을 수 있다. 상기 풀링부(1100)의 출력은 상기 행 단위 연산 뉴럴 프로세서의 출력 특징 지도일 수 있다.

상기 파이프라인은 상기 가산 트리부(700), 상기 출력 버퍼부(800), 상기 활성화 함수 계산부(900), 상기 출력 온칩 메모리부 및 상기 풀링부(1100)의 출력과 입력이 순차적으로 포인트 투 포인트(P2P: point to point)방식으로 연결되어 하나의 데이터 전송 경로를 형성할 수 있다. 예를 들면, 상기 파이프라인은 상기 가산 트리부(700)의 출력이 상기 출력 버퍼부(800)의 입력으로, 상기 출력 버퍼부(800)의 출력이 상기 활성화 함수 계산부(900)의 입력으로, 상기 활성화 함수 계산부(900)의 출력이 상기 출력 온칩 메모리부의 입력으로, 상기 출력 온칩 메모리부의 출력이 상기 풀링부(1100)의 입력으로 연결될 수 있다. 이에 더하여 상기 풀링부(1100)의 출력은 상기 출력 재입력부(1200)의 입력으로, 상기 출력 재입력부(1200)의 출력은 상기 특징 지도 온칩 메모리부(200)로 연결될 수 있다. 따라서, 상기 파이프라인은 합성곱을 계산하는 부분, 활성화 함수 계산 부분 및 풀링 계산 부분이 하나의 데이터 경로를 형성할 수 있다. 단, 상기 활성화 함수 계산부(900) 및 상기 풀링부(1100)는 필요에 따라 또는 상기 API 프로그램부(1300)에 의해 우회되거나 바이패스 될 수 있다.

상기 파이프라인은 포인트 투 포인트(P2P: point to point)방식으로 연결되어 각 구성 요소 간의 통신 경합 등의 오버헤드를 미연에 방지할 수 있다. 상기 합성곱, 상기 활성화 함수 및 상기 풀링은 상기 입력 데이터의 한 출력 픽셀을 생성하기 위해 매 사이클 파이프라이닝될 수 있다.

도 19를 참조하여 예를 들면, (a)와 같이 상기 입력 특징 지도 로우 데이터는 3x3의 크기를 가지며, 상기 필터 가중치 로우 데이터는 2x2의 크기를 갖고, 채널의 크기는 메모리 행의 폭과 같으며, 상기 풀링부(1100)의 크기는 2x2이며 스트라이드(stride)는 1인 경우 (b)와 같은 스케줄 다이어그램과 같이 상기 행 단위 연산 뉴럴 프로세서의 각 구성요소들이 상기 벡터 연산 API들을 통해 파이프라이닝될 수 있다. 상기 스케줄 다이어그램의 각 행은 상기 벡터 연산 API와 연관되어 수행되는 상기 행 단위 연산 뉴럴 프로세서의 구성요소를 나타내고, 각 열은 시간의 흐름을 나타낼 수 있다. 이때, 상기 스케줄 다이어그램의 모든 연산들은 완전히 파이프라이닝될 수 있다. 상기 파이프라인은 첫 초기화를 위한 대기 시간 이후에 하나의 출력 픽셀이 매 4 클락 사이클마다 생성될 수 있다. 상기 출력 픽셀이 만들어진 다음 사이클에는 활성화 함수가 동작될 수 있다. 상기 풀링부(1100)는 첫번째 행의 출력 특징 지도에 대한 연산이 완료될 때까지 기다릴 수 있다. (b)의 스케줄 다이어그램의 BLK는 블록(block)을, Cv는 합성곱 계산부(600), B&A는 활성화 함수부, P&W는 풀링부(1100)를, 대괄호 안의 숫자는 해당하는 블록의 라인 넘버를 나타낸다.

상기 API 프로그램부(1300)는 상기 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어하는 벡터 연산 API를 지원할 수 있다. 상기 벡터 연산 API는 상기 행 단위 연산 뉴럴 프로세서를 세가지 카테고리로 나누어 제어할 수 있다. 상기 세가지 카테고리는 합성곱 연산과 관련된 제1 카테고리, 활성화 함수와 관련된 제2 카테고리 및 풀링과 관련된 제3 카테고리일 수 있다. 상기 세가지 카테고리는 동일한 클락에 동기되어 동작할 수 있다. 예를 들면, 상기 제1 카테고리는 제1 클락에, 상기 제2 카테고리 및 제3 카테고리의 구성은 제2 클락에 동기되어 동작할 수 있다.

도 16를 참조하여 예를 들면, 상기 제1 카테고리는 도 16의 No. 1에서 9와 같이, 제1 클락(CLK)에 동기되어 동작될 수 있으며, 상기 제1 카테고리는 상기 특징 지도 온칩 메모리부(200), 상기 필터 가중치 온칩 메모리부(300), 상기 특징 지도 버퍼부(400), 상기 필터 가중치 버퍼부(500), 상기 합성곱 계산부(600) 및 상기 가산 트리부(700)를 포함할 수 있다.

상기 제2 카테고리 및 상기 제3 카테고리는 도 16의 No. 10 및 No. 11과 같이, 제2 클락(pxl_CLK)에 동기되어 동작될 수 있으며, 상기 제2 카테고리는 상기 활성화 함수 계산부(900) 및 상기 활성화 출력 온칩 메모리부(1000)를 포함할 수 있다. 상기 제3 카테고리는 상기 활성화 출력 온칩 메모리부(1000) 및 상기 풀링부(1100)를 포함할 수 있다.

상기 벡터 연산 API는 상기 특징 지도 온칩 메모리부(200) 및 상기 필터 가중치 온칩 메모리부(300)의 주소를 이용할 수 있다. 또한, 상기 벡터 연산 API는 상기 활성화 출력 온칩 메모리부(1000)의 주소를 이용할 수 있다. 따라서, 상기 API프로그램부는 상기 제1, 제2 및 제3 카테고리의 데이터 배치 형태를 제어할 수 있다. 또한, 상기 API프로그램부는 상기 제1, 제2 및 제3 카테고리의 데이터 연결 구성을 제어할 수 있다.

상기 벡터 연산 API는 하드웨어 요소의 인덱스를 "#"로 표시할 수 있다. 도 16을 참조하여 예를 들면, No. 1의 fmem#의 "#"는 다수의 상기 특징 지도 온칩 메모리부(200)의 번호를 의미할 수 있다. 이와 같이 상기 행 단위 연산 뉴럴 프로세서의 구성요소들에 번호를 할당할 수 있다. 따라서, 상기 벡터 연산 API는 상기 행 단위 연산 뉴럴 프로세서의 하드웨어 확장시에도 프로그램을 용이하게 할 수 있다.

상기 API 프로그램부(1300)는 상기 외부 메모리(1400) 및 상기 외부 메모리(1400)와의 통신 및 처리 방법과 순서를 정의 및 제어할 수 있다. 도 17을 참조하여 예를 들면, 상기 외부 메모리(1400)는 DRAM(Dynamic Random Access Memory)이고, 상기 DRAM과의 연결은 DMA(Direct Memory Access)에 의해 이루어지며, 상기 벡터 연산 API는 상기 DRAM 및 상기 DMA를 제어 할 수 있다.

상기 API 프로그램부(1300)는 상기 활성화 함수부의 활성화 함수 타입 또는 바이어스(bias)를 설정할 수 있다. 상기 API 프로그램부(1300)는 상기 벡터 연산 API를 병렬 수행할 수 있다. 예를 들면, 상기 벡터 연산 API는 블록(block)으로 이루어지고, 상기 블록 내부의 명령은 동시에 수행될 수 있다.

도 18을 참조하여 상기 API 프로그램부(1300)의 동작을 예를 들면, 상기 행 단위 연산 뉴럴 프로세서는 초기화 단계(Initialization step)에서 입력 특징 지도와 필터 가중치들은 외부 DRAM으로부터 상기 특징 지도 온칩 메모리부(200)와 상기 필터 가중치 온칩 메모리부(300)로 복사할 수 있다. "||" 표시 양쪽에 있는 선언문은 동시에 수행되는 명령어 일 수 있다. 합성곱 블록의 for 루프는 4개의 선언문이 있어서 한 번 수행하는데 4 사이클이 걸리나, 각 ZY 평면 연산을 할 때에는 파이프라이닝 될 수 있다. 활성화 함수 블록은 한 출력 픽셀을 계산하는데 걸리는 시간인 pxl_CLK마다 작동한다. pxl_CLK은 가중치 필터의 ZY 평면을 계산하는데 필요한 연산 횟수인 nR을 ZY 평면 개수만큼 더한 것으로 계산될 수 있다. 풀링부(1100)를 제어하기 위해서, 먼저 풀링부(1100)를 위한 출력 픽셀들이 생성될 때까지 기다리도록 설정할 수 있으며, delayHeight 만큼의 출력 행들이 생성될 때까지 기다리도록 설정할 수 있다. 출력 특징 지도의 폭이 outW인 경우 delayHeight에 대한 수식에 따라 상기 풀링부(1100) 및 상기 입력 특징 지도 로우 데이터에 쓰기 연산을 하도록 상기 풀링부(1100)가 delayHeight만큼 기다리도록 하고, delayWidth만큼의 pxl_CLK마다 한 번씩 동작하도록 하여 최종 출력 픽셀을 상기 특징 지도 온칩 메모리부(200)에 기록하도록 할 수 있다.

상기 출력 재입력부(1200)는 상기 풀링부(1100)의 출력이 상기 특징 지도 온칩 메모리부로 재입력 되고, 상기 출력 데이터의 저장과 상기 재입력 데이터의 처리가 동시에 수행되는 더블 버퍼를 포함할 수 있다. 이를 통해 제1 시점의 합성곱 계층 또는 풀링부(1100)의 출력인 출력 특징 지도는 제1 시점과 연결되는 제2 시점의 합성곱 계층의 입력으로 사용될 수 있다. 상기 행 단위 연산 뉴럴 프로세서는 상기 출력 재입력부(1200)에서 입력되는 상기 재입력 데이터를 저장하기 위한 복수개의 상기 특징 지도 온칩 메모리부(200)를 포함할 수 있다.

상기 외부 메모리(1400)는 칩 외부에 연결되어 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 추가적인 공간을 제공할 수 있다. 상기 행 단위 연산 뉴럴 프로세서는 상기 외부 메모리(1400)와의 연결을 제공하는 외부 메모리(1400) 연결 모듈을 포함할 수 있다. 예를 들면, 상기 외부 메모리(1400)는 DRAM(Dynamic Random Access Memory)이고, 상기 외부 메모리(1400) 연결 모듈은 상기 DRAM과의 연결을 위해 DMA(Direct Memory Access)기능을 제공할 수 있다. 상기 외부 메모리(1400) 연결 모듈은 상기 외부 메모리(1400)의 접근은 내부 연산 시간과 병렬적으로 수행할 수 있다. 따라서, 상기 외부 메모리(1400)의 접근 오버헤드(overhead)를 줄일 수 있다.

상기 외부 메모리(1400)는 상기 출력 재입력부(1200)에 연결될 수 있다. 상기 외부 메모리(1400)는 더블 버퍼 또는 트리플 버퍼를 포함할 수 있다.

도 11을 참조하여 예를 들면, 상기 행 단위 연산 뉴럴 프로세서는 상기 외부 메모리(1400)를 포함하는 구조를 가질 수 있다. 또한, 상기 외부 메모리(1400)와의 연결을 위한 DMA를 지원하는 연결 모듈을 포함할 수 있다.

상기 외부 메모리(1400)를 포함하는 경우, 상기 필터 가중치 온칩 메모리(300)의 크기는 CNN 알고리즘의 모든 합성곱 계층에서 필요로 하는 가장 큰 가중치 필터의 크기와 같거나 클 수 있다. 상기 특징 지도 온칩 메모리(200)의 크기는 CNN 알고리즘의 모든 계층 중에서 가장 큰 입력 특징 지도 로우 데이터의 크기와 같거나 클 수 있다.

도 3는 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법을 나타내는 흐름도이다.

본 실시예에 따른 행 단위 연산 데이터 처리 방법은 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서를 사용한다. 따라서, 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서와 동일한 구성요소는 동일한 도면 부호를 부여하고, 반복되는 설명은 생략한다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법은 입력 데이터를 생성하는 단계(S100), 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계(S200), 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계(S300), 입력 특징 지도 행데이터를 생성하는 단계(S400), 필터 가중치 행데이터를 생성하는 단계(S500), 합성곱 데이터를 생성하는 단계(S600), 부분합을 계산하는 단계(S700) 및 부분합을 출력하는 단계(S800)를 포함한다.

상기 행 단위 연산 데이터 처리 방법은 행 단위 연산 뉴럴 프로세서를 이용해 데이터를 처리하는 시스템에서 수행될 수 있다.

상기 입력 데이터를 생성하는 단계(S100)에서는 입력부가 데이터를 입력 받아 입력 데이터를 생성할 수 있다. 상기 입력 데이터는 합성곱 연산이 필요한 다양한 데이터 일 수 있다. 예를 들면, 상기 입력 데이터는 이미지 데이터일 수 있다. 예를 들면, 상기 입력 데이터는 이미지이고, 가로 크기가 W, 세로 크기가 H인 2차원 이미지일 수 있다.

상기 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계(S200)에서는 상기 특징 지도 온칩 메모리부가 상기 입력 특징 지도 로우 데이터의 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장할 수 있다. 이때, 상기 입력 특징 지도 로우 데이터의 채널 크기는 2의 거듭제곱일 수 있다. 상기 특징 지도 온칩 메모리부의 메모리 폭은 2의 거듭제곱이고, 상기 입력 특징 지도 로우 데이터의 채널 크기와 동일하거나 채널 크기의 약수 또는 배수일 수 있다.

상기 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계(S300)에서는 상기 필터 가중치 온칩 메모리부가 상기 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장할 수 있다.

상기 입력 특징 지도 행데이터를 생성하는 단계(S400)에서는 특징 지도 버퍼부가 상기 특징 지도 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 입력 특징 지도 행데이터를 생성할 수 있다.

상기 필터 가중치 행데이터를 생성하는 단계(S500)에서는 필터 가중치 버퍼부가 상기 필터 가중치 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 필터 가중치 행데이터를 생성할 수 있다.

상기 합성곱 데이터를 생성하는 단계(S600)에서는 합성곱 계산부가 상기 입력 특징 지도 행데이터 및 상기 필터 가중치 행데이터를 요소별로 곱셈하여 합성곱 데이터를 생성할 수 있다.

상기 부분합을 계산하는 단계(S700)에서는 가산 트리부가 상기 합성곱 데이터로부터 부분합을 계산할 수 있다.

상기 부분합을 출력하는 단계(S800)에서는 출력 버퍼부가 상기 가산 트리부로부터 연결되는 데이터 경로를 형성하는 파이프라인을 통해 상기 계산된 부분합을 전송 받아 저장하고, 상기 저장된 부분합을 출력할 수 있다.

상기 파이프라인은 상기 가산 트리부, 상기 출력 버퍼부, 상기 활성화 함수 계산부, 상기 출력 온칩 메모리부 및 상기 풀링부의 출력과 입력이 순차적으로 포인트 투 포인트(P2P: point to point)방식으로 연결되어 하나의 데이터 전송 경로를 형성할 수 있다.

상기 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계(S200) 및 상기 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계(S300)와 입력 특징 지도 행데이터를 생성하는 단계(S400) 및 필터 가중치 행데이터를 생성하는 단계(S500)는 병렬적으로 수행될 수 있다.

도 3에 따른 상기 단계들은 상기 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서의 동작과 실질적으로 동일하므로 동일한 명칭 및 동작에 대한 반복되는 설명은 생략한다.

본 실시예에 따른 행 단위 연산 데이터 처리 방법은 출력의 활성 상태 및 비활성 상태를 결정하는 단계(S900), 활성화 함수 계산부의 출력을 저장하는 단계(S1000), 출력 온칩 메모리부에 저장된 데이터를 풀링하는 단계(S1100) 및 풀링부의 출력을 상기 특징 지도 온칩 메모리부로 재입력하는 단계(S1200)를 제외하고는 도 3의 행 단위 연산 데이터 처리 방법과 실질적으로 동일하다. 따라서, 도 3의 행 단위 연산 데이터 처리 방법과 동일한 구성요소는 동일한 도면 부호를 부여하고, 반복되는 설명은 생략한다.

상기 출력의 활성 상태 및 비활성 상태를 결정하는 단계(S900)에서는 활성화 함수 계산부가 상기 출력 버퍼부의 출력을 전송 받아 활성화 함수로부터 상기 출력의 활성 상태 및 비활성 상태를 결정할 수 있다.

상기 활성화 함수 계산부의 출력을 저장하는 단계(S1000)에서는 출력 온칩 메모리부가 상기 활성화 함수 계산부의 출력을 저장할 수 있다.

상기 출력 온칩 메모리부에 저장된 데이터를 풀링하는 단계(S1100)에서는 풀링부가 상기 출력 온칩 메모리부에 저장된 데이터를 풀링할 수 있다.

상기 풀링부의 출력을 상기 특징 지도 온칩 메모리부로 재입력하는 단계(S1200)에서는 출력 재입력부가 상기 풀링부의 출력을 상기 특징 지도 온칩 메모리부로 재입력할 수 있다.

상기 재입력하는 단계에서는 상기 출력 재입력부의 더블 버퍼가 상기 풀링부 출력의 저장 및 상기 재입력 데이터의 처리를 동시에 수행할 수 있다.

도 4에 따른 상기 단계들은 상기 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서의 동작과 실질적으로 동일하므로 동일한 명칭, 동작 및 효과에 대한 반복되는 설명은 생략한다.

본 실시예에 따른 행 단위 연산 데이터 처리 방법은 벡터 연산 API를 이용해 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어하는 단계(S101) 및 외부 메모리가 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 단계(S110)를 제외하고는 도 3 내지 도 4의 행 단위 연산 데이터 처리 방법과 실질적으로 동일하다. 따라서, 도 3 내지 도 4의 행 단위 연산 데이터 처리 방법과 동일한 구성요소는 동일한 도면 부호를 부여하고, 반복되는 설명은 생략한다.

상기 벡터 연산 API를 이용해 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어하는 단계(S101)에서는 API 프로그램부가 벡터 연산 API를 이용해 상기 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어할 수 있다.

상기 외부 메모리가 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 단계(S110)에서는 외부 메모리가 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장할 수 있다.

상기 외부 메모리가 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 단계(S110)는 상기 행 단위 연산 뉴럴 프로세서의 외부 메모리 연결 모듈이 상기 외부 메모리에 연결하는 단계(미도시)를 포함할 수 있다. 예를 들면, 상기 외부 메모리에 연결하는 단계에서는 DRAM(Dynamic Random Access Memory)인 외부 메모리와 DMA(Direct Memory Access)기능을 제공하는 상기 외부 메모리 연결 모듈이 연결될 수 있다. 상기 외부 메모리 연결 모듈은 상기 외부 메모리의 접근은 내부 연산 시간과 병렬적으로 수행할 수 있다. 따라서, 상기 외부 메모리의 접근 오버헤드(overhead)를 줄일 수 있다.

상기 외부 메모리가 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 단계(S110)는 상기 외부 메모리의 더블 버퍼 또는 트리플 버퍼를 이용하여 수행될 수 있다.

도 5에 따른 상기 단계들은 상기 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서의 동작과 실질적으로 동일하므로 동일한 명칭, 동작 및 효과에 대한 반복되는 설명은 생략한다.

도 6은 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법의 필터 가중치 로우 데이터를 채널 넘버, 커널 높이 및 커널 너비의 순서로 저장하는 단계를 나타내는 흐름도이다.

본 실시예에 따른 행 단위 연산 데이터 처리 방법은 필터 픽셀을 저장한 마지막 행에서 유효 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채우는 제로 패딩 기능을 수행하는 단계(S310)를 제외하고는 도 3 내지 도 5의 행 단위 연산 데이터 처리 방법과 실질적으로 동일하다. 따라서, 도 3 내지 도 5의 행 단위 연산 데이터 처리 방법과 동일한 구성요소는 동일한 도면 부호를 부여하고, 반복되는 설명은 생략한다.

상기 필터 픽셀을 저장한 마지막 행에서 유효 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채우는 제로 패딩 기능을 수행하는 단계(S310)에서는 필터 가중치 온칩 메모리부가 상기 필터 픽셀을 저장한 마지막 행에서 유효 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채울 수 있다.

도 6에 따른 상기 단계들은 상기 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서의 동작과 실질적으로 동일하므로 동일한 명칭, 동작 및 효과에 대한 반복되는 설명은 생략한다.

도 7은 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법의 입력 특징 지도 행데이터를 생성하는 단계(S400)를 나타내는 흐름도이다.

본 실시예에 따른 행 단위 연산 데이터 처리 방법은 입력 특징 지도 행데이터를 재사용하는 단계(S410)를 제외하고는 도 3 내지 도 6의 행 단위 연산 데이터 처리 방법과 실질적으로 동일하다. 따라서, 도 3 내지 도 6의 행 단위 연산 데이터 처리 방법과 동일한 구성요소는 동일한 도면 부호를 부여하고, 반복되는 설명은 생략한다.

상기 입력 특징 지도 행데이터를 재사용하는 단계(S410)에서는 상기 특징 지도 버퍼부가 상기 입력 특징 지도 행데이터를 재사용할 수 있다. 도 10을 참조하여 예를 들면, 상기 필터 가중치 온칩 메모리부 및 상기 필터 가중치 버퍼부는 복수개이고, 상기 입력 특징 지도 행데이터는 상기 복수개의 상기 필터 가중치 행데이터에 적용될 수 있다. 따라서, 하나의 입력 특징 지도 행데이터는 다수의 필터 가중치 행데이터에 적용되어 상기 합성곱 계산부로 입력되는 가중치 필터 단위 병렬화가 될 수 있다. 또한, 이러한 입력 특징 지도 행데이터 재사용 여부는 API 프로그램부에 의해 프로그램될 수 있다.

도 7에 따른 상기 단계들은 상기 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서의 동작과 실질적으로 동일하므로 동일한 명칭, 동작 및 효과에 대한 반복되는 설명은 생략한다.

도 8은 본 발명의 일 실시예에 따른 행 단위 연산 데이터 처리 방법의 필터 가중치 행데이터를 생성하는 단계(S500)를 나타내는 흐름도이다.

본 실시예에 따른 행 단위 연산 데이터 처리 방법은 필터 가중치 온칩 메모리의 한 행을 순환 시프트 버퍼에 저장하는 단계(S510), 시작 주소의 오프셋만큼 시프트 하는 단계(S520), 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행하는 단계(S530), 필터 가중치 버퍼부의 전체 또는 일부를 0으로 초기화 하는 단계 및 필터 가중치 행데이터를 재사용하는 단계(S550)를 제외하고는 도 3 내지 도 7의 행 단위 연산 데이터 처리 방법과 실질적으로 동일하다. 따라서, 도 3 내지 도 7의 행 단위 연산 데이터 처리 방법과 동일한 구성요소는 동일한 도면 부호를 부여하고, 반복되는 설명은 생략한다.

필터 가중치 온칩 메모리의 한 행을 순환 시프트 버퍼에 저장하는 단계(S510)에서는 상기 필터 가중치 버퍼부의 순환 시프트 버퍼가 필터 가중치 온칩 메모리의 한 행을 상기 필터 가중치 버퍼부의 순환 시프트 버퍼에 저장할 수 있다. 상기 필터 가중치 버퍼부의 순환 시프트 버퍼는 상기 필터 가중치 온칩 메모리부의 행 폭의 두 배의 크기를 가질 수 있다.

상기 시작 주소의 오프셋만큼 시프트 하는 단계(S520)에서는 상기 필터 가중치 버퍼부의 순환 시프트 버퍼가 상기 필터 가중치 버퍼부의 순환 시프트 버퍼에 저장된 데이터를 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트 할 수 있다.

상기 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행하는 단계(S530)에서는 상기 필터 가중치 버퍼부의 순환 시프트 버퍼가 상기 필터 가중치 행데이터가 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행할 수 있다.

상기 순환 시프트 버퍼의 전체 또는 일부를 0으로 초기화 하는 단계(S540)에서는 상기 필터 가중치 버퍼부의 순환 시프트 버퍼가 상기 필터 가중치 행데이터의 마지막 행을 시프트 한 후에 상기 필터 가중치 버퍼부의 전체 또는 일부를 0으로 초기화 할 수 있다.

상기 필터 가중치 행데이터를 재사용하는 단계(S550)에서는 필터 가중치 버퍼부가 상기 필터 가중치 행데이터를 재사용할 수 있다. 예를 들면, 상기 필터 가중치 온칩 메모리부의 행 폭이 채널 크기보다 클 경우, 일정 크기의 필터 가중치 버퍼부를 상기 입력 특징 지도 행데이터에 반복하여 사용하여 재사용할 수 있다. 상기 필터 가중치 행데이터를 재사용할 경우 상기 필터 가중치 온칩 메모리부에서 상기 필터 가중치 버퍼부로 데이터가 이동하거나, 상기 필터 가중치 버퍼부 내부의 시프트 버퍼에서 데이터가 시프트 되는 것을 생략할 수 있다. 또한, 이러한 필터 가중치 행데이터 재사용 여부는 API 프로그램부에 의해 프로그램될 수 있다.

예를 들면, 상기 필터 가중치 버퍼부에 저장된 필터 가중치 행데이터는 상기 필터 가중치 온칩 메모리부를 반복해서 접근하지 않고 다수의 입력 특징 지도 행데이터에 대한 합성곱 연산을 하는데 사용될 수 있다. 또한, 이러한 필터 가중치 행데이터 재사용 여부는 API 프로그램부에 의해 프로그램될 수 있다.

도 8에 따른 상기 단계들은 상기 도 1 내지 도 2의 행 단위 연산 뉴럴 프로세서의 동작과 실질적으로 동일하므로 동일한 명칭, 동작 및 효과에 대한 반복되는 설명은 생략한다.

상기 행 단위 연산 데이터 처리 방법 및 이를 이용한 뉴럴 프로세서는 완전연결 계층 및 RNN(Recursive Neural Network)의 가속에도 확장 적용할 수 있다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 통상의 기술자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

데이터를 입력하는 입력부;

상기 입력부에 입력된 입력 데이터에 대한 입력 특징 지도 로우 데이터의 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 특징 지도 온칩 메모리부;

상기 입력 데이터에 대한 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 필터 가중치 온칩 메모리부;

상기 특징 지도 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 입력 특징 지도 행데이터를 생성하는 특징 지도 버퍼부;

상기 필터 가중치 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 필터 가중치 행데이터를 생성하는 필터 가중치 버퍼부;

상기 입력 특징 지도 행데이터 및 상기 필터 가중치 행데이터를 요소별로 곱셈하여 합성곱 데이터를 생성하는 합성곱 계산부;

상기 합성곱 데이터로부터 부분합을 계산하는 가산 트리부; 및

상기 가산 트리부로부터 연결되는 데이터 경로를 형성하는 파이프라인을 통해 상기 계산된 부분합을 전송 받아 저장하고, 상기 저장된 부분합을 출력하는 출력 버퍼부를 포함하는 행 단위 연산 뉴럴 프로세서.
제1항에 있어서,

상기 출력 버퍼부의 출력을 전송 받아 활성화 함수로부터 상기 출력의 활성 상태 및 비활성 상태를 결정하는 활성화 함수 계산부;

상기 활성화 함수 계산부의 출력을 저장하는 활성화 출력 온칩 메모리부; 및

상기 출력 온칩 메모리부에 저장된 데이터를 풀링하는 풀링부를 더 포함하는 행 단위 연산 뉴럴 프로세서.
제2항에 있어서,

상기 파이프라인은 상기 가산 트리부, 상기 출력 버퍼부, 상기 활성화 함수 계산부, 상기 출력 온칩 메모리부 및 상기 풀링부의 출력과 입력이 순차적으로 포인트 투 포인트(P2P: point to point)방식으로 연결되어 하나의 데이터 전송 경로를 형성하는 행 단위 연산 뉴럴 프로세서.
제2항에 있어서,

상기 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어하는 벡터 연산 API(Application Programming Interface) 를 지원하는 API 프로그램부를 더 포함하는 행 단위 연산 뉴럴 프로세서.
제2항에 있어서,

상기 풀링부의 출력은 상기 특징 지도 온칩 메모리부로 재입력 되고, 상기 출력 데이터의 저장과 상기 재입력 데이터의 처리가 동시에 수행되는 더블 버퍼를 포함하는 출력 재입력부를 더 포함하는 행 단위 연산 뉴럴 프로세서.
제1항에 있어서,

상기 특징 지도 버퍼부는 상기 입력 특징 지도 행데이터를 재사용 하고,

상기 필터 가중치 버퍼부는 상기 필터 가중치 행데이터를 재사용 하는 행 단위 연산 뉴럴 프로세서.
제1항에 있어서,

상기 입력 특징 지도 로우 데이터의 채널 크기는 2의 거듭제곱이고,

상기 특징 지도 온칩 메모리부의 메모리 폭은 2의 거듭제곱이고, 상기 입력 특징 지도 로우 데이터의 채널 크기와 동일하거나 채널 크기의 약수 또는 배수이며,

상기 필터 가중치 온칩 메모리부는 상기 필터 픽셀을 저장한 마지막 행에서 유효 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채우는 제로 패딩 기능을 수행하는 행 단위 뉴럴 프로세서.
제1항에 있어서,

상기 필터 가중치 버퍼부는 시프트 버퍼인 행 단위 연산 뉴럴 프로세서.
제1항에 있어서,

상기 필터 가중치 버퍼부는 상기 필터 가중치 온칩 메모리부의 행 폭의 배수의 크기를 갖는 순환 시프트 버퍼이고,

상기 순환 시프트 버퍼는 상기 필터 가중치 행데이터를 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트하며, 상기 필터 가중치 행데이터가 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행하고, 상기 필터 가중치 행데이터의 마지막 행을 시프트 한 후에는 상기 순환 시프트 버퍼의 전체 또는 일부를 0으로 초기화하는 행 단위 연산 뉴럴 프로세서.
제1항에 있어서,

칩 외부에 연결되어 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 추가적인 공간을 제공하는 외부 메모리를 더 포함하는 행 단위 연산 뉴럴 프로세서.
행 단위 연산 뉴럴 프로세서를 이용해 데이터를 처리하는 시스템에서,

입력부가 데이터를 입력 받아 입력 데이터를 생성하는 단계;

특징 지도 온칩 메모리부가 상기 입력 특징 지도 로우 데이터의 입력 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계;

필터 가중치 온칩 메모리부가 상기 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계;

특징 지도 버퍼부가 상기 특징 지도 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 입력 특징 지도 행데이터를 생성하는 단계;

필터 가중치 버퍼부가 상기 필터 가중치 온칩 메모리부에 저장된 데이터를 행 단위로 저장하여 필터 가중치 행데이터를 생성하는 단계;

합성곱 계산부가 상기 입력 특징 지도 행데이터 및 상기 필터 가중치 행데이터를 요소별로 곱셈하여 합성곱 데이터를 생성하는 단계;

가산 트리부가 상기 합성곱 데이터로부터 부분합을 계산하는 단계; 및

출력 버퍼부가 상기 가산 트리부로부터 연결되는 데이터 경로를 형성하는 파이프라인을 통해 상기 계산된 부분합을 전송 받아 저장하고, 상기 저장된 부분합을 출력하는 단계를 포함하고,

상기 특징 지도 로우 데이터를 저장하는 단계 및 상기 필터 가중치 로우 데이터를 저장하는 단계와 입력 특징 지도 행데이터를 생성하는 단계 및 필터 가중치 행데이터를 생성하는 단계는 병렬적으로 수행될 수 있는 행 단위 연산 데이터 처리 방법.
제11항에 있어서,

활성화 함수 계산부가 상기 출력 버퍼부의 출력을 전송 받아 활성화 함수로부터 상기 출력의 활성 상태 및 비활성 상태를 결정하는 단계;

출력 온칩 메모리부가 상기 활성화 함수 계산부의 출력을 저장하는 단계; 및

풀링부가 상기 출력 온칩 메모리부에 저장된 데이터를 풀링하는 단계를 더 포함하는 행 단위 연산 데이터 처리 방법.
제12항에 있어서,

상기 파이프라인은 상기 가산 트리부, 상기 출력 버퍼부, 상기 활성화 함수 계산부, 상기 출력 온칩 메모리부 및 상기 풀링부의 출력과 입력이 순차적으로 포인트 투 포인트(P2P: point to point)방식으로 연결되어 하나의 데이터 전송 경로를 형성하는 행 단위 연산 데이터 처리 방법.
제12항에 있어서,

API 프로그램부가 벡터 연산 API(Application Programming Interface) 를 이용해 상기 행 단위 연산 뉴럴 프로세서의 구성 요소들의 처리 방법과 순서를 정의 및 제어하는 단계를 더 포함하는 행 단위 연산 데이터 처리 방법.
제12항에 있어서,

출력 재입력부가 상기 풀링부의 출력을 상기 특징 지도 온칩 메모리부로 재입력하는 단계를 더 포함하고,

상기 재입력하는 단계는 상기 출력 재입력부의 더블 버퍼가 상기 풀링부 출력의 저장 및 상기 재입력 데이터의 처리를 동시에 수행하는 행 단위 연산 데이터 처리 방법.
제11항에 있어서,

상기 입력 특징 지도 행데이터를 생성하는 단계는 상기 특징 지도 버퍼부가 상기 입력 특징 지도 행데이터를 재사용하는 단계를 포함하고,

상기 필터 가중치 행데이터를 생성하는 단계는 상기 필터 가중치 버퍼부가 상기 필터 가중치 행데이터를 재사용하는 단계를 포함하는 행 단위 연산 데이터 처리 방법.
제11항에 있어서,

상기 입력 특징 지도 로우 데이터의 채널 크기는 2의 거듭제곱이고,

상기 특징 지도 온칩 메모리부의 메모리 폭은 2의 거듭제곱이고, 상기 입력 특징 지도 로우 데이터의 채널 크기와 동일하거나 채널 크기의 약수 또는 배수이며,

상기 필터 가중치 로우 데이터의 필터 픽셀을 채널 단위로 서로 인접하는 행에 저장하는 단계는 필터 가중치 온칩 메모리부가 상기 필터 픽셀을 저장한 마지막 행에서 유효 데이터가 저장되지 않은 나머지 부분을 그 행의 끝까지 0으로 채우는 제로 패딩 기능을 수행하는 단계를 더 포함하는 행 단위 연산 데이터 처리 방법.
제11항에 있어서,

상기 필터 가중치 행데이터는 상기 필터 가중치 행데이터가 시프트 버퍼에 의해 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트 되어 상기 입력 특징 지도 행데이터와 출력 위치가 정렬되는 행 단위 연산 데이터 처리 방법.
제11항에 있어서,

상기 필터 가중치 행데이터를 생성하는 단계는 상기 필터 가중치 버퍼부의 순환 시프트 버퍼가,

상기 필터 가중치 온칩 메모리의 한 행을 순환 시프트 버퍼에 저장하는 단계;

상기 필터 가중치 버퍼부에 저장된 데이터를 상기 입력 특징 지도 행데이터의 시작 주소의 오프셋만큼 시프트 하는 단계;

상기 필터 가중치 행데이터가 시프트한 이전 공간을 0으로 채우는 제로 패딩 기능을 수행하는 단계;

상기 필터 가중치 행데이터의 마지막 행을 시프트 한 후에 상기 순환 시프트 버퍼의 전체 또는 일부를 0으로 초기화 하는 단계를 더 포함하고, 상기 필터 가중치 버퍼부의 순환 시프트 버퍼는 상기 필터 가중치 온칩 메모리부의 행 폭의 배수의 크기를 갖는 행 단위 연산 데이터 처리 방법.
제11항에 있어서,

외부 메모리가 상기 입력 특징 지도 로우 데이터 및 상기 필터 가중치 로우 데이터를 저장하는 단계를 더 포함하는 행 단위 연산 데이터 처리 방법.