WO2024128372A1

WO2024128372A1 - 차세대 고속 경량 객체인식 fpga npu 시스템을 위한 계산유닛, 버퍼 및 데이터 이동 최적화 방법론

Info

Publication number: WO2024128372A1
Application number: PCT/KR2022/020704
Authority: WO
Inventors: 이혁재; 응웬트렁; 김민식; 서호진; 오경석; 조영목
Original assignee: 서울대학교산학협력단
Priority date: 2022-12-16
Filing date: 2022-12-19
Publication date: 2024-06-20
Also published as: KR20240095659A

Abstract

본 발명은 데이터 처리 장치에 관한 것으로서, 서로 다른 합성곱 연산을 수행하는 레이어마다 최대의 계산 유닛 이용률을 제공하도록, 복수의 합성곱 연산에서 공통으로 사용되는 최대공약수만큼의 곱셉기 결과를 묶어서 구성하는 가변적 덧셈 트리를 포함하는 계산 유닛과, 상기 레이어마다 특성맵과 파라미터를 외부 메모리에서 로드하는 시간을 비교하고, 비교결과에 근거하여 데이터를 미리 로드하여 저장하거나, 데이터를 재사용하는 동적 데이터 흐름 구조 유닛과, 상기 합성곱 연산이 요구하는 공간적 픽셀 중 가장 큰 값에 대응되는 버퍼 개수를 생성하고, 상기 특성맵을 픽셀 단위로 생성된 버퍼에 분배하는 공간적 버퍼 분배 구조 유닛을 포함하는 것을 특징으로 한다.

Description

차세대 고속 경량 객체인식 FPGA NPU 시스템을 위한 계산유닛, 버퍼 및 데이터 이동 최적화 방법론

본 발명은 객체인식 알고리즘의 가속기와 관련된 것이다. 아울러, 본 발명은 합성곱 연산을 사용하는 인공지능 알고리즘 가속기 설계에 범용적으로 사용될 수 있는 최적화 방법론에 관한 것이다.

딥 러닝은 인공 지능(artificial intelligence, AI) 및 컴퓨터 비전(computer vision) 분야에서 널리 사용되는 기술이다. 컨볼루션 뉴럴 네트워크들(convolution neural networks, CNNs), 심층-신뢰 네트워크들(deep-belief networks, DBNs), 및 오토인코더들(autoencoders)과 같은 다양한 딥-러닝 아키텍쳐들은 시각적인 객체 인식, 자동 대화 인식, 자연 언어 처리, 및 음악/음향 신호 처리와 같은 작업들에 대한 최신의 결과들을 생성하는 것으로 보여왔다. 딥 러닝의 주된 노력은 다양한 네트워크 아키텍쳐들, 러닝 알고리즘들, 및 어플리케이션들에 대한 소프트웨어 구현에 포커싱 되어왔다.

딥러닝을 활용한 객체인식은 현재 산업계에서 가장 주목받는 연구분야 중 하나로, 자율주행 자동차, 무인 상점, 교통 감지 등에 활용되고 있다. 이러한 응용에는 초당 30~60프레임 이상에 해당하는 짧은 지연시간 혹은 실시간 반응이 필수적이다. 이는 범용 프로세서로 달성하기 어려운 목표이므로 현재 산업계에선 NPU라는 인공신경망 전용 프로세서를 개발하여 지연시간을 낮추고 있다.

합성곱을 포함하는 인공지능 알고리즘의 NPU를 설계할 때 가장 효율을 떨어뜨리는 원인 중 하나로 합성곱 연산의 크기가 레이어별로 다르다는 이유가 있다. 예를 들어 1x1 합성곱, 3x3 합성곱, 5x5 합성곱처럼 곱셈단위의 크기가 변하는 합성곱이 있으며 그 외에도 합성곱 이후 다음 데이터로의 이동 단위(stride)가 변하는 경우 등이 합성곱 연산을 계산 유닛에 효율적으로 매핑하기 어렵게 만든다.

또한 여러 종류의 합성곱에 따라서 계산에 사용되는 데이터를 제공하는 데이터 흐름의 구조도 바꾸지 않으면 계산 유닛에 필요한 데이터를 적재적소에 제공하지 못해 성능 저하의 원인이 된다.

본 발명의 기술적 과제는 위와 같은 문제점을 해결하기 위하여 여러 종류의 합성곱 연산을 모두 효율적으로 매핑할 수 있는 가변 덧셈 트리를 가진 계산 유닛을 사용하고, 단위시간당 필요한 최대 데이터양을 제공할 수 있는 공간적 버퍼 분배 구조를 사용하여 계산 유닛의 사용률을 최대화하고자 한다.

상기한 과제를 해결하기 위해 본 발명은 데이터 처리 장치에 관한 것으로서, 서로 다른 합성곱 연산을 수행하는 레이어마다 최대의 계산 유닛 이용률을 제공하도록, 복수의 합성곱 연산에서 공통으로 사용되는 최대공약수만큼의 곱셉기 결과를 묶어서 구성하는 가변적 덧셈 트리를 포함하는 계산 유닛과, 상기 레이어마다 특성맵과 파라미터를 외부 메모리에서 로드하는 시간을 비교하고, 비교결과에 근거하여 데이터를 미리 로드하여 저장하거나, 데이터를 재사용하는 동적 데이터 흐름 구조 유닛과, 상기 합성곱 연산이 요구하는 공간적 픽셀 중 가장 큰 값에 대응되는 버퍼 개수를 생성하고, 상기 특성맵을 픽셀 단위로 생성된 버퍼에 분배하는 공간적 버퍼 분배 구조 유닛을 포함하는 것을 특징으로 한다.

본 발명에 따른 최적화 방법론은 종래의 기술과 달리 계산 유닛의 덧셈 트리가 가변적이기 때문에 하나의 계산 유닛과 최소의 부수적은 로직 자원으로 마치 여러 종류의 계산 유닛을 가진 효과를 낼 수 있다. 이에 따라 가속기에 다른 기능을 하는 여러 유닛을 추가할 수 있거나 가속기를 경량화하여 단가, 사용전력을 더 낮출 수 있다.

아울러, 본 발명에 따르면 데이터 흐름 구조를 개선하여 외부 메모리와의 통신을 최소화하고, 그를 통해 시스템 전체의 성능을 높일 수 있다.

도 1은 종래 기술에 따른 데이터 처리 장치의 일 실시예와, 본 발명에 따른 데이터 처리 장치의 가변적 덧셈 트리의 비교를 나타낸 개념도이다.

도 2는 종래 기술에 따른 데이터 처리 장치의 일 실시예와, 본 발명에 따른 동적 데이터 흐름 구조의 비교를 나타낸 개념도이다.

도 3은 종래 기술에 따른 데이터 처리 장치의 일 실시예와, 본 발명에 따른 공간적 버퍼 분배 구조의 비교를 나타낸 개념도이다.

도 4는 본 발명에 따른 가변적 덧셈 트리를 갖는 계산 유닛의 블록도이다.

도 5는 레이어 융합 기법을 적용하는 실시예를 나타낸 타이밍도이다.

도 6은 본 발명에 따른 공간적 버퍼 분배를 나타내는 개념도이다.

서로 다른 합성곱 연산을 수행하는 레이어마다 최대의 계산 유닛 이용률을 제공하도록, 복수의 합성곱 연산에서 공통으로 사용되는 최대공약수만큼의 곱셉기 결과를 묶어서 구성하는 가변적 덧셈 트리를 포함하는 계산 유닛, 레이어마다 특성맵과 파라미터를 외부 메모리에서 로드하는 시간을 비교하고, 비교결과에 근거하여 데이터를 미리 로드하여 저장하거나, 데이터를 재사용하는 동적 데이터 흐름 구조 유닛, 합성곱 연산이 요구하는 공간적 픽셀 중 가장 큰 값에 대응되는 버퍼 개수를 생성하고, 특성맵을 픽셀 단위로 생성된 버퍼에 분배하는 공간적 버퍼 분배 구조 유닛을 포함하는 것을 특징으로 하는 데이터 처리 장치.

본 발명의 목적 및 효과는 다음의 상세한 설명을 통하여 보다 분명해질 것이나 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 이하에서 개시되는 실시 예에 한정되지 않는다. 또한 도면에서 본 발명을 명확하게 개시하기 위해서 본 발명과 관계없는 부분은 생략하였으며, 도면에서 동일하거나 유사한 부호들은 동일하거나 유사한 구성요소들을 나타낸다.

도 1에서는 본 발명에 따른 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘을 적용한 영상 인식 방법이 도시된다.

도 1에 도시된 것과 같이, 본 발명에 따른 영상 인식 장치의 메인네트워크부는 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성할 수 있다(S101).

예를 들어, 메인 네트워크를 본 발명의 목적 및 효과는 다음의 상세한 설명을 통하여 보다 분명해질 것이나 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

먼저 도 1을 살펴보면, 종래 데이터 처리 장치와 본 발명에 따른 가변적 덧셈 트리 구조의 비교가 도시된다.

도 1에 도시된 것과 같이, 종래기술의 계산 유닛의 경우, 덧셈 트리의 구조가 고정되어 있어 레이어의 특성에 따라 하드웨어 이용률이 크게 변할 수 있다.

예를 들어, 144개의 곱셈기로 계산 유닛이 이루어져 있을 때, 한 출력 픽셀을 계산하는 데 필요한 곱셈의 수가 36개인 레이어에서는 곱셈기의 수로 필요한 곱셈의 수를 나눈 값인 25%만큼의 계산 유닛만 이용되는 문제가 있다.

즉, 나머지 75%의 계산 유닛은 계산을 수행하지 않으므로, 데이터 처리 장치의 성능 저하를 유발한다.

반면, 본 발명에 따른 가변적 덧셈 트리 구조의 경우, 종래 기술과 같은 예시를 적용하면, 덧셈의 단위가 해당 레이어에서만 144개에서 36개로 변경될 수 있도록 하여 한 번에 4개의 출력 픽셀을 계산하게 할 수 있다. 이러한 방법으로 100%(=36x4/144)의 계산 유닛 이용률을 확보할 수 있다.

도 2에서는 종래 기술에 따른 데이터 처리 장치의 일 실시예와, 본 발명에 따른 동적 데이터 흐름 구조의 비교가 도시된다.

일반적으로 데이터 처리 장치가 컨볼루셔널 뉴럴 네트워크(Convolutional Neural Network, CNN) 알고리즘을 수행할 경우, 특성맵과 패러미터는 데이터의 크기가 커서 외부 메모리에 저장해 놓고, 필요할 때 로드하여 계산에 사용한다.

이와 관련하여 도 2를 참조하면, 종래 기술에 따른 데이터 처리 장치의 경우, 외부 메모리에 접근함에 있어서 데이터를 중복으로 로드하는 경우가 빈번하게 발생하였으므로, 데이터 이동 지연 시간만큼 성능 저하가 발생하였다.

반면, 본 발명에 따른 동적 데이터 흐름 구조 유닛은, 같은 데이터를 중복해서 불러오는 것을 최소화하고, 다음 데이터를 불러오는 동안 계산 유닛이 쉬지 않고 의미있는 계산을 계속 실행하도록 하기 위하여 데이터 재사용 방법을 사용할 수 있다.

특히, 본 발명에 따른 동적 데이터 흐름 구조 유닛은, 특성맵 재사용과 패러미터 재사용 방법 두가지를 레이어의 특성에 따라 가변적으로 적용함으로서, 성능 최적화를 도모한다.

도 2를 참조하면, 종래 기술과 달리 본 발명에 따른 동적 데이터 흐름 구조 유닛은 중복된 데이터 로드를 수행하지 않으며, 초기 레이어의 특성맵 이외에는 외부 메모리와 통신을 수행할 필요가 없다.

구체적으로, 본 발명에 따른 동적 데이터 흐름 구조 유닛은, 패러미터의 크기가 작고 특성맵의 크기가 큰 레이어의 경우 해당 레이어의 모든 패러미터를 칩 내부 버퍼에 미리 로드해 놓고, 특성맵을 로드하면서 모든 패러미터와 계산을 수행한다.

이 특성맵 재사용 방법을 적용하면 패러미터 전체를 미리 로드하는 데 시간이 적게 들면서, 특성맵을 로드하면서 쉬지 않고 계산 유닛에 필요한 데이터를 제공하는 것이 가능하다.

반대로, 패러미터의 크기가 크고 특성맵의 크기가 큰 레이어의 경우, 동적 데이터 흐름 구조 유닛은 해당 레이어의 특성맵을 미리 칩 내부 버퍼에 로드해 놓고 패러미터를 로드하면서 한 필터가 로드되면 다음 필터를 로드하며 특성맵 전체와 계산을 수행한다. 이 패러미터 재사용 방법을 적용하면 마찬가지로 계산 유닛이 쉬지 않도록 데이터를 계속 제공하는 것이 가능하다.

마지막으로 데이터 처리 장치가 객체인식 알고리즘을 수행하는 경우, 특성맵의 크기가 레이어를 진행하면서 점점 줄어드는 것을 이용하여, 레이어 융합 기법을 사용하여 외부 메모리에서 특성맵을 한 번만 로드하여도 알고리즘 전체를 계산할 수 있다. 레이어 융합 기법은 여러 레이어를 넘나들며 계산하도록 순서를 바꾸는 기법으로, 한 레이어를 계산할 때 계산 결과가 그 다음 레이어의 계산을 진행할 수 있는 정도가 되면, 현재 레이어의 계산을 멈추고 다음 레이어를 계산하고 돌아오는 기법이다. 이를 특성맵의 크기가 칩 내부 버퍼의 크기보다 작아지는 레이어까지 반복하면 외부 메모리에 특성맵을 저장하고 불러오는 과정이 필요없게 된다. 외부 메모리 접근이 크게 줄어 전력을 아끼고 성능을 극대화할 수 있다.

도 3을 참조하면, 종래 기술의 경우, 특성맵을 로드 할 때, 해당 특성맵의 위치에 따라 로드 지연시간이 다른 문제점이 존재하였다.

즉, 도 3의 제1 부분(301)을 로드할 때는 버퍼의 4개 주소에만 접근하는 반면, 제2 부분(302)을 로드할 때는 버퍼의 8개 주소에 접근해야 한다.

또한, 종래 기술의 경우, 하나의 버퍼에 특성맵을 순서대로 쌓아 저장하므로, 버퍼의 저장 단위와 계산에서 필요한 데이터 주소의 이동 단위가 맞지 않아 특정 데이터의 경우 여러 사이클 동안 로드해야하는 문제점이 있었다.

이와 달리, 본 발명에 따른 공간적 버퍼 분배 구조는 특성맵의 데이터를 픽셀의 위치에 따라 서로 다른 단위 버퍼에 저장하는 방법으로, 임의의 위치의 특성맵 데이터를 모두 한 사이클만에 불러올 수 있어 계산 유닛이 쉬는 사이클이 없도록 한다.

구체적으로, 본 발명에 따르면 특성맵에서 픽셀의 위치에 따라 16개의 버퍼 중 하나에 저장할 수 있다. 이를 통해, 특성맵의 임의의 4x4 단위 데이터를 한 사이클에 접근할 수 있다.

상술한 본 발명의 특징을 이하 도 4 내지 도 6에서 보다 상세히 설명한다.

먼저, 도 4를 참조하면, 가변적 덧셈 트리 구조를 가진 계산 유닛은 모든 합성곱 연산에서 공통으로 사용되는 최대공약수만큼의 곱셈기 결과를 묶고, 묶인 곱셈기 단위를 서로 묶어 구성할 수 있다.

도 5를 참조하면, 데이터 흐름 구조는 레이어마다 특성맵과 파라미터를 외부 메모리에서 로드하는 시간을 비교하여 시간이 더 적게 걸리는 데이터를 미리 로드하여 저장하고, 시간이 더 오래 걸리는 데이터를 재사용한다. 또한 칩 내부 버퍼의 크기가 특성맵 전체를 저장하지 못한다면, 특성맵을 부분으로 나누어 레이어를 넘어가며 계산을 실행하고 돌아와 내부 버퍼의 크기보다 작아질 때까지 연산을 반복한다.

도 6을 참조하면, 공간적 버퍼 분배 구조는 합성곱 연산 중 가장 큰 공간적 픽셀을 한번에 요하는 만큼의 버퍼 개수를 만들어, 특성맵을 픽셀 단위로 여러 버퍼에 공간적으로 분배한다.

상기한 본 발명의 바람직한 실시예는 예시의 목적으로 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경 및 부가가 가능할 것이며 이러한 수정, 변경 및 부가는 상기의 특허청구 범위에 속하는 것으로 보아야 할 것이다. 또한 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상술한 예시적인 시스템에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타낸 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

[이 발명을 지원한 국가연구개발사업]

과제고유번호: 1711152596

과제번호: 2021-0-00863-002

부처명: 과학기술정보통신부

과제관리(전문)기관명: 정보통신기획평가원

연구사업명: 신개념 PIM반도체선도기술개발

연구과제명: 고신뢰 메모리를 위한 지능형 인메모리 오류정정 디바이스 개발(Intelligent in-memory error-correction device for high-reliability memory)

기여율: 1/1

과제수행기관명: 서울대학교 산학협력단

연구기간: 2022.01.01~2022.12.31

Claims

서로 다른 합성곱 연산을 수행하는 레이어마다 최대의 계산 유닛 이용률을 제공하도록, 복수의 합성곱 연산에서 공통으로 사용되는 최대공약수만큼의 곱셉기 결과를 묶어서 구성하는 가변적 덧셈 트리를 포함하는 계산 유닛;

상기 레이어마다 특성맵과 파라미터를 외부 메모리에서 로드하는 시간을 비교하고, 비교결과에 근거하여 데이터를 미리 로드하여 저장하거나, 데이터를 재사용하는 동적 데이터 흐름 구조 유닛;

상기 합성곱 연산이 요구하는 공간적 픽셀 중 가장 큰 값에 대응되는 버퍼 개수를 생성하고, 상기 특성맵을 픽셀 단위로 생성된 버퍼에 분배하는 공간적 버퍼 분배 구조 유닛을 포함하는 것을 특징으로 하는 데이터 처리 장치.
제1항에 있어서,

상기 동적 데이터 흐름 구조 유닛은,

상기 버퍼가 특성맵 전체를 저장하지 못하는 경우, 상기 특성맵의 크기가 상기 버퍼보다 작아질 때까지 상기 특성맵을 분할하여 상기 레이어마다 반복적으로 계산을 수행하는 것을 특징으로 하는 데이터 처리 장치.
제1항에 있어서,

상기 동적 데이터 흐름 구조 유닛은,

일 레이어의 패러미터 크기가 기준 패러미터 크기보다 작고, 상기 일 레이어의 특성맵의 크기가 기준 맵크기보다 큰 경우, 상기 일 레이어의 패러미터를 미리 버퍼에 로드하고, 이후 특성맵을 로드하면서 상기 로드된 패러미터와의 계산을 수행하는 것을 특징으로 하는 데이터 처리 장치.
제3항에 있어서,

상기 동적 데이터 흐름 구조 유닛은,

일 레이어의 패러미터 크기가 기준 패러미터 크기 이상이고, 상기 일 레이어의 특성맵의 크기가 기준 맵크기보다 큰 경우, 상기 일 레이어의 특성맵을 미리 버퍼에 로드하고, 이후 상기 패러미터를 로드하면서 상기 특성맵 전체와의 계산을 수행하는 것을 특징으로 하는 데이터 처리 장치.
제1항에 있어서,

상기 공간적 버퍼 분배 구조 유닛은,

임의의 위치에 대응되는 특성맵 데이터를 모두 한 사이클에 로드하도록, 상기 특성맵의 데이터를 픽셀의 위치에 따라 서로 다른 단위의 버퍼에 저장하는 것을 특징으로 하는 데이터 처리 장치.