KR102452951B1

KR102452951B1 - 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법 및 장치

Info

Publication number: KR102452951B1
Application number: KR1020170135246A
Authority: KR
Inventors: 이세환; 김이섭; 김현욱; 심재형; 최영재
Original assignee: 삼성전자주식회사; 한국과학기술원
Priority date: 2017-08-23
Filing date: 2017-10-18
Publication date: 2022-10-11
Also published as: KR20190022237A

Abstract

뉴럴 네트워크 장치에서 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법은, 입력 피처맵 및 커널들의 데이터를 메모리로부터 획득하고, 커널들 각각을 제1타입 서브커널 및 제2타입 서브커널로 분해하고, 입력 피처맵과 제1타입 서브커널 및 제2타입 서브커널을 이용하여 컨볼루션 연산을 수행하고, 컨볼루션 연산의 결과들을 합성함으로써 출력 피처맵을 구한다.

Description

뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법 및 장치 {Method and apparatus for performing convolution operation in neural network}

뉴럴 네트워크에서 피처맵과 커널 간의 컨볼루션 연산을 수행하는 방법 및 장치에 관한다.

뉴럴 네트워크(neural network)는 생물학적 뇌를 모델링한 컴퓨터 과학적 아키텍쳐(computational architecture)를 참조한다. 최근 뉴럴 네트워크(neural network) 기술이 발전함에 따라, 다양한 종류의 전자 시스템에서 뉴럴 네트워크를 활용하여 입력 데이터를 분석하고 유효한 정보를 추출하는 연구가 활발히 진행되고 있다. 뉴럴 네트워크를 처리하는 장치는 복잡한 입력 데이터에 대한 많은 양의 연산을 필요로 한다. 따라서, 뉴럴 네트워크를 이용하여 대량의 입력 데이터를 실시간으로 분석하여, 원하는 정보를 추출하기 위해서는 뉴럴 네트워크에 관한 연산을 효율적으로 처리할 수 있는 기술이 요구된다.

뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법 및 장치를 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.

일 측면에 따르면, 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법은, 뉴럴 네트워크의 레이어에서 처리될, 입력 피처맵 및 바이너리-웨이트를 갖는 커널들의 데이터를 메모리로부터 획득하는 단계; 상기 커널들 각각을, 동일 부호의 웨이트들로 재구성된 제1타입 서브커널 및 상기 커널과 상기 제1타입 서브커널 간의 차이를 보정하기 위한 제2타입 서브커널로 분해하는 단계; 상기 입력 피처맵과 상기 커널들 각각으로부터 분해된 상기 제1타입 서브커널 및 상기 제2타입 서브커널을 이용하여 컨볼루션 연산을 수행하는 단계; 및 상기 컨볼루션 연산의 결과들을 합성함으로써 출력 피처맵을 구하는 단계를 포함한다.

다른 측면에 따르면, 뉴럴 네트워크 장치는 적어도 하나의 프로그램이 저장된 메모리; 및 상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크를 구동하는 프로세서를 포함하고, 상기 프로세서는, 뉴럴 네트워크의 레이어에서 처리될, 입력 피처맵 및 바이너리-웨이트를 갖는 커널들의 데이터를 메모리로부터 획득하고, 상기 커널들 각각을, 동일 부호의 웨이트들로 재구성된 제1타입 서브커널 및 상기 커널과 상기 제1타입 서브커널 간의 차이를 보정하기 위한 제2타입 서브커널로 분해하고, 상기 입력 피처맵과 상기 커널들 각각으로부터 분해된 상기 제1타입 서브커널 및 상기 제2타입 서브커널을 이용하여 컨볼루션 연산을 수행하고, 상기 컨볼루션 연산의 결과들을 합성함으로써 출력 피처맵을 구한다.

또 다른 측면에 따르면, 컴퓨터로 읽을 수 있는 기록매체는 상술한 방법을 실행하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 기록매체를 포함할 수 있다.

도 1은 일 실시예에 따른 뉴럴 네트워크의 아키텍처를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 뉴럴 네트워크에서 입력 피처맵 및 출력 피처맵의 관계를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 뉴럴 네트워크 장치의 하드웨어 구성을 도시한 블록도이다.
도 4는 뉴럴 네트워크의 컨볼루션 연산을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 커널 분해(kernel decomposition)를 설명하기 위한 도면이다.
도 6은 다른 실시예에 따른 커널 분해를 설명하기 위한 도면이다.
도 7은 일 실시예에 따라, 입력 피처맵과 원본 커널로부터 분해된 서브커널들 간의 컨볼루션 연산에 대해 설명하기 위한 도면이다.
도 8은 일 실시예에 따라 베이스 출력과 필터드 출력을 이용하여 출력 피처맵의 픽셀 값을 결정하는 것을 설명하기 위한 도면이다.
도 9는 일 실시예에 따라 하나의 입력 피처맵으로부터 컨볼루션 연산을 통해 복수의 출력 피처맵들을 생성하는 것을 설명하기 위한 도면이다.
도 10은 일 실시예에 따라 복수의 입력 피처맵들로부터 컨볼루션 연산을 통해 복수의 출력 피처맵들을 생성하는 것을 설명하기 위한 도면이다.
도 11은 일 실시예에 따라 커널 분해에 기초하여 뉴럴 네트워크의 컨볼루션 연산을 수행하기 위한 하드웨어 설계를 도시한 도면이다.
도 12a 및 도 12b는 다른 실시예에 따른 터너리-웨이트 커널의 커널 분해를 설명하기 위한 도면이다.
도 13은 일 실시예에 따라 뉴럴 네트워크 장치에서 커널 분해를 이용하여 뉴럴 네트워크의 컨볼루션 연산을 수행하는 과정을 설명하기 위한 흐름도이다.
도 14는 일 실시예에 따른 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법의 흐름도이다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.

실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 뉴럴 네트워크의 아키텍처를 설명하기 위한 도면이다.

도 1을 참고하면, 뉴럴 네트워크(1)는 딥 뉴럴 네트워크(Deep Neural Network, DNN) 또는 n-계층 뉴럴 네트워크(n-layers neural networks)의 아키텍처일 수 있다. DNN 또는 n-계층 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(Convolutional Neural Networks, CNN), 리커런트 뉴럴 네트워크(Recurrent Neural Networks, RNN), Deep Belief Networks, Restricted Boltzman Machines 등에 해당될 수 있다. 예를 들어, 뉴럴 네트워크(1)는 컨볼루션 뉴럴 네트워크(CNN)로 구현될 수 있으나, 이에 제한되지 않는다. 도 1에서는 뉴럴 네트워크(1)의 예시에 해당하는 컨볼루션 뉴럴 네트워크에서 일부의 컨볼루션 레이어가 도시되었지만, 컨볼루션 뉴럴 네트워크는 도시된 컨볼루션 레이어 외에도, 풀링 레이어(pooling layer), 풀리 커넥티드(fully connected) 레이어 등을 더 포함할 수 있다.

뉴럴 네트워크(1)는 입력 이미지, 피처맵들(feature maps) 및 출력을 포함하는 복수 레이어들을 갖는 아키텍처로 구현될 수 있다. 뉴럴 네트워크(1)에서 입력 이미지는 커널(kernel)이라 불리는 필터와의 컨볼루션 연산이 수행되고, 그 결과 피처맵들이 출력된다. 이때 생성된 출력 피처맵들은 입력 피처맵들로서 다시 커널과의 컨볼루션 연산이 수행되고, 새로운 피처맵들이 출력된다. 이와 같은 컨볼루션 연산이 반복적으로 수행된 결과, 최종적으로는 뉴럴 네트워크(1)를 통한 입력 이미지의 특징들에 대한 인식 결과가 출력될 수 있다.

예를 들어, 도 1의 뉴럴 네트워크(1)에 24x24 픽셀 크기의 이미지가 입력된 경우, 입력 이미지는 커널과의 컨볼루션 연산을 통해 20x20 크기를 갖는 4채널의 피처맵들로 출력될 수 있다. 이후에도, 20x20 피처맵들은 커널과의 반복적인 컨볼루션 연산을 통해 크기가 줄어들면서, 최종적으로는 1x1 크기의 특징들이 출력될 수 있다. 뉴럴 네트워크(1)는 여러 레이어들에서 컨볼루션 연산 및 서브샘플링(또는 풀링) 연산을 반복적으로 수행함으로써 입력 이미지로부터 이미지 전체를 대표할 수 있는 강인한 특징들을 필터링하여 출력하고, 출력된 최종 특징들을 통해 입력 이미지의 인식 결과를 도출할 수 있다.

도 2는 일 실시예에 따른 뉴럴 네트워크에서 입력 피처맵 및 출력 피처맵의 관계를 설명하기 위한 도면이다.

도 2를 참고하면, 뉴럴 네트워크의 어느 레이어(2)에서, 제1피처맵(FM1)은 입력 피처맵에 해당될 수 있고, 제2피처 맵(FM2)는 출력 피처맵에 해당될 수 있다. 피처맵은 입력 데이터의 다양한 특징들이 표현된 데이터 세트를 의미할 수 있다. 피처맵들(FM1, FM2)은 2차원 매트릭스의 엘리먼트들을 갖거나 또는 3차원 매트릭스의 엘리먼트들을 가질 수 있고, 각각의 엘리먼트에는 픽셀 값이 정의될 수 있다. 피처 맵들(FM1, FM2)은 너비(W)(또는 칼럼이라고 함), 높이(H)(또는 로우라고 함) 및 깊이(D)를 가진다. 이때, 깊이(D)는 채널들의 개수에 해당될 수 있다.

제1피처맵(FM1) 및 커널의 웨이트맵(WM)에 대한 컨볼루션 연산이 수행될 수 있고, 그 결과 제2피처맵(FM2)이 생성될 수 있다. 웨이트맵(WM)은 각 엘리먼트에 정의된 웨이트로 제1피처맵(FM1)과 컨볼루션 연산을 수행함으로써 제1피처맵(FM1)의 특징들을 필터링한다. 웨이트맵(WM)은 제1입력 피처맵(FM1)을 슬라이딩 윈도우 방식으로 시프트하면서 제1입력 피처맵(FM1)의 윈도우들(또는 타일이라고도 함)과 컨볼루션 연산을 수행한다. 각 시프트 동안, 웨이트맵(WM)에 포함된 웨이트들 각각은 제1피처맵(FM1) 내 중첩된 윈도우의 픽셀 값들 각각과 곱해지고 더해질 수 있다. 제1피처맵(FM1)과 웨이트맵(WM)이 컨볼루션됨에 따라, 제2피처맵(FM2)의 하나의 채널이 생성될 수 있다. 도 1에는 하나의 커널에 대한 웨이트맵(WM)이 도시되었으나, 실제로는 복수의 커널들의 웨이트 맵들이 제1피처맵(FM1)과 각각 컨볼루션되어, 복수의 채널들의 제2피처맵(FM2)이 생성될 수 있다.

한편, 제2피처맵(FM2)은 다음 레이어의 입력 피처맵에 해당될 수 있다. 예를 들어, 제2피처맵(FM2)은 풀링(또는 서브샘플링) 레이어의 입력 피처맵이 될 수 있다.

도 1 및 도 2에서는 설명의 편의를 위하여 뉴럴 네트워크(1)의 개략적인 아키텍처에 대해서만 도시되어 있다. 하지만, 뉴럴 네트워크(1)는 도시된 바와 달리, 보다 많거나 적은 개수의 레이어들, 피처맵들, 커널들 등으로 구현될 수 있고, 그 크기들 또한 다양하게 변형될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.

도 3은 일 실시예에 따른 뉴럴 네트워크 장치의 하드웨어 구성을 도시한 블록도이다.

뉴럴 네트워크 장치(10)는 PC(personal computer), 서버 디바이스, 모바일 디바이스, 임베디드 디바이스 등의 다양한 종류의 디바이스들로 구현될 수 있고, 구체적인 예로서 뉴럴 네트워크를 이용한 음성 인식, 영상 인식, 영상 분류 등을 수행하는 스마트폰, 태블릿 디바이스, AR(Augmented Reality) 디바이스, IoT(Internet of Things) 디바이스, 자율주행 자동차, 로보틱스, 의료기기 등에 해당될 수 있으나, 이에 제한되지 않는다. 나아가서, 뉴럴 네트워크 장치(10)는 위와 같은 디바이스에 탑재되는 전용 하드웨어 가속기(HW accelerator)에 해당될 수 있고, 뉴럴 네트워크 장치(10)는 뉴럴 네트워크 구동을 위한 전용 모듈인 NPU(neural processing unit), TPU(Tensor Processing Unit), Neural Engine 등과 같은 하드웨어 가속기일 수 있으나, 이에 제한되지 않는다.

도 3을 참고하면, 뉴럴 네트워크 장치(10)는 프로세서(110) 및 메모리(120)를 포함한다. 도 3에 도시된 뉴럴 네트워크 장치(10)에는 본 실시예들와 관련된 구성요소들만이 도시되어 있다. 따라서, 뉴럴 네트워크 장치(10)에는 도 3에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다.

프로세서(110)는 뉴럴 네트워크 장치(10)를 실행하기 위한 전반적인 기능들을 제어하는 역할을 한다. 예를 들어, 프로세서(110)는 뉴럴 네트워크 장치(10) 내의 메모리(120)에 저장된 프로그램들을 실행함으로써, 뉴럴 네트워크 장치(10)를 전반적으로 제어한다. 프로세서(110)는 뉴럴 네트워크 장치(10) 내에 구비된 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

메모리(120)는 뉴럴 네트워크 장치(10) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 예를 들어, 메모리(120)는 뉴럴 네트워크 장치(10)에서 처리된 데이터들 및 처리될 데이터들을 저장할 수 있다. 또한, 메모리(120)는 뉴럴 네트워크 장치(10)에 의해 구동될 애플리케이션들, 드라이버들 등을 저장할 수 있다. 메모리(120)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.

프로세서(110)는 메모리(120)로부터 뉴럴 네트워크 데이터, 예를 들어 이미지 데이터, 피처맵 데이터, 커널 데이터 등을 리드/라이트(read/write)하고, 리드/라이트된 데이터를 이용하여 뉴럴 네트워크를 실행한다. 뉴럴 네트워크가 실행될 때, 프로세서(110)는 출력 피처맵에 관한 데이터를 생성하기 위하여, 입력 피처맵과 커널 간의 컨볼루션 연산을 반복적으로 수행한다. 이때, 입력 피처맵의 채널 수, 커널의 채널 수, 입력 피처맵의 크기, 커널의 크기, 값의 정밀도(precision) 등의 다양한 팩터들에 의존하여 컨볼루션 연산의 연산량이 결정될 수 있다. 도 1에 도시된 뉴럴 네트워크(1)와 달리, 뉴럴 네트워크 장치(10)에서 구동되는 실제 뉴럴 네트워크는 보다 복잡한 아키텍처로 구현될 수 있다. 이에 따라 프로세서(110)는 수억에서 수백억에 다다를 정도로 매우 많은 연산량(operation count)의 컨볼루션 연산들을 수행하게 되고, 프로세서(110)가 컨볼루션 연산을 위해 메모리(120)에 액세스하는 빈도가 함께 비약적으로 증가될 수 밖에 없다. 이와 같은 연산량 부담으로 인하여 비교적 처리 성능이 낮은 스마트폰, 태블릿, 웨어러블 디바이스 등과 같은 모바일 디바이스, 임베디드(embedded) 디바이스 등에서는 뉴럴 네트워크의 처리가 원활하지 않을 수 있다.

한편, 뉴럴 네트워크에서 커널은 부동 소수점(floating point) 타입의 웨이트 또는 고정 소수점(fixed point) 타입의 웨이트를 갖거나, 바이너리(binary)-웨이트 커널 또는 터너리(ternary)-웨이트 커널에 해당될 수도 있다. 즉, 뉴럴 네트워크에서 커널은 뉴럴 네트워크의 활용 목적, 디바이스의 성능 등 다양한 요인들을 고려하여 다양하게 정의될 수 있다. 여기서, 바이너리-웨이트 커널은 부동 소수점 웨이트 또는 고정 소수점 웨이트를 갖는 커널과 달리, 웨이트 값이 예를 들어 +1 또는 -1로 제한되어(constrained) 있는 커널을 의미할 수 있다. 그리고, 터너리-웨이트 커널은 웨이트 값이 +1, 0 또는 -1로 제한되어 있는 커널을 의미할 수 있다.

이하에서, 프로세서(110)에 의해 실행되는 뉴럴 네트워크는 바이너리-웨이트 커널, 터너리-웨이트 커널 등과 같이 웨이트가 특정 레벨들로 양자화된 커널을 이용하여 컨볼루션 연산을 수행하는 경우를 가정하여 설명하겠으나, 본 실시예들은 이에 제한되지 않고 다른 종류의 커널을 이용한 컨볼루션 연산에도 적용이 가능하다.

커널의 웨이트가 특정 레벨들로 양자화된 바이너리-웨이트 커널 또는 터너리-웨이트 커널이라 할지라도, 컨볼루션 연산은 뉴럴 네트워크의 처리에 있어서 전체 연산량 중에서 여전히 높은 비중을 차지한다. 따라서, 뉴럴 네트워크의 처리에 있어서 컨볼루션 연산의 연산량을 충분히 감소시키면서도 정확도 손실을 최소화하는 처리 방식이 요구된다.

바이너리-웨이트 커널의 경우, 웨이트가 2 종류(예를 들어 -1 또는 +1, 0 또는 1, -1 또는 0)로 제한되어 있기 때문에, 바이너리-웨이트 커널에서 임의로 두 개의 웨이트들을 선택했을 때 선택된 웨이트들은 서로 같을 확률이 높을 수 있다. 즉, 부동 소수점 또는 고정 소수점 타입의 커널에 비해, 뉴럴 네트워크의 어느 레이어 내 임의의 두 바이너리-웨이트 커널들은 유사할 확률이 높다. 이와 같은 유사할 확률을 활용하여, 뉴럴 네트워크의 커널들을, 커널들에 공통된 근사적인 서브 커널과, 에러를 보정해주는 서브 커널로 분해하여(decompose) 컨볼루션 연산이 수행된다면 컨볼루션 연산의 연산량이 효율적으로 줄어들 수 있다. 이하 본 실시예들의 설명에서는 이와 같이 뉴럴 네트워크의 커널들을 분해하여 컨볼루션 연산을 수행하는 방법들에 대해 상세하게 설명하도록 한다. 이하에서 설명된 방법들은 뉴럴 네트워크 장치(10)의 프로세서(110) 및 메모리(120)에 의해 수행될 수 있다.

도 4는 뉴럴 네트워크의 컨볼루션 연산을 설명하기 위한 도면이다.

도 4의 예시에서, 입력 피처맵(410)은 6x6 크기이고, 원본 커널(420)은 3x3 크기이고, 출력 피처맵(430)은 4x4 크기인 것으로 가정하나, 이에 제한되지 않고 뉴럴 네트워크는 다양한 크기의 피처맵들 및 커널들로 구현될 수 있다. 또한, 입력 피처맵(410), 원본 커널(420) 및 출력 피처맵(430)에 정의된 값들은 모두 예시적인 값들일 뿐이고, 본 실시예들은 이에 제한되지 않는다. 한편, 원본 커널(420)은 앞서 설명된 바이너리-웨이트 커널에 해당된다.

원본 커널(420)은 입력 피처맵(410)에서 3x3 크기의 윈도우 단위로 슬라이딩하면서 컨볼루션 연산을 수행한다. 컨볼루션 연산은 입력 피처맵(410)의 어느 윈도우의 각 픽셀 값 및 원본 커널(420)에서 대응 위치의 각 엘리먼트의 웨이트 간의 곱셈을 하여 획득된 값들을 모두 합산하여, 출력 피처맵(430)의 각 픽셀 값을 구하는 연산을 의미한다. 구체적으로, 원본 커널(420)은 먼저 입력 피처맵(410)의 제1윈도우(411)와 컨볼루션 연산을 수행한다. 즉, 제1윈도우(411)의 각 픽셀 값 1, 2, 3, 4, 5, 6, 7, 8, 9는 각각 원본 커널(420)의 각 엘리먼트의 웨이트 -1, -1, +1, +1, -1, -1, -1, +1, +1과 각각 곱해지고, 그 결과로서 -1, -2, 3, 4, -5, -6, -7, 8, 9가 획득된다. 다음으로, 획득된 값들 -1, -2, 3, 4, -5, -6, -7, 8, 9를 모두 더한 결과인 3이 계산되고, 출력 피처맵(430)의 1행1열의 픽셀 값(431)은 3으로 결정된다. 여기서, 출력 피처맵(430)의 1행1열의 픽셀 값(431)은 제1윈도우(411)에 대응된다. 마찬가지 방식으로, 입력 피처맵(410)의 제2윈도우(412)와 원본 커널(420) 간의 컨볼루션 연산이 수행됨으로써 출력 피처맵(430)의 1행2열의 픽셀 값(432)인 -3이 결정된다. 최종적으로, 입력 피처맵(410)의 마지막 윈도우인 제16윈도우(413)와 원본 커널(420) 간의 컨볼루션 연산이 수행됨으로써 출력 피처맵(430)의 4행4열의 픽셀 값(433)인 -13이 결정된다.

즉, 하나의 입력 피처맵(410)과 하나의 원본 커널(420) 간의 컨볼루션 연산은 입력 피처맵(410) 및 원본 커널(420)에서 서로 대응하는 각 엘리먼트의 값들의 곱셈 및 곱셈 결과들의 합산을 반복적으로 수행함으로써 처리될 수 있고, 컨볼루션 연산의 결과로서 출력 피처맵(430)이 생성된다.

하지만, 입력 피처맵(410)의 어느 한 윈도우와 원본 커널(420) 간의 컨볼루션 연산에서는 엘리먼트 개수만큼의 곱셈 및 곱셈 결과들의 합산이 필수적으로 요구되는바, 엘리먼트 개수가 많으면 많을수록 연산량이 높아질 수 있다. 나아가서, 입력 피처맵 내에 슬라이딩 횟수가 많거나 뉴럴 네트워크 내 많은 채널들의 입력 피처맵들이 존재하거나 많은 레이어들이 존재하는 경우에는, 연산량이 더욱 더 기하급수적으로 증가하게 된다. 본 실시예들에 따른 컨볼루션 연산은 원본 커널(420)을 여러 서브 커널들로 분해함으로써 연산량 감소를 이룰 수 있다.

도 5는 일 실시예에 따른 커널 분해(kernel decomposition)를 설명하기 위한 도면이다.

도 5를 참고하면, 원본 커널(500)은 바이너리-웨이트 커널로서, -1 또는 +1의 웨이트를 갖는다. 다만, 본 실시예에서는 웨이트의 종류가 -1 또는 +1인 경우를 가정하여 설명하겠으나, 이에 제한되지 않고 바이너리-웨이트는 +1 또는 0일 수 있고, 또는 바이너리-웨이트는 -1 또는 0일 수 있다.

원본 커널(500)은 베이스(base) 커널(510)과 필터드(filtered) 커널(520)로 분해(decompose)될 수 있다.

본 실시예들에서, 베이스 커널(510)은 원본 커널(500)을 동일 부호의 웨이트들로 재구성한 서브커널인 것으로 정의될 수 있고, 제1타입 서브커널의 용어로도 지칭될 수 있다. 도 5에서는 원본 커널(500)의 모든 엘리먼트들의 웨이트들이 모두 동일한 -1로 치환되는 것으로 도시되어 있다.

본 실시예들에서, 필터드 커널(520)은 원본 커널(500)에서 베이스 커널(510)과 서로 다른 웨이트를 갖는 엘리먼트에는 원본 커널(500)의 원래 웨이트를 정의하고 나머지 엘리먼트에는 웨이트를 정의하지 않는 것으로 재구성된 서브커널인 것으로 정의될 수 있고, 제2타입 서브커널의 용어로도 지칭될 수 있다. 도 5에서 원본 커널(500)과 베이스 커널(510) 간에 서로 다른 엘리먼트들은 원본 커널(500)에서 +1의 웨이트를 갖는 엘리먼트들이다. 결국, 필터드 커널(520)은 도 5에 도시된 바와 같이, 일부의 엘리먼트에만 +1이 정의된 서브커널이다.

이와 같이, 바이너리-웨이트를 갖는 원본 커널(500)은, 모든 엘리먼트들이 -1의 웨이트들로 치환된 베이스 커널(510)과, 일부 엘리먼트들에만 +1의 웨이트들이 정의된 필터드 커널(520)로 분해될 수 있다.

도 6은 다른 실시예에 따른 커널 분해를 설명하기 위한 도면이다.

도 6을 참고하면, 도 5의 원본 커널(500)의 분해와 유사한 방식으로 원본 커널(600)이 분해될 수 있다. 다만, 도 5와 달리, 원본 커널(600)로부터 분해된 베이스 커널(610)은 모든 엘리먼트들이 +1의 웨이트들로 치환되고, 필터드 커널(620)은 일부 엘리먼트들에만 -1의 웨이트들이 정의된다.

즉, 본 실시예에 따른 뉴럴 네트워크의 바이너리-웨이트 커널은 도 5 또는 도 6에서 설명된 커널 분해를 이용하여 분해될 수 있다.

한편, 원본 커널(500) 및 원본 커널(600)에 정의된 값들은 모두 예시적인 값들일 뿐이고, 본 실시예들은 이에 제한되지 않는다.

도 7은 일 실시예에 따라, 입력 피처맵과 원본 커널로부터 분해된 서브커널들 간의 컨볼루션 연산에 대해 설명하기 위한 도면이다.

도 7을 참고하면, 도 4에서 설명된 컨볼루션 연산의 방식과 달리, 입력 피처맵(710)은 원본 커널(720)이 아닌, 원본 커널(720)로부터 분해된 베이스 커널(723) 및 필터드 커널(725)과 컨볼루션 연산을 각각 수행한다.

먼저, 입력 피처맵(710)의 제1윈도우(711)는 베이스 커널(723)과의 베이스 컨볼루션 연산(제1컨볼루션 연산) 및 필터드 커널(725)과의 필터드 컨볼루션 연산(제2컨볼루션 연산)을 각각 수행한다. 베이스 컨볼루션 연산 결과(742)는 -45이고, 필터드 컨볼루션 연산 결과(746)는 24이다. 다음으로, 입력 피처맵(710)의 나머지 윈도우들 각각에 대해서도 베이스 커널(723)과의 베이스 컨볼루션 연산(또는 제1컨볼루션 연산의 용어로도 지칭) 및 필터드 커널(725)과의 필터드 컨볼루션 연산(또는 제2컨볼루션 연산의 용어로도 지칭)이 각각 수행되고, 이에 따라 베이스 출력(741)과 필터드 출력(745)의 전체 픽셀 값이 결정될 수 있다. 한편, 필터드 컨볼루션 연산은, 필터드 커널(725)에서 웨이트가 정의된 엘리먼트만을 이용하여 수행되고, 웨이트가 정의되지 않은 엘리먼트에 대한 곱셈은 스킵될 수 있다. 이에 따라, 프로세서(110)의 곱셈 연산량이 어느 정도 감소될 수 있다.

베이스 출력(741)과 필터드 출력(745)의 각 픽셀은 출력 피처맵(730)의 각 픽셀에 대응한다. 출력 피처맵(730)의 각 픽셀 값은 대응하는 베이스 출력(741)과 필터드 출력(745)의 각 픽셀 값을 이용하여 결정될 수 있다. 이에 대해서는 도 7을 참고하여 설명하도록 한다.

도 8은 일 실시예에 따라 베이스 출력과 필터드 출력을 이용하여 출력 피처맵의 픽셀 값을 결정하는 것을 설명하기 위한 도면이다.

도 8을 참고하면, 도 7의 베이스 출력(741)에서의 베이스 컨볼루션 연산 결과(742)와 필터드 출력(745)에서의 필터드 컨볼루션 연산 결과(746)의 2배수를 합산한 값에 기초하여, 출력 피처맵(800)의 픽셀 값(810)으로 결정될 수 있다. 즉, 베이스 컨볼루션 연산 결과(742)인 -45와 필터드 컨볼루션 연산 결과(746)의 2배수인 48을 합산한 값인 3이, 출력 피처맵(800)의 픽셀 값(810)으로 결정된다. 베이스 컨볼루션 연산 결과(742), 필터드 컨볼루션 연산 결과(746) 및 픽셀 값(810)은 서로 대응하는 위치들에서의 값들이다.

도 7 및 도 8에서 원본 커널(720)의 커널 분해를 이용하여 최종적으로 획득된 출력 피처맵(800)의 픽셀 값(810)은, 도 4에서 커널 분해 없이 획득된 출력 피처맵(430)의 픽셀 값(431)과 동일하다. 하지만, 컨볼루션 연산의 연산량은 필터드 커널(725)에서의 빈 엘리먼트들로 인하여 감소될 여지가 있다. 즉, 원본 커널(720)의 커널 분해를 이용한 컨볼루션 연산이 수행된다면, 동일한 컨볼루션 연산 결과를 얻으면서도 컨볼루션 연산의 연산량 감소 효과를 이룰 수 있다.

한편, 도 7 및 도 8에서 설명된 커널 분해는 도 5에서 설명된 방식(-1로 치환된 베이스 커널)을 이용하여 수행되었으나, 이에 제한되지 않고 도 6에서 설명된 방식(+1로 치환된 베이스 커널)의 커널 분해를 이용하여서도 동일한 결론이 도출될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다. 또한, 도 7 및 도 8에서 설명된 입력 피처맵(710) 및 원본 커널(720)에서 정의된 값들은 모두 예시적인 값들일 뿐이고, 본 실시예들은 이에 제한되지 않는다.

비록, 도 7 및 도 8에서는 입력 피처맵(710) 내 하나의 윈도우(711)와 하나의 원본 커널(720)로부터 분해된 서브 커널들(723, 725)을 이용하는 실시예에 대해 설명되었으나, 프로세서(110)는 뉴럴 네트워크 내 각 레이어에 포함된 다양한 입력 피처맵들 및 다양한 커널들에 대하여, 앞서 설명된 방식들을 적절하게 적용하여 컨볼루션 연산들을 수행할 수 있다.

도 9는 일 실시예에 따라 하나의 입력 피처맵으로부터 컨볼루션 연산을 통해 복수의 출력 피처맵들을 생성하는 것을 설명하기 위한 도면이다.

도 9을 참고하면, 프로세서(110)는 하나의 입력 피처맵(910)과 복수의 커널들(920) 각각과의 컨볼루션 연산을 수행함으로써 복수의 출력 피처맵들(931, 932, 933)을 생성한다. 예를 들어, 입력 피처맵(910)과 원본 커널 1(940) 간의 컨볼루션 연산을 통해 출력 피처맵 1(931)이 생성되고, 입력 피처맵(910)과 원본 커널 2(940) 간의 컨볼루션 연산을 통해 출력 피처맵 2(932)가 생성되고, ..., 입력 피처맵(910)과 원본 커널 N(960) 간의 컨볼루션 연산을 통해 출력 피처맵 N(933)이 생성될 수 있다 (N은 자연수).

원본 커널 1(940)은 입력 피처맵(910)과 컨볼루션 연산이 수행되는 커널이다. 본 실시예들에 따라, 원본 커널 1(940)은 베이스 커널 1(941)과 필터드 커널 1(942)로 분해된다. 입력 피처맵(910)의 각 윈도우와 베이스 커널 1(941) 간의 베이스 컨볼루션 연산을 통해 베이스 출력 1(970)이 획득되고, 입력 피처맵(910)의 각 윈도우와 필터드 커널 1(942) 간의 필터드 컨볼루션 연산을 통해 필터드 출력 1(981)이 획득된다. 도 8에서 설명된, 베이스 출력 1(970)과 필터드 출력 1(981)의 합성을 통해 출력 피처맵 1(931)이 생성된다.

다음으로, 원본 커널 2(950)도 입력 피처맵(910)과 컨볼루션 연산이 수행되는 커널이다. 원본 커널 2(950)도 마찬가지로 베이스 커널 2(951)와 필터드 커널 2(952)로 분해될 수 있다. 여기서, 베이스 커널 2(951)는 앞서 분해된 베이스 커널 1(941)과 동일하다. 왜냐하면, 베이스 커널 1(941) 및 베이스 커널 2(951)는 모두 원본 커널 1(940) 및 원본 커널 2(950) 각각의 엘리먼트들이 모두 동일한 부호의 웨이트(-1 또는 +1)로 치환된 서브커널들이기 때문이다. 예를 들어, 베이스 커널 1(941) 및 베이스 커널 2(951)의 엘리먼트들은 모두 -1이거나, 또는 모두 +1일 수 있다. 그러므로, 입력 피처맵(910)의 각 윈도우와 베이스 커널 2(951) 간의 베이스 컨볼루션 연산의 결과는, 입력 피처맵(910)의 각 윈도우와 베이스 커널 1(941) 간의 베이스 컨볼루션 연산의 결과인 베이스 출력 1(970)과 동일하다. 따라서, 입력 피처맵(910)의 각 윈도우와 베이스 커널 2(951) 간의 베이스 컨볼루션 연산은 스킵되고, 베이스 출력 1(970)은 입력 피처맵(910)의 각 윈도우와 베이스 커널 2(951) 간의 베이스 컨볼루션 연산의 결과인 것으로 재사용된다. 즉, 베이스 출력 1(970)은 다른 베이스 커널들의 베이스 컨볼루션 연산의 결과들인 것으로 공유될 수 있다. 이로써, 프로세서(110)는 하나의 입력 피처맵과 하나의 베이스 커널 간의 컨볼루션 연산을 수행한 경우에는, 나머지 베이스 커널들에 대한 컨볼루션 연산을 스킵할 수 있으므로, 컨볼루션 연산의 연산량을 감소시킬 수 있다.

도 9에서 베이스 커널 1(941)은 나머지 베이스 출력들로서 공유될 베이스 출력 1(970)을 생성하기 위한 최초의 베이스 컨볼루션 연산을 수행하는 서브커널이므로, 본 실시예들에서는 베이스 커널 1(941)의 유래가 되는 원본 커널 1(940)을 최초 커널이라는 용어로 정의하도록 하나, 이에 제한되지 않고 다른 용어들로도 다양하게 정의될 수도 있다.

나머지 원본 커널(원본 커널 N(960))에 대해서도 앞서 설명된 바와 같이, 베이스 커널 N(961) 및 필터드 커널 N(962)으로의 커널 분해가 수행되나, 입력 피처맵(910)과 베이스 커널 N(961) 간의 베이스 컨볼루션 연산은 스킵되고, 베이스 출력 1(970)이 베이스 커널 N(961)의 베이스 컨볼루션 연산의 결과인 것으로 공유될 수 있다.

한편, 입력 피처맵(910)과 필터드 커널 2(952), ..., 필터드 커널 N(962) 각각과의 필터드 컨볼루션 연산은 개별적으로 수행되며, 그 결과 필터드 출력 2(982), ..., 필터드 출력 N(983)이 획득된다. 나머지 출력 피처맵들(932, 933)은 공유된 베이스 출력 1(970)과 필터드 출력들(982, 983) 각각의 합성에 의해 생성된다.

결국, 복수의 커널들에 대한 컨볼루션 연산들이 수행될 때, 프로세서(110)는 커널 분해를 이용함으로써, 베이스 출력의 공유로 인한 연산량 감소 및 필터드 커널에서의 빈 엘리먼트로 인한 연산량 감소를 이룰 수 있다.

도 10은 일 실시예에 따라 복수의 입력 피처맵들로부터 컨볼루션 연산을 통해 복수의 출력 피처맵들을 생성하는 것을 설명하기 위한 도면이다.

도 10에서 서브커널의 참조문자 K_NMb는 원본 커널 K_N(1023)으로부터 분해된 베이스 커널이면서, 입력 피처맵 M(1003)과 원본 커널 K_N(1023) 간의 베이스 컨볼루션 연산을 위한 베이스 커널을 나타낸다. 그리고, 서브커널의 참조문자 K_NMf는 원본 커널 K_N(1023)으로부터 분해된 필터드 커널이면서, 입력 피처맵 M(1003)과 원본 커널 K_N(1023) 간의 필터드 컨볼루션 연산을 위한 필터드 커널을 나타낸다. 예를 들어, K_12b는 원본커널 K₁(1021)로부터 분해된 베이스 커널이면서, 입력 피처맵 2(1002)와 원본 커널 K₁(1021) 간의 베이스 컨볼루션 연산을 위한 베이스 커널을 나타내고, K_21f는 원본커널 K₂(1022)로부터 분해된 필터드 커널이면서, 입력 피처맵 1(1001)과 원본 커널 K₂(1022) 간의 필터드 컨볼루션 연산을 위한 필터드 커널을 나타낸다(M, N, L은 자연수).

한편, 입력 피처맵 1(1001)은 뉴럴 네트워크의 어느 레이어에서 홀수 채널의 인덱스를 갖는 입력 피처맵이고, 입력 피처맵 2(1002)는 그 레이어에서 짝수 채널의 인덱스를 갖는 입력 피처맵일 수 있다.

도 10을 참고하면, 프로세서(110)는 복수의 입력 피처맵들(1001, 1002, 1003)과 복수의 커널들(1021, 1022, 1023) 각각과의 컨볼루션 연산을 수행함으로써 복수의 출력 피처맵들(1031, 1032, 1033)을 생성한다.

구체적으로, 입력 피처맵 1(1001) 내지 입력 피처맵 M(1003) 각각과 원본 커널 K₁(1021) 간의 컨볼루션 연산을 위하여, 원본 커널 K₁(1021)은 베이스 커널 K_11b 및 필터드 커널 K_11f로 분해된다. 입력 피처맵 1(1001) 내지 입력 피처맵 M(1003) 각각과 베이스 커널 K_11b 간의 베이스 컨볼루션 연산 결과들은 축적(accumulation) 연산을 통해 베이스 출력 1로서 생성된다. 그리고, 입력 피처맵 1(1001) 내지 입력 피처맵 M(1003) 각각과 필터드 커널 K_11f 간의 필터드 컨볼루션 연산 결과들은 축적 연산을 통해 필터드 출력 1로서 생성된다. 출력 피처맵 1(1031)은 베이스 출력 1과 필터드 출력 1을 이용하여 앞서 설명된 방식의 합성에 의해 생성된다.

일 실시예에 따르면, 다중 입력(복수의 입력 피처맵들) 및 다중 출력(복수의 출력 피처맵들)의 경우, 홀수 채널 인덱스의 입력 피처맵과 컨볼루션 연산이 수행될 원본 커널로부터 분해된 베이스 커널은, 모든 엘리먼트들에서의 웨이트들이 제1부호의 동일한 값들로 치환되어 재구성된다. 그러나, 짝수 채널 인덱스의 입력 피처맵과 컨볼루션 연산이 수행될 원본 커널로부터 분해된 베이스 커널은, 모든 엘리먼트들에서의 웨이트들이 제2부호의 동일한 값들로 치환되어 재구성된다. 여기서, 제1부호의 값이 -1인 경우 제2부호의 값은 +1이고, 제1부호의 값이 +1인 경우 제2부호의 값은 -1이다.

도 10에 도시된 바와 같이, 홀수 채널의 인덱스를 갖는 입력 피처맵 1(1001)과 컨볼루션 연산이 수행될 베이스 커널들 K_11b, K_21b, ..., K_N1b는 모두 -1로 치환된 서브커널들에 해당된다. 이와 달리, 짝수 채널의 인덱스를 갖는 입력 피처맵 2(1002)와 컨볼루션 연산이 수행될 베이스 커널들 K_12b, K_22b, ..., K_N2b는 모두 +1로 치환된 서브커널들에 해당된다.

이와 같이, 홀수 채널에 대응하는 베이스 커널과 짝수 채널에 대응하는 베이스 커널을 서로 다른 부호의 웨이트들로 치환하는 이유는, 축적 연산의 축적 값을 되도록 작은 값으로 감소시키기 위함이다. 다시 말하면, 홀수 및 짝수 채널들에 대응하는 베이스 커널들을 모두 동일한 부호의 웨이트들로 치환하면, 베이스 출력에서의 축적 값이 매우 커질 우려가 있고, 이에 따라 베이스 출력을 저장하기 위한 메모리 공간이 부족할 가능성이 있기 때문이다. 하지만, 다른 실시예에 따라, 베이스 출력을 저장하기 위한 메모리 공간이 충분히 확보될 수 있는 환경이라면, 홀수 및 짝수 채널들에 대응하는 베이스 커널들을 모두 동일한 부호의 웨이트들로 치환하는 방식으로 구현되는 것도 가능하다.

다음으로, 입력 피처맵 1(1001) 내지 입력 피처맵 M(1003) 각각과 원본 커널 K₂(1022) 간의 컨볼루션 연산에 따른 출력 피처맵 2(1032)도 커널 분해에 기초하여 베이스 출력 2 및 필터드 출력 2의 합성에 의해 생성될 수 있다. 이때, 베이스 출력 2는 베이스 출력 1과 동일하다. 왜냐하면, 베이스 커널들 K_21b, K_22b, ..., K_2Mb 각각은 베이스 커널들 K_11b, K_12b, ..., K_1Mb 각각과 동일하기 때문이다. 그러므로, 베이스 커널들 K_21b, K_22b, ..., K_2Mb 각각을 이용한 베이스 컨볼루션 연산 및 베이스 출력 2를 위한 축적 연산은 스킵되고, 베이스 출력 1은 베이스 출력 2로서 공유되어 재사용된다.

한편, 나머지 베이스 컨볼루션 연산 및 축적 연산은 마찬가지로 스킵되고, 베이스 출력 1은 다른 베이스 출력(베이스 출력 N)에 대해서도 재사용된다.

결국, 다중 입력(복수의 입력 피처맵들) 및 다중 출력(복수의 출력 피처맵들)의 경우에도 마찬가지로, 프로세서(110)는 커널 분해를 이용함으로써, 베이스 출력의 공유로 인한 연산량 감소 및 필터드 커널에서의 빈 엘리먼트로 인한 연산량 감소가 달성될 수 있다.

도 11은 일 실시예에 따라 커널 분해에 기초하여 뉴럴 네트워크의 컨볼루션 연산을 수행하기 위한 하드웨어 설계를 도시한 도면이다.

도 11을 참고하면, 도 3의 프로세서(110)은 컨트롤러(1100), 필터드 컨볼루션 연산기들(1101, 1102, 1103), 베이스 컨볼루션 연산기(1104), 곱셈기들(1111, 1112, 1113) 및 쉬프터들(1121, 1122, 1123)을 포함하도록 구현될 수 있다. 도 3의 메모리(120)은 입력 피처맵 버퍼(1151), 커널 버퍼(1152), 출력 피처맵 버퍼(1153) 및 스케일링 팩터 버퍼(1154)를 포함하도록 구현될 수 있다.

컨트롤러(1100)는 도 11에 도시된 구성요소들의 전체적인 동작 및 기능을 제어한다. 예를 들어, 컨트롤러(1100)는 커널 버퍼(1152)에 저장된 원본 커널에 대한 커널 분해를 처리하고, 뉴럴 네트워크의 컨볼루션 연산을 위하여 각 구성요소의 동작을 스케줄링할 수 있다.

입력 피처맵 버퍼(1151)는 뉴럴 네트워크의 입력 피처맵들을 저장하고, 커널 버퍼(1152)는 원본 커널들, 분해된 베이스 커널들 및 필터드 커널들을 저장하고, 출력 피처맵 버퍼(1153)는 생성된 출력 피처맵들을 저장한다.

베이스 컨볼루션 연산기(1104)는 입력 피처맵 버퍼(1151)로부터 제공된 입력 피처맵과 커널 버퍼(1152)로부터 제공된 베이스 커널 간의 베이스 컨볼루션 연산을 수행한다. 베이스 컨볼루션 연산기(1104)는 최초의 베이스 컨볼루션 연산이 수행될 경우에만 동작된다. 따라서, 그 이후에 나머지 윈도우들에 대한 컨볼루션 연산이 진행될 때에는 클럭 게이팅(clock gating)을 통해 에너지 소모를 감소시킨다.

필터드 컨볼루션 연산기들(1101, 1102, 1103)은 입력 피처맵 버퍼(1151)로부터 제공된 입력 피처맵과 커널 버퍼(1152)로부터 제공된 필터드 커널 간의 필터드 컨볼루션 연산을 각각 수행한다. 도 11의 하드웨어 설계에 따르면, 복수 개의 필터드 컨볼루션 연산기들(1101, 1102, 1103)과 달리, 베이스 컨볼루션 연산기(1104)는 하나만 구현되는 것으로 도시되어 있다. 이는 베이스 컨볼루션 연산기(1104)에 의한 베이스 컨볼루션 연산 결과는 공유되기 때문이다.

베이스 컨볼루션 연산기(1104) 및 필터드 컨볼루션 연산기들(1101, 1102, 1103)에서 연산 엘리먼트들의 어레이는 분해된 서브커널의 크기(즉, 윈도우 크기)에 대응하도록 구현될 수 있다.

베이스 컨볼루션 연산기(1104) 및 필터드 컨볼루션 연산기들(1101, 1102, 1103)은 프로세서(110) 내에서 컨볼루션 연산의 병렬 처리를 수행할 수 있다.

곱셈기들(1111, 1112, 1113) 및 쉬프터들(1121, 1122, 1123)은 베이스 컨볼루션 연산 결과와 필터드 컨볼루션 연산 결과에 대한 축적 연산을 수행하고, 축적 연산의 결과에 의해 생성된 출력 피처맵은 출력 피처맵 버퍼(1153)에 저장된다. 여기서, 쉬프터들(1121, 1122, 1123)은 도 8에서 설명된 필터드 출력의 2배수를 획득하기 위하여, 필터드 출력에 대해 1비트 좌측 쉬프트 연산을 수행할 수 있다.

도 12a 및 도 12b는 다른 실시예에 따른 터너리-웨이트 커널의 커널 분해를 설명하기 위한 도면이다.

도 12a를 참고하면, 터너리-웨이트 원본 커널(1200)은 -1, 0, 1의 웨이트들을 갖는다. 예를 들어, 베이스 커널(1201)은 모든 엘리먼트들이 -1 (또는 +1)로 치환된 서브커널일 수 있다. 이때, 필터드 커널은 2개가 요구되고, 그 중 하나는 “±1” 필터드 커널(1202)이고, 다른 하나는 “0” 필터드 커널(1203)이다. “±1” 필터드 커널(1202)은 원본 커널(1200)에서 +1 (또는 -1)의 웨이트만을 정의한 서브커널이고, “0” 필터드 커널(1203)은 원본 커널(1200)에서 0의 웨이트만을 정의한 서브커널이다.

베이스 컨볼루션 연산은 베이스 커널(1201)을 이용하여 수행되고, 필터드 컨볼루션 연산은 “±1” 필터드 커널(1202) 및 “0” 필터드 커널(1203) 각각에 대해 별도로 수행된다.

도 12b를 참고하면, 출력 피처맵(1230)의 픽셀 값은, 베이스 출력 값, “0” 필터드 출력 값 및 “±1” 필터드 출력의 2배 값이 합산됨으로써 결정될 수 있다.

뉴럴 네트워크가 터너리-웨이트 커널을 포함하는 경우, 앞서 설명된 바이너리-웨이트 커널과 유사한 방식으로 커널 분해 및 분해된 서브 커널들을 이용한 컨볼루션 연산이 수행될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.

한편, 원본 커널(1200)에 정의된 값들은 모두 예시적인 값들일 뿐이고, 본 실시예들은 이에 제한되지 않는다.

도 13은 일 실시예에 따라 뉴럴 네트워크 장치에서 커널 분해를 이용하여 뉴럴 네트워크의 컨볼루션 연산을 수행하는 과정을 설명하기 위한 흐름도이다.

1301 단계에서, 프로세서(110)는 메모리(120)로부터 입력 피쳐맵과 커널에 대한 초기 데이터를 로드한다.

1302 단계에서, 프로세서(110)는 시작 명령어의 가져오기가 완료되면, 로드된 입력 피쳐맵들의 첫 번째 윈도우에 대한 컨볼루션 연산을 시작한다.

1303 단계에서, 프로세서(110)는 입력 피처맵 인덱스 및 윈도우 인덱스를 초기화한다.

1304 단계에서, 프로세서(110)는 입력 피쳐맵 데이터들을 부호-확장한 후 부호-확장된 입력 피쳐맵 데이터들을 필터드 컨볼루션 연산기들(1101, 1102, 1103) 및 베이스 컨볼루션 연산기(1104)에 브로드캐스트한다.

1305 단계에서, 프로세서(110)는 필터드 컨볼루션 연산을 수행한다.

1306 단계에서, 프로세서(110)는 현재 윈도우 인덱스가 최초 인덱스(예를 들어 '0')인지 여부룰 판단한다. 최초 인덱스인 경우, 1307 단계로 진행된다. 하지만, 최초 인덱스가 아닌 경우, 1305 단계로 진행된다. 이는, 한 윈도우에 대해서는 커널들 전체에 대하여 베이스 컨볼루션 연산을 최초 1회만 수행하기 위함이다.

1307 단계에서, 프로세서(110)는 베이스 컨볼루션 연산을 수행한다. 다만, 1305 단계의 필터드 컨볼루션 연산과 1307 단계의 베이스 컨볼루션 연산은 시간의 선후에 관계 없이 병렬적으로 수행될 수 있다.

1308 단계에서, 프로세서(110)는 입력 피처맵의 채널 인덱스를 +1만큼 증가시킨다.

1309 단계에서, 프로세서(110)는 증가된 채널 인덱스가 마지막 채널 인덱스인지 여부를 판단한다. 마지막 채널 인덱스인 경우, 1310 단계로 진행된다. 그러나, 마지막 채널 인덱스가 아닌 경우, 1304 단계로 리턴된다. 즉, 채널 인덱스가 마지막 채널이 될 때까지 1304 단계 내지 1308 단계가 반복된다.

1310 단계에서, 프로세서(110)는 베이스 출력과 필터드 출력을 합성함으로써 출력 피처맵을 생성하고, 생성된 출력 피처맵을 메모리(120)에 저장한다.

도 14는 일 실시예에 따른 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법의 흐름도이다. 도 14에 도시된, 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법은, 앞서 설명된 도면들에서 설명된 실시예들에 관련되므로, 이하 생략된 내용이라 할지라도, 앞서 도면들에서 설명된 내용들은 도 14의 방법에도 적용될 수 있다.

1401 단계에서, 프로세서(110)는 뉴럴 네트워크의 레이어에서 처리될, 입력 피처맵 및 바이너리-웨이트를 갖는 커널들의 데이터를 메모리(120)로부터 획득한다.

1402 단계에서, 프로세서(110)는 커널들 각각을, 동일 부호의 웨이트들로 재구성된 제1타입 서브커널(베이스 커널) 및 커널과 제1타입 서브커널 간의 차이를 보정하기 위한 제2타입 서브커널(필터드 커널)로 분해한다.

베이스 커널은 커널들 각각의 모든 엘리먼트들에서의 웨이트들을 동일한 값들로 치환함으로써 재구성된 서브커널이다. 베이스 커널은 입력 피처맵이 홀수 채널의 인덱스를 갖는 경우 베이스 커널의 모든 엘리먼트들에서의 웨이트들을 제1부호의 동일한 값들로 치환함으로써 재구성된 서브 커널이고, 입력 피처맵이 짝수 채널의 인덱스를 갖는 경우 베이스 커널은의 모든 엘리먼트들에서의 웨이트들을 제2부호의 동일한 값들로 치환함으로써 재구성된 서브 커널이다. 입력 피처맵과 컨볼루션 연산을 수행할 커널들 각각으로부터 분해된 베이스 커널들은 모두 동일하다.

한편, 필터드 커널은 커널들 각각에서 베이스 커널과 서로 다른 웨이트를 갖는 엘리먼트에는 커널들 각각의 원래 웨이트를 정의하고 나머지 엘리먼트에는 웨이트를 정의하지 않는 것으로 재구성된 서브커널이다.

1403 단계에서, 프로세서(110)는 입력 피처맵과 커널들 각각으로부터 분해된 제1타입 서브커널(베이스 커널) 및 제2타입 서브커널(필터드 커널)을 이용하여 컨볼루션 연산을 수행한다.

프로세서(110)는 최초 커널로부터 분해된 베이스 커널과 입력 피처맵에서의 현재 윈도우 간의 제1컨볼루션 연산(베이스 컨볼루션 연산), 및 커널들로부터 분해된 필터드 커널들 각각과 현재 윈도우 간의 제2컨볼루션 연산(필터드 컨볼루션 연산)을 수행한다. 이때, 프로세서(110)는 커널들 중 최초 커널을 제외한 나머지 커널들로부터 분해된 베이스 커널들 각각과 현재 윈도우 간의 베이스 컨볼루션 연산은 스킵되도록 클럭-게이팅하고, 최초 커널에 대해 수행된 베이스 컨볼루션 연산의 결과는 나머지 커널들에 대한 베이스 컨볼루션 연산의 결과들인 것으로서 재사용된다.

필터드 컨볼루션 연산은 필터드 커널들 각각에서 웨이트가 정의된 엘리먼트와 입력 피처맵의 대응 픽셀 간에 대해 수행되고, 웨이트가 정의되지 않은 행렬 엘리먼트에 대해서는 스킵된다.

1404 단계에서, 프로세서(110)는 컨볼루션 연산의 결과들을 합성함으로써 출력 피처맵을 구한다. 프로세서(110)는 출력 피처맵의 각 픽셀 값을, 베이스 커널과 입력 피처맵의 윈도우 간의 베이스 컨볼루션 연산의 결과 값에 필터드 커널과 윈도우 간의 필터드 컨볼루션 연산의 결과 값의 2배수를 합산한 값에 기초하여 결정함으로써, 출력 피처맵을 결정할 수 있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

뉴럴 네트워크의 레이어에서 처리될, 입력 피처맵 및 바이너리-웨이트를 갖는 커널들의 데이터를 메모리로부터 획득하는 단계;
상기 커널들 각각을, 동일 부호의 웨이트들로 재구성된 제1타입 서브커널 및 상기 커널과 상기 제1타입 서브커널 간의 차이를 보정하기 위한 제2타입 서브커널로 분해하는 단계;
상기 입력 피처맵과 상기 커널들 각각으로부터 분해된 상기 제1타입 서브커널 및 상기 제2타입 서브커널을 이용하여 컨볼루션 연산을 수행하는 단계; 및
상기 컨볼루션 연산의 결과들을 합성함으로써 출력 피처맵을 구하는 단계를 포함하는, 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법.
제 1 항에 있어서,
상기 제1타입 서브 커널은
상기 커널들 각각의 모든 엘리먼트들에서의 웨이트들을 동일한 값들로 치환함으로써 재구성된 서브커널인, 방법.
제 2 항에 있어서,
상기 제1타입 서브 커널은
상기 입력 피처맵이 홀수 채널의 인덱스를 갖는 경우 상기 제1타입 서브커널의 모든 엘리먼트들에서의 웨이트들을 제1부호의 동일한 값들로 치환함으로써 재구성된 서브 커널이고,
상기 입력 피처맵이 짝수 채널의 인덱스를 갖는 경우 상기 제1타입 서브커널의 모든 엘리먼트들에서의 웨이트들을 제2부호의 동일한 값들로 치환함으로써 재구성된 서브 커널인, 방법.
제 1 항에 있어서,
상기 입력 피처맵과 상기 컨볼루션 연산을 수행할 상기 커널들 각각으로부터 분해된 제1타입 서브커널들은 모두 동일한, 방법.
제 1 항에 있어서,
상기 제2타입 서브커널은
상기 커널들 각각에서 상기 제1타입 서브커널과 서로 다른 웨이트를 갖는 엘리먼트에는 상기 커널들 각각의 원래 웨이트를 정의하고 나머지 엘리먼트에는 웨이트를 정의하지 않는 것으로 재구성된 서브커널인, 방법.
제 1 항에 있어서,
상기 컨볼루션 연산을 수행하는 단계는
최초 커널로부터 분해된 제1타입 서브커널과 상기 입력 피처맵에서의 현재 윈도우 간의 제1컨볼루션 연산, 및 상기 커널들로부터 분해된 제2타입 서브커널들 각각과 상기 현재 윈도우 간의 제2컨볼루션 연산을 수행하고,
상기 최초 커널은 상기 커널들 중, 상기 최초 커널을 제외한 나머지 커널들에 대해 상기 제1컨볼루션 연산의 결과를 공유하는 것으로 결정된 커널인, 방법.
제 6 항에 있어서,
상기 컨볼루션 연산을 수행하는 단계는 상기 커널들 중 상기 최초 커널을 제외한 나머지 커널들로부터 분해된 제1타입 서브커널들 각각과 상기 현재 윈도우 간의 상기 제1컨볼루션 연산은 스킵되도록 클럭-게이팅하고,
상기 최초 커널에 대해 수행된 상기 제1컨볼루션 연산의 결과는 상기 나머지 커널들에 대한 상기 제1컨볼루션 연산의 결과들인 것으로서 재사용되는, 방법.
제 6 항에 있어서,
상기 제2컨볼루션 연산은
상기 제2타입 서브커널들 각각에서 웨이트가 정의된 엘리먼트와 상기 입력 피처맵의 대응 픽셀 간에 대해 수행되고, 웨이트가 정의되지 않은 행렬 엘리먼트에 대해서는 스킵되는, 방법.
제 1 항에 있어서,
상기 출력 피처맵을 구하는 단계는
상기 출력 피처맵의 각 픽셀 값을, 상기 제1타입 서브커널과 상기 입력 피처맵의 윈도우 간의 제1컨볼루션 연산의 결과 값에 상기 제2타입 서브커널과 상기 윈도우 간의 제2컨볼루션 연산의 결과 값의 2배수를 합산한 값에 기초하여 결정함으로써, 상기 출력 피처맵을 구하는, 방법.
제 1 항 내지 제 9 항 중 어느 한 항의 방법을 실행하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
적어도 하나의 프로그램이 저장된 메모리; 및
상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크를 구동하는 프로세서를 포함하고,
상기 프로세서는,
뉴럴 네트워크의 레이어에서 처리될, 입력 피처맵 및 바이너리-웨이트를 갖는 커널들의 데이터를 메모리로부터 획득하고,
상기 커널들 각각을, 동일 부호의 웨이트들로 재구성된 제1타입 서브커널 및 상기 커널과 상기 제1타입 서브커널 간의 차이를 보정하기 위한 제2타입 서브커널로 분해하고,
상기 입력 피처맵과 상기 커널들 각각으로부터 분해된 상기 제1타입 서브커널 및 상기 제2타입 서브커널을 이용하여 컨볼루션 연산을 수행하고,
상기 컨볼루션 연산의 결과들을 합성함으로써 출력 피처맵을 구하는, 뉴럴 네트워크 장치.
제 11 항에 있어서,
상기 제1타입 서브 커널은
상기 커널들 각각의 모든 엘리먼트들에서의 웨이트들을 동일한 값들로 치환함으로써 재구성된 서브커널인, 뉴럴 네트워크 장치.
제 12 항에 있어서,
상기 제1타입 서브 커널은
상기 입력 피처맵이 홀수 채널의 인덱스를 갖는 경우 상기 제1타입 서브커널의 모든 엘리먼트들에서의 웨이트들을 제1부호의 동일한 값들로 치환함으로써 재구성된 서브 커널이고,
상기 입력 피처맵이 짝수 채널의 인덱스를 갖는 경우 상기 제1타입 서브커널의 모든 엘리먼트들에서의 웨이트들을 제2부호의 동일한 값들로 치환함으로써 재구성된 서브 커널인, 뉴럴 네트워크 장치.
제 11 항에 있어서,
상기 입력 피처맵과 상기 컨볼루션 연산을 수행할 상기 커널들 각각으로부터 분해된 제1타입 서브커널들은 모두 동일한, 뉴럴 네트워크 장치.
제 11 항에 있어서,
상기 제2타입 서브커널은
상기 커널들 각각에서 상기 제1타입 서브커널과 서로 다른 웨이트를 갖는 엘리먼트에는 상기 커널들 각각의 원래 웨이트를 정의하고 나머지 엘리먼트에는 웨이트를 정의하지 않는 것으로 재구성된 서브커널인, 뉴럴 네트워크 장치.
제 11 항에 있어서,
상기 프로세서는
최초 커널로부터 분해된 제1타입 서브커널과 상기 입력 피처맵에서의 현재 윈도우 간의 제1컨볼루션 연산, 및 상기 커널들로부터 분해된 제2타입 서브커널들 각각과 상기 현재 윈도우 간의 제2컨볼루션 연산을 수행하고,
상기 최초 커널은 상기 커널들 중, 상기 최초 커널을 제외한 나머지 커널들에 대해 상기 제1컨볼루션 연산의 결과를 공유하는 것으로 결정된 커널인, 뉴럴 네트워크 장치.
제 16 항에 있어서,
상기 프로세서는 상기 커널들 중 상기 최초 커널을 제외한 나머지 커널들로부터 분해된 제1타입 서브커널들 각각과 상기 현재 윈도우 간의 상기 제1컨볼루션 연산은 스킵되도록 클럭-게이팅하고,
상기 최초 커널에 대해 수행된 상기 제1컨볼루션 연산의 결과는 상기 나머지 커널들에 대한 상기 제1컨볼루션 연산의 결과들인 것으로서 재사용되는, 뉴럴 네트워크 장치.
제 16 항에 있어서,
상기 제2컨볼루션 연산은
상기 제2타입 서브커널들 각각에서 웨이트가 정의된 엘리먼트와 상기 입력 피처맵의 대응 픽셀 간에 대해 수행되고, 웨이트가 정의되지 않은 행렬 엘리먼트에 대해서는 스킵되는, 뉴럴 네트워크 장치.
제 11 항에 있어서,
상기 프로세서는
상기 출력 피처맵의 각 픽셀 값을, 상기 제1타입 서브커널과 상기 입력 피처맵의 윈도우 간의 제1컨볼루션 연산의 결과 값에 상기 제2타입 서브커널과 상기 윈도우 간의 제2컨볼루션 연산의 결과 값의 2배수를 합산한 값에 기초하여 결정함으로써, 상기 출력 피처맵을 구하는, 뉴럴 네트워크 장치.