KR102353816B1

KR102353816B1 - 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템

Info

Publication number: KR102353816B1
Application number: KR1020210063931A
Authority: KR
Inventors: 박희천; 김태환
Original assignee: 박희천; 김태환
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-01-20

Abstract

본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템은 심층 신경망을 위한 뉴로모픽 컴퓨팅 아키텍처에서 임의의 계산을 수행하기 위해 필요한 파라미터가 입력되는 입력부; 상기 입력부를 통해 입력되는 복수의 입력에 대해 수지상 기반으로 계산을 수행하는 제1 코어부; 상기 제1 코어부의 출력단에 형성되어, 해당 제1 코어부의 n번째 출력을 수신하고, 상기 n번째 출력값에 대한 n+1번째 출력의 누적과 함께 축삭 기반으로 계산을 수행하는 제2 코어부; 상기 제1 코어부와 상기 제2 코어부이 연결된 데낙소 기반 신경모형 인터코어로 계산을 동시에 수행될 수 있도록 제어하는 주제어부;를 포함하여, 유사한 하드웨어 리소스 사용으로도 기존보다 2배 빠른 DNN과, CNN, RNN 구현을 위한 뉴로모픽 칩의 성능을 가속화할 수 있는 현저한 효과가 있다.

Description

심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템{OPTIMIZING SYSTEM OF NEUROMORPHIC COMPUTING STRUCTURE FOR DEEP NEURAL NETWORK}

본 발명은 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에 관한 것으로써, 더욱 상세하게는 뉴로모픽 컴퓨팅 구조의 새로운 구조 최적화를 위해, DNN 구현에서 코어 사이의 고유한 0이 아닌 대기 시간을 완전히 제거하는 방식으로 수지상 및 축삭 기반 신경형 코어를 모두 혼합하고 또한 새로운 구조와 연계하여 전체 연산 단위의 자원 오버 헤드를 최소화할 수 있도록 연산 단위를 최대한 활용함으로써 기존 구조보다 두 배 빠른 DNN(심층 신경망) 계산 속도를 높일 수 있는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에 관한 것이다.

또한, 본 발명은 CNN(Convolution Neural Network : 합성곱 신경망), RNN(Recurrent Neural Network : 순환 신경망) 등 다양한 종류의 심층 신경망에도 적용되어 연산 속도를 최대화할 수 있는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에 관한 것이다.

뉴로모픽 컴퓨팅의 새로운 시대에서, 생물학적으로 영감을 받은 신경망은 전통적인 폰 노이만 구조의 메모리 계산 격차를 극복하기 위해 GPU, FPGA, ASIC 칩, 멤리스터 크로스바와 같은 다양한 하드웨어 플랫폼에 의해 실현되고 가속화된다.

IBM이 출시한 True North 칩은 총 100만 개의 뉴런과 2억 6천 5백만 개의 시냅스를 포함하는 64×64개의 뉴로모픽 코어로 구성되어 있으며, 각 코어는 256개의 축, 256개의 뉴런, 256x256개의 시냅스를 가진 신경망을 나타낼 수 있다.

True North는 기존 프로세서보다 2~3배 더 빠른 속도, 5배 더 낮은 에너지 소비량을 달성할 것으로 나타났다.

반면, 멤리스터 기반 시냅스 네트워크를 가진 구조들은 많은 연구자들을 끌어 모았다. 멤리스터의 특징은 가중치 조정 가능한 시냅스의 특징과 유사하며, 많은 인지적 애플리케이션을 n × n 멤리스터의 멤리스터 크로스바로 시험되었다.

그러나 종래 기술의 대부분은 시냅스 네트워크에 해당하는 단일 신경 형태 코어를 설계하고 최적화하는 데 초점을 맞췄으며 DNN(심층 신경망) 구현에서 다중 시냅스 네트워크의 교차 최적화에 주의를 기울이지 않았다.

종래 기술에는 교차 최적화 기술이 적용된 바 없으며, 그것들은 단순히 개별 코어를 직렬로 연결하기만 했다.

DNN 컴퓨팅은 높은 정확성 또는 세부 학습을 가진 애플리케이션 복잡성이 증가함에 따라 미래에 매우 요구될 것이기 때문에 신경모형 내부 코어뿐만 아니라 신경모형 간 코어에 대한 구조 최적화가 필요한 실정이다.

대한민국 공개특허공보 제10-2018-0028967호(2018.03.19)

상술한 바와 같은 실정을 반영하여, 본 발명은 유사한 하드웨어 리소스 사용으로 기존보다 2배 빠른 DNN 구현을 위한 뉴로모픽 칩의 성능을 가속화할 수 있는 구현이 용이한 최적화된 구조의 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템을 제공하는데 목적이 있다.

상술한 목적을 달성하기 위한 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템은 심층 신경망을 위한 뉴로모픽 컴퓨팅 아키텍처에서 임의의 계산을 수행하기 위해 필요한 파라미터가 입력되는 입력부; 상기 입력부를 통해 입력되는 복수의 입력에 대해 수지상 기반으로 계산을 수행하는 제1 코어부; 상기 제1 코어부의 출력단에 형성되어, 해당 제1 코어부의 n번째 출력을 수신하고, 상기 n번째 출력값에 대한 n+1번째 출력의 누적과 함께 축삭 기반으로 계산을 수행하는 제2 코어부; 상기 제1 코어부와 상기 제2 코어부가 병렬로 연결된 데낙소 기반 신경모형 인터코어로 계산을 동시에 수행될 수 있도록 제어하는 주제어부;를 포함하는 것을 특징으로 한다.

바람직하게, 상술한 목적을 달성하기 위한 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템은 상기 주제어부, 제1 코어부와 제2 코어부가 병렬로 연결된 데낙소 기반 신경모형 인터코어로 합성곱 신경망을 위한 계산을 동시에 수행될 수 있는 것을 특징으로 한다.

더욱 바람직하게, 상술한 목적을 달성하기 위한 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템은 상기 주제어부, 제1 코어부와 제2 코어부가 병렬로 연결된 데낙소 기반 신경모형 인터코어로 순환 신경망을 위한 계산을 동시에 수행될 수 있는 것을 특징으로 한다.

본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템은 유사한 하드웨어 리소스 사용으로 기존보다 2배 빠른 DNN 구현을 위한 뉴로모픽 칩의 성능을 가속화할 수 있는 현저한 효과가 있다.

도 1은 개념적 관점 및 신경형태 구현 구조의 신경망 예를 도시한 도면이다.
도 2는 종래 뉴로모픽 인트라 코어 모델 및 코어간 계산 프로세서를 도시한 도면이다.
도 3은 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템의 데낙소 기반 인터코어 계산 프로세서를 도시한 도면이다.
도 4는 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템의 블록도 이다.
도 5는 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에서 4×4×4 심층 신경망의 데낙소 기반 인터코어 구현 예를 도시한 도면이다.
도 6은 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에서 크로스바 크기가 변경된 데낙소 기반 인터코어 구조를 도시한 도면이다.
도 7은 합성곱 신경망 내의 합성곱층과 풀링층의 개념도를 도시한 도면이다.
도 8은 본 발명에 따른 합성곱 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템의 블록도이다.
도 9은 순환 신경망의 개념도를 도시한 도면이다.
도 10은 본 발명에 따른 순환 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템의 블록도이다.
도 11은 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에서 다양한 MAC할당(N₁, N₂)에 대한 계산 속도 비율(ρ)과 인터코어의 두 네트워크 평면 비교도면이다.
도 12는 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에서 다양한 MAC 리소스 사용량(N)에서 인트라 코어가 사용하는 셀 영역 비교도면이다.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정하여 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가 장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에 대해 설명한다.

도 1b는 신경망의 한 부분에 대한 개념도(도 1a)이며, 여기서 j_th번째 출력 뉴런의 출력 값 z_j는 아래의 [수학식 1]에 의해 계산된다.

상기 [수학식 1] x_i은 i번째 입력 뉴런의 입력 값이고, w_ij는 x_i와 y_j 사이의 가중치 값이고, h(·)는 비선형 활성화 함수이며, b_j는 바이어스 값이다.

이 특정 네트워크를 뉴로모픽 코어와 함께 구현하기 위해, 일반적으로 도 1c에서 설명한 것처럼 시냅스 크로스바의 개념이 사용되며 크로스바의 가중치 값은 외부 메모리 또는 멤리스터에 저장된다.

뉴로모픽 코어의 기존 계산 흐름은 계산 순서의 차이에 따라 두 가지 모델즉, 축삭 기반 모델과 수지상 기반 모델로 분류할 수 있다.

도 2(a)의 왼쪽 도면은 단일 입력(축삭)에서 모든 출력 뉴런으로 가중치 값을 동시에 가져오는 축삭 기반 계산을 보여 주며, 모든 출력 뉴런에서 반복적 축적을 제공하여 모든 출력 값의 병렬 생성을 제공한다.

축삭 기반 모델은 입력 중 하나가 준비되는 한 계산을 시작할 수 있기 때문에 모든 입력을 한 번에 준비할 필요는 없다.

그러나 입력이 트리거될 때마다 시냅스 가중치를 누적하려면 모든 입력 값에 대한 계산이 완료될 때까지 중간 값을 유지하기 위해 추가 저장 요소가 필요하다.

그렇지 않으면, 입력이 트리거될 때마다 출력 뉴런의 모든 중간 값을 읽고 메모리에 복원해야 하며, 이는 대기 시간과 전력 소비량의 상당한 증가를 초래할 수 있는 수많은 메모리 접근 조작을 필요로 한다.

한편, 도 2(b)의 왼쪽 도면은 수지상 기반 계산을 보여 주며, 동시에 모든 입력에서 단일 출력(수상 돌기)으로 가중치를 가져와 한 번에 하나의 출력 뉴런에 대한 모든 가중치를 누적하여 출력 값의 순차 생성을 제공한다.

따라서, 수지상 기반 모델은 축삭 기반 모델과 달리 중간 값을 유지하고 집중된 출력 뉴런의 축적을 수행하기 위해 출력 뉴런에 대한 하나의 저장 요소만 필요하고 전체 계산 흐름에 재사용된다.

그러나 수지상 기반 모델은 모든 입력 값이 주입될 때만 계산을 시작할 수 있으며, 이는 시작 시간이 모든 입력 값이 수신될 때까지 지연됨을 의미하며, 전체 계산 동안 입력 값을 보유할 수 있는 추가 스토리지도 필요하다.

상술한 바와 같은 배경기술에 기반하여 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에 대해 더욱 상세하고 구체적으로 설명한다.

전통적으로 DNN은 동일한 신경모형 코어를 여러 개 직렬로 연결하여 구현된다. 도 2a의 오른쪽 도면은 동시 출력 생성으로 인해 두 개의 축사 기반 코어가 각 코어의 출력 뉴런에서 동기화된 축사 기반 코어 간 연결을 보여준다.

첫 번째 코어에 있는 모든 출력 뉴런의 값이 병렬로 생성되더라도, 두 번째 코어의 입력에서 상당한 지연 낭비가 발생한다는 것을 알 수 있다. 왜냐하면 모든 입력이 준비되었지만 출력 뉴런의 MAC 단위는 한 번에 최대 하나의 입력에서만 축적될 수 있고 다른 입력은 유휴 상태를 유지해야 하기 때문이다.

한편, 도 2b의 오른쪽 도면은 모든 입력이 준비되기를 기다리기 위해 각 코어의 입력에서 두 개의 수지상 기반 코어가 동기화되는 수지상 기반 코어 간 연결을 보여준다.

마찬가지로, 두 번째 코어에 대한 조기 도착 입력은 다른 입력이 도착하고 준비될 때까지 기다려야 하기 때문에 두 번째 코어의 입력에서 큰 지연이 발생한다.

상술한 계산 흐름 분석을 기반으로, 본 발명은 도 3에 도시된 바와 같이 축삭 기반 및 수지상 기반 내부 코어에서 병렬 계산을 활용할 수 있는 하이브리드 구조를 구현하였는데, 해당 하이브리드 구조는 데낙소 기반 신경모형 인터코어(denaxo-driven neuromorphic inter-core) 구조이다.

먼저, 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템은 도 4에 도시된 바와 같이 주제어부(100)와 해당 주제어부(100)의 제어를 받을 수 있는 입력부(200), 제1 코어부(300), 제2 코어부(400), 및 출력부(500)를 포함한다.

데낙소 기반 인터코어의 첫 번째(왼쪽) 네트워크는 수지상 기반 인트라코어로 구현되고 두 번째(오른쪽) 네트워크는 축삭 기반 인트라코어로 구현된다.

상기 인트라코어는 다양한 뉴런 모델을 사용하여 계산을 수행하는 뉴로모픽 코어의 내부 구조를 가리킨다.

한편, 인터코어(inter-core)는 두 개의 뉴로모픽 코어를 통합하는 구조를 가리킨다. 이는 신경망에서 두 연속 시냅스 네트워크 사이의 연결을 구현하는 것이다.

결과적으로, 도 3의 빨간색 점선 화살표로 표시된 계산 흐름에서 볼 수 있듯이, 제1 코어부(300)의 수지상 기반 계산과 제2 코어부(400)의 축삭 기반 계산을 병렬로 실행할 수 있어 두 개의 코어 간 지연 발생을 방지할 수 있다.

구체적으로, 데낙소 기반 구조의 두 코어는 수지상 기반의 상기 제1 코어부(300)의 i번째 출력 값이 생성되자마자 상기 제2 코어부(300)에 의해 수신되고, 이 값에 대한 축적이 (i+1)번째 출력의 누적과 함께 축삭 기반의 제2 코어부(300)에 실행되는 방식으로 병렬 계산을 수행할 수 있다.

따라서, 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 구* 최적화 시스템은 기존의 인터코어 구조와 달리 제1 코어부(300)와 제2 코어부(400)의 계산 과정을 동시에 수행할 수 있다.

데낙소 기반 접근법의 이 병렬 계산 개념은 계산 리소스가 제한된 모든 종류의 뉴로모픽 컴퓨팅 구조에 적용될 수 있으며, 완전히 활용된 병렬화를 위해 리소스가 잘 할당되면 데낙소 기반 코어 구조는 동일한 코어를 직렬로 연결하는 전통적인 접근 방식에 비해 최대 2배 빠른 속도를 달성할 수 있다.

직렬로 정렬된 m×n 네트워크와 n×p 네트워크로 구성된 m×n×p DNN을 고려할 때, 축삭 기반 구현의 경우 제1 코어부(300)에 대한 m개의 입력과 제2 코어부(400)에 대한 n개의 입력이 순차적으로 처리되며 두 코어 모두 병렬로 실행할 수 없다.

그러면 본 발명에서 제안하는 축삭기반 모델에 의한 총 계산 시간(T_axo)은 아래의 [수학식 2]와 같이 계산된다.

상기 [수학식 2]에서 t_axo _{_} ₁과 t_axo _{_} ₂은 각각 첫번째 m×n 및 두번째 n×p 네트워크의 하나의 축삭 입력과 관련된 계산을 처리하는 시간이다(예: 도 2a의 점선).

수지상 기반 모델을 실시하기 위해, 제1 코어부(300)의 n 개 출력과 제2 코어부(400)의 p 개 출력이 순차적으로 생성되며 두 코어 또한 동시에 실행할 수 없다.

이때, 상기 수지상 기반 모델에 의한 총 계산 시간(T_den)은 아래의 [수학식 3]과 같다.

상기 [수학식 3]에서 t_den _{_} ₁과 t_den _{_} ₂은 각각 첫 번째 및 두 번째 네트워크의 모든 축삭 입력을 사용하여 하나의 출력 값을 생성하는 시간이다.(예 : 도 2b의 점선)

본 발명에 따른 데낙소 기반 인터코어 구현의 경우 총 계산 시간 T_denaxo는 다음과 같다.

T_denaxo를 m × n × p 신경망에 대한 데낙소 기반 인터코어 구현의 계산 시간 이라고할 때, 상기 주제어부(100)는 상기 T_denaxo를 아래의 [수학식 4]처럼 표현할 수 있다.

상기 [수학식 4]는 도 3을 통해 도출된 것으로, 수지상 기반(첫 번째) 및 축삭 기반(두 번째) 인트라코어가 모두 완전히 병렬화되어 있어 인트라코어(intra-core)의 계산 시간이 길어질수록 데낙소 기반 인터코어 구조의 계산 시간이 된다.

공정한 비교를 위해 모든 구조가 각 인트라코어에 대해 하나의 동일한 계산 단위 (즉, MAC)를 사용한다고 가정한다.

그런 다음 기존 구조에 비해 데낙소 기반 인터코어 구조에 의한 계산 시간 향상을 다음과 같이 추상화할 수 있다.

m×n×p DNN에 있어서, T_denaxo 대 T_den의 계산 속도 향상비 ρ_den와, T_denaxo 대 T_axo의 계산 속도 향상비 ρ_axo 는 아래의 [수학식 5] 와 같다.

코어 간 구조에서 두 시냅스 네트워크의 크기가 같을 때 개선 비율을 고려해 보면, m × n = n × p를 의미하고, 이를 상기 [수학식 5]에 반영하여 정리하면 ρ는 아래의 [수학식 6]과 같다.

따라서 크기가 동일한 2개의 연속 시냅스 네트워크의 DNN의 경우, 다른 네트워크에 비해 데낙소 기반 인터코어 구조의 속도 상승률은 이론적으로 네트워크 크기 n이 증가함에 따라 2에 접근한다.

제안된 코어간 구조의 내부 구성은 구조의 첫 번째 및 두 번째 네트워크를 병렬로 실행할 수 있어야 한다.

도 5는 4×4×4 DNN에 대한 100% 계산 리소스 활용을 가진 데낙소 기반 인터코어 구조 구성의 예를 보여준다.

왼쪽 평면은 수지상 기반 코어 구조를 구현하고 두 계산 단위(MAC)를 사용하여 내부 출력 값을 생성하는 반면 오른쪽 평면은 축삭 기반 코어 구조를 구현하고 다른 두 개의 MAC를 사용하여 외부 출력 값을 생성한다.

모든 MAC의 계산 시간이 같을 경우, 왼쪽 평면에서 다음 출력 값이 생성되기 직전에 왼쪽(수지상 기반) 평면의 내부 출력 값을 오른쪽(축삭 기반) 평면의 MAC에서 처리할 수 있음을 확인할 수 있다.

N₁과 N₂를 각각 m×n×p 신경망을 구현하기 위해, 데낙소 기반 인터코어 구조의 첫 번째 및 두 번째 네트워크에 할당된 MAC의 수가 되도록 하고, MAC의 계산 지연을 기록하도록 한다.

이때, t_den, t_axo 는 아래의 [수학식 7]과 같이 계산할 수 있다.

첫 번째 (수지상 기반) 네트워크의 각 N₁ MAC들이 독립적으로 입력 및 가중치 값을 곱하고 축적할 수 있고, 두 번째 (축삭 기반) 네트워크는 첫 번째 네트워크에서 생성된 N₁ 중간 값을 수신하고 t_axo 시간에 병렬인 N₂ MAC 들을 사용하여 각 값에 대해 p 가중치를 사용하여 곱셈을 수행한다.

상기 T_denaxo는 N₁

1 및 N₂

1의 경우 아래의 [수학식 8]과 같이 정의될 수 있다.

N₁(

1) 및 N₂(

1)의 MAC이 m × n × p DNN에 대한 데낙소 기반 인터코어 구조의 첫 번째 및 두 번째 평면에 각각 할당될 때, ρ_den와 ρ_axo 는 아래의 [수학식 9]와 같다.

m × n = n × p이고 n

N₁, N₂(N₁

N₂를 의미)인 DNN을 구현하기 위해 ρ는 아래의 [수학식 10] 과 같이 된다.

따라서 이론상 최대 속도 향상 비율은 네트워크 크기가 증가함에 따라 2에 가까워진다. 이론적으로 전체 활용률이 가장 높은 비율은 "(1) 1≤N₁≤ n, (2) 1≤N₂≤p 및 (3) N₁/N₂ = m/p"을 충족하는 구성에서 나온다.

본 발명에서는 많은 시냅스 연결을 가진 DNN을 구현하는 기본 구성 요소로 제안된 데낙소 기반 인터코어를 사용하는 두 가지 옵션을 제안한다.

첫 번째 옵션은 하나의 인터코어가 직렬 연결된 두 개의 시냅스 네트워크의 구현에 해당하는 k/2 데낙소 기반 인터코어 구조를 가진 k 시냅스 네트워크의 DNN을 구현하는 것이다.

해당 옵션은 구성 요소 간 코어 구조에서 MAC을 할당하고 배포하는 추가 작업을 감수하고 k≥ 2인 경우에만 어떤 형태의 신경망도 구현할 수 있다.

두 번째 옵션은 구현할 신경망의 크기와 구조에 따라 데낙소 기반 인터코어 구조를 재설계할 필요가 없다. 대신 입력 DNN 구조에 대한 약간의 변환가 요구된다.

즉, 모든 시냅스 네트워크의 입력-출력 뉴런 사이에 더 작은 크기의 숨겨진 레이어를 삽입하고 변환된 DNN 구조로 가중치 값을 재학습 한다.

이러한 혁신은 두 가지 뚜렷한 효과를 제공한다. 첫 번째는 편리함이다. 데낙소 기반 인터코어 구조는 변형된

신경망을 구현할 수 있는 m × n 크기의 소형 형태일 수 있다.

도 6은 변환된 DNN의 기본 구성 블록으로 사용할 수 있는 본 발명에 따른 데낙소 기반 인터코어 구조를 보여준다. 즉, 변환된 신경망에 연결하여 기본 구성 요소로 사용할 수 있다.

동일한 양의 산술 리소스(즉, N = N1 + N2)가 기존의 인트라 코어(즉, 축삭 기반 및 수지상 기반)와 제한된 n×n 신경망에 대한 제안된 기본 블록(즉, 데낙소 기반) 둘 다에 의해 사용된다고 가정할 때, 종래 코어들은

시간 걸리고, 반면 기본 블록은 상기 [수학식8]과 같이

걸린다.

따라서, 속도 비율 ρ는 n≫N라고 할 때

이고,속도의 변화를 최호화하면서 하나의 은닉층 추가가 가능하여 모델에 따라 학습의 깊이 및 정화도를 크게 향상시킬 수 있다.

한편, 도 7은 심층 신경망 구조 중 하나인 합성곱 신경망 (CNN) 구조의 개념도를 합성곱층과 풀링층으로 나누어 나타낸 것인데, 두 층 모두 연결망이 적은 DNN의 모양으로 나타내어진다. 이를 바탕으로 데낙소 기반 인터코어의 구조를 이용하여 CNN을 구현할 수도 있다.

또한, 도 8은 CNN을 데낙소 기반 인터코어로 구현한 구조를 도시한 도면이다. 앞서 합성곱층과 풀링층 모두 DNN의 한 신경망에 대응되므로, CNN 전체의 구현 또한 DNN 구현과 다르지 않다. 차이점은 풀링층의 크기가 일반적으로 매우 작기 때문에, 이를 건너뛰고 인접한 두 합성곱층을 데낙소 기반 인터코어 구조로 구성하며, 그 사이의 풀링층은 신경망이 아는 하나의 단순 합연산 모듈로 구현하여 대체한다.

도 9는 또 다른 심층 신경망 구조인 순환 신경망 (RNN) 구조의 개념도를 나타낸다. 이는 두 연속된 신경망(Ｗ_xh,Ｗ_hy) 사이에 하나의 신경망 Ｗ_hh이 은닉층을 순환하며 출력을 변경하는 구조로 되어 있다. 순환 구조의 RNN을 도 10(a)와 같이 펼친 후 두 개의 연속된 Ｗ_hh에 데낙소 기반 인터코어를 대입하는 방식을 적용하여 RNN의 데낙소 기반 인터코어 구현이 가능하다.

도 10(b)은 RNN을 데낙소 기반 인터코어로 구현한 구조를 도시한 도면이다. 총 세 가지의 신경망 (Ｗ_xh, Ｗ_hy, Ｗ_hh)을 각각 두 배로 늘여서 데낙소 기반 인터코어를 대입하면 DNN과 마찬가지로 최대 2배의 연산 속도 향상을 만족할 수 있다.

상술한 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 체적화 시스템의 구동에 따른 결과를 설명한다.

3.50GHz Intel i7 프로세서 및 16GB 메모리의 Linux 시스템에서 실험이 수행되었다. Verilog HDL 설명으로 다양한 구조를 모델링하고 NANGATE 45nm 개방형 셀 라이브러리를 사용하여 Synopsys Design Compiler로 합성하고 도구에서 보고된 셀 영역을 비교했다.

모든 구조는 DNN 계산 시간과 속도 향상 비율(ρ)을 얻기 위해 Cadence Incisive Enterprise Simulator에서 시뮬레이션 된다.

기존의 코어간 구조는 두 개의 동일한 내부 코어 구조(수지상 기반 또는 축삭 기반을 직렬로 정렬하여 생성된다.

본 발명에 따른 데낙소 기반 인터코어 구조는 첫 번째에 수지상 기반 코어를, 두 번째에 축삭 기반 코어를 정렬한 후 다양한 MAC 할당을 통해 구현된다.

모든 값은 16비트 고정 소수점 숫자로 인코딩된다. 4 사이클 16비트 승수와 1 사이클 32비트 누산기는 하나의 MAC 장치를 구성하고 ReLU(정류 선형 장치) 모듈은 활성화를 위해 사용된다

아래 [표 1]은 다양한 네트워크 크기 및 MAC 단위 할당을 사용하는 기존의 인터코어 구조와 데낙소 기반 인터코어 구조를 비교한 것이다.

본 발명에서 모든 유형의 코어 간 구현에 동일한 가중치 값이 사용된다.

즉, 모든 DNN 구현의 정확도가 동일하다. 기존 구조의 계산 시간이 비슷하기 때문에 데낙소 기반 인터코어 구조의 계산 시간과 두 기존 구조의 평균을 비교하여 속도 향상 비율(ρ)을 계산한다.

셀 영역의 비교는 후술한 바와 같다. 본 발명에 따른 데낙소 기반 인터코어 구조는 기존 구조보다 38% ~ 99% 더 나은 성능을 보여준다. 데낙소 기반 구조는 두 네트워크 평면의 계산을 병렬로 수행하여 속도를 향상시킨다.

상기 [표 I]의 마지막 열에서 두 네트워크 평면 간의 네트워크 크기 차이가 작을 때 ρ가 커진다는 것을 알 수 있다.

도 11은 MAC이 데낙소 기반 인터코어 구조의 첫 번째와 두 번째 평면에 분산되어있을 때 속도 향상 비율 ρ의 곡선을 보여준다.

도 11a, 도 11b 및 도 11c에 대응되는 네트워크의 m/p 값은 는 각각 1, 2 및 4이다. 곡선은 MAC 분배 비율 N₁/ N₂가 m/p에 가까워질 때 최고 속도 향상이 발생함을 보여준다. N₁/N₂ 및 m/p의 이러한 관계는 데낙소 기반 인터코어 구조에서 최대 병렬 처리를 달성하기 위해 필요한 MAC 수가 두 네트워크 평면의 크기 비율을 따라야한다는 사실에서 자명하다.

그러나 곡선 모양에서 알 수 있듯이

는 사용 가능한 MAC 수가 증가함에 따라 항상 최대 병렬 처리 (ρ

2)를 의미하지는 않는다. MAC 수가 증가할수록 총 계산 시간이 그에 따라 감소하기 때문이다.

그러므로, 산술 계산을 위한 런타임의 상대적 부분 가중치 로드 및 중간 값 저장과 같은 메모리 액세스 시간이 변경되지 않기 때문에 감소한다.

이것은 본 발명에서 제안한 데낙소 기반 구조가 컴퓨팅 리소스(즉, MAC)의 필요성이 더 엄격한 컴퓨팅 플랫폼에 더 효과적이라는 것을 의미한다.

도 12는 MAC 할당이 셀 영역에 미치는 영향을 보여준다. MAC 자원(N)의 양이 증가함에 따라 두 개의 기존 인트라 코어(하나의 신경망) 구현에 대한 셀 영역의 변화가 나타난다.

N이 1 또는 2일 때, 축삭 기반 코어의 면적은 동일한 네트워크 크기에 대해 수지상 기반 코어의 면적보다 두 배 더 크다.

그러나 N 값이 증가함에 따라 수지상 기반 코어의 면적 증가율은 축삭 기반 코어의 면적 증가율보다 더 크다. 이는 수지상 기반 코어에 더 많은 MAC이 할당되면 가중치 값과 중간 값에 대한 저장 단위도 필요하기 때문이다.

따라서 데낙소 기반 인터코어 구조를 설계하려면 입력 폭이 큰 첫 번째 (수 지상 기반) 평면에 산술 모듈의 신중한 분포가 필요하다.

메모리에서 가중치를 로드하기 위해 더 많은 저장소가 필요하기 때문이다.

아래의 [표 2]는 모든 코어 간 구조의 셀 영역에 대한 네트워크 크기의 관계를 요약한다.

본 발명에서 N₁ = N₂ = 1이고 동일한 가중치 값이 사용된다고 가정한다. 수지상 기반 구조의 면적은 누적을 위한 모든 입력 값을 저장하기 위해 각 네트워크의 입력 너비 (m 및 n)에 비례한다.

대조적으로, 축삭 기반 구조의 영역은 중간 값과 활성화 단위를 저장하기 위해 각 네트워크 (n 및 p)의 출력 너비에 비례한다.

축삭 기반 구조는 더 많은 저장 공간을 필요로하기 때문에 축삭 기반 코어 간 구조의 총 셀 면적은 대부분의 경우 수지상 기반 구조보다 더 크다.

반대의 경우는 m≫n, p 일 때 발생한다. 두 특징을 결합하여 본 발명에 따른 제안된 데낙소 기반 구조는 은닉층 크기가 더 작을 때 (n≪m, p) 가장 큰 셀 영역을 갖는다.

일반적으로 데낙소 기반 구조의 세포 면적은 기존의 두 가지 면적의 평균에 가깝다. 상기 [표 2]에서 ×로 시작하는 항목은 은닉층 크기가 2배 / 4배 / 8배로 될 때 비율의 면적 증가량을 나타낸다.

데낙소 기반 구조의 총 셀 면적은 m과 p의 값만으로 결정되기 때문에 총 셀 면적을 유지하면서 n 값을 변경하여 본 발명에 따른 구조를 유연하게 재구성할 수 있다.

본 발명에서 MNIST 분류 데이터베이스와 코어 간 구조를 비교했다. 이 데이터베이스에는 28×28 그레이 레벨 픽셀 형식의 60000개의 필기 숫자가 포함되어 있으며 각 숫자는 0에서 9 사이의 숫자를 나타낸다.

본 발명에서 다양한 인터코어 구조의 컴퓨팅 성능을 비교하기 위해 2개 (784×256×10) 및 3개(784×256×256×10) 연속 시냅스 네트워크의 DNN을 사용했다. 후자의 경우 처음 두 네트워크 (784×256×256)에 데낙소 기반 인터코어 구조를 적용하고 마지막 네트워크(256×10)는 수지상 기반 코어로 구현한다.

가중치 값은 무작위 가중치 초기화 및 경사 하강 최적화 도구를 사용하여 텐서플로 소프트웨어에서 얻는다. 결과는 아래의 [표 3]에 요약된 바와 같다.

784×256×10 DNN의 경우 데낙소 기반 구조는 약간의 속도 향상(약 5.3 %)만 달성한다.

네트워크 크기가 불균형한 유형의 DNN은 본 발명의 구조에 적합하지 않다. MAC의 최적 분배 비율은 784/10 = 78.4이고, 이론적인 속도향상([수학식 9]에서 53 %)을 달성하도록 이 비율을 충족하기 위해 많은 수의 MAC을 할당하는 것은 분명히 효율적이지 않다(즉, N₁=78, N₂=1).

대신 256×256과 비슷한 크기의 시냅스 네트워크를 삽입하여 정확도를 높이는 784x256x256x10 DNN의 경우 처음 두 네트워크의 최적 분포 비율은 784/256

3이 되고 제안된 데낙소 기반 구현 합리적인 수의 MAC으로 60% 이상의 속도 향상을 달성 할 수 있다.

상기 [표 3]에서 한 가지 주목할 만한 점은 데낙소 기반 구조를 사용하는 784x256x256x10 DNN의 실행시간이 기존의 구조들(수지상 기반, 축삭기반)을 사용하는 훨씬 더 작은 DNN(784×256×10)의 실행시간과 비슷하고, MAC (1개 또는 2개)를 거의 사용하지 않는 경우와 거의 동일하다.

이는 제한된 계산 리소스와 함께 제안된 데낙소 기반 인터코어 구조를 사용하면 추가 계산 시간없이 '더 깊은' 신경망을 구현하여 정확도를 향상시킬 수 있음을 의미한다.

상술한 바와 같이 본원발명은 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 계산 속도를 향상시키기 위해 새로운 데낙소 기반 인터코어 구조의 최적화 기술을 발명했다.

수지상 기반 및 축삭 기반 신경형 코어 구조의 특성을 모두 활용하여 제안된 데낙소 기반 인터코어 구조는 이론적으로 기존 구조에 비해 계산 속도를 2 배 증가시킬 수 있었으며, 실제로 네트워크 크기 및 리소스 활용도에 따라 계산 속도를 38% ~ 99%까지 증가시킬 수 있었다.

한편, 아래의 [표 4]는 RNN의 데낙소 기반 인터코어 구현 효율을 나타낸 표이다.

상기 [표 4]를 통해 알 수 있는 바와 같이 RNN을 펼치지 않은 1x RNN에 데낙소 기반 인터코어를 적용할 경우 속도 향상이 최대 6.1%로 미미하지만, 본 발명에 따른 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템에서와 같이 RNN을 펼친 후 두 신경망에 데낙소 기반 인터코어를 적용한 2x RNN에서는 면적 증가 없이 최대 87.2%의 계산 속도 향상을 기대할 수 있다.

이상에서는 본 발명에 대한 기술사상을 첨부 도면과 함께 서술하였지만 이는 본 발명의 바람직한 실시 예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구나 본 발명의 기술적 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.

100 : 주제어부
200 : 입력부
300 : 제1 코어부
400 : 제2 코어부
500 : 출력부

Claims

심층 신경망을 위한 뉴로모픽 컴퓨팅 아키텍처에서 임의의 계산을 수행하기 위해 필요한 파라미터가 입력되는 입력부;
상기 입력부를 통해 입력되는 복수의 입력에 대해 수지상 기반으로 계산을 수행하는 제1 코어부;
상기 제1 코어부의 출력단에 형성되어, 해당 제1 코어부의 n번째 출력을 수신하고, 상기 n번째 출력값에 대한 n+1번째 출력의 누적과 함께 축삭 기반으로 계산을 수행하는 제2 코어부; 및
상기 제1 코어부와 상기 제2 코어부가 병렬로 연결된 데낙소 기반 신경모형 인터코어로 계산을 동시에 수행될 수 있도록 제어하는 주제어부;를 포함하되,
상기 주제어부는
상기 제1 코어부와 제2 코어부가 병렬로 연결된 데낙소 기반 신경모형 인터코어로 인접한 두 합성곱층을 구성하며 합성곱층 사이의 풀링층을 하나의 단순 합연산 모듈을 구현하는 합성곱 신경망을 위한 계산을 동시에 수행하는 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 1항에 있어서,
상기 입력부와 제2 코어부 및 제2 코어부는
상기 입력부와 상기 제1 코어부가 m×n 네트워크로 연결되고, 상기 제1 코어부와 상기 제2 코어부가 n×p 네트워크로 연결되어 m×n×p 신경망 네트워크를 구성하는 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 2항에 있어서,
상기 주제어부는
상기 m×n×p 신경망 네트워크에서 데낙소 기반 인터코어 구현의 계산
시간 T_denaxo를 수학식

로 계산하되, 상기 수학식에서 t_{den_1}는 수지상 기반의 상기 제1 코어부가 하나의 출력 값을 생성하는 시간이고, t_{axo_2}는 축삭기반의 상기 제2 코어부가 하나의 축삭 입력과 관련된 계산을 처리하는 시간인 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 3항에 있어서,
상기 주제어부는
상기 T_denaxo의 수지상 기반 모델 대비 계산 속도 향상비 ρ_den와, 상기 T_denaxo의 축삭기반 모델 대비 계산 속도 향상비 ρ_axo를 수학식

로 계산하되,
상기 수학식에서 t_den는 수지상 기반의 상기 제1 코어부가 하나의 출력 값을 생성하는 시간이고, t_axo는 상기 제 1코어부와 동일한 계산 단위를 사용하는 축삭기반의 상기 제2 코어부가 하나의 축삭 입력과 관련된 계산을 처리하는 시간인 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 4항에 있어서,
상기 주제어부는
상기 제1 코어부(300)와 상기 제2 코어부(400) 간 구조에서 두 시냅스 네트워크의 크기가 m × n = n × p로 같을 때 상기 ρ_den와 ρ_axo를 수학식

로 계산하는 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 2항에 있어서,
상기 입력부와 상기 제1 코어부가 연결된 m×n 네트워크에 할당된 MAC의 수를 N₁, 상기 제1 코어부(300)와 상기 제2 코어부가 연결된 n×p 네트워크에 할당된 MAC의 수를 N₂,상기 제1 코어부(300)와 상기 제2 코어부에서 동일하게 사용되는 단위 계산 시간을 t_mac 라고 할 때,
상기 주제어부는
수지상 기반 모델에 의한 총 계산 시간 t_den와, 축삭기반 모델에 의한 총 계산 시간 t_axo를 수학식

로 계산하는 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 6항에 있어서,
상기 주제어부는
상기 N₁
1 및 N₂
1의 경우 데낙소 기반 인터코어 구현의 계산 시간 T_denaxo를 수학식
로 계산하는 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 7항에 있어서,
상기 주제어부는
상기 N₁(
1) 및 N₂(
1)의 MAC이 m × n × p DNN에 대한 데낙소 기반 인터코어 구조의 첫 번째 및 두 번째 평면에 각각 할당될 때, 상기 T_denaxo대한 T_den의 계산 속도 향상비 ρ_den와, T_denaxo대한 T_axo의 계산 속도 향상비 ρ_axo를 수학식

로 계산하는 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
제 8항에 있어서,
상기 주제어부는
상기 제1 코어부와 상기 제2 코어부 간 구조에서 두 시냅스 네트워크의 크기가 m × n = n × p이고, n
N₁, N₂일 때 상기 ρ_den와 ρ_axo를 수학식
로 계산하는 것을 특징으로 하는 심층 신경망을 위한 뉴로모픽 컴퓨팅 구조의 최적화 시스템.
삭제
삭제