KR20220015680A - 딥러닝 연산 수행 방법 및 장치 - Google Patents

딥러닝 연산 수행 방법 및 장치 Download PDF

Info

Publication number
KR20220015680A
KR20220015680A KR1020200096008A KR20200096008A KR20220015680A KR 20220015680 A KR20220015680 A KR 20220015680A KR 1020200096008 A KR1020200096008 A KR 1020200096008A KR 20200096008 A KR20200096008 A KR 20200096008A KR 20220015680 A KR20220015680 A KR 20220015680A
Authority
KR
South Korea
Prior art keywords
multiplexer
deep learning
mac units
mac
clock frequency
Prior art date
Application number
KR1020200096008A
Other languages
English (en)
Inventor
권형달
박한민
이승욱
조재언
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200096008A priority Critical patent/KR20220015680A/ko
Priority to US17/102,884 priority patent/US11960855B2/en
Publication of KR20220015680A publication Critical patent/KR20220015680A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/57Arithmetic logic units [ALU], i.e. arrangements or devices for performing two or more of the operations covered by groups G06F7/483 – G06F7/556 or for performing logical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Neurology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Discrete Mathematics (AREA)
  • Advance Control (AREA)

Abstract

딥러닝 연산 수행 장치 및 방법이 개시된다. 일 실시예에 따른 딥러닝 연산 수행 장치는, 복수의 MAC(multiplier accumulator) 유닛들을 포함하는 시스톨릭 어레이(systolic array)와, 상기 복수의 MAC 유닛들을 중 적어도 하나의 MAC 유닛에 연결되는 멀티플렉서(multiplexer) 및 복수의 연산 모드에 따라 상기 MAC 유닛들의 동작을 제어하는 제어 회로를 포함한다.

Description

딥러닝 연산 수행 방법 및 장치{METHOD AND APPARATUS FOR PERFORMING DEEP LEARNING OPERATIONS}
아래 실시예들은 딥러닝 연산 수행 방법 및 장치에 관한 것이다.
현재 임베디드 NPU(Neural Processing Unit)에서 저전력 구동을 위해 가산기 트리(Adder Tree) 구조가 많이 사용되고 있다.
가산기 트리 구조는 시스톨릭 어레이(Systolic array) 대비 약 1/2의 전력을 소모하면서 동일한 성능(performance)을 달성할 수 있지만, 뎁스와이즈 컨볼루션(depthwise convolution)과 같은 연산에서는 MAC(multiplier accumulator) 유닛의 이용 효율이 떨어져서 처리 속도의 급격한 하락을 피할 수 없는 단점이 있다.
다만, MAC의 이용 효율만을 고려한 아키텍처의 경우 엘리먼트와이즈 합/곱(elementwise add/multiplication) 연산을 지원하지 않아서 뎁스와이즈 연산을 제외하고는 상대적으로 큰 영역에 대한 전력 소모가 발생하기 때문에, 전력 소모를 줄이면서 엘리먼트와이즈 합/곱을 수행하는 연산 장치가 요구된다.
일 실시예에 따른 딥러닝 연산 수행 장치는, 복수의 MAC(multiplier accumulator) 유닛들을 포함하는 시스톨릭 어레이(systolic array)와, 상기 복수의 MAC 유닛들 중 적어도 하나의 MAC 유닛에 연결되는 멀티플렉서(multiplexer) 및 복수의 연산 모드에 따라 상기 MAC 유닛들의 동작을 제어하는 제어 회로를 포함한다.
상기 멀티플렉서는, 상기 복수의 MAC 유닛들의 가산기의 입력단에 연결되는 제1 멀티플렉서를 포함할 수 있다.
상기 멀티플렉서는, 상기 복수의 MAC 유닛들의 누산기의 출력단에 연결되는 제2 멀티플렉서를 포함할 수 있다.
상기 멀티플렉서는, 상기 복수의 MAC 유닛들의 출력단에 연결되는 제3 멀티플렉서를 더 포함하고, 상기 딥러닝 연산 수행 장치는, 상기 제3 멀티플렉서에 연결되는 쉬프트 레지스터(shift register)를 더 포함할 수 있다.
상기 복수의 MAC 유닛들, 제1 멀티플렉서 및 제2 멀티플렉서는 제1 클럭 주파수에 기초하여 동작할 수 있다. 상기 제3 멀티플렉서 및 상기 쉬프트 레지스터는 제2 클럭 주파수에 기초하여 동작하고, 상기 제2 클럭 주파수는 상기 MAC 유닛, 제1 멀티플렉서 및 제2 멀티플렉서에 인가되는 제1 클럭 주파수의 정수배일 수 있다.
상기 제1 클럭 주파수와 상기 제2 클럭 주파수의 비율은 상기 제3 멀티플렉서에 연결된 MAC 유닛의 개수에 기초하여 결정될 수 있다.
상기 멀티플렉서는 상기 복수의 MAC 유닛들의 입력단에 연결될 수 있다.
일 실시예에 따른 딥러닝 연산 수행 방법은, 연산 모드 및 입력 데이터를 수신하는 단계와, 상기 연산 모드에 대응하여 시스톨릭 어레이에 포함된 복수의 MAC 유닛들의 동작을 제어하는 단계와, 상기 복수의 MAC 유닛들 중 적어도 하나의 MAC 유닛에 연결되는 멀티플렉서를 제어하는 단계를 포함한다.
상기 멀티플렉서를 제어하는 단계는, 상기 연산 모드에 응답하여 상기 복수의 MAC 유닛들의 가산기의 입력을 제어하는 단계를 포함할 수 있다.
상기 멀티플렉서를 제어하는 단계는, 상기 연산 모드에 응답하여 상기 복수의 MAC 유닛들의 누산기의 출력을 제어하는 단계를 포함할 수 있다.
상기 멀티플렉서를 제어하는 단계는, 상기 복수의 MAC 유닛들의 출력을 제어하는 단계와, 상기 복수의 MAC 유닛들의 출력을 쉬프트하는 단계를 포함할 수 있다.
상기 복수의 MAC 유닛들의 제어, 상기 복수의 MAC 유닛들의 가산기의 입력의 제어 및 상기 복수의 MAC 유닛들의 누산기의 출력의 제어는 제1 클럭 주파수에 기초하여 수행될 수 있다.상기 복수의 MAC 유닛들의 출력의 제어 및 상기 복수의 MAC 유닛들의 출력의 쉬프트는 제2 클럭 주파수에 기초하여 수행되고, 상기 제2 클럭 주파수는, 상기 복수의 MAC 유닛들의 제어, 상기 복수의 MAC 유닛들의 가산기의 입력의 제어 및 상기 복수의 MAC 유닛들의 누산기의 출력의 제어를 위한 제1 클럭 주파수의 정수배일 수 있다.상기 제1 클럭 주파수와 상기 제2 클럭 주파수의 비율은 상기 복수의 MAC 유닛들의 출력을 제어하는 멀티플렉서에 연결된 MAC 유닛의 개수에 기초하여 결정될 수 있다.
상기 멀티플렉서를 제어하는 단계는, 상기 연산 모드에 응답하여 상기 복수의 MAC 유닛들의 입력을 제어하는 단계를 포함할 수 있다.
도 1a는 일 실시예에 따른 딥러닝 연산 수행 장치의 개략적인 블록도를 나타낸다.
도 1b는 다른 실시예에 따른 딥러닝 연산 수행 장치의 개략적인 블록도를 나타낸다.
도 2a는 딥러닝 연산 수행 장치의 회로도의 일 예를 나타낸다.
도 2b는 도 2a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 일 예를 나타낸다.
도 2c는 도 2a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 다른 예를 나타낸다.
도 2d는 도 2a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 또 다른 예를 나타낸다.
도 3a는 딥러닝 연산 수행 장치의 회로도의 다른 예를 나타낸다.
도 3b는 도 3a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 일 예를 나타낸다.
도 3c는 도 3a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 다른 예를 나타낸다.
도 3d는 도 3a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 또 다른 예를 나타낸다.
도 4a는 딥러닝 연산 수행 장치의 회로도의 또 다른 예를 나타낸다.
도 4b는 도 4a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 일 예를 나타낸다.
도 4c는 도 4a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 다른 예를 나타낸다.
도 4d는 도 4a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 또 다른 예를 나타낸다.
도 5는 딥러닝 연산 수행 장치의 하드웨어 구현의 예를 나타낸다.
도 6은 딥러닝 연산 수행 장치의 동작의 순서도를 나타낸다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
어느 하나의 실시 예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성요소는, 다른 실시 예에서 동일한 명칭을 사용하여 설명하기로 한다. 반대되는 기재가 없는 이상, 어느 하나의 실시 예에 기재한 설명은 다른 실시 예에도 적용될 수 있으며, 중복되는 범위에서 구체적인 설명은 생략하기로 한다.
도 1a는 일 실시예에 따른 딥러닝 연산 수행 장치의 개략적인 블록도를 나타내고, 도 1b는 다른 실시예에 따른 딥러닝 연산 수행 장치의 개략적인 블록도를 나타낸다.
딥러닝 연산 수행 장치(10)는 인공 신경망(artificial neural network) 또는 뉴럴 네트워크(neural network)에서 수행되는 연산을 수행할 수 있다. 딥러닝 연산 수행 장치(10)는 뉴럴 네트워크에 대한 학습, 뉴럴 네트워크를 이용한 추론에 필요한 다양한 연산을 수행할 수 있다.
뉴럴 네트워크(또는 인공 신경망)는 기계학습과 인지과학에서 생물학의 신경을 모방한 통계학적 학습 알고리즘을 포함할 수 있다. 뉴럴 네트워크는 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다.
뉴럴 네트워크는 심층 뉴럴 네트워크 (Deep Neural Network)를 포함할 수 있다. 뉴럴 네트워크는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 퍼셉트론(perceptron), FF(Feed Forward), RBF(Radial Basis Network), DFF(Deep Feed Forward), LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit), AE(Auto Encoder), VAE(Variational Auto Encoder), DAE(Denoising Auto Encoder), SAE(Sparse Auto Encoder), MC(Markov Chain), HN(Hopfield Network), BM(Boltzmann Machine), RBM(Restricted Boltzmann Machine), DBN(Depp Belief Network), DCN(Deep Convolutional Network), DN(Deconvolutional Network), DCIGN(Deep Convolutional Inverse Graphics Network), GAN(Generative Adversarial Network), LSM(Liquid State Machine), ELM(Extreme Learning Machine), ESN(Echo State Network), DRN(Deep Residual Network), DNC(Differentiable Neural Computer), NTM(Neural Turning Machine), CN(Capsule Network), KN(Kohonen Network) 및 AN(Attention Network)를 포함할 수 있다.
예를 들어, 딥러닝 연산 수행 장치(10)는 뉴럴 네트워크에 입력 데이터를 입력시키고, 컨볼루션 등의 연산을 통해 출력 데이터를 학습하고, 학습된 인공 신경망을 이용하여 특징을 추출할 수 있다.
딥러닝 연산 수행 장치(10)는 뉴럴 네트워크에 사용되는 다양한 연산을 수행할 수 있다. 딥러닝 연산 수행 장치(10)는 연산 모드를 제어함으로써 다양한 연산을 수행할 수 있다.
뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(convolutional neural network)를 포함할 수 있다. 컨볼루션 뉴럴 네트워크는 입력 데이터로부터 특징들(features)을 추출하기 위해 이용될 수 있다. 예를 들어, 컨볼루션 신경망은 입력 영상으로부터 테두리, 선 색 등과 같은 시각적 특징들을 추출할 수 있다.
컨볼루션 뉴럴 네트워크는 복수의 레이어를 포함할 수 있다. 각각의 레이어는 데이터를 수신할 수 있고, 해당 레이어에 입력되는 데이터를 처리하여 해당 레이어에서 출력되는 데이터를 생성할 수 있다.
레이어에서 출력되는 데이터는, 컨볼루션 뉴럴 네트워크에 입력된 이미지 또는 입력된 특징 맵(feature map)을 하나 이상의 필터(filter)의 가중치(weight) 값과 컨볼루션 연산하여 생성한 특징 맵 일 수 있다. 컨볼루션 뉴럴 네트워크의 초기 레이어들은 입력으로부터 에지들 또는 그레디언트들과 같은 단순한 특징들을 추출하고, 컨볼루션 뉴럴 네트워크의 후속 레이어들은 이미지 내의 눈, 코 등과 같은 점진적으로 더 복잡한 특징들을 추출할 수 있다.
컨볼루션 뉴럴 네트워크는 컨볼루션 연산을 포함할 수 있다. 컨볼루션 연산은 임의의 폭(width) 및 높이(height)를 가지고, 하나 이상의 채널(channel)로 구성된 입력 특징맵과, 임의의 폭 및 높이를 가지는 필터와의 곱셈 및 덧셈 연산을 통해 출력 특징맵을 생성하는 과정을 포함할 수 있다.
컨볼루션 연산은 뎁스와이즈(depthwise) 컨볼루션 연산을 포함할 수 있다. 뎁스와이즈 컨볼루션 연산은 동일 채널 내에서만 컨볼루션 연산을 수행하며, 이를 통해 각 채널의 공간적 특징(spatial feature)을 추출할 수 있다.
딥러닝 연산 수행 장치(10)는 시스톨릭 어레이(100) 및 제어 회로(300)를 포함한다. 시스톨릭 어레이(100)는 복수의 MAC(multiplier accumulator) 유닛들(200-1, 200-2, ?, 200-n) 및 멀티플렉서(multiplexer)(400)를 포함할 수 있다.
딥러닝 연산 수행 장치(10)는 멀티플렉서(400)에 연결되는 쉬프트 레지스터(shift register)를 더 포함할 수 있다. 쉬프트 레지스터는 도 2a 내지 도 4d를 참조하여 자세하게 설명한다.
제어 회로(300)는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)을 제어함으로써 복수의 연산 모드를 지원할 수 있다. 복수의 연산 모드는 가산기 트리 모드, SIMD(Single Instruction Multiple Data) 모드 및 시스톨릭 모드를 포함할 수 있다. 또한, 각 모드는 입력 스테이셔너리(input stationary), 가중치 스테이셔너리(weight stationary), 출력 스테이셔너리(output stationary) 방식의 동작을 포함할 수 있다.
제어 회로(300)는 연산 모드 및 입력 데이터를 수신할 수 있다. 제어 회로(300)는 연산 모드에 대응하여 시스톨릭 어레이(100)에 포함된 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)의 동작을 제어할 수 있다.
제어 회로(300)는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n) 중 적어도 하나의 MAC 유닛에 연결되는 멀티플렉서(400) 및 상기 MAC 유닛들(200-1, 200-2, ?, 200-n)의 동작을 제어할 수 있다. 예를 들어, 제어 회로(300)는 연산 모드에 응답하여 멀티플렉서(400)를 제어함으로써 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)의 가산기의 입력을 제어할 수 있다.
제어 회로(300)는 연산 모드에 응답하여 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)의 입력을 제어할 수 있다. 제어 회로(300)는 연산 모드에 응답하여 멀티플렉서(400)를 제어함으로써 복수의 MAC 유닛들의 누산기의 출력을 제어할 수 있다.
제어 회로(300)는 프로세서(미도시)를 포함할 수 있다. 프로세서는 메모리에 저장된 데이터를 처리할 수 있다. 프로세서는 메모리에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서에 의해 유발된 인스트럭션(instruction)들을 실행할 수 있다.
"프로세서"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다.
예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
멀티플렉서(400)는 아날로그 또는 디지털 입력 신호 중 하나를 선택하여 선택된 입력을 하나의 라인에 전달할 수 있다. 멀티플렉서(400)는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n) 중 적어도 하나의 MAC 유닛에 연결될 수 있다. 멀티플렉서(400)는 복수의 멀티플렉서로 이루어진 멀티플렉서의 집합을 의미할 수 있다.
예를 들어, 멀티플렉서(400)는 제1 멀티플렉서, 제2 멀티플렉서, 제3 멀티 플렉서를 포함할 수 있다. 제1 멀티플렉서는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)의 가산기의 입력단에 연결될 수 있다. 제2 멀티플렉서는 복수의 MAC 유닛들의 누산기의 출력단에 연결될 수 있다. 제3 멀티플렉서는 제2 멀티플렉서의 출력단 및/또는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)의 출력단에 연결될 수 있다.
제1 멀티플렉서, 제2 멀티플렉서 또는 제3 멀티플렉서는 복수의 멀티플렉서를 포함할 수 있다.
멀티플렉서(400)는 도 1a의 예시와 같이 시스톨릭 어레이(100)의 내부에 위치하거나, 도 1b의 예시와 같이 시스톨릭 어레이(100)의 외부에 위치할 수 있다. 또는, 멀티플렉서(400)에 포함되는 일부의 멀티플렉서는 시스톨릭 어레이(100) 내부에 포함되고, 나머지 멀티플렉서는 시스톨릭 어레이(100)의 외부에 포함되는 것으로 구현될 수도 있다.
제어 회로(300)는 누산기의 출력을 제어하는 복수의 제2 멀티플렉서들의 출력을 제어할 수 있다.
복수의 MAC 유닛들, 제1 멀티플렉서 및 제2 멀티플렉서는 제1 클럭 주파수에 기초하여 동작할 수 있다. 다시 말해, 복수의 MAC 유닛들, 제1 멀티플렉서 및 제2 멀티플렉서는 동일한 클럭 주파수에 의해 동작할 수 있다.
제3 멀티 플렉서 및 쉬프트 레지스터는 제2 클럭 주파수에 기초하여 동작할 수 있다. 이 때, 제2 클럭 주파수는 제1 클럭 주파수의 정수배일 수 있다. 다시 말해, 제1 클럭 주파수와 상기 제2 클럭 주파수의 비율은 정수일 수 있다.
제1 클럭 주파수와 상기 제2 클럭 주파수의 비율을 제3 멀티플렉서에 연결된 MAC 유닛의 개수에 기초하여 결정될 수 있다. 예를 들어, 제3 멀티플렉서에 연결된 MAC 유닛이 4인 경우, 제2 클럭 주파수는 제1 클럭 주파수의 4배일 수 있다.
제어 회로(300)는 멀티플렉서(400) 중 제3 멀티플렉서와 쉬프트 레지스터에 복수의 MAC 유닛들에 인가되는 클럭 주파수의 정수배인 클럭 주파수를 인가할 수 있다. 다시 말해, 제3 멀티플렉서에 인가되는 클럭 주파수(clock frequency)는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)에 인가되는 클럭주파수의 정수배 일 수 있다. 멀티플렉서(400)에 대해서는 도 2a 내지 도 4d를 참조하여 상세하게 설명한다.
멀티플렉서(400)에 연결되는 쉬프트 레지스터는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)의 누산기에 연결될 수 있다. 쉬프트 레지스터는 멀티플렉서의 입력 또는 출력을 쉬프트할 수 있다. 쉬프트 레지스터는 복수의 MAC 유닛들(200-1, 200-2, ?, 200-n)에 포함된 누산기의 출력을 쉬프트할 수 있다.
딥러닝 연산 수행 장치(10)는 메모리(미도시)를 더 포함할 수 있다. 메모리는 프로세서에 의해 실행가능한 인스트럭션들(또는 프로그램)을 저장할 수 있다. 예를 들어, 인스트럭션들은 프로세서의 동작 및/또는 프로세서의 각 구성의 동작을 실행하기 위한 인스트럭션들을 포함할 수 있다.
메모리는 휘발성 메모리 장치 또는 불휘발성 메모리 장치로 구현될 수 있다.
휘발성 메모리 장치는 DRAM(dynamic random access memory), SRAM(static random access memory), T-RAM(thyristor RAM), Z-RAM(zero capacitor RAM), 또는 TTRAM(Twin Transistor RAM)으로 구현될 수 있다.
불휘발성 메모리 장치는 EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래시(flash) 메모리, MRAM(Magnetic RAM), 스핀전달토크 MRAM(Spin-Transfer Torque(STT)-MRAM), Conductive Bridging RAM(CBRAM), FeRAM(Ferroelectric RAM), PRAM(Phase change RAM), 저항 메모리(Resistive RAM(RRAM)), 나노 튜브 RRAM(Nanotube RRAM), 폴리머 RAM(Polymer RAM(PoRAM)), 나노 부유 게이트 메모리(Nano Floating Gate Memory(NFGM)), 홀로그래픽 메모리(holographic memory), 분자 전자 메모리 소자(Molecular Eelectronic Memory Device), 또는 절연 저항 변화 메모리(Insulator Resistance Change Memory)로 구현될 수 있다.
도 2a는 딥러닝 연산 수행 장치의 회로도의 일 예를 나타내고, 도 2b 내지 도 2d는 도 2a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 예들을 나타낸다.
도 2a 내지 도 2d를 참조하면, 일 실시예에 따른 딥러닝 연산 수행 장치(10)는 프로세싱 엘리먼트(Processing Element, PE)(510, 530, 550), 멀티플렉서(570) 및 시프트 레지스터(590)를 포함할 수 있다.
딥러닝 연산 수행 장치(10)는 가산기 트리 모드, SIMD(Single Instruction Multiple Data) 모드 및 시스톨릭 모드로 동작할 수 있다.
구체적으로, 딥러닝 연산 수행 장치(10)는 각 모드에서 입력 스테이셔너리(input stationary), 가중치 스테이셔너리(weight stationary), 출력 스테이셔너리(output stationary) 방식으로 동작할 수 있다.
입력 스테이셔너리 방식은 곱셈(multiply) 연산에 필요한 입력(input) 값을 고정시키고 주로 가중치(weight) 값만 바꿔가면서 행렬(matri)x 연산 또는 컨볼루션(convolution) 연산을 실행하는 방식을 의미할 수 있다.
가중치 스테이셔너리 방식은 입력 스테이셔너리 방식과는 달리 가중치 값을 고정시키고 입력 값을 바꿔가면서 연산을 실행하는 방식을 의미할 수 있다.
출력 스테이셔너리 방식은 곱셈연산에 필요한 입력 값과 가중치 값을 둘 다 동시에 바꿔가면서 출력(output)을 누산기(accumulator)를 통해 누적시키는 방식을 의미할 수 있다.
딥러닝 연산 수행 장치(10)는 SIMD 모드에서 엘리먼트와이즈 합(elementwise add), 엘리먼트와이즈 곱(elementwise multiplication), 뎁스와이즈 컨볼루션(depthwise convolution) 연산을 수행할 수 있다.
복수의 프로세싱 엘리먼트들(510, 530, 550)은 입력 데이터를 입력 받아 연산을 수행할 수 있다. 예를 들어, 각 프로세싱 엘리먼트들(510, 530, 550)은 MAC 유닛으로 구성되어, ACC = ACC + (A x B) 연산을 수행할 수 있다.
도 2b의 예시에서, 프로세싱 엘리먼트(510)는 곱셈기(511), 가산기(512) 및 누산기(accumulator)(513)를 포함할 수 있다. 프로세싱 엘리먼트(510)는 멀티플렉서(514, 515, 516, 517)을 포함할 수 있다.
곱셈기(511)는 입력 받은 데이터들에 대한 곱셈 연산을 수행할 수 있다. 곱셈기(511)는 도 2에서 A와 B를 입력 받아 곱셈을 수행하고, 곱셈의 결과를 멀티플렉서(515, 516 또는 517)로 출력할 수 있다.
가산기(512)는 입력 받은 데이터들에 대한 덧셈을 수행할 수 있다. 가산기(512)는 멀티플렉서(515) 및 멀티플렉서(516)의 출력에 대하여 덧셈을 수행하여 누산기(513) 및 멀티플렉서(517)로 출력할 수 있다.
누산기(513)는 상술한 것과 같이 가산기(512)의 출력을 누적할 수 있다. 예를 들어, 누산기(513)는 ACC = ACC + (A x B) 연산을 수행할 수 있다. 누산기(513)는 멀티플렉서(517)로 누산 결과를 출력할 수 있다.
프로세싱 엘리먼트(510)는 누산기(513)를 포함하고 있기 때문에, 딥러닝 연산 수행 장치(10)는 각 채널 별로 컨볼루션 연산을 수행하는 뎁스와이즈 컨볼루션 연산을 수행할 수 있다. 예를 들어, 프로세싱 엘리먼트들(510, 530, 550)은 임의의 높이와 폭을 갖고 하나 이상의 채널로 구성된 입력 특징 맵들과 (3, 3) 임의의 높이와 폭을 갖는 필터들 사이의 뎁스와이즈 컨볼루션 연산을 수행할 수 있다.
제어 회로(300)는 모드 신호를 제어함으로서 멀티플렉서(514, 515, 516, 517)의 출력을 제어할 수 있다. 모드 신호 '0'은 2D 형태로 연결된 가산기 트리(adder tree)가 액티베이션 값이나 가중치 값들을 하나의 클럭에 하나의 행(row)씩 다음 가산기 트리(adder tree)로 전달하는 신호일 수 있다.
모드 신호 '1'은 엘리먼트와이즈 합을 수행하기 위한 모드 신호로써, 액티베이션을 인가하는 포트(port)와 가중치를 인가하는 포트의 값들을 더하기 위한 신호일 수 있다.. 이 때, 가중치를 인가하는 포트에 또 다른 액티베이션 값을 넣어서 덧셈 연산이 수행될 수 있다.
모드 신호 '2'는 엘리먼트와이즈 곱셈을 위한 모드 신호로써, 모드 신호 '1'과 같이 또 다른 액티베이션을 가중치 포트에 인가해서 곱셈 연산을 동시에 처리하기 위한 신호일 수 있다.
모드 신호 '3'은 뎁스와이즈 컨볼루션을 위해 가산기 트리의 행 및 열(column) 단위로 각기 다른 데이터를 넣을 수 있도록 포트에서 곧바로 가산기 트리로 가는 경로(path)를 이용하기 위한 모드 신호일 수 있다.
모드 신호 '4'는 시스톨릭 어레이 모드를 위한 신호일 수 있다. 시스톨릭 어레이 모드에서는 2D(2-dimensional) 시스톨릭 어레이의 액티베이션 값과 가중치 값이 동시에 인가되며, 출력은 MAC 유닛의 있는 누산기(513)에서 누적될 수 있다
도 2a에 되시된 멀티플렉서(514, 515, 516, 517)에서 'x'는, 멀티플렉서(514, 515, 516, 517)에 표현된 숫자 이외의 모든 모드를 의미할 수 있다.
예를 들어, 멀티플렉서(514)와 같이 좌측에는 1~3이 표시되고, 우측에는 'x'가 표시되어 있는 경우, 1~3의 모드 신호가 입력될 경우 좌측의 입력을 출력하고, 그 외의 값이 모드 신호로 입력될 경우 우측의 값을 출력할 수 있다.
도 2a의 실시예의 경우, 채널 수가 적은 레이어(예를 들어, 입력 레이어)에서 우수한 연산 성능을 달성할 수 있다.
멀티플렉서(514)는 제어 회로(300)의 제어 신호에 응답하여 가중치 및 다른 행의 시스톨릭 어레이로부터 입력 받은 가중치 중 하나를 출력할 수 있다.
제어 회로(300)는 멀티플렉서(515) 및 멀티플렉서(516)를 제어함으로써 엘리먼트와이즈 합 연산을 수행할 수 있다.
멀티플렉서(515)는 가산기(512)의 입력단에 연결되어 상술한 제1 멀티플렉서로 동작할 수 있다. 멀티플렉서(515)는 제어 회로(300)로부터 수신한 제어 신호에 응답하여 0, 곱셈기(511)의 출력 및 입력 데이터 B 중 하나를 선택적으로 출력할 수 있다.
멀티플렉서(515)는 가산기(512)에 곱셈기(511)를 거치지 않은 입력 데이터 B를 가산기(512)로 출력함으로써 입력 데이터 A와 입력 데이터 B의 엘리먼트와이즈 합 연산을 수행하도록 동작할 수 있다.
멀티플렉서(516)는 제어 회로(300)로부터 수신한 제어 신호에 응답하여 입력 데이터 A, 0, 누산기(513)의 출력 중 하나를 선택적으로 출력할 수 있다.
멀티플렉서(517)는 누산기(513)의 출력단에 연결되어 상술한 제2 멀티플렉서로 동작할 수 있다. 멀티플렉서(517)는 제어 회로(300)의 제어 신호에 응답하여 누산기(513)의 출력, 가산기(512)의 출력 및 곱셈기(511)의 출력 중 하나를 선택적으로 출력할 수 있다.
멀티플렉서(517)의 출력은 프로세싱 엘리먼트(510) 외부의 멀티플렉서(570)에 입력될 수 있다.
도 2c의 예시에서, 프로세싱 엘리먼트(530)는 곱셈기(531), 가산기(532) 및 누산기(533)를 포함할 수 있다. 프로세싱 엘리먼트(530)는 멀티플렉서들(534, 535, 536, 537, 538)을 포함할 수 있다.
곱셈기(531), 가산기(532) 및 누산기(533)의 동작은 도 2b에서 설명한 것과 동일할 수 있다. 멀티플렉서(534)의 동작은 멀티플렉서(514)의 동작과 동일하고, 멀티플렉서(535)의 동작은 멀티플렉서(515)의 동작과 동일할 수 있다.
멀티플렉서(536)의 동작은 멀티플렉서(516)의 동작과 동일할 수 있고, 멀티플렉서(537)의 동작은 멀티플렉서(517)의 동작과 동일할 수 있다.
멀티플렉서(538)는 제어 회로(300)의 제어 신호에 응답하여 프로세싱 엘리먼트(510)로부터 수신한 A 값과 외부로부터 수신한 액티베이션 값 중 하나를 선택적으로 출력할 수 있다.
도 2d의 예시에서, 프로세싱 엘리먼트(550)는 시스톨릭 어레이(100)의 중앙에 위치한 프로세싱 엘리먼트의 회로도의 예를 나타낼 수 있다. 프로세싱 엘리먼트(550)는 곱셈기(551), 가산기(552-1, 552-2, 552-3) 및 누산기(553)를 포함할 수 있다. 프로세싱 엘리먼트(550)는 멀티플렉서들(554, 555, 556, 557, 558, 559-1, 559-2)을 포함할 수 있다.
곱셈기(551), 가산기(552-1, 552-2, 552-3) 및 누산기(553)의 동작은 도 2b에서 설명한 것과 동일할 수 있다. 멀티플렉서(554)의 동작은 멀티플렉서(514)의 동작과 동일하고, 멀티플렉서(555)의 동작은 멀티플렉서(515)의 동작과 동일할 수 있다.
곱셈기(551)는 입력 데이터 A와 B를 곱하여 멀티플렉서(555) 및 멀티플렉서(557)로 출력할 수 있다.
가산기(552-1)는 멀티플렉서(555)의 출력과 멀티플렉서(556)의 출력을 더하여 가산기(552-3) 및 멀티플렉서(559-3)으로 출력할 수 있다. 가산기(552-2)는 멀티플렉서(559-1)와 멀티플렉서(559-2)의 출력을 더하여 가산기(552-3)으로 출력할 수 있다. 가산기(552-3)는 가산기(552-1)의 출력과 가산기(552-2)의 출력을 더하여 멀티플렉서(559-3)으로 출력할 수 있다.
멀티플렉서(556)는 멀티플렉서(516)와는 달리 제어 회로(300)의 제어 신호에 응답하여 누산기(553)의 출력 및 입력 데이터 A 중 하나를 선택적으로 가산기(552-1)에 출력할 수 있다.
멀티플렉서(557)는 누산기(553)의 출력, 입력 데이터 B 및 멀티플렉서(559-3)의 출력 중 하나를 선택적으로 출력할 수 있다. 멀티플렉서(557)는 멀티플렉서(517)와 마찬가지로 프로세싱 엘리먼트(550)의 외부에 위치한 멀티플렉서(570)에 연결될 수 있다.
멀티플렉서(558)의 동작은 멀티플렉서(538)의 동작과 동일할 수 있다. 멀티플렉서(559-1)는 제어 회로(300)의 제어 신호에 응답하여 프로세싱 엘리먼트(550)의 좌측에 위치한 프로세싱 엘리먼트의 가산기의 출력과 0 중 하나를 가산기(552-2)로 출력할 수 있다.
멀티플렉서(559-2)는 프로세싱 엘리먼트(550)의 우측에 위치한 프로세싱 엘리먼트의 가산기의 출력과 0 중 하나를 가산기(552-2)로 출력할 수 있다. 가산기(552-2)는 멀티플렉서(559-1)와 멀티플렉서(559-2)의 출력의 덧셈을 수행할 수 있다.
멀티플렉서(559-3)는 제어 회로(300)의 제어 신호에 응답하여 가산기(552-1)와 가산기(552-2)의 출력 중 하나를 누산기(553) 또는 멀티플렉서(557)로 출력할 수 있다.
멀티플렉서(570)는 프로세싱 엘리먼트들의 출력 중 하나를 선택적으로 쉬프트 레지스터(590)로 출력할 수 있다. 쉬프트 레지스터(590)는 프로세싱 엘리먼트들(510 내지550)에 인가되는 클럭 주파수보다 높은 주파수를 가지는 클럭 주파수가 인가됨으로써 프로세싱 엘리먼트(510, 내지 550)의 출력을 지연 없이 출력단에 전송할 수 있다.
도 3a는 딥러닝 연산 수행 장치의 회로도의 다른 예를 나타내고, 도 3b 내지 도 3d는 도 3a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 예들을 나타낸다.
도 3a 내지 도 3d를 참조하면, 다른 실시예에 따른 딥러닝 연산 수행 장치(10)는 복수의 프로세싱 엘리먼트(610, 630, 650), 멀티플렉서(670) 및 시프트 레지스터(690)를 포함할 수 있다.
딥러닝 연산 수행 장치(10)는 시스톨릭 가산기 트리 모드 및 SIMD 모드로 동작할 수 있다. 구체적으로, 딥러닝 연산 수행 장치(10)는 시스톨릭 가산기 트리 모드에서 입력 스테이셔너리 및 가중치 스테이셔너리 방식으로 동작할 수 있다.
딥러닝 연산 수행 장치(10)는 SIMD 모드에서 엘리먼트와이즈 합, 엘리먼트와이즈 곱 및 뎁스와이즈 컨볼루션 연산을 수행할 수 있다.
도 3a의 실시예에서는 도 2a의 실시예에 비해서 시스톨릭 모드의 출력 스테이셔너리 방식을 제외시킨 구조로 연산에 소요되는 전력 소모를 절감할 수 있다.
도 3b의 예시에서, 프로세싱 엘리먼트(610)는 곱셈기(611), 가산기(612) 및 누산기(613)를 포함할 수 있다. 프로세싱 엘리먼트(610)는 멀티플렉서(614, 615, 616, 617)을 포함할 수 있다.
곱셈기(611), 가산기(612) 및 누산기(613)의 동작은 도 2b에서 설명한 곱셈기(511), 가산기(512) 및 누산기(513)와 동일할 수 있다. 멀티플렉서(614, 615, 616, 617)의 동작은 도 2b에서 설명한 멀티플렉서(514, 515, 516, 517)의 동작과 동일할 수 있다.
도 3c의 예시에서, 프로세싱 엘리먼트(630)는 곱셈기(631), 가산기(632) 및 누산기(633)를 포함할 수 있다. 프로세싱 엘리먼트(630)는 멀티플렉서(634,635, 636, 637)을 포함할 수 있다.
곱셈기(631), 가산기(632) 및 누산기(633)의 동작은 도 2b에서 설명한 것과 동일할 수 있다. 멀티플렉서(634)의 동작은 멀티플렉서(514)의 동작과 동일하고, 멀티플렉서(635)의 동작은 멀티플렉서(515)의 동작과 동일할 수 있다.
멀티플렉서(636)의 동작은 멀티플렉서(516)의 동작과 동일할 수 있고, 멀티플렉서(637)의 동작은 멀티플렉서(517)의 동작과 동일할 수 있다.
프로세싱 엘리먼트(630)는 도 2c의 프로세싱 엘리먼트(630)와 달리 좌측의 프로세싱 엘리먼트로부터 데이터 A를 수신하는 경로가 없을 수 있다.
도 3d의 예시에서, 프로세싱 엘리먼트(650)는 시스톨릭 어레이(100)의 중앙에 위치한 프로세싱 엘리먼트의 회로도의 예를 나타낼 수 있다. 프로세싱 엘리먼트(650)는 곱셈기(651) 및 가산기(652-1, 652-2, 652-3)을 포함할 수 있다. 프로세싱 엘리먼트(650)는 멀티플렉서들(654, 655, 656, 657, 658-1, 658-2, 658-3)을 포함할 수 있다.
곱셈기(651), 가산기(652-1, 652-2, 652-3) 및 누산기(653)의 동작은 도 2b에서 설명한 것과 동일할 수 있다. 멀티플렉서(654)의 동작은 멀티플렉서(514)의 동작과 동일하고, 멀티플렉서(655)의 동작은 멀티플렉서(515)의 동작과 동일할 수 있다. 멀티플렉서(656)의 동작은 멀티플렉서 (556)의 동작과 동일할 수 있다.
멀티플렉서(657)는 제어 회로(300)의 제어 신호에 응답하여 누산기(653)의 출력, 입력 데이터 B 및 멀티플렉서(658-3)의 출력 중 하나를 선택적으로 출력할 수 있다. 멀티플렉서(657)는 프로세싱 엘리먼트(650)의 외부에 위치한 멀티플렉서(670)에 연결될 수 있다.
멀티플렉서(658-1, 658-2, 658-3)의 동작은 도 2d의 멀티플렉서(559-1, 559-2, 559-3)의 동작과 동일할 수 있다.
멀티플렉서(670) 및 쉬프트 레지스터(690)의 동작은 위에서 설명한 멀티플렉서(570) 및 쉬프트 레지스터(590)의 동작과 동일할 수 있다.
도 4a는 딥러닝 연산 수행 장치의 회로도의 또 다른 예를 나타내고, 도 4b 내지 도 4d는 도 4a에 도시된 딥러닝 연산 수행 장치의 프로세싱 엘리먼트의 예들을 나타낸다.
도 4a 내지 도 4d를 참조하면, 또 다른 실시예에 따른 딥러닝 연산 수행 장치(10)는 복수의 프로세싱 엘리먼트들(710, 730, 750), 멀티플렉서(770) 및 시프트 레지스터(790)를 포함할 수 있다.
딥러닝 연산 수행 장치(10)는 시스톨릭 가산기 트리 모드 및 SIMD 모드로 동작할 수 있다. 구체적으로, 딥러닝 연산 수행 장치(10)는 시스톨릭 가산기 트리 모드에서 입력 스테이셔너리 및 가중치 스테이셔너리 방식으로 동작할 수 있다. 딥러닝 연산 수행 장치(10)는 SIMD 모드에서 뎁스와이즈 컨볼루션 연산을 수행할 수 있다.
도 4a의 실시예에서는 도 2a 및 도 3a의 실시예와는 달리 매 연산 사이클(cycle) 마다 출력을 처리하지 않을 수 있다. 이를 위해, 시스톨릭 어레이(100)에 포함된 모든 프로세싱 엘리먼트의 출력을 멀티플렉서(770)에 연결하고, 제어 회로(300)가 멀티플렉서(770)의 선택 신호(selection signal)을 생성하는 논리 회로에 인가되는 클럭 주파수를 프로세싱 엘리먼트들(710, 730, 750)에 인가되는 클럭 주파수의 정수배가 되도록 제어함으로써 출력 와이어(wire)의 수를 크게 줄일 수 있다.
도 4a의 예시는 별도의 엘리먼트와이즈 연산을 지원하는 벡터 프로세서가 존재할 경우, 뎁스와이즈 컨볼루션 및 행렬 연산을 지원할 수 있다. 이를 통해, 일반적인 가산기 트리에서 뎁스와이즈 컨볼루션 연산을 수행하는 경우에 비하여 MAC 이용 효율(utilization)을 높일 수 있다.
도 4b의 예시에서, 프로세싱 엘리먼트(710)는 곱셈기(711), 가산기(712) 및 누산기(713)를 포함할 수 있다. 프로세싱 엘리먼트(710)는 멀티플렉서(714, 715) 및 쉬프트 레지스터(716)를 포함할 수 있다.
곱셈기(711), 가산기(712) 및 누산기(713)의 동작은 도 2b에서 설명한 곱셈기(511), 가산기(512) 및 누산기(513)와 동일할 수 있다. 멀티플렉서(714)의 동작은 도 2b에서 설명한 멀티플렉서(514) 동작과 동일할 수 있다.
멀티플렉서(715)는 제어 회로(300)의 제어 신호에 응답하여 0 및 곱셈기(711)의 출력 중 하나를 선택적으로 가산기(712)에 출력할 수 있다.
쉬프트 레지스터(716)는 입력 받은 클럭 주파수에 기초하여 누산기(713)의 출력을 쉬프트할 수 있다.
도 4c의 예시에서, 프로세싱 엘리먼트(730)는 곱셈기(731), 가산기(732) 및 누산기(733)를 포함할 수 있다. 프로세싱 엘리먼트(730)는 멀티플렉서(734, 735) 및 쉬프트 레지스터(736)를 포함할 수 있다.
곱셈기(731), 가산기(732) 및 누산기(733)의 동작은 도 4b에서 설명한 것과 동일할 수 있다. 멀티플렉서(734)의 동작은 멀티플렉서(714)의 동작과 동일할 수 있다.
멀티플렉서(735)는 제어 회로(300)의 제어 신호에 응답하여 프로세싱 엘리먼트(710)의 곱셈기(711)의 출력과 누산기(733)의 출력 중 하나를 선택적으로 가산기(732)로 출력할 수 있다. 쉬프트 레지스터(736)의 동작은 쉬프트 레지스터(716)의 동작과 동일할 수 있다.
도 4d의 예시에서, 프로세싱 엘리먼트(750)는 시스톨릭 어레이(100)의 중앙에 위치한 프로세싱 엘리먼트의 회로도의 예를 나타낼 수 있다. 프로세싱 엘리먼트(750)는 곱셈기(751) 및 가산기(752-1, 752-2, 752-3)을 포함할 수 있다. 프로세싱 엘리먼트(750)는 멀티플렉서들(754, 755-1, 755-2, 755-3)을 포함할 수 있다.
곱셈기(751), 가산기(752-1, 752-2, 752-3) 및 누산기(753)의 동작은 도 2b에서 설명한 것과 동일할 수 있다. 멀티플렉서(754)의 동작은 멀티플렉서(714)의 동작과 동일하고, 멀티플렉서(755-1)의 동작은 멀티플렉서(735)의 동작과 동일할 수 있다.
멀티플렉서(755-2)는 제어 회로(300)의 제어 신호에 응답하여 프로세싱 엘리먼트(750)의 우측에 위치한 프로세싱 엘리먼트의 가산기의 출력 과 0 중 하나를 선택적으로 가산기(752-2)로 출력할 수 있다.
멀티플렉서(755-3)는 제어 회로(300)의 제어 신호에 응답하여 가산기(752-1)와 가산기(752-3)의 출력 중 하나를 선택적으로 누산기(753)으로 출력할 수 있다. 쉬프트 레지스터(756)의 동작은 쉬프트 레지스터(716)의 동작과 동일할 수 있다.
도 5는 딥러닝 연산 수행 장치의 하드웨어 구현의 예를 나타낸다.
도 5를 참조하면, 딥러닝 연산 수행 장치(10)는 인스트럭션 메모리(911), CPU(Central Processing Unit)(913), 주변장치(peripherals)(915) 및 SFR(Special Function Register)(917)을 포함할 수 있다.
딥러닝 연산 수행 장치(10)는 NLF(Non Linear Function)(951), MAC 어레이(953), DMA(Direct Memory Access)(955), 제어부(971)를 포함할 수 있다.
또한, 딥러닝 연산 수행 장치(10)는 복수의 SRAM(Static Random Access Memory)(975)를 포함하는 메모리 컨트롤러(973)를 더 포함할 수 있다.
도 6은 딥러닝 연산 수행 장치의 동작의 순서도를 나타낸다.
도 6을 참조하면, 제어 회로(300)는 연산 모드 및 입력 데이터를 수신할 수 있다(1710). 연산 모드는 복수의 연산 모드는 가산기 트리 모드, SIMD(Single Instruction Multiple Data) 모드 및 시스톨릭 모드를 포함할 수 있다. 또한, 각 모드는 입력 스테이셔너리(input stationary), 가중치 스테이셔너리(weight stationary), 출력 스테이셔너리(output stationary) 방식의 동작을 포함할 수 있다.
제어 회로(300)는 연산 모드에 대응하여 시스톨릭 어레이(100)에 포함된 복수의 MAC 유닛들(200-1, 200-2, ? 200-n)의 동작을 제어할 수 있다(1730).
제어 회로(300)는 복수의 MAC 유닛들(200-1, 200-2, ? 200-n) 중 적어도 하나의 MAC 유닛에 연결되는 멀티플렉서(400)를 제어할 수 있다. 구체적으로, 제어 회로(300)는 멀티플렉서(400)에 복수의 MAC 유닛들(200-1, 200-2, ? 200-n)에 인가되는 클럭 주파수의 정수배인 클럭 주파수를 인가할 수 있다.
제어 회로(300)는 연산 모드에 응답하여 복수의 MAC 유닛들(200-1, 200-2, ? 200-n)의 가산기의 입력을 제어할 수 있다. 제어 회로(300)는 연산 모드에 응답하여 복수의 MAC 유닛들(200-1, 200-2, ? 200-n)의 누산기의 출력을 제어할 수 있다. 또한, 제어 회로(300)는 누산기의 출력을 제어하는 복수의 제2 멀티플렉서들의 출력을 제어할 수 있다.
멀티플렉서(400)에 연결된 쉬프트 레지스터는 멀티플렉서(400)의 입력 또는 출력을 쉬프트할 수 있다. 구체적으로, 쉬프트 레지스터는 복수의 MAC 유닛들(200-1, 200-2, ? 200-n)에 포함된 누산기의 출력을 쉬프트할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (17)

  1. 복수의 MAC(multiplier accumulator) 유닛들을 포함하는 시스톨릭 어레이(systolic array); 및
    상기 복수의 MAC 유닛들 중 적어도 하나의 MAC 유닛에 연결되는 멀티플렉서(multiplexer) 및 복수의 연산 모드에 따라 상기 MAC 유닛들의 동작을 제어하는 제어 회로
    를 포함하는 딥러닝 연산 수행 장치.
  2. 제1항에 있어서,
    상기 멀티플렉서는,
    상기 복수의 MAC 유닛들의 가산기의 입력단에 연결되는 제1 멀티플렉서
    를 포함하는 딥러닝 연산 수행 장치.
  3. 제1항에 있어서,
    상기 멀티플렉서는,
    상기 복수의 MAC 유닛들의 누산기의 출력단에 연결되는 제2 멀티플렉서
    를 포함하는 딥러닝 연산 수행 장치.
  4. 제1항에 있어서,
    상기 멀티플렉서는, 상기 복수의 MAC 유닛들의 출력단에 연결되는 제3 멀티플렉서를 더 포함하고,
    상기 제3 멀티플렉서에 연결되는 쉬프트 레지스터(shift register)를 더 포함하는
    딥러닝 연산 수행 장치.
  5. 제1항에 있어서,
    상기 복수의 MAC 유닛들, 제1 멀티플렉서 및 제2 멀티플렉서는 제1 클럭 주파수에 기초하여 동작하는
    딥러닝 연산 수행 장치.
  6. 제4항에 있어서,
    상기 제3 멀티플렉서 및 상기 쉬프트 레지스터는 제2 클럭 주파수에 기초하여 동작하고,
    상기 제2 클럭 주파수는 상기 MAC 유닛, 제1 멀티플렉서 및 제2 멀티플렉서에 인가되는 제1 클럭 주파수의 정수배인
    딥러닝 연산 수행 장치.
  7. 제6항에 있어서,
    상기 제1 클럭 주파수와 상기 제2 클럭 주파수의 비율은 상기 제3 멀티플렉서에 연결된 MAC 유닛의 개수에 기초하여 결정되는
    딥러닝 연산 수행 장치.
  8. 제1항에 있어서,
    상기 멀티플렉서는 상기 복수의 MAC 유닛들의 입력단에 연결되는
    딥러닝 연산 수행 장치.
  9. 연산 모드 및 입력 데이터를 수신하는 단계; 및
    상기 연산 모드에 대응하여 시스톨릭 어레이에 포함된 복수의 MAC 유닛들의 동작을 제어하는 단계; 및
    상기 복수의 MAC 유닛들 중 적어도 하나의 MAC 유닛에 연결되는 멀티플렉서를 제어하는 단계
    를 포함하는 딥러닝 연산 수행 방법.
  10. 제9항에 있어서,
    상기 멀티플렉서를 제어하는 단계는,
    상기 연산 모드에 응답하여 상기 복수의 MAC 유닛들의 가산기의 입력을 제어하는 단계
    를 포함하는 딥러닝 연산 수행 방법.
  11. 제9항에 있어서,
    상기 멀티플렉서를 제어하는 단계는,
    상기 연산 모드에 응답하여 상기 복수의 MAC 유닛들의 누산기의 출력을 제어하는 단계
    를 포함하는 딥러닝 연산 수행 방법.
  12. 제9항에 있어서,
    상기 멀티플렉서를 제어하는 단계는,
    상기 복수의 MAC 유닛들의 출력을 제어하는 단계; 및
    상기 복수의 MAC 유닛들의 출력을 쉬프트하는 단계
    를 포함하는 딥러닝 연산 수행 방법.
  13. 제9항에 있어서,
    상기 복수의 MAC 유닛들의 제어, 상기 복수의 MAC 유닛들의 가산기의 입력의 제어 및 상기 복수의 MAC 유닛들의 누산기의 출력의 제어는 제1 클럭 주파수에 기초하여 수행되는
    딥러닝 연산 수행 방법.
  14. 제12항에 있어서,
    상기
    상기 복수의 MAC 유닛들의 출력의 제어 및 상기 복수의 MAC 유닛들의 출력의 쉬프트는 제2 클럭 주파수에 기초하여 수행되고,
    상기 제2 클럭 주파수는,
    상기 복수의 MAC 유닛들의 제어, 상기 복수의 MAC 유닛들의 가산기의 입력의 제어 및 상기 복수의 MAC 유닛들의 누산기의 출력의 제어를 위한 제1 클럭 주파수의 정수배인
    딥러닝 연산 수행 방법.
  15. 제14항에 있어서,
    상기 제1 클럭 주파수와 상기 제2 클럭 주파수의 비율은 상기 복수의 MAC 유닛들의 출력을 제어하는 멀티플렉서에 연결된 MAC 유닛의 개수에 기초하여 결정되는
    딥러닝 연산 수행 방법.
  16. 제9항에 있어서,
    상기 멀티플렉서를 제어하는 단계는,
    상기 연산 모드에 응답하여 상기 복수의 MAC 유닛들의 입력을 제어하는 단계
    를 포함하는 딥러닝 연산 수행 방법.
  17. 하드웨어와 결합되어 제9항 내지 제16항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
KR1020200096008A 2020-07-31 2020-07-31 딥러닝 연산 수행 방법 및 장치 KR20220015680A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200096008A KR20220015680A (ko) 2020-07-31 2020-07-31 딥러닝 연산 수행 방법 및 장치
US17/102,884 US11960855B2 (en) 2020-07-31 2020-11-24 Method and apparatus for performing deep learning operations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200096008A KR20220015680A (ko) 2020-07-31 2020-07-31 딥러닝 연산 수행 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220015680A true KR20220015680A (ko) 2022-02-08

Family

ID=80004293

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200096008A KR20220015680A (ko) 2020-07-31 2020-07-31 딥러닝 연산 수행 방법 및 장치

Country Status (2)

Country Link
US (1) US11960855B2 (ko)
KR (1) KR20220015680A (ko)

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200504592A (en) * 2003-07-24 2005-02-01 Ind Tech Res Inst Reconfigurable apparatus with high hardware efficiency
US7747088B2 (en) 2005-09-28 2010-06-29 Arc International (Uk) Limited System and methods for performing deblocking in microprocessor-based video codec applications
KR101578052B1 (ko) 2008-04-02 2015-12-17 삼성전자주식회사 움직임 추정 장치 및 이를 구비하는 동영상 부호화 장치
US9207908B1 (en) * 2013-01-29 2015-12-08 Altera Corporation Digital signal processing blocks with embedded arithmetic circuits
US10489116B1 (en) * 2014-07-09 2019-11-26 Altera Corporation Programmable integrated circuits with multiplexer and register pipelining circuitry
US9747110B2 (en) * 2015-05-20 2017-08-29 Altera Corporation Pipelined cascaded digital signal processing structures and methods
US10049082B2 (en) 2016-09-15 2018-08-14 Altera Corporation Dot product based processing elements
US10838910B2 (en) 2017-04-27 2020-11-17 Falcon Computing Systems and methods for systolic array design from a high-level program
US10698974B2 (en) 2017-05-17 2020-06-30 Google Llc Low latency matrix multiply unit
US11386644B2 (en) 2017-10-17 2022-07-12 Xilinx, Inc. Image preprocessing for generalized image processing
US10915297B1 (en) * 2017-11-15 2021-02-09 Habana Labs Ltd. Hardware accelerator for systolic matrix multiplication
KR102610842B1 (ko) * 2017-12-01 2023-12-07 한국전자통신연구원 뉴럴 네트워크에서의 프로세싱 엘리먼트 및 그 동작 방법
US11360930B2 (en) * 2017-12-19 2022-06-14 Samsung Electronics Co., Ltd. Neural processing accelerator
US11003620B2 (en) 2017-12-22 2021-05-11 Intel Corporation Systolic array of pipelined processing engines for implementing dynamic programming algorithms
KR102487535B1 (ko) 2018-02-20 2023-01-12 삼성전자주식회사 시스톨릭 배열(Systolic Array)을 이용하여 딥 러닝(Deep Learning) 연산을 수행하는 방법 및 장치
KR20200011362A (ko) 2018-07-24 2020-02-03 에스케이하이닉스 주식회사 신경망 가속 장치 및 그것의 동작 방법
WO2020046642A1 (en) * 2018-08-31 2020-03-05 Flex Logix Technologies, Inc. Multiplier-accumulator circuit, logic tile architecture for multiply-accumulate and ic including logic tile array
US11216532B2 (en) 2018-09-26 2022-01-04 Intel Corporation Circuitry for high-bandwidth, low-latency machine learning
KR20210105053A (ko) * 2020-02-18 2021-08-26 에스케이하이닉스 주식회사 연산 회로 및 그것을 포함하는 딥 러닝 시스템
KR20220154764A (ko) * 2020-03-29 2022-11-22 마이크론 테크놀로지, 인크. 추론 엔진 회로 아키텍처
KR20220015813A (ko) 2020-07-31 2022-02-08 삼성전자주식회사 딥러닝 연산 수행 방법 및 장치

Also Published As

Publication number Publication date
US11960855B2 (en) 2024-04-16
US20220035629A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
JP6813561B2 (ja) ニューラルネットワークにおける畳み込み計算のための方法および電子デバイス
US20220277199A1 (en) Method for data processing in neural network system and neural network system
US20210034950A1 (en) Method for implementing neural network model in heterogeneous computing platform and apparatus for performing the same
KR20230084449A (ko) 신경 프로세싱 유닛
WO2023130725A1 (zh) 一种基于随机电阻阵列的储备池计算模型的硬件实现方法、装置及电子设备
CN110580519A (zh) 一种卷积运算结构及其方法
KR20240025523A (ko) 깊이별 CNN(convolutional neural network)을 지원하는 CIM(computation in memory) 아키텍처 및 데이터 흐름
KR102544063B1 (ko) 데이터 재사용이 가능한 신경 프로세싱 유닛 및 그 방법
CN114912590A (zh) 处理器、操作处理器的方法以及包括处理器的电子装置
KR20220015680A (ko) 딥러닝 연산 수행 방법 및 장치
CN115719087A (zh) 长短期记忆神经网络电路及控制方法
KR20240025540A (ko) 깊이별 콘볼루션을 위한 메모리 아키텍처에서의 컴퓨테이션
KR20240036594A (ko) 인-메모리 연산을 위한 부분 합 관리 및 재구성가능 시스톨릭 플로우 아키텍처들
JP2022130336A (ja) ニューラルネットワーク演算方法及び装置
KR20220030681A (ko) 뉴럴 네트워크 연산 장치 및 방법
KR102421323B1 (ko) Pcm 기반의 시냅스 소자 및 그 동작 방법
KR20210091947A (ko) 뉴럴 네트워크 모델의 분산 처리 방법 및 장치
KR20220008743A (ko) 메모리 내의 컴퓨팅 회로 및 방법
KR20210100335A (ko) 멀티 디바이스 기반 추론 방법 및 장치
KR20220147280A (ko) 효율적인 메모리 접근 방식을 이용한 뉴럴 네트워크 연산 가속 방법 및 장치
KR20220121334A (ko) 뉴럴 네트워크 연산 방법 및 장치
KR20220032869A (ko) 뉴럴 네트워크 연산 방법 및 장치
KR102614909B1 (ko) 희소화를 이용한 뉴럴 네트워크 연산 방법 및 장치
KR102311659B1 (ko) 컨볼루션 신경망 모델에 기초한 컴퓨팅 장치 및 그 동작 방법
CN116910437B (zh) 矩阵转置装置、方法、ai处理器及计算机设备

Legal Events

Date Code Title Description
A201 Request for examination