KR102316670B1

KR102316670B1 - 연산 가속기

Info

Publication number: KR102316670B1
Application number: KR1020207002212A
Authority: KR
Inventors: 헹 리아오; 후 리우; 하오 왕
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2017-07-07
Filing date: 2018-03-08
Publication date: 2021-10-22
Also published as: CN112214727B; CN112214726A; CA3069185A1; CN112214726B; US11321423B2; CN109213962B; EP3637281A4; WO2019007095A1; JP7016942B2; US11720646B2; CN109213962A; BR112020000167B1; EP3637281A1; CN112214727A; US20220327181A1; CA3069185C; JP2020526830A; US20200142949A1; KR20200019736A; SG11202000140QA

Abstract

본 발명은 데이터 계산 기술 분야에 관한 것으로, 2개의 N*N 매트릭스에 대하여 곱셈 연산을 수행하는 시간을 줄이기 위한 연산 가속기를 개시한다. 연산 가속기는 제1 메모리, 제2 메모리, 연산 회로, 및 제어기를 포함한다. 연산 회로는 버스를 사용해서 제1 메모리 및 제2 메모리와 데이터 통신을 수행할 수 있다. 연산 회로는 제1 메모리 및 제2 메모리로부터 매트릭스 데이터를 추출하고 곱셈 연산을 수행하도록 구성된다. 제어기는, 사전설정된 프로그램 또는 명령어에 따라, 연산 회로를 제어해서 곱셈 연산을 완료하도록 구성된다. 연산 가속기는 2개의 매트릭스에 대하여 곱셈 연산을 수행하도록 구성될 수 있다.

Description

연산 가속기

본원은 데이터 계산 기술 분야에 관한 것으로, 특히 연산 가속기(operation accelerator)에 관한 것이다.

현재, 2개의 매트릭스 A 및 B로 이루어진 곱(product)은 하기의 두 가지 방식 중 어느 하나로 계산될 수 있다:

방식 1: 벡터 프로세서를 사용해서 계산을 수행한다.

C=A×B이고, 벡터 프로세서가 동시에 M개의 요소를 계산할 수 있다고 가정한다. 도 1을 참조하면, 벡터 프로세서는 매트릭스 A의 행 i에서의 벡터들(요소 A_i1, A_i2, ..., A_i(M-1), 및 A_iM을 포함)을 소스 레지스터 Reg0에 로딩하고 나서, 매트릭스 B의 행 j에서의 벡터들(요소 B_j1, B_j2, ..., B_j(M-1), 및 B_jM을 포함)을 레지스터 Reg1에 로딩해서 Reg0 및 Reg1의 상응하는 요소들을 곱하고; 마지막으로, 벡터 프로세서는 가산기 트리(adder tree)를 사용해서 누적 연산을 완료하고, 매트릭스 C의 행 i 및 열 j에서의 데이터 C_ij를 계산한다. 복수의 계산 이후에, 매트릭스 C를 얻을 수 있다.

방식 2: 계산 속도를 더 높이기 위해, 2차원 연산 어레이를 사용함으로써 매트릭스들의 곱셈 연산을 완료할 수 있다.

예를 들어, 2차원 연산 어레이는 N*N 시스톨릭 어레이(systolic array)일 수 있다. 하나의 벡터와 하나의 매트릭스를 곱하는 연산은 하나의 이러한 시스톨릭 어레이를 사용함으로써 각각의 클록 사이클(clock cycle)에서 완료될 수 있다.

방식 1에 있어서, N^3 곱셈 연산이 2개의 N*N 매트릭스의 곱셈 연산을 완료하는 데 필요하며, 벡터 프로세서가 각각의 클록 사이클에서 M개의 요소를 곱할 수 있기 때문에, 하나의 곱셈 연산을 완료하는 데 필요한 지속기간은 N^3/M 클록 사이클이다. 방식 2에 있어서, N^3 곱셈 연산이 2개의 N*N 매트릭스의 곱셈 연산을 완료하는 데 필요하며, 시스톨릭 어레이가 N^2 연산 유닛을 가지기 때문에, 하나의 매트릭스 연산을 완료하는 데 필요한 지속기간은 N^3/N^2=N 클록 사이클이다. 방식 1 및 방식 2 모두에 있어서는, N*N 매트릭스의 곱셈 연산을 완료하기까지 긴 시간이 걸린다.

본원의 실시형태들은 2개의 N*N 매트릭스에 대하여 곱셈 연산을 수행하는 시간을 줄이기 위해 연산 가속기를 제공한다.

전술한 목적을 달성하기 위해, 본원의 실시형태들은 하기의 기술적인 해법을 제공한다:

제1 양태에 따르면, 연산 가속기가 제공된다. 연산 가속기는: 제1 매트릭스를 저장하도록 구성― 제1 매트릭스는 M*N 매트릭스임 ―되는 제1 메모리; 제2 매트릭스를 저장하도록 구성― 제2 매트릭스는 N*K 매트릭스임 ―되는 제2 메모리; 제1 메모리 및 제2 메모리에 연결되는 연산 회로― 연산 회로는 매트릭스 곱셈 회로 및 가산기 회로를 포함하고; 매트릭스 곱셈 회로는 연산 블록들을 포함하는 M개의 연산 그룹을 포함하고, 각각의 연산 그룹은 K개의 연산 블록을 포함하고, 각각의 연산 블록은 N개의 연산 유닛을 포함하고, 연산 유닛에는 제각기 제1 메모리 및 제2 메모리에 의해 송신되는 데이터를 수신하는 데 사용되는 2개의 입력이 제공되고, 연산 유닛은 2개의 데이터 조각을 곱하고; 가산기 회로는 동일한 연산 블록에 속하는 연산 유닛들의 계산 결과들을 더해서 각각의 연산 블록의 계산 결과를 취득하도록 구성됨 ―; 및 연산 회로에 연결되는 제어기를 포함하고, 제어기는 하기의 동작들: 즉, 제2 매트릭스의 K개의 열 벡터를 각각의 연산 그룹의 K개의 연산 블록에 제각기 기록― 제2 매트릭스의 벡터들의 g번째 열의 j번째 데이터 조각이 K개의 연산 블록에서 g번째 연산 블록의 j번째 연산 유닛에 기록됨 ―하는 동작; 제1 매트릭스의 M개의 행 벡터를 M개의 연산 그룹에 제각기 송신― 제1 매트릭스의 i번째 행 벡터는 M개의 연산 그룹에서 i번째 연산 그룹에 송신되고, i번째 연산 그룹에서의 각각의 연산 블록의 j번째 연산 유닛은 i번째 행 벡터의 j번째 데이터 조각을 수신함 ―하는 동작을 수행하도록 구성되고; M개의 연산 그룹의 각각의 연산 유닛은 연산 유닛에 의해 수신되는 2개의 데이터 조각에 대하여 곱셈 연산을 수행하고, 가산기 회로는 각각의 연산 블록의 연산 유닛들의 계산 결과들을 더해서 제3 매트릭스를 취득하고, 제3 매트릭스는 제1 매트릭스와 제2 매트릭스의 곱이고, 제3 매트릭스의 i 행 및 g 열의 요소는 i번째 연산 그룹의 g번째 연산 블록의 계산 결과이고, M, N, 및 K는 0보다 큰 정수이고, i는 0보다 크고 M+1보다 작은 정수이고, g는 0보다 크고 K+1보다 작은 정수이고, j는 0보다 크고 N+1보다 작은 정수이다.

제1 양태에서 제공되는 방법에 있어서, M개의 연산 그룹이 M*N*K개의 연산 유닛을 포함하기 때문에, 연산 가속기는 하나의 클록 사이클 내에 M*N*K 곱셈 연산을 수행할 수 있다. 이 경우, 연산 가속기는 M*N 매트릭스와 N*K 매트릭스의 곱을 계산할 수 있다. 종래 기술에 비해, 이 방법은 매트릭스 곱셈 연산에 필요한 시간을 크게 줄일 수 있다.

가능한 설계에 있어서, 가산기 회로는 M*K개의 가산기 트리를 포함하고, 하나의 가산기 트리는 하나의 연산 블록에 대응하고, 가산기 트리는 대응하는 연산 블록의 N개의 연산 유닛에 연결되고, 가산기 트리는 가산기 트리에 연결되는 N개의 연산 유닛의 계산 결과들을 더하도록 구성된다.

가능한 설계에 있어서, 가산기 회로의 구성 구조가 구체적으로 제공된다.

가능한 설계에 있어서, 연산 유닛은 저장 유닛에 기록되는 데이터를 저장하도록 구성되는 저장 유닛; 및 수신된 데이터와 저장 유닛에 저장된 데이터의 곱을 계산하도록 구성되는, 저장 유닛에 연결된 곱셈 회로를 포함한다.

이 가능한 설계에 있어서, 연산 유닛의 구성 구조가 구체적으로 제공된다.

가능한 설계에 있어서, 연산 유닛은 복수의 저장 유닛, 곱셈 회로, 복수의 저장 유닛에 연결되는 제1 선택 회로, 및 복수의 저장 유닛 및 곱셈 회로에 연결되는 제2 선택 회로를 포함한다. 복수의 저장 유닛은 데이터를 저장하도록 구성되고; 제1 선택 회로는 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 곱셈 회로가 곱셈 연산을 수행하기 전에 복수의 저장 유닛으로부터 선택하도록 구성되고; 제2 선택 회로는 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 곱셈 회로가 곱셈 연산을 수행할 때 선택하도록 구성되고; 곱셈 회로는 수신된 데이터와 제2 선택 회로에 의해 선택되는 저장 유닛에 저장된 데이터의 곱을 계산하도록 구성된다.

이 가능한 설계에 있어서, 저장 유닛은 2개의 블록(block)으로 분할될 수 있다. 연산 유닛이 복수의 저장 유닛을 포함할 경우, 연산 유닛이 하나의 저장 유닛 내의 하나의 블록에 있는 데이터에 기초하여 곱셈 연산을 수행하면, 제어기는 복수의 저장 유닛 중 다른 저장 유닛에 또는 곱셈 연산에 참여한 저장 유닛 내의 다른 블록에 데이터를 더 기록할 수 있고, 그에 따라 연산 유닛의 작업 효율이 향상된다.

가능한 설계에 있어서, 제1 메모리는 제1 버스를 사용해서 연산 회로에 연결되고, 제1 버스의 비트 폭은 W_i*N*M이고; 제2 메모리는 제2 버스를 사용해서 연산 회로에 연결되고, 제2 버스의 비트 폭은 W_i*N이고; W_i는 입력 데이터의 것이며 연산 유닛에 의해 허용되는 최대 비트 폭이다.

가능한 설계에 있어서, 연산 가속기는 제1 메모리, 제2 메모리, 및 제어기에 연결되는 저장 유닛 액세스 제어기를 더 포함하고, 저장 유닛 액세스 제어기는, 제어기의 제어 하에서, 제1 매트릭스 및 제2 매트릭스를 취득하고, 제1 매트릭스를 제1 메모리에 세이브하고, 제2 매트릭스를 제2 메모리에 세이브하도록 구성된다.

가능한 설계에 있어서, 연산 가속기는: 제1 매트릭스의 소스 데이터를 저장하도록 구성되는 제3 메모리; 제1 메모리, 제2 메모리, 제3 메모리, 및 제어기에 연결되는 저장 유닛 액세스 제어기― 저장 유닛 액세스 제어기는, 제어기의 제어 하에서, 제1 매트릭스의 소스 데이터 및 제2 매트릭스를 취득하고, 제1 매트릭스의 소스 데이터를 제3 메모리에 세이브하고, 제2 매트릭스를 제2 메모리에 세이브하도록 구성됨 ―; 및 제1 메모리, 제3 메모리, 및 제어기에 연결되는 벡터 계산 유닛― 벡터 계산 유닛은, 제어기의 제어 하에서, 제1 매트릭스의 소스 데이터를 제1 매트릭스로 변환하고, 제1 매트릭스를 제1 메모리에 세이브하도록 구성됨 ―을 더 포함한다.

이 가능한 설계에 있어서, 연산 가속기는 제1 매트릭스의 소스 데이터를 사용해서 제1 매트릭스를 취득하는 능력을 더 갖는다.

가능한 설계에 있어서, 제3 메모리는 연산 회로에 연결되고, 제3 메모리는 제3 매트릭스를 저장하도록 더 구성된다.

가능한 설계에 있어서, 연산 가속기는 연산 회로, 벡터 계산 유닛, 및 제어기에 연결되는 누산기를 더 포함하고, 누산기는 제어기의 제어 하에서 제3 매트릭스 및 제4 매트릭스 내의 상응하는 위치들에 있는 요소들을 더해서 제5 매트릭스를 취득하도록 구성되고; 벡터 계산 유닛은 제어기의 제어 하에서 제5 매트릭스를 제3 메모리에 세이브하도록 더 구성되고, 제3 매트릭스는 제1 매트릭스와 제2 매트릭스의 곱이고, 제1 매트릭스는 첫 번째로 계산될 매트릭스의 제1 부분을 포함하고, 첫 번째로 계산될 매트릭스의 제1 부분은 첫 번째로 계산될 매트릭스의 첫 번째 열 내지 N 번째 열의 요소들이고, 제2 매트릭스는 두 번째로 계산될 매트릭스의 제1 부분이고, 두 번째로 계산될 매트릭스의 제1 부분은 두 번째로 계산될 매트릭스의 첫 번째 행 내지 N 번째 행의 요소들이고, 첫 번째로 계산될 매트릭스는 요소들의 M개의 행을 포함하고, 두 번째로 계산될 매트릭스는 요소들의 K개의 열을 포함하고, 제4 매트릭스는 첫 번째로 계산될 매트릭스의 제2 부분과 두 번째로 계산될 매트릭스의 제2 부분의 곱이고, 첫 번째로 계산될 매트릭스의 제2 부분은 첫 번째로 계산될 매트릭스의 제1 부분 이외의 부분이고, 두 번째로 계산될 매트릭스의 제2 부분은 두 번째로 계산될 매트릭스의 제1 부분 이외의 부분이다.

가능한 설계에 있어서, 연산 가속기는: 제어기에 연결되며, 제어기에 의해 사용되는 명령어를 저장하도록 구성되는 명령어 페치 버퍼; 및 명령어 페치 버퍼, 저장 유닛 액세스 제어기, 및 외부 메모리에 연결되고, 외부 메모리로부터 명령어를 취득하기 위해 명령어 페치 버퍼에 의해 사용되고, 또한 외부 메모리로부터 제1 매트릭스의 소스 데이터, 제1 매트릭스, 및 제2 매트릭스 중 적어도 하나를 취득하기 위해 저장 유닛 액세스 제어기에 의해 더 사용되는 버스 인터페이스 유닛을 더 포함한다.

도 1은 종래 기술에서 2개의 매트릭스의 곱을 계산하는 프로세스의 개략도이고;
도 2는 종래 기술에서 콘볼루션 커널(convolution kernel)을 가중치 매트릭스(weight matrix)로 변환하는 개략도이고;
도 3은 종래 기술에서 입력 데이터를 입력 매트릭스로 변환하는 개략도이고;
도 4는 종래 기술에서 2개의 매트릭스에 대하여 곱셈 연산을 수행하기 위한 방법의 개략도이고;
도 5는 본 발명의 실시형태에 따른 연산 가속기의 개략적인 구성도이고;
도 6은 본 발명의 실시형태에 따른 연산 회로의 개략적인 구성도이고;
도 7은 본 발명의 실시형태에 따른 연산 회로에서의 배선의 개략도이고;
도 8은 본 발명의 실시형태에 따른 각각의 연산 블록에 로딩되는 열 벡터의 개략도이고;
도 9는 본 발명의 실시형태에 따른 각각의 연산 그룹에서의 연산 유닛 내의 데이터의 개략도이고;
도 10은 본 발명의 실시형태에 따른 각각의 연산 블록에 로딩되는 행 벡터의 개략도이고;
도 11은 본 발명의 실시형태에 따른 각각의 연산 그룹에서의 연산 유닛 내의 데이터의 개략도이고;
도 12는 본 발명의 실시형태에 따른 각각의 연산 그룹에서의 연산 유닛에 의해 계산되는 데이터의 개략도이고;
도 13은 본 발명의 실시형태에 따른 가산기 트리와 연산 블록 사이의 관계의 개략도이고;
도 14는 본 발명의 실시형태에 따른 연산 유닛의 개략적인 구성도이고;
도 15는 본 발명의 실시형태에 따른 다른 연산 유닛의 개략적인 구성도이고;
도 16은 본 발명의 실시형태에 따른 다른 연산 가속기의 개략적인 구성도이고;
도 17은 본 발명의 실시형태에 따른 또 다른 연산 가속기의 개략적인 구성도이고;
도 18은 본 발명의 실시형태에 따른 패딩(padding) 매트릭스의 개략도이고;
도 19는 본 발명의 실시형태에 따른 분할된 매트릭스들의 개략도이고;
도 20은 본 발명의 실시형태에 따른 제어기가 연산 가속기를 제어해서 매트릭스 곱셈 연산을 완료하는 흐름도이고;
도 21은 본 발명의 실시형태에 따른 CPU가 연산 가속기를 제어해서 매트릭스 곱셈 연산을 구현하는 흐름도이다.

아래에서는, 본원의 실시형태들에 있어서의 첨부 도면을 참조하여 본원의 실시형태들에 있어서의 기술적인 해법을 설명한다. 본원의 설명에 있어서, 달리 언급하지 않는 한, "/"는 또는을 의미하고, 예를 들어, A/B는 A 또는 B를 나타낼 수 있고, "복수의(a plurality of)"는 2개 이상을 의미한다.

본 발명의 실시형태들에서 제공되는 연산 가속기는 머신 러닝, 딥 러닝, 및 콘볼루션 신경망과 같은 분야에 적용될 수 있거나, 또는 디지털 화상 처리 및 디지털 신호 처리와 같은 분야에 적용될 수 있거나, 또는 매트릭스 곱셈 연산과 관련되는 다른 분야에 적용될 수 있다.

최근, 화상 분류, 화상 인식, 음성 인식, 및 그 밖의 관련 분야에서의 콘볼루션 신경망의 우수한 성능으로 인해, 콘볼루션 신경망은 학계 및 산업계에서 연구 및 개발의 핫스팟이 되었다. 콘볼루션 신경망은 주로 콘볼루션 및 완전하게 연결된(fully connected)(FC로 약기함) 연산을 포함한다. 콘볼루션 연산의 연산량은 일반적으로 전체 네트워크의 연산량의 70% 이상을 차지할 수 있다. 본 발명의 실시형태들에서 제공되는 연산 가속기는 콘볼루션 신경망에서의 콘볼루션 연산 및 FC 연산을 수행할 수 있다.

콘볼루션 연산은 엄격한 의미에서는 매트릭스 곱셈 연산과 동등하지 않다. 그러나, 콘볼루션 연산은 적절한 데이터 조정을 통해 매트릭스 곱셈 연산으로 변환될 수 있다. 콘볼루션 신경망에는 일반적으로 복수의 콘볼루션 커널이 존재한다. 콘볼루션 커널은 3차원이고, 3차원 데이터를 포함한다. x 방향 및 y 방향은 데이터의 길이 및 폭이고, z 방향은 데이터의 깊이로 간주될 수 있다. 콘볼루션 커널은 실제로 필터(filter)이고, 주로 화상에서 상이한 특징들을 추출하도록 구성된다. 도 2를 참조하면, 콘볼루션 커널은 실질적으로 일련의 가중치들의 조합이다. K개의 콘볼루션 커널이 존재한다고 가정한다. K개의 콘볼루션 커널에서 z 방향으로 동일한 위치에서 N개의 요소가 추출되고, N*K 가중치 매트릭스(weight matrix)가 취득될 수 있다. 콘볼루션 커널은 연산 가속기가 매트릭스 곱셈 연산을 수행할 때 호출하기 위한 연산 가속기의 사양(구체적으로, 연산 가속기에 의해 계산될 수 있는 매트릭스의 행 수량 및 열 수량)에 기초하여 가중치 매트릭스 형태로 연산 가속기의 메모리에 미리 저장될 수 있다. 본 발명의 실시형태들에 있어서, "*"는 "곱하기(multiplying)"를 나타낸다.

도 3을 참조하면, 콘볼루션 커널의 스트라이드(stride)(본 발명의 실시형태들에 있어서는, 스트라이드가 1임)에 기초하여, 연산 가속기가 z 방향에 있어서 M개의 입력 지점의 N개의 데이터 조각, 즉, 총 M*N개의 데이터 조각을 추출할 수 있다. 입력 매트릭스(input matrix)가 형성될 수 있다. 연산 가속기는 입력 매트릭스 및 가중치 매트릭스에 대하여 곱셈 연산을 수행할 필요가 있다.

FC 연산은 실질적으로 벡터와 매트릭스의 곱셈 연산이다. FC 연산의 입력은 9216개의 요소를 가진 벡터이고, FC에서는 4096개의 지점이 출력될 필요가 있다. 이 경우, FC에서 지점 출력을 취득하기 위해, 9216개의 요소를 가진 벡터 및 9216개의 가중치에 대하여 점 곱셈 연산이 수행될 필요가 있으며; 4096개의 지점을 모두 취득하기 위해서는, 9216의 벡터 및 9216×4096개의 가중치에 대하여 점 곱셈 연산이 수행될 필요가 있다.

도 4는 매트릭스 C=A*B의 계산식을 도시하고, 여기서 A는 M*N 크기를 갖는 매트릭스이고, B는 N*K 크기를 갖는 매트릭스이다. 본 발명의 실시형태들에 있어서, M, N, 및 K는 양의 정수이다. 계산을 통해 매트릭스 C에서의 하나의 데이터 조각을 취득하기 위해, 매트릭스 A에서의 행 벡터의 데이터 및 매트릭스 B에서의 열 벡터의 상응하는 데이터에 대하여 점 곱셈 연산이 수행될 필요가 있고, 이어서 가산이 수행된다. 다시 말해, 계산을 통해 매트릭스 C에서의 하나의 데이터 조각을 취득하기 위해, N 곱셈 연산이 수행될 필요가 있다. 이 경우, 계산을 통해 매트릭스 C를 취득하기 위해, M*N*K 곱셈 연산이 수행될 필요가 있다.

연산 가속기(50)가 본 발명의 실시형태에서 제공된다. 도 5에 도시된 바와 같이, 연산 가속기(50)는 제1 메모리(501), 제2 메모리(502), 연산 회로(503), 및 제어기(504)를 포함한다. 연산 회로(503)는 버스를 사용해서 제1 메모리(501) 및 제2 메모리(502)와 데이터 통신을 수행할 수 있다. 연산 회로(503)는 제1 메모리(501) 및 제2 메모리(502)로부터 매트릭스 데이터를 추출하고 곱셈 연산을 수행하도록 구성된다. 제어기(504)는, 사전설정된 프로그램 또는 명령어에 따라, 연산 회로(503)를 제어해서 곱셈 연산을 완료하도록 구성된다.

제1 메모리(501)는 제1 매트릭스를 저장하도록 구성되며, 제1 매트릭스는 M*N 매트릭스이다. 매트릭스 A가 제1 매트릭스일 경우, 제1 매트릭스 A에서의 행 i 및 열 j의 요소는 A_ij로 표시될 수 있다. 본 발명의 이 실시형태에서 언급되는 제1 메모리(501), 및 각각 아래에서 언급되는 제2 메모리(502), 제3 메모리(506), 및 저장 유닛은 레지스터, 랜덤 액세스 메모리(random access memory, RAM으로 약기함), 정적 랜덤 액세스 메모리, 플래시 메모리, 또는 다른 판독 및 기록 가능 메모리일 수 있다.

제2 메모리(502)는 제2 매트릭스를 저장하도록 구성되며, 제2 매트릭스는 N*K 매트릭스이다. 매트릭스 B가 제2 매트릭스일 경우, 제2 매트릭스 B에서의 행 j 및 열 g의 요소는 B_jg로 표시될 수 있다.

M, N, 및 K는 0보다 큰 정수이고, i는 0보다 크고 M+1보다 작은 정수이고, g는 0보다 크고 K+1보다 작은 정수이고, j는 0보다 크고 N+1보다 작은 정수이다. M, N, 및 K 중 어느 2개의 파라미터가 동일할 수 있거나, 또는 M, N, 및 K가 모두 동일할 수 있다.

도 6에 도시된 바와 같이, 연산 회로(503)는 하나 이상의 매트릭스 곱셈 회로(5031) 및 하나 이상의 가산기 회로(5032)를 포함할 수 있다. 하나의 가산기 회로(5032)는 하나의 매트릭스 곱셈 회로(5031)에 대응할 수 있다. 대안으로서, 하나의 가산기 회로(5032)는 복수의 매트릭스 곱셈 회로(5031)에 대응할 수 있다. 연산 회로(503)에 포함되는 복수의 매트릭스 곱셈 회로(5031)는 각각의 매트릭스 곱셈 연산을 독립적으로 수행할 수 있다. 도 6은 연산 회로(503)가 2개의 매트릭스 곱셈 회로(5031)를 포함하는 실시예를 사용하여 도시된다. 매트릭스 곱셈 회로(5031)는 연산 블록들을 포함하는 M개의 연산 그룹을 포함하고, 각각의 연산 그룹은 K개의 연산 블록을 포함하고, 각각의 연산 블록은 N개의 연산 유닛을 포함하고, 연산 유닛에는 제각기 제1 메모리 및 제2 메모리에 의해 송신되는 데이터를 수신하는 데 사용되는 2개의 입력이 제공되고, 연산 유닛은 2개의 데이터 조각을 함께 곱한다. 가산기 회로(5032)는 동일한 연산 블록에 속하는 연산 유닛들의 계산 결과들을 더해서 각각의 연산 블록의 계산 결과를 취득하도록 구성된다.

제어기(504)는 하기의 동작들을 수행해서 제1 매트릭스와 제2 매트릭스의 곱을 계산할 수 있다:

제2 매트릭스의 K개의 열 벡터를 각각의 연산 그룹의 K개의 연산 블록에 제각기 기록하는 동작― 여기서, 제2 매트릭스의 벡터들의 g번째 열의 j번째 데이터 조각이 각각의 연산 그룹에서의 g번째 연산 블록의 j번째 연산 유닛에 기록되고, 연산 회로(503)는, 제어기(504)의 제어 하에서, 제2 메모리(502)에서 제2 매트릭스의 데이터를 판독하고 제2 매트릭스의 데이터를 각각의 연산 그룹의 K개의 연산 블록에 버퍼링할 수 있거나, 또는 제어기(504)는 제2 메모리(502)를 제어해서 제2 매트릭스의 데이터를 연산 회로(503)에서의 각각의 연산 그룹의 K개의 연산 블록에 기록할 수 있음 ―;

제1 매트릭스의 M개의 행 벡터를 M개의 연산 그룹에 제각기 송신하는 동작― 여기서, 제1 매트릭스의 i번째 행 벡터는 M개의 연산 그룹에서 i번째 연산 그룹에 송신되고, i번째 연산 그룹에서의 각각의 연산 블록의 j번째 연산 유닛은 i번째 행 벡터의 j번째 데이터 조각을 수신하고, 연산 회로(503)는, 제어기(504)의 제어 하에서, 제1 메모리(501)에서 제1 매트릭스의 데이터를 판독할 수 있거나, 또는 제어기(504)는 제1 메모리(501)를 제어해서 제1 매트릭스의 데이터를 연산 회로(503)에서의 M개의 연산 그룹에 송신할 수 있음 ―; 및

M개의 연산 그룹의 각각의 연산 유닛은 해당 연산 유닛에 의해 수신되는 2개의 데이터 조각에 대하여 곱셈 연산을 수행하고, 가산기 회로(5032)는 각각의 연산 블록의 연산 유닛들의 계산 결과들을 더해서 제3 매트릭스를 취득하고, 여기서 제3 매트릭스는 제1 매트릭스 및 제2 매트릭스의 곱이고, 제3 매트릭스의 i 행 및 g 열의 요소는 i번째 연산 그룹의 g번째 연산 블록의 계산 결과임.

선택적으로, 제1 메모리(501)는 제1 버스를 사용해서 연산 회로(503)에 연결되고, 제1 버스의 비트 폭은 W_i*N*M이다. 제2 메모리(502)는 제2 버스를 사용해서 연산 회로(503)에 연결되고, 제2 버스의 비트 폭은 W_i*N이다. W_i는 입력 데이터로 이루어지며 연산 유닛에 의해 허용되는 최대 비트 폭이다.

구체적으로, W_i는 연산 유닛의 입력 데이터의 유형에 기초하여 설정될 수 있다. 예를 들어, int(정수)8 유형의 데이터는 비트 폭이 8비트이고, fp(부동 소수점 수량)16 유형의 데이터는 비트 폭이 16비트이고, fp32 유형의 데이터는 비트 폭이 32비트인 등등이다. 출력 데이터로 이루어지며 연산 유닛에 의해 허용되는 비트 폭은 연산 유닛의 계산 결과의 범위에 기초하여 설정될 수 있거나, 또는 다른 방식으로 결정될 수 있다. 예를 들어, 연산 가속기(50)가 입력 매트릭스와 가중치 매트릭스의 곱을 계산하도록 구성될 경우, 입력 매트릭스의 데이터 및 가중치 매트릭스의 데이터는 모두 int8 유형이고, 연산 유닛의 출력 결과도 int8 유형으로 설정될 수 있다. 이 경우, 출력 데이터의 비트 폭은 입력 데이터의 비트 폭과 동일하다. 분명히, 연산 유닛의 출력 데이터는 int16 유형으로 변환될 수 있다. 이 경우, 출력 데이터의 비트 폭은 16비트이다. 또한, 출력 데이터의 비트 폭은 다른 실제 요건에 기초하여 대안적으로 설계될 수 있다.

구체적으로, 도 6에 도시된 연산 회로(503)에서의 연산 블록들 및 연산 유닛들의 배열 방식에 기초하여, 도 7은 연산 회로(503)에서의 특정 배선의 개략도이다.

전술한 실시형태에 기초하여, 연산 회로(503)가 M*N*K개의 연산 유닛을 포함한다는 것을 알 수 있다. 도 6 및 도 7을 참조하면, 이들 연산 유닛은 M개의 연산 그룹으로 분류되고, 각각의 연산 그룹은 N*K개의 연산 유닛을 포함하고, N*K개의 연산 유닛은 K개의 열에 배열되어 K개의 연산 블록을 형성하고, 각각의 연산 블록은 N개의 연산 유닛을 포함한다.

매트릭스 곱셈 연산을 공식적으로 수행하기 전에, 연산 가속기(50)는 제2 매트릭스의 데이터를 M개의 연산 그룹에 미리 로딩할 필요가 있다. 모든 연산 그룹에 대하여 동일한 제2 매트릭스가 사용되기 때문에, 제2 메모리(502)는 데이터를 브로드캐스팅을 통해 제2 매트릭스들에 로딩할 수 있다.

도 7을 참조하면, 연산 회로(503)와 제2 메모리(502) 사이의 비트 폭이 W_i*N인 제2 버스(W_i는 입력 데이터로 이루어지며 연산 유닛에 의해 허용되는 최대 비트 폭이고, N은 하나의 연산 블록에서의 연산 유닛의 수량이고, 이 경우, 제2 버스의 폭은 W_i*N임)가 존재하고, 제2 버스는 데이터를 브로드캐스트하고, 그때마다 M개의 연산 그룹에서의 하나의 연산 블록에 대하여 열 벡터 브로드캐스팅을 수행하도록 구성된다. 구체적으로, 제2 매트릭스에서의 하나의 열 벡터는 먼저 M개의 복사본으로 복제될 수 있고, 이어서 열 벡터들의 M개의 복사본이 M개의 연산 그룹의 상응하는 연산 블록들에 브로드캐스트된다. 각각의 연산 블록에 로딩되는 열 벡터에 대해서는, 도 8을 참조한다. 제2 메모리(502)가 하나의 열 벡터를 브로드캐스트하기 위해 하나의 사이클(사이클은 특정 클록 신호에 기초하여 설정된 클록 사이클일 수 있거나, 또는 다른 제어 신호에 기초하여 생성된 처리 사이클일 수 있음)을 필요로 하면, 제2 매트릭스에서의 모든 열 벡터의 브로드캐스팅을 완료하기 위해서는 K개의 사이클이 필요하다.

예를 들어, 도 6에 도시된 연산 그룹들에서의 연산 블록들의 배열 방식에 기초하여, 매트릭스 B가 제2 매트릭스이면, 제2 매트릭스 B는

이라고 가정한다. 이 경우, N=5이고, K=4이다. 제2 매트릭스 B에서의 4개의 열 벡터가 제각기 4개의 연산 그룹에서의 4개의 연산 블록에 기록된 후의 연산 유닛의 데이터에 대해서는, 도 9를 참조한다.

연산 회로(503)와 제1 메모리(501) 사이의 비트 폭이 W_i*N*M인 제1 버스(W_i는 입력 데이터로 이루어지며 연산 유닛에 의해 허용되는 최대 비트 폭이고, N은 하나의 연산 블록에서의 연산 유닛의 수량이고, M은 연산 그룹의 수량이고, 이 경우, 제1 버스의 폭은 W_i*N*M임)가 존재하고, 제1 버스는 데이터를 제1 매트릭스에 송신하도록 구성된다. 각각의 연산 그룹에 입력되는 데이터의 비트 폭은 W_i*N이다. 각각의 연산 그룹은 제1 매트릭스에서의 하나의 행 벡터를 수신하고, 동시에 각각의 연산 그룹에서의 모든 연산 블록에 의해 수신되는 행 벡터들은 동일하고, 연산 그룹들에 의해 수신되는 행 벡터들은 상이하다. 구체적으로, 제1 매트릭스에서의 것이며 연산 그룹에 송신될 행 벡터는 연산 그룹에서 K개의 복사본으로 복제될 수 있고, 행 벡터들의 K개의 복사본은 제각기 연산 그룹에서의 K개의 연산 블록에 송신된다. 각각의 연산 블록에 로딩되는 행 벡터에 대해서는, 도 10을 참조한다. 각각의 연산 그룹에서의 하나의 행의 연산 유닛들은 동일한 데이터를 사용하기 때문에, 제1 메모리(501)는 데이터를 행 브로드캐스팅을 통해 연산 유닛들에 송신할 수 있다. 총 M개의 연산 그룹이 존재하기 때문에, 크기가 M*N인 매트릭스가 하나의 사이클 내에 송신될 수 있다.

예를 들어, 도 6에 도시된 연산 그룹들에서의 연산 블록들의 배열 방식에 기초하여, 매트릭스 A가 제1 매트릭스이면, 제1 매트릭스 A는

이라고 가정한다. 이 경우, M=4이고, N=5이다. 제1 매트릭스 A에서의 4개의 행 벡터가 제각기 4개의 연산 그룹에 송신된 후의 연산 유닛의 데이터에 대해서는, 도 11을 참조한다. 4개의 연산 그룹에서의 연산 유닛들에 의해 계산되는 데이터에 대해서는, 도 12를 참조한다. 각각의 연산 블록의 연산 유닛들의 계산 결과들을 더해서 제1 매트릭스 A와 제2 매트릭스 B의 곱, 즉 제3 매트릭스 C를 취득한다.

본 발명의 이 실시형태에서 제공되는 방법이 콘볼루션 신경망에 적용될 경우, 제1 매트릭스는 입력 매트릭스일 수 있고, 제2 매트릭스는 가중치 매트릭스일 수 있다.

본 발명의 이 실시형태에서 제공되는 방법에 있어서, M개의 연산 그룹이 M*N*K개의 연산 유닛을 포함하기 때문에, 연산 가속기는 하나의 클록 사이클 내에 M*N*K 곱셈 연산을 수행할 수 있다. 이 경우, 연산 가속기(50)는 M*N 매트릭스 및 N*K 매트릭스의 곱을 계산할 수 있다. 종래 기술에 비해, 이 방법은 매트릭스 곱셈 연산에 필요한 시간을 크게 줄일 수 있다.

선택적으로, 하나의 매트릭스 곱셈 회로(5031)가 하나의 가산기 회로(5032)에 대응하고 있을 경우, 가산기 회로(5032)는 M*K개의 가산기 트리를 포함하고, 하나의 가산기 트리는 하나의 연산 블록에 대응하고, 가산기 트리는 대응하는 연산 블록의 N개의 연산 유닛에 연결되고, 가산기 트리는 가산기 트리에 연결되는 N개의 연산 유닛의 계산 결과들을 더하도록 구성된다.

연산 블록의 N개의 연산 유닛 모두의 계산 결과에 대하여 누적 연산이 수행될 필요가 있으므로, 연산 블록의 계산 결과가 취득될 수 있다는 점에 유의해야 한다. 누적 연산은 구체적으로 도 13에 도시된 가산기 트리를 사용해서 하나의 연산 블록의 모든 연산 유닛의 계산 결과들에 대하여 수행될 수 있다. 가산기 트리는 실질적으로 일련의 가산기들의 조합이고, 연결 방식은 도 13에 도시되어 있다. 이 경우, 가산기 트리는 N개의 연산 유닛의 계산 결과들을 더할 필요가 있기 때문에, 가산기 트리의 출력 결과의 비트 폭은 W_a로 표시되고, W_a는 가산기 트리의 출력 결과의 범위에 의존한다. 각각의 연산 유닛의 계산 결과의 비트 폭이 W_o이면, 가산기 트리가 누적을 수행한 후에 취득된 연산 블록들의 출력 결과는 W_o에 의해 나타내질 수 있는 최대 범위를 초과할 수 있다. 따라서, 일반적으로 연산 블록의 출력 결과를 나타내기 위해서는 더 큰 비트 폭을 사용할 필요가 있다. 예를 들어, 연산 유닛의 입력 데이터의 최대 비트 폭은 8비트이고, 가산기 트리의 출력 데이터의 비트 폭은 32비트로 설정될 수 있다.

대안으로서, 하나의 가산기 회로(5032)는 복수의 매트릭스 곱셈 회로(5031)에 대응할 수 있다. 이 경우, 하나의 매트릭스 곱셈 회로(5031)는 M*K개의 가산기 트리에 대응할 수 있고, 복수의 매트릭스 곱셈 회로(5031)에 대응하는 M*K개의 가산기 트리가 하나의 가산기 회로(5032)에 배치될 수 있다. 도 6을 참조하면, 도 6에 도시된 연산 회로(503)에 포함되는 가산기 회로(5032)는 2개의 매트릭스 곱셈 회로(5031)에 대응한다. 이 경우, 가산기 회로(5032)는 2*M*K개의 가산기 트리를 포함하고, 2*M*K개의 가산기 트리의 M*K는 2개의 매트릭스 곱셈 회로(5031) 중 하나에서의 M*K개의 연산 블록의 연산 유닛들에 의해 출력되는 계산 결과들을 더하도록 구성되고, 2*M*K개의 가산기 트리의 다른 M*K개의 가산기 트리는 2개의 매트릭스 곱셈 회로(5031) 중 다른 매트릭스 곱셈 회로(5031)에서의 M*K개의 연산 블록의 연산 유닛들에 의해 출력되는 계산 결과들을 더하도록 구성된다.

한 가지 경우에 있어서, 도 14를 참조하면, 연산 유닛은 저장 유닛에 기록되는 데이터를 저장하도록 구성되는 저장 유닛; 및 수신된 데이터와 저장 유닛에 저장된 데이터의 곱을 계산하도록 구성되는, 저장 유닛에 연결된 곱셈 회로를 포함한다. 구체적으로, 설명의 편의상, 연산 유닛에서의 제1 매트릭스의 데이터를 "제1 데이터"라고 하고, 제2 매트릭스의 데이터를 제2 데이터라고 한다. 이 경우, 도 14를 참조하면, 저장 유닛은 제2 데이터를 저장하도록 구성될 수 있다. 곱셈 회로는 제1 데이터 및 제2 데이터를 입력하고 계산 결과를 출력하도록 구성되는 인터페이스를 더 포함할 수 있다. 저장 유닛은 제2 데이터를 기록하도록 구성되는 인터페이스를 더 포함할 수 있다.

다른 경우에 있어서, 도 15를 참조하면, 연산 유닛은 복수의 저장 유닛(도 15는 연산 유닛이 2개의 저장 유닛을 포함하는 실시예를 사용해서 도시됨), 곱셈 회로, 복수의 저장 유닛에 연결되는 제1 선택 회로, 및 복수의 저장 유닛과 곱셈 회로에 연결되는 제2 선택 회로를 포함한다.

복수의 저장 유닛은 데이터를 저장하도록 구성된다.

제1 선택 회로는, 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 곱셈 회로가 곱셈 연산을 수행하기 전에 복수의 저장 유닛으로부터 선택하도록 구성된다.

제2 선택 회로는, 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 곱셈 회로가 곱셈 연산을 수행할 때 선택하도록 구성된다.

곱셈 회로는 수신된 데이터와 제2 선택 회로에 의해 선택된 저장 유닛에 저장되는 데이터의 곱을 계산하도록 구성된다.

구체적으로, 복수의 저장 유닛은 데이터를 상이한 매트릭스들로 저장할 수 있다. 제1 선택 회로는 매트릭스의 데이터가 저장될 저장 유닛을 선택할 수 있다.

저장 유닛은 2개의 블록(block)으로 분할될 수 있다. 연산 유닛이 복수의 저장 유닛을 포함할 경우, 연산 유닛이 하나의 저장 유닛 내의 하나의 블록에 있는 데이터에 기초하여 곱셈 연산을 수행하면, 제어기(504)는 복수의 저장 유닛 중 다른 저장 유닛에 또는 곱셈 연산에 참여한 저장 유닛 내의 다른 블록에 데이터를 더 기록할 수 있고, 그에 따라 연산 유닛의 작업 효율이 향상된다.

도 15를 참조하면, 매트릭스 곱셈 회로(5031)가 제1 매트릭스 A와 제2 매트릭스 B의 곱을 계산할 필요가 있고, 또한 제1 매트릭스 A와 매트릭스 D의 곱을 계산할 필요가 있을 경우, 제어기(504)는 제2 매트릭스 B 및 매트릭스 D 모두의 데이터를 연산 유닛의 저장 유닛들에 기록할 수 있다. 제1 선택 유닛은 제2 매트릭스 B의 제2 데이터 0을 저장 유닛 0에 기록하고 매트릭스 D의 제2 데이터 1을 저장 유닛 1에 기록하도록 선택할 수 있다. 곱셈 회로가 제1 데이터 및 제2 데이터 0에 대하여 곱셈 연산을 수행할 경우, 제2 선택 회로는 저장 유닛 0의 제2 데이터 0을 곱셈 회로에 출력하도록 선택하고, 곱셈 회로가 제1 데이터 및 제2 데이터 1에 대하여 곱셈 연산을 수행할 경우, 제2 선택 회로는 저장 유닛 1의 제2 데이터 1을 곱셈 회로에 출력하도록 선택한다.

이 경우, 각각의 연산 유닛은 4개의 입력, 즉 제1 데이터, 제2 데이터, 및 2개의 레지스터 선택 신호를 수신한다. 하나의 레지스터 선택 신호는, 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 곱셈 회로가 곱셈 연산을 수행하기 전에 복수의 저장 유닛으로부터 선택하도록 제1 선택 회로를 제어하는 데 사용된다. 다른 레지스터 선택 신호는, 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 곱셈 회로가 곱셈 연산을 수행할 때 선택하도록 제2 선택 회로를 제어하는 데 사용된다.

선택적으로, 도 16을 참조하면, 연산 가속기(50)는 제1 메모리(501), 제2 메모리(502), 및 제어기(504)에 연결되는 저장 유닛 액세스 제어기(505)를 더 포함할 수 있다.

저장 유닛 액세스 제어기(505)는, 제어기(504)의 제어 하에서, 제1 매트릭스 및 제2 매트릭스를 취득하고, 제1 매트릭스를 제1 메모리(501)에 세이브하고, 제2 매트릭스를 제2 메모리(502)에 세이브하도록 구성된다.

저장 유닛 액세스 제어기(505)는 직접 메모리 액세스 제어기(504)((Direct Memory Access Controller, DMAC로 약기함) 또는 로드/저장 유닛일 수 있다.

선택적으로, 도 16을 참조하면, 연산 가속기(50)는 이하의 구성, 즉:

제1 매트릭스의 소스 데이터를 저장하도록 구성되는 제3 메모리(506);

제1 메모리(501), 제2 메모리(502), 제3 메모리(506), 및 제어기(504)에 연결되는 저장 유닛 액세스 제어기(505)― 여기서, 저장 유닛 액세스 제어기(505)는, 제어기(504)의 제어 하에서, 제1 매트릭스 및 제2 매트릭스의 소스 데이터를 취득하고, 제1 매트릭스의 소스 데이터를 제3 메모리(506)에 세이브하고, 제2 매트릭스를 제2 메모리(502)에 세이브하도록 구성됨 ―; 및

제1 메모리(501), 제3 메모리(506), 및 제어기(504)에 연결되는 벡터 계산 유닛(벡터 유닛)(507)― 여기서, 벡터 계산 유닛(507)은, 제어기(504)의 제어 하에서, 제1 매트릭스의 소스 데이터를 제1 매트릭스로 변환하고, 제1 매트릭스를 제1 메모리(501)에 세이브하도록 구성됨 ―을 더 포함할 수 있다.

구체적으로, 적용 시나리오에 있어서, 저장 유닛 액세스 제어기(505)에 의해 취득되는 데이터는 직접적으로 제1 매트릭스는 아니다. 이 경우, 저장 유닛 액세스 제어기(505)는 취득된 데이터(즉, 제1 매트릭스의 소스 데이터)를 제3 메모리(506)에 세이브할 수 있다. 벡터 계산 유닛(507)은 제3 메모리(506) 내의 제1 매트릭스의 소스 데이터를 변환해서 제1 매트릭스를 취득할 수 있다.

예를 들어, 연산 가속기(50)가 제1 매트릭스는 5*4 매트릭스이어야 하고 제1 매트릭스의 소스 데이터는 4*4 매트릭스이어야 한다고 요구하면, 벡터 계산 유닛(507)은 모든 데이터가 0인 행 벡터로 제1 매트릭스의 소스 데이터를 패딩(padding)해서 제1 매트릭스를 취득할 수 있다. 예를 들어, 제1 매트릭스의 소스 데이터가

이고, 제1 매트릭스가

이다.

다른 실시예의 경우, 연산 가속기(50)가 제1 매트릭스는 2*4 매트릭스이어야 하고 제1 매트릭스의 소스 데이터는 4*4 매트릭스이어야 한다고 요구하면, 벡터 계산 유닛(507)은 제1 매트릭스의 소스 데이터에서 벡터들의 처음 2개의 행을 포함하는 매트릭스를 제1 매트릭스로서 결정할 수 있다. 예를 들어, 제1 매트릭스의 소스 데이터가

이고, 제1 매트릭스가

이다.

한 가지 경우에 있어서, 도 17을 참조하면, 제3 메모리(506)는 연산 회로(503)에 연결되고, 제3 메모리(506)는 제3 매트릭스를 저장하도록 더 구성된다. 이 경우, 제3 메모리(506)는 아래의 누산기(508)를 사용해서 연산 회로(503)에 더 연결될 수 있다. 연산 회로(503)는 계산 결과를 누산기(508)에 출력할 수 있다. 누산기(508)는 제3 매트릭스를 제3 메모리에 세이브할 수 있다.

다른 경우에 있어서, 도 16을 참조하면, 연산 가속기(50)는 연산 회로(503), 벡터 계산 유닛(507), 및 제어기(504)에 연결되는 누산기(508)를 더 포함한다.

누산기(508)는 제어기(504)의 제어 하에서 제3 매트릭스 및 제4 매트릭스 내의 상응하는 위치들에 있는 요소들을 더해서 제5 매트릭스를 취득하도록 구성된다.

벡터 계산 유닛(507)은 제어기(504)의 제어 하에서 제5 매트릭스를 제3 메모리(506)에 세이브하도록 더 구성된다.

제3 매트릭스는 제1 매트릭스와 제2 매트릭스의 곱이고, 제1 매트릭스는 첫 번째로 계산될 매트릭스의 제1 부분을 포함하고, 첫 번째로 계산될 매트릭스의 제1 부분은 첫 번째로 계산될 매트릭스의 첫 번째 열 내지 N 번째 열의 요소들이고, 제2 매트릭스는 두 번째로 계산될 매트릭스의 제1 부분이고, 두 번째로 계산될 매트릭스의 제1 부분은 두 번째로 계산될 매트릭스의 첫 번째 행 내지 N 번째 행의 요소들이고, 첫 번째로 계산될 매트릭스는 요소들의 M개의 행을 포함하고, 두 번째로 계산될 매트릭스는 요소들의 K개의 열을 포함하고, 제4 매트릭스는 첫 번째로 계산될 매트릭스의 제2 부분과 두 번째로 계산될 매트릭스의 제2 부분의 곱이고, 첫 번째로 계산될 매트릭스의 제2 부분은 첫 번째로 계산될 매트릭스의 제1 부분 이외의 부분이고, 두 번째로 계산될 매트릭스의 제2 부분은 두 번째로 계산될 매트릭스의 제1 부분 이외의 부분이다.

본 발명의 이 실시형태에 제공되는 연산 가속기(50)는 M*N 매트릭스와 N*K 매트릭스의 곱을 계산할 수 있다는 점에 유의해야 한다. 그러나, 실제 연산에 있어서, 계산될 필요가 있는 매트릭스의 크기는 M*N 및 N*K보다 크거나 또는 작을 수 있다. 계산될 필요가 있는 매트릭스의 크기가 M*N 및 N*K보다 클 경우, 연산 가속기(50)가 계산을 수행할 때마다, 계산될 필요가 있는 2개의 매트릭스의 곱의 최종 결과의 부분적인 결과만이 취득될 수 있으며, 복수의 루프 반복이 더 필요해지고, 계산될 필요가 있는 2개의 매트릭스의 곱을 취득하기 위해 부분적인 결과들이 더해진다.

실질적으로, 계산될 필요가 있는 매트릭스들이 어느 정도 변환된 후에, 본 발명의 이 실시형태에서 제공되는 연산 가속기(50)는 임의의 행 수량 및 열 수량을 갖는 2개의 매트릭스에 대하여 곱셈 연산을 수행할 수 있다. 구체적인 구현예는 다음과 같다:

연산 가속기(50)가 Q*R 매트릭스와 R*T 매트릭스의 곱을 계산할 필요가 있으면, 다음의 2가지 사례가 발생한다:

사례 1: Q가 M보다 작고, R이 N보다 작고, T가 K보다 작다.

이 경우, Q*R 매트릭스는 패딩을 통해 M*N 매트릭스로 재구성될 수 있고, R*T 매트릭스는 패딩을 통해 N*K 매트릭스로 재구성될 수 있으며, 이어서 본 발명의 이 실시형태에서 제공되는 연산 가속기(50)가 매트릭스 곱셈 연산을 수행하는 데 사용된다. 구체적인 패딩 방법은, 매트릭스가 필요한 행 수량 및 열 수량을 갖는 매트릭스로 변경되도록, 매트릭스 주위를 요소들 0으로 패딩하는 것이다. 예를 들어, M=N=8일 경우, 도 18은 4*5 매트릭스 및 5*8 매트릭스를 패딩을 통해 8*8 매트릭스로 개별적으로 재구성하는 실시예를 도시한다.

사례 2: Q가 M보다 크거나, 또는 R이 N보다 크거나, 또는 T가 K보다 크다.

이 경우, Q가 M보다 크거나 또는 R이 N보다 클 경우, Q*R 매트릭스는 M*N 매트릭스로 분할될 필요가 있으며, 분할 전에, Q*R 매트릭스는 패딩을 통해 행 수량이 M의 배수이고 열 수량이 N의 배수인 매트릭스로 재구성될 필요가 있다. R이 N보다 크거나 또는 T가 K보다 클 경우, R*T 매트릭스는 N*K 매트릭스로 분할될 필요가 있으며, 분할 전에, R*T 매트릭스는 패딩을 통해 행 수량이 N의 배수이고 열 수량이 K의 배수인 매트릭스로 재구성될 필요가 있다.

Q*R 매트릭스의 행 수량이 M의 두 배이고, Q*R 매트릭스의 열 수량이 N의 두 배이고, R*T 매트릭스의 행 수량이 N의 두 배이고, R*T 매트릭스의 열 수량이 K의 두 배라고 가정한다. Q*R 매트릭스는

로서 표시되는 4개의 M*N 매트릭스로 분할될 수 있고, 여기서 A1, B1, C1, 및 D1은 각각 M*N 매트릭스이다. R*T 매트릭스는

로서 표시되는 4개의 N*K 매트릭스로 분할될 수 있고, 여기서 A2, B2, C2, 및 D2는 각각 N*K 매트릭스이다. Q*R 매트릭스와 R*T 매트릭스의 곱 S는

이다.

매트릭스 S는

과

의 곱을 계산함으로써 취득될 수 있다.

과

의 곱을 계산하기 위해, M*N 매트릭스 및 N*K 매트릭스의 8번의 곱셈 연산이 완료될 필요가 있다. M*N 매트릭스 및 N*K 매트릭스의 8번의 곱셈 연산은 A1A2, B1C2, A1B2, B1D2, C1A2, D1C2, C1B2, 및 D1D2이다. 8번의 매트릭스 곱셈 연산은 연산 회로(503)에서 8개의 매트릭스 곱셈 회로(5031)를 구성함으로써 완료될 수 있거나, 또는 연산 회로(503)에서 8개 이하의 매트릭스 곱셈 회로(5031)에 의해 완료될 수 있다. 예를 들어, 2개의 매트릭스 곱셈 회로(5031)는 각각 4번의 매트릭스 곱셈 연산을 완료해서 8번의 매트릭스 곱셈 연산을 완료한다.

8번의 매트릭스 곱셈 연산이 완료된 후에, S=

로부터 학습할 수 있고, 이는 A1A2 및 B1C2를 더해서 매트릭스 S의 제1 행 및 제1 열의 요소를 취득하고, A1B2 및 B1D2를 더해서 매트릭스 S의 제1 행 및 제2 열의 요소를 취득하고, C1A2 및 D1C2를 더해서 매트릭스 S의 제2 행 및 제1 열의 요소를 취득하고, 또한 C1B2 및 D1D2를 더해서 매트릭스 S의 제2 행 및 제2 열의 요소를 취득한 것이다. A1A2 및 B1C2가 실시예로서 사용된다. A1A2 및 B1C2는 각각 M*K 매트릭스이다. 따라서, A1A2 및 B1C2의 상응하는 위치들에 있는 요소들이 더해지고 나서, 매트릭스 S의 제1 행 및 제1 열(본 명세서에서 매트릭스 S의 행 및 열은

에 의해 표시되는 행 및 열임)의 요소가 취득될 수 있다.

구체적으로,

및

의 임의의 2개의 요소의 곱의 계산 결과는 누산기(508)에 저장될 수 있다. 누산기(508)는 계산 결과에 대하여 가산 연산을 수행해서 매트릭스 S를 취득한다.

Q*R 매트릭스 및 R*T 매트릭스가 4개의 매트릭스로 분할되는 것은 전술한 설명에 대한 실시예로서 사용된다. 실제로, Q*R 매트릭스 및 R*T 매트릭스는 2개, 6개, 또는 8개 등의 매트릭스로 분할될 수 있다. 계산 원리는 전술한 것과 동일하다. 본 명세서에서는 세부 내용을 다시 설명하지 않는다.

예를 들어, M=N=K=3이라고 가정한다(이 경우, 매트릭스 A의 행 수량 및 열 수량의 어느 것도 3개가 아니고, 매트릭스 B의 행 수량 및 열 수량의 어느 것도 3개가 아니며, 매트릭스 A는 제1 매트릭스가 아니고, 매트릭스 B는 제2 매트릭스가 아니기 때문임). 매트릭스

와 매트릭스

의 곱을 계산하기 위해, 매트릭스 A는 4*5 매트릭스이기 때문에, 매트릭스 A는 패딩을 통해 매트릭스

로 재구성될 필요가 있고, 매트릭스 B는 5*4 매트릭스이기 때문에, 매트릭스 B는 패딩을 통해 매트릭스

로 재구성될 필요가 있다.

도 19를 참조하면, 매트릭스 A 및 매트릭스 B는 4개의 3*3 매트릭스로 개별적으로 분할될 수 있다. 이 경우, 3*3 매트릭스들의 8번의 곱셈 연산은 매트릭스 A와 매트릭스 B의 곱을 계산하기 위해 수행될 필요가 있다. 3*3 매트릭스들의 8번의 곱셈 연산은 A1A2, B1C2, A1B2, B1D2, C1A2, D1C2, C1B2, 및 D1D2이다. A1A2의 계산 결과는

이고, A1A2의 계산 결과를 취득한 후에, 해당 결과가 누산기(508)에 저장된다. B1C2의 계산 결과는

이고, B1C2의 계산 결과를 취득한 후에, 해당 결과가 누산기(508)에 저장된다. 누산기(508)는 A1A2 및 B1C2에서의 상응하는 위치들에 있는 요소들을 더해서

,

즉, 매트릭스 A와 매트릭스 B의 곱의 처음 3개의 행 및 처음 3개의 열의 공통 영역의 데이터를 취득한다. 매트릭스 A 및 매트릭스 B의 곱의 다른 위치들에 있는 데이터는 동일한 방식으로 계산된다. 본 명세서에서는 세부 내용을 다시 설명하지 않는다.

벡터 계산 유닛(507)은 M*K개의 연산 유닛을 포함할 수 있다. 벡터 계산 유닛(507)은 필요할 때 누산기(508)에 의해 출력되는 데이터에 대하여 벡터 곱셈, 벡터 가산, 지수 연산, 로그 연산, 또는 크기 비교와 같은 추가적인 처리를 수행할 수 있다. 예를 들어, 벡터 계산 유닛(507)은 구체적으로, 풀링(pooling), 배치 정규화(batch normalization), 또는 로컬 응답 정규화(local response normalization)와 같이, 콘볼루션 신경망에서의 비-콘볼루션/비-FC 계층의 네트워크 계산을 수행하도록 구성될 수 있다. 도 16을 참조하면, 벡터 계산 유닛(507)이 누산기(508)에 의해 출력되는 데이터에 대하여 추가적인 처리를 수행하지 않을 경우, 누산기(508)는 제5 매트릭스를 제3 메모리(506)에 직접적으로 세이브할 수 있다는 점에 유의한다.

선택적으로, 도 16 및 도 17을 참조하면, 연산 가속기(50)는 이하의 구성, 즉:

제어기(504)에 연결되어, 제어기(504)에 의해 사용되는 명령어를 저장하도록 구성되는 명령어 페치 버퍼(instruction fetch buffer)(509); 및

명령어 페치 버퍼(509), 저장 유닛 액세스 제어기(505), 및 외부 메모리에 연결되고, 외부 메모리로부터 명령어를 취득하기 위해 명령어 페치 버퍼(509)에 의해 사용되고, 또한 외부 메모리로부터 제1 매트릭스의 소스 데이터, 제1 매트릭스, 및 제2 매트릭스 중 적어도 하나를 취득하기 위해 저장 유닛 액세스 제어기(505)에 의해 더 사용되는 버스 인터페이스 유닛(510)(Bus Interface Unit, BIU로 약기함)을 더 포함할 수 있다.

구체적으로, 도 16 및 도 17을 참조하면, 본 발명의 이 실시형태에서 제공되는 연산 가속기(50)는 중앙 처리 장치(Central Processing Unit, CPU로 약기함)에 장착되는 보조 프로세서로서 사용될 수 있으며, CPU는 계산 작업을 연산 가속기(50)에 할당한다. 구체적으로, CPU는 제1 매트릭스, 제2 매트릭스, 및 명령어를 외부 메모리에 저장할 수 있다. 연산 가속기(50)는 제1 매트릭스, 제2 매트릭스, 및 명령어를 외부 메모리로부터 판독해서 매트릭스 곱셈 연산을 완료할 수 있다. 외부 메모리는 구체적으로 2배속 동기식 동적 랜덤 액세스 메모리(Double Data Rate Synchronous Dynamic Random Access Memory, DDR로 약기함) 또는 다른 판독 및 기록 가능 메모리일 수 있다. 외부 메모리는 연산 가속기(50) 전용의 메모리일 수 있다. 구체적으로, 제1 메모리(501), 제2 메모리(502), 제3 메모리(506), 및 명령어 페치 버퍼(509)는 일반적으로 온칩 버퍼(On-Chip Buffer)이다.

예를 들어, 연산 가속기(50)는 콘볼루션 신경망에 적용된다. 도 20을 참조하면, 연산 가속기(50) 내의 제어기(504)가 연산 가속기(50)를 제어해서 가중치 매트릭스와 입력 매트릭스의 곱의 계산을 완료하는 프로세스는 구체적으로 하기의 단계들을 포함할 수 있다.

2001. DMAC는 DDR로부터 가중치 매트릭스를 취득하고 가중치 매트릭스를 제2 메모리(502)에 기록한다.

2002. DMAC는 DDR로부터 입력 매트릭스를 취득하고 입력 매트릭스를 제1 메모리(501)에 송신한다.

2003. 연산 회로(503)는 제2 메모리(502)로부터 가중치 매트릭스를 판독하고, 가중치 매트릭스의 K개의 열 벡터를 각각의 연산 그룹의 K개의 연삭 블록에 제각기 기록한다.

2004. 연산 회로(503)는 제1 메모리(501)로부터 입력 매트릭스를 판독하고, 입력 매트릭스에서의 M개의 행 벡터를 M개의 연산 그룹에 제각기 송신한다.

2005. 연산 회로(503)는 매트릭스 곱셈 계산을 수행하고, 제3 매트릭스를 출력한다.

제3 매트릭스는 가중치 매트릭스와 입력 매트릭스의 곱이다.

2006. 연산 회로(503)는 제3 매트릭스를 누산기(508)에 버퍼링한다.

2007. 누산기(508)는 제3 매트릭스가 최종 결과인지를 결정한다.

최종 결과이면, 프로세스가 종료된다. 최종 결과가 아니면, 단계(2001)로 돌아간다.

전술한 단계들 및 관련 설명의 구체적인 구현예들에 대해서는, 상기의 설명을 참조한다. 본 명세서에서는 세부 내용을 다시 설명하지 않는다. 연산 가속기(50)는 매트릭스 곱셈 연산을 공식적으로 시작하기 전에 단계(2001) 내지 단계(2004)를 완료할 필요가 있다. 단계(2001) 내지 단계(2004)의 실행 순서는 도 20에 엄격하게 종속될 필요는 없으며, 단계(2003)가 단계(2001) 이후이고, 단계(2004)가 단계(2002) 이후이며, 단계(2005)가 단계(2004) 이후이기만 하면 된다.

연산 가속기(50)는 CPU에 장착되는 보조 프로세서로서 사용될 수 있다. 따라서, CPU가 연산 가속기(50)를 제어해서 매트릭스 곱셈 연산을 구현하는 프로세스를 간략히 설명한다. 도 21에 도시된 바와 같이, 프로세스는 구체적으로 하기의 단계들을 포함할 수 있다.

2101. CPU는 작업의 스케줄링을 시작한다.

작업은 매트릭스 곱셈 연산 작업이다.

2102. CPU는 가중치 매트릭스를 준비한다.

2103. CPU는 가중치 매트릭스를 DDR에 복제한다.

2104. CPU는 입력 데이터와 명령어를 비교한다.

2105. CPU는 입력 데이터 및 명령어를 DDR에 복제한다.

2106. CPU는 명령어를 연산 가속기(50) 내의 명령어 페치 버퍼(509)에 넣는다.

이 단계 이후에, CPU는 동작들(2107 및 2108)을 수행하고, 연산 가속기(50)는 동작들(2109 내지 2113)을 수행한다.

2107. CPU는 인터럽트를 수신한다.

인터럽트는 연산 가속기가 매트릭스 곱셈 연산을 수행해서 계산 결과를 취득하고 계산 결과를 DDR에 기록한 후에 CPU에 송신된 인터럽트이고, 인터럽트는 계산 결과를 처리하기 위해 CPU에 의해 사용된다.

2108. CPU는 인터럽트를 처리한다.

여전히 입력 데이터가 있으면, 단계(2104)로 돌아간다. 입력 데이터가 없으면, 프로세스가 종료된다.

2109. 연산 가속기(50)는 명령어를 명령어 페치 버퍼(509)로부터 판독한다.

2110. 연산 가속기(50)는 작업 실행을 시작한다.

2111. 연산 가속기(50)는 명령어에 따라 매트릭스 곱셈 연산을 수행한다.

2112. 연산 가속기(50)는 계산 결과를 DDR에 기록한다.

2113. 연산 가속기(50)는 인터럽트를 CPU에 송신한다.

전술한 실시형태들의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합을 통해 구현될 수 있다. 소프트웨어 프로그램이 실시형태들을 구현하는 데 사용될 경우, 실시형태들은 완전히 또는 부분적으로 컴퓨터 프로그램 제품의 형태로 구현될 수 있다. 컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령어를 포함한다. 컴퓨터 프로그램 명령어가 컴퓨터에 로딩되어 실행되는 경우, 본원의 실시형태들에 따른 절차 또는 기능들이 전부 또는 부분적으로 생성된다. 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크, 또는 다른 프로그램 가능 장치일 수 있다. 컴퓨터 명령어는 컴퓨터 판독 가능 저장 매체에 저장될 수 있거나 또는 하나의 컴퓨터 판독 가능 저장 매체로부터 다른 컴퓨터 판독 가능 저장 매체로 전송될 수 있다. 예를 들어, 컴퓨터 명령어는 하나의 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로부터 다른 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로 유선(예를 들어, 동축 케이블, 광섬유, 또는 디지털 가입자 회선(Digital Subscriber Line, DSL로 약기함)) 또는 무선(예를 들어, 적외선, 라디오, 또는 마이크로파) 방식으로 전송될 수 있다. 컴퓨터 판독 가능 저장 매체는 컴퓨터가 액세스할 수 있는 임의의 사용 가능한 매체, 또는 하나 이상의 사용 가능한 매체를 통합하는 서버 또는 데이터 센터와 같은 데이터 저장 장치일 수 있다. 사용 가능한 매체는 자기 매체(예를 들면, 플로피 디스크, 하드 디스크, 또는 자기 테이프), 광학 매체(예를 들면, DVD), 반도체 매체(예를 들면, 솔리드 스테이트 디스크(Solid State Disk, SSD로 약기함)) 등일 수 있다.

보호를 주장하는 본원을 구현하는 프로세스에서 본원이 실시형태들을 참조하여 설명되지만, 당업자라면 첨부 도면, 개시된 내용, 및 청구범위를 검토함으로써 개시된 실시형태들의 다른 변형을 이해하고 구현할 수 있을 것이다. 청구범위에서, "포함하는(comprising)"은 다른 구성요소 또는 다른 단계를 배제하지 않으며, 단수 형태("a" 또는 "an")는 복수인 경우를 배제하지 않는다. 단일의 프로세서 또는 다른 유닛이 청구범위에 열거된 몇 가지 기능을 구현할 수 있다. 몇 가지 방안이 서로 다른 종속 청구항들에 기록되지만, 이는 이들 방안이 더 나은 효과를 내도록 조합될 수 없음을 의미하지 않는다.

본원이 특정한 특징들 및 그 실시형태들을 참조하여 설명되지만, 그들에 대해서는, 분명히 다양한 수정 및 조합이 본원의 범위로부터 일탈함이 없이 이루어질 수 있다. 그에 상응하여, 명세서 및 첨부 도면은 단지 청구범위에 의해 정의되는 본원의 예시적인 설명일 뿐이며, 본원의 범위를 포함하는 어느 또는 모든 수정, 변형, 조합 또는 등가물로서 간주된다. 분명히, 당업자는 본원의 정신 및 범위로부터 일탈함이 없이 본원을 다양하게 수정 및 변형시킬 수 있다. 본원은, 본원의 이들 수정 및 변형이 하기의 청구항들 및 그 균등 기술에 의해 정의되는 보호 범위 내에 있는 한, 이들 수정 및 변형을 포함하려는 것이다.

Claims

연산 가속기로서,
제1 매트릭스를 저장하도록 구성― 상기 제1 매트릭스는 M*N 매트릭스임 ―되는 제1 메모리;
제2 매트릭스를 저장하도록 구성― 상기 제2 매트릭스는 N*K 매트릭스임 ―되는 제2 메모리;
상기 제1 메모리 및 상기 제2 메모리에 연결되는 연산 회로― 상기 연산 회로는 매트릭스 곱셈 회로 및 가산기 회로를 포함하고; 상기 매트릭스 곱셈 회로는 M개의 연산 그룹을 포함하고, 각각의 연산 그룹은 K개의 연산 블록을 포함하고, 각각의 연산 블록은 N개의 연산 유닛을 포함하고, 각각의 연산 유닛은 2개의 데이터 조각을 제각기 상기 제1 메모리 및 상기 제2 메모리로부터 수신하고, 상기 연산 유닛은 상기 2개의 데이터 조각을 곱하고; 상기 가산기 회로는 동일한 연산 블록에 속하는 연산 유닛들의 계산 결과들을 더해서 각각의 연산 블록의 계산 결과를 취득하도록 구성됨 ―; 및
상기 연산 회로에 연결되는 제어기를 포함하고, 상기 제어기는 하기의 동작들: 즉,
상기 제2 매트릭스의 K개의 열 벡터를 각각의 연산 그룹의 상기 K개의 연산 블록에 제각기 기록― 상기 제2 매트릭스의 벡터들의 g번째 열의 j번째 데이터 조각이 상기 K개의 연산 블록에서 g번째 연산 블록의 j번째 연산 유닛에 기록됨 ―하는 동작;
상기 제1 매트릭스의 M개의 행 벡터를 상기 M개의 연산 그룹에 제각기 송신― 각각의 연산 그룹은 상기 M개의 행 벡터 중 하나의 행 벡터를 수신하고, 각각의 연산 그룹의 K개의 연산 블록은 동일한 행 벡터를 수신하고, 상기 M개의 연산 그룹에 의해 수신되는 행 벡터는 상이하고, 상기 제1 매트릭스의 i번째 행 벡터는 상기 M개의 연산 그룹에서 i번째 연산 그룹에 송신되고, i번째 연산 그룹에서의 각각의 연산 블록의 j번째 연산 유닛은 i번째 행 벡터의 j번째 데이터 조각을 수신함 ―하는 동작을 수행하도록 구성되고;
상기 M개의 연산 그룹의 각각의 연산 유닛은 상기 연산 유닛에 의해 수신되는 2개의 데이터 조각에 대하여 곱셈 연산을 수행하고, 상기 가산기 회로는 각각의 연산 블록의 연산 유닛들의 계산 결과들을 더해서 제3 매트릭스를 취득하고, 상기 제3 매트릭스는 상기 제1 매트릭스와 상기 제2 매트릭스의 곱(product)이고, 상기 제3 매트릭스의 i 행 및 g 열의 요소는 상기 i번째 연산 그룹의 g번째 연산 블록의 계산 결과이고, M, N, 및 K는 1보다 큰 정수이고, i는 0보다 크고 M+1보다 작은 정수이고, g는 0보다 크고 K+1보다 작은 정수이고, j는 0보다 크고 N+1보다 작은 정수인
연산 가속기.
제1항에 있어서,
상기 가산기 회로는 M*K개의 가산기 트리를 포함하고, 하나의 가산기 트리는 하나의 연산 블록에 대응하고, 상기 가산기 트리는 상기 대응하는 연산 블록의 N개의 연산 유닛에 연결되고, 상기 가산기 트리는 상기 가산기 트리에 연결되는 상기 N개의 연산 유닛의 계산 결과들을 더하도록 구성되는
연산 가속기.
제1항 또는 제2항에 있어서,
상기 연산 유닛은:
제2 데이터를 저장하도록 구성― 상기 제2 데이터는 상기 제2 매트릭스로부터의 데이터임 ―되는 저장 유닛; 및
상기 저장 유닛에 연결되며, 제1 데이터와 상기 저장 유닛에 저장되는 상기 제2 데이터의 곱을 계산하도록 구성― 상기 제1 데이터는 상기 제1 매트릭스로부터의 데이터임 ―되는 곱셈 회로를 포함하는
연산 가속기.
제1항 또는 제2항에 있어서,
상기 연산 유닛은 복수의 저장 유닛, 곱셈 회로, 상기 복수의 저장 유닛에 연결되는 제1 선택 회로, 및 상기 복수의 저장 유닛 및 상기 곱셈 회로에 연결되는 제2 선택 회로를 포함하고, 상기 복수의 저장 유닛은 데이터를 저장하도록 구성되고;
상기 제1 선택 회로는, 상기 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 상기 곱셈 회로가 곱셈 연산을 수행하기 전에 상기 복수의 저장 유닛으로부터 선택하도록 구성되고;
상기 제2 선택 회로는, 상기 곱셈 회로가 곱셈 연산을 수행할 때 사용되는 데이터를 저장하기 위한 저장 유닛을, 상기 곱셈 회로가 곱셈 연산을 수행할 때 선택하도록 구성되고;
상기 곱셈 회로는 수신된 데이터와 상기 제2 선택 회로에 의해 선택된 상기 저장 유닛에 저장되는 데이터의 곱을 계산하도록 구성되는
연산 가속기.
제1항 또는 제2항에 있어서,
상기 제1 메모리는 제1 버스를 사용해서 상기 연산 회로에 연결되고, 상기 제1 버스의 비트 폭은 W_i*N*M이고; 상기 제2 메모리는 제2 버스를 사용해서 상기 연산 회로에 연결되고, 상기 제2 버스의 비트 폭은 W_i*N이고; W_i는 입력 데이터의 것이며 상기 연산 유닛에 의해 허용되는 최대 비트 폭인
연산 가속기.
제1항 또는 제2항에 있어서,
상기 연산 가속기는 상기 제1 메모리, 상기 제2 메모리, 및 상기 제어기에 연결되는 저장 유닛 액세스 제어기를 더 포함하고,
상기 저장 유닛 액세스 제어기는, 상기 제어기의 제어 하에서, 상기 제1 매트릭스 및 상기 제2 매트릭스를 취득하고, 상기 제1 매트릭스를 상기 제1 메모리에 세이브하고, 상기 제2 매트릭스를 상기 제2 메모리에 세이브하도록 구성되는
연산 가속기.
제1항 또는 제2항에 있어서,
상기 연산 가속기는:
상기 제1 매트릭스의 소스 데이터를 저장하도록 구성되는 제3 메모리;
상기 제1 메모리, 상기 제2 메모리, 상기 제3 메모리, 및 상기 제어기에 연결되는 저장 유닛 액세스 제어기― 상기 저장 유닛 액세스 제어기는, 상기 제어기의 제어 하에서, 상기 제1 매트릭스의 소스 데이터 및 상기 제2 매트릭스를 취득하고, 상기 제1 매트릭스의 소스 데이터를 상기 제3 메모리에 세이브하고, 상기 제2 매트릭스를 상기 제2 메모리에 세이브하도록 구성됨 ―; 및
상기 제1 메모리, 상기 제3 메모리, 및 상기 제어기에 연결되는 벡터 계산 유닛― 상기 벡터 계산 유닛은, 상기 제어기의 제어 하에서, 상기 제1 매트릭스의 소스 데이터를 상기 제1 매트릭스로 변환하고, 상기 제1 매트릭스를 상기 제1 메모리에 세이브하도록 구성됨 ―을 더 포함하는
연산 가속기.
제7항에 있어서,
상기 제3 메모리는 상기 연산 회로에 연결되고, 상기 제3 메모리는 상기 제3 매트릭스를 저장하도록 더 구성되는
연산 가속기.
제7항에 있어서,
상기 연산 가속기는 상기 연산 회로, 상기 벡터 계산 유닛, 및 상기 제어기에 연결되는 누산기를 더 포함하고,
상기 누산기는 상기 제어기의 제어 하에서 상기 제3 매트릭스 및 제4 매트릭스 내의 상응하는 위치들에 있는 요소들을 더해서 제5 매트릭스를 취득하도록 구성되고,
상기 벡터 계산 유닛은 상기 제어기의 제어 하에서 상기 제5 매트릭스를 상기 제3 메모리에 세이브하도록 더 구성되고,
상기 제3 매트릭스는 상기 제1 매트릭스와 상기 제2 매트릭스의 곱이고, 상기 제1 매트릭스는 첫 번째로 계산될 매트릭스의 제1 부분을 포함하고, 상기 첫 번째로 계산될 매트릭스의 제1 부분은 상기 첫 번째로 계산될 매트릭스의 첫 번째 열 내지 N 번째 열의 요소들이고, 상기 제2 매트릭스는 두 번째로 계산될 매트릭스의 제1 부분이고, 상기 두 번째로 계산될 매트릭스의 제1 부분은 상기 두 번째로 계산될 매트릭스의 첫 번째 행 내지 N 번째 행의 요소들이고, 상기 첫 번째로 계산될 매트릭스는 요소들의 M개의 행을 포함하고, 상기 두 번째로 계산될 매트릭스는 요소들의 K개의 열을 포함하고, 상기 제4 매트릭스는 상기 첫 번째로 계산될 매트릭스의 제2 부분과 상기 두 번째로 계산될 매트릭스의 제2 부분의 곱이고, 상기 첫 번째로 계산될 매트릭스의 제2 부분은 상기 첫 번째로 계산될 매트릭스의 제1 부분 이외의 부분이고, 상기 두 번째로 계산될 매트릭스의 제2 부분은 상기 두 번째로 계산될 매트릭스의 제1 부분 이외의 부분인
연산 가속기.
제6항에 있어서,
상기 연산 가속기는:
상기 제어기에 연결되며, 상기 제어기에 의해 사용되는 명령어를 저장하도록 구성되는 명령어 페치 버퍼; 및
상기 명령어 페치 버퍼, 상기 저장 유닛 액세스 제어기, 및 외부 메모리에 연결되고, 상기 외부 메모리로부터 명령어를 취득하기 위해 상기 명령어 페치 버퍼에 의해 사용되고, 또한 상기 외부 메모리로부터 상기 제1 매트릭스의 소스 데이터, 상기 제1 매트릭스, 및 상기 제2 매트릭스 중 적어도 하나를 취득하기 위해 상기 저장 유닛 액세스 제어기에 의해 더 사용되는 버스 인터페이스 유닛을 더 포함하는
연산 가속기.
제1항 또는 제2항에 있어서,
상기 연산 가속기는 콘볼루션 신경망(convolutional neural network)에 적용되고, 상기 제1 매트릭스는 입력 매트릭스이고 상기 제2 매트릭스는 가중치 매트릭스인
연산 가속기.
제1항 또는 제2항에 있어서,
M=N=K인
연산 가속기.
연산 회로에 의해 수행― 상기 연산 회로는 M개의 연산 그룹을 포함하고, 각각의 연산 그룹은 K개의 연산 블록을 포함하고, 각각의 연산 블록은 N개의 연산 유닛을 포함함 ―되는 연산 방법으로서,
상기 연산 회로가 제1 메모리로부터 제1 매트릭스를 판독하고 상기 제1 매트릭스의 M개의 행 벡터를 제각기 상기 M개의 연산 그룹에 송신하는 것― 각각의 연산 그룹은 상기 M개의 행 벡터 중 하나의 행 벡터를 수신하고, 각각의 연산 그룹의 K개의 연산 블록은 동일한 행 벡터를 수신하고, 상기 M개의 연산 그룹에 의해 수신되는 행 벡터는 상이하고, 상기 제1 매트릭스는 M*N 매트릭스임 ―;
상기 연산 회로가 제2 메모리로부터 제2 매트릭스를 판독하고 가중치 매트릭스의 K개의 열 벡터를 제각기 각각의 연산 그룹의 상기 K개의 연산 블록에 기록하는 것― 상기 제2 매트릭스는 N*K 매트릭스이고, M, N 및 K는 1보다 큰 정수임 ―;
상기 연산 회로가 하나의 클록 사이클 내에 상기 제1 매트릭스 및 상기 제2 매트릭스의 매트릭스 곱셈 계산을 수행하는 것을 포함하는
연산 방법.
제13항에 있어서,
상기 연산 회로는 가산기 회로를 포함하고, 상기 방법은:
상기 가산기 회로가 동일한 연산 블록에 속하는 연산 유닛들의 계산 결과들을 더해서 각각의 연산 블록의 계산 결과를 취득하는 것을 포함하는
연산 방법.
제13항 또는 제14항에 있어서,
상기 연산 회로는 콘볼루션 신경망에 적용되고, 상기 제1 매트릭스는 입력 매트릭스이고 상기 제2 매트릭스는 가중치 매트릭스인
연산 방법.