KR20190066058A

KR20190066058A - 신경망 연산 타일

Info

Publication number: KR20190066058A
Application number: KR1020197014238A
Authority: KR
Inventors: 올리비에 템암; 라비 나라야나스와미; 하싯 카이탄; 동혁 우
Original assignee: 구글 엘엘씨
Priority date: 2016-10-27
Filing date: 2017-08-15
Publication date: 2019-06-12
Also published as: GB201714815D0; HK1254698A1; US11816480B2; DE202017105708U1; US20230004386A1; KR102387334B1; KR102317668B1; JP7451483B2; CN207895435U; GB2555936A; EP3533001A1; US20180121196A1; KR20210129270A; WO2018080617A1; DE102017121825A1; US11422801B2; SG11201903684RA; JP2022046552A; US10175980B2; CN108009106A

Abstract

입력 활성화를 저장하기 위한 제1 메모리 뱅크 및 연산을 수행하는데 사용되는 파라미터를 저장하기 위한 제2 메모리 뱅크를 포함하는 컴퓨팅 유닛이 개시된다. 연산 유닛은 제2 메모리 뱅크로부터 파라미터를 수신하고 연산을 수행하는 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함하는 적어도 하나의 셀을 포함한다. 연산 유닛은 제1 메모리 뱅크에 제어 신호를 제공하여 MAC 오퍼레이터에 의해 액세스 가능한 데이터 버스에 입력 활성화가 제공되도록 하는 제1 트래버스 유닛을 더 포함한다. 연산 유닛은 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산을 수행하며, 하나 이상의 연산은 MAC 오퍼레이터에 의해 수행되며, 부분적으로, 상기 데이터 버스로부터 수신된 상기 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 파라미터의 곱셈 연산을 포함한다.

Description

신경망 연산 타일

본 명세서는 신경망 연산 타일에 관한 것이다.

본 명세서는 일반적으로 감소된 명령어 대역폭 및 명령어 메모리를 허용하는 심층 신경망(DNN: Deep Neural Network) 계층들의 연산을 위한 신경망 연산 타일에 관한 것이다.

일반적으로, 본 명세서에 기술된 요지의 하나의 혁신적인 양태는 텐서(tensor) 연산(컴퓨팅)을 가속화하기 위한 연산 유닛에서 구현될 수 있다. 연산 유닛은 입력 활성화들 또는 출력 활성화들 중 적어도 하나를 저장하기 위한 제1 데이터 폭을 갖는 제1 메모리 뱅크, 및 연산을 수행하는데 사용되는 하나 이상의 파라미터를 저장하기 위한 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크를 포함한다. 연산 유닛은 제2 메모리 뱅크로부터 파라미터를 수신하고, 연산을 수행하는 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함하는 적어도 하나의 셀을 더 포함할 수 있다. 연산 유닛은 적어도 제1 메모리 뱅크와 데이터 통신하는 제1 트래버스(traversal) 유닛을 더 포함하며, 상기 제1 트래버스 유닛은 상기 MAC 오퍼레이터에 의해 액세스 가능한 데이터 버스에 입력 활성화가 제공되도록 상기 제1 메모리 뱅크에 제어 신호를 제공하도록 구성된다. 연산 유닛은 데이터 어레이의 적어도 하나의 요소(element)와 관련된 하나 이상의 연산을 수행하며, 하나 이상의 연산은 상기 MAC 오퍼레이터에 의해 수행되며, 상기 데이터 버스로부터 수신된 상기 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 파라미터의 곱셈 연산을 부분적으로 포함한다.

본 명세서에 기술된 요지의 또 다른 혁신적인 양태는 텐서 연산을 가속화하기 위한 컴퓨터로 구현되는 방법으로 구현될 수 있다. 컴퓨터로 구현되는 방법은, 제1 데이터 폭을 갖는 제1 메모리 뱅크에 의해, 제1 트래버스 유닛으로부터 제어 신호를 수신하는 상기 제1 메모리 뱅크에 응답하여 제1 입력 활성화를 전송하는 단계 -상기 제1 메모리 뱅크는 연산 유닛에 배치되고, 상기 제1 입력 활성화는 상기 연산 유닛의 적어도 하나의 셀에 의해 액세스 가능한 데이터 버스에 의해 제공된다. 상기 방법은, 상기 적어도 하나의 셀에 의해, 상기 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크로부터 하나 이상의 파라미터를 수신하는 단계를 더 포함하며, 적어도 하나의 셀은 적어도 하나의 MAC 오퍼레이터를 포함한다. 상기 방법은, 상기 MAC 오퍼레이터에 의해, 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산을 수행하는 단계를 더 포함하며, 상기 하나 이상의 연산은 상기 데이터 버스로부터 액세스된 적어도 제1 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 적어도 하나의 파라미터의 곱셈 연산을 부분적으로 포함한다.

본 명세서에 기술된 요지의 또 다른 혁신적인 양태는 비-일시적인 컴퓨터 판독 가능 저장 매체에서 구현될 수 있다. 상기 비-일시적인 컴퓨터 판독 가능 저장 매체는 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령어들을 포함하며, 상기 동작은 제1 데이터 폭을 갖는 제1 메모리 뱅크에 의해, 제1 트래버스 유닛으로부터 제어 신호를 수신하는 상기 제1 메모리 뱅크에 응답하여 제1 입력 활성화를 전송하는 동작을 포함하며, 상기 제1 메모리 뱅크는 연산 유닛에 배치되고, 상기 제1 입력 활성화는 상기 연산 유닛의 적어도 하나의 셀에 의해 액세스 가능한 데이터 버스에 의해 제공된다. 상기 수행된 동작은 적어도 하나의 셀에 의해, 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크로부터 하나 이상의 파라미터를 수신하는 동작을 더 포함하며, 적어도 하나의 셀은 적어도 하나의 MAC 오퍼레이터를 포함한다. 상기 수행된 동작은 MAC 오퍼레이터에 의해, 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산을 수행하는 동작을 더 포함하며, 상기 하나 이상의 연산은 적어도 상기 데이터 버스로부터 액세스된 제1 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 적어도 하나의 파라미터의 곱셈 연산을 부분적으로 포함한다.

이러한 양태 및 다른 양태의 다른 구현 예는 컴퓨터 저장 장치상에 인코딩된 방법의 동작을 수행하도록 구성된 해당 시스템, 장치 및 컴퓨터 프로그램을 포함한다. 하나 이상의 컴퓨터로 이루어진 시스템은 소프트웨어, 펌웨어, 하드웨어 또는 이들이 조합되어 시스템상에 설치됨으로써 시스템으로 하여금 동작을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행될 때 장치로 하여금 동작을 수행하게 하는 명령어들을 갖도록 구성될 수 있다.

본 명세서에 기술된 요지는 또한 이미지 인식 및/또는 분류 방법/시스템에 관한 것이다. 상기 시스템은 개시된 기술 및 하드웨어 컴퓨팅 유닛 또는 연산 타일을 갖는 설명된 하드웨어 컴퓨팅 시스템을 사용하여 구현될 수 있다. 컴퓨팅 유닛은 다수의 신경망 계층을 갖는 신경망을 사용하여 추론을 연산하기 위한 텐서 연산을 처리한다.

본 명세서에서 설명된 요지는 다음의 장점들 중 하나 이상을 실현하도록 특정 실시 예에서 구현될 수 있다. 레지스터를 사용하여 메모리 주소값을 추적하면 프로그램이 하나의 명령어로 DNL(deeply-nested loop)들을 반복할 수 있다. 내로우(narrow) 메모리와 와이드(wide) 메모리 유닛에서 액세스할 수 있는 텐서는, 단일 연산 타일에서, 레지스터에서 검색한 메모리 주소 값을 기반으로 트래버스된다. 메모리 주소 값은 텐서 요소에 해당한다. 텐서 연산은 DLN(deep loop nest)의 실행을 기반으로 개별 연산 타일에서 발생한다. 연산은 여러 타일에 분산될 수 있다. 여러 연산 타일에 걸쳐 다층 신경망에 대한 텐서 연산을 분산하여 연산 효율성이 향상되고 가속화된다. 텐서는 트래버스될 수 있으며, 텐서 연산은 감소된 수의 명령어로 수행될 수 있다.

본 명세서에서 설명된 요지는 또한 다른 장점을 실현하도록 특정 실시 예에서 구현될 수 있다. 예를 들어, 높은 대역폭의 외이드 메모리를 사용하여 임의의 순서로 다차원 어레이를 트래버스하는 어드레싱 유연성(addressing flexibility)을 허용하는 내로우 저 대역폭 메모리를 연결하는 메모리 계층(hierarchy)을 사용함으로써, 매우 다른 차원의 DNN 계층에 대해 MAC 오퍼레이터의 높은 활용도를 달성할 수 있으며 연산에서 지역성(locality)을 최대한 활용할 수 있다.

본 명세서에서 설명된 요지의 하나 이상의 구현예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 요지의 다른 잠재적인 특징, 양태 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.

도 1은 예시적인 연산 시스템의 블록도이다.
도 2는 예시적인 신경망 연산 타일을 도시한다.
도 3은 예시적인 TTU(Tensor Traversal Unit) 구조를 도시한다.
도 4는 하나 이상의 MAC 오퍼레이터들에 입력 활성화를 제공하는 내로우(narrow) 메모리 유닛(NMU)을 포함하는 예시적인 아키텍처를 도시한다.
도 5는 도 2 및 도 4의 내로우 메모리 유닛에 출력 활성화를 제공하는 출력 버스를 포함하는 예시적인 아키텍처를 도시한다.
도 6은 도 2의 신경망 연산 타일을 사용하여 텐서 연산을 수행하는 프로세스의 예시적인 흐름도이다.
다양한 도면에서 유사한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

본 명세서에 기술된 요지는 신경망 계층의 기계 학습 추론 작업 부하를 가속화하도록 구성된 다수의 컴퓨팅 유닛을 포함하는 하드웨어 컴퓨팅 시스템에 관한 것이다. 하드웨어 연산 시스템의 각 연산 유닛은 자체 포함되어 있으며 다층 신경망의 소정의 계층에 필요한 연산을 독립적으로 실행할 수 있다.

추론을 연산(컴퓨팅)하기 위해 다중 계층을 갖는 신경망을 사용할 수 있다. 예를 들어, 입력이 주어지면 신경망은 입력에 대한 추론을 연산할 수 있다. 신경망은 신경망의 각 계층을 통해 입력을 처리하여 이 추론을 연계한다. 특히, 신경망의 계층은 각각 가중치 세트를 갖는다. 각 계층은 입력을 수신하고 출력을 생성하기 위해 계층의 가중치 세트에 따라 입력을 처리한다.

따라서, 수신된 입력으로부터 추론을 연산하기 위해, 신경망은 입력을 수신하여 추론을 생성하기 위해 각각의 신경망 계층을 통해 이를 처리하고, 하나의 신경망 계층으로부터의 출력은 다음 신경망 계층에 입력으로서 제공된다. 신경망 계층에 대한 데이터 입력, 예를 들어, 신경망으로의 입력 또는 시퀀스 내의 계층 아래의 계층의 출력 중 하나를 신경망 계층에 입력하는 것은 계층에 대한 활성화(activation) 입력으로 지칭될 수 있다.

일부 구현 예에서, 신경망의 계층들은 시퀀스로 배열된다. 다른 구현예에서, 계층들은 유향 그래프(directed graph)로 배열된다. 즉, 특정 계층은 다중 입력, 다중 출력 또는 둘 모두를 수신할 수 있다. 신경망의 계층은 또한 계층의 출력이 이전 계층에 대한 입력으로서 되돌려 보내질 수 있도록 배열될 수 있다.

본 명세서에서 설명된 하드웨어 컴퓨팅 시스템은 다수의 연산 타일에 텐서 연산을 분산시킴으로써 신경망 계층의 연산을 수행할 수 있다. 신경망 계층 내에서 수행되는 연산 프로세스는 입력 활성화를 포함하는 입력 텐서와 가중치를 포함하는 파라미터 텐서의 곱을 포함할 수 있다. 연산은 하나 이상의 사이클에서 입력 활성화에 가중치를 곱하고 여러 사이클에 걸쳐 곱의 누적을 수행하는 것을 포함한다.

텐서는 다차원 기하학적 객체이며, 예를 들어 다차원 기하학적 객체는 행렬 및 데이터 배열을 포함한다. 일반적으로, 소프트웨어 알고리즘은 연산 타일에 의해 실행되어 N 차원 텐서를 트래버스하기 위해 중첩(네스트) 루프(nested loop)를 처리함으로써 텐서 연산을 수행한다. 일 예시적인 연산 프로세스에서, 각각의 루프는 N 차원 텐서의 특정 차원을 트래버스하는 것을 담당할 수 있다. 소정의 텐서 구조에 대해, 연산 타일은 텐서와 관련된 복수의 점곱(dot product) 연산을 실행하기 위해 특정 텐서의 요소에 대한 액세스를 요구할 수 있다. 연산은 내로우 메모리 구조에 의해 제공되는 입력 활성화가 와이드 메모리 구조에 의해 제공되는 파라미터 또는 가중치와 곱해질 때 발생한다. 텐서가 메모리에 저장되기 때문에 텐서 인덱스의 세트는 메모리 주소의 세트로 변환해야 할 수 있다. 일반적으로, 연산 타일의 텐서 트래버스 유닛(tensor traversal unit)은 연산을 수행하기 위해 인덱스 요소가 트래버스되는 순서 및 텐서와 관련된 각 차원의 인덱스를 제공하는 제어 연산을 실행한다. 곱셈 결과가 출력 버스에 쓰여지고 메모리에 저장되면 텐서 연산이 종료한다.

도 1은 심층 신경망(DNN)과 관련된 텐서 연산을 가속화하기 위한 예시적인 연산 시스템(100)의 블록도를 도시한다. 시스템(100)은 일반적으로 제어기(102), 호스트 인터페이스(108), 입/출력(I/O) 링크(110), 제1 타일 세트(112) 및 제2 타일 세트(114)를 포함하는 다중 타일, 분류기 부분(118), 버스 맵(118)(명확성을 위해 도시되었지만 시스템(100)에 포함되지 않음)에서 식별된 데이터 버스를 포함한다. 제어기(102)는 일반적으로 데이터 메모리(104), 명령어 메모리(106), 및 컴퓨터 판독 가능 저장 매체에 인코딩된 하나 이상의 명령어를 실행하도록 구성된 적어도 하나의 프로세서를 포함한다. 명령어 메모리(106)는 제어기(102)의 하나 이상의 프로세서에 의해 실행 가능한 하나 이상의 기계 판독 가능 명령어를 저장할 수 있다. 데이터 메모리(104)는 시스템(100) 내에서 발생하는 연산에 관련된 다양한 데이터를 저장하고 이어서 액세스하기 위한 다양한 데이터 저장 매체 중 임의의 것일 수 있다.

제어기(102)는 명령어 메모리(106)에 저장된 명령어를 포함하여, 시스템(100) 내의 텐서 연산에 관한 하나 이상의 명령어를 실행하도록 구성된다. 일부 구현 예에서, 데이터 메모리(104) 및 명령어 메모리(106)는 휘발성 메모리 유닛(들)이다. 일부 다른 구현 예에서, 데이터 메모리(104) 및 명령어 메모리(106)는 비휘발성 메모리 유닛(들)이다. 데이터 메모리(104) 및 명령어 메모리(106)는 또한 플로피 디스크 장치, 하드 디스크 장치, 광학 디스크 장치 또는 테이프 장치, 플래시 메모리 또는 다른 유사한 고체 메모리 장치 또는 저장 영역 네트워크 또는 다른 구성의 장치를 포함하는 장치의 어레이와 같은 컴퓨터 판독 가능 매체의 다른 형태일 수 있다. 다양한 구현 예에서, 제어기(102)는 또한 코어 관리자(102)로서 불릴 수 있다.

도시된 바와 같이, 호스트 인터페이스(108)는 I/O 링크(110), 제어기(102) 및 분류기 부분(116)에 연결된다. 호스트 인터페이스(108)는 I/O 링크(110)로부터 명령어 및 데이터 파라미터를 수신하고, 명령어 및 파라미터를 제어기(102)에 제공한다. 일반적으로, 명령어는 명령 버스(124)(후술함)를 통해 시스템(100) 내의 하나 이상의 장치에 제공될 수 있고, 파라미터는 링 버스(ring bus)(128)(후술함)를 통해 시스템(100)의 하나 이상의 장치에 제공될 수 있다. 일부 구현 예에서, 명령어는 초기 시간에 호스트 인터페이스(118)로부터 제어기(102)에 의해 수신되고, 나중에 제어기(102)에 의한 실행을 위해 명령 메모리(106)에 저장된다.

분류기 부분(116)은 마찬가지로 제어기(102) 및 제2 타일 세트(114)의 타일(tile)(7)에 연결된다. 일부 구현 예에서, 분류기 부분(116)은 시스템(100) 내의 별도의 타일로서 구현된다. 다른 구현 예에서, 분류기 부분(116)은 제어기(102)의 서브 회로 또는 서브 장치(디바이스)로서 제어기(102) 내에 배치되거나 위치된다. 분류기 부분(116)은 일반적으로 완전 연결(fully connected) 계층들의 출력들로서 수신된 누적된 사전 활성화 값들에 대해 하나 이상의 기능을 수행하도록 구성된다. 완전 연결 계층들은 타일 세트들(112 및 114) 내의 타일들에 걸쳐 분할될 수 있다. 따라서, 각각의 타일은 타일의 메모리 유닛(들)에 저장될 수도 있는 사전 활성화 값(즉, 선형 출력)의 서브 세트를 생성하도록 구성된다. 분류 결과 버스(120)는 분류기 부분(116)으로부터 제어기(102) 로의 데이터 경로를 제공한다. 사후 기능(post-function) 값(즉, 결과)을 포함하는 데이터는 분류 결과 버스(120)를 통해 분류기 부분(116)으로부터 제어기(102)로 제공된다.

버스 맵(118)은 제1 타일 세트(112)와 제2 타일 세트(114)의 타일들 사이에 하나 이상의 상호 연결된 데이터 통신 경로를 제공하는 데이터 버스를 도시한다. 버스 맵(118)은 도 1에 도시된 바와 같이 분류 결과 버스(120), CSR/마스터 버스(122), 명령어 버스(124), 메쉬 버스(126) 및 링 버스(128)를 식별하기 위한 범례(legend)를 제공한다. 일반적으로, 타일은 시스템(100)의 가속기 구조 내의 핵심 컴포넌트이며, 시스템에서 발생하는 텐서 연산을 위한 중심점(focal point)이다. 각각의 타일은 개별적인 연산 유닛이고, 다중 타일은 시스템 내의 다른 타일과 상호 작용하여 다층 신경망의 하나 이상의 계층에 걸친 연산(예를 들어, 텐서 연산)을 가속화할 수 있다. 예를 들어 연산은 여러 타일에 분산될 수 있다. 다중 계층 신경망에 대한 텐서 연산을 여러 연산 타일에 분산하여 연산 효율을 높이고 가속화할 수 있다. 타일 세트(112, 114) 내의 타일은 소정의 명령어와 관련된 텐서 연산의 실행을 공유할 수 있지만, 개별 연산 유닛은 타일 세트들(112, 114) 내의 다른 해당 타일들에 대해 독립적으로 텐서 연산들의 서브세트를 실행하도록 구성된 독립적인 연산 컴포넌트이다.

제어 및 상태 레지스터(CSR) 버스(122)는 제어기(102)가 프로그램 구성을 설정하고 하나 이상의 타일과 연관된 상태 레지스터를 판독하는 하나 이상의 명령어를 전송할 수 있게 하는 단일 마스터 다중 슬레이브 버스이다. CSR 버스(122)는 하나의 마스터 버스 세그먼트 및 다수의 슬레이브 버스 세그먼트를 갖는 단일 데이지 체인 구성(daisy chain configuration)으로 연결될 수 있다. 도 1에 도시된 바와 같이, CSR 버스(122)는 타일 세트(112, 114)의 타일과 제어기(102)를 링에서 호스트 인터페이스(110)로 연결하는 버스 데이터 경로를 통해 통신 커플링을 제공한다. 일부 구현 예에서, 호스트 인터페이스(110)는 CSR 버스 링의 단일 마스터이고, 전체 CSR 버스 어드레스 공간은 호스트 인터페이스(110)의 메모리 공간에 매핑된 메모리이다.

CSR 버스(122)는 예를 들어, 제어기(102)가 명령어 메모리(106)로부터 명령어를 인출하기 시작할 수 있게 하기 위해 제어기(102) 내의 메모리 버퍼 포인터를 프로그래밍하고, 하나 이상의 연산 동안 정적(static)으로 유지되는 다양한 타일 설정(예를 들어, 다항식 근사 계산을 위한 계수 테이블)을 업데이트/프로그래밍하는 것, 및/또는 펌웨어를 분류기 부분(116)에 로딩/재로딩하는 것을 포함하는 하나 이상의 동작을 수행하기 위해 호스트 인터페이스(110)에 의해 사용될 수 있다. 일 예시에서, 펌웨어 재로딩은 선형 출력(즉, 사전 활성화 값)에 적용될 새로운 기능(functions)을 포함할 수 있다. 따라서, CSR 버스(122)에 액세스하는 모든 슬레이브는 슬레이브에 묶여 있고 그것을 식별하는 별개의 노드 식별자(노드 ID)를 가질 것이다. 노드 ID는 명령어 어드레스의 일부분이며, CSR 슬레이브(즉, 제어기(102), 타일(112, 114) 및 분류기(116))에 의해 사용, 검사 또는 조사되어 CSR 패킷이 슬레이브에 어드레스되었는지를 결정한다.

일부 구현 예에서, 하나 이상의 명령어들은 제어기(102)를 통해 호스트 인터페이스(102)에 의해 전송될 수 있다. 명령어들은 예를 들어 명령어를 수신하고 실행하는 명령어 어드레스(주소)/목적지를 나타내는 헤더 정보를 포함하는 처음 7비트를 갖는 32비트 폭일 수 있다. 상기 헤더의 처음 7비트는 특정 노드 ID를 나타내는 데이터 파라미터를 포함할 수 있다. 따라서, CSR 버스 링상의 슬레이브(예를 들어, 각각의 타일)는 명령어의 헤더를 검사하여 마스터(호스트 인터페이스(110))에 의한 요청이 헤더를 검사하는 타일에 어드레스되었는지 여부를 결정할 수 있다. 헤더의 노드 ID가 상기 목적지가 검사 타일임을 나타내지 않으면, 검사 타일은 다음 타일로 검사할 수 있도록 CSR 입력 패킷을 다음 타일에 연결된 CSR 버스 입력에 복사합니다. 입력 CSR 명령어 패킷을 다음 타일로 검사하기 위해 다음 타일에 연결된 CSR 버스 입력에 카피(copy)한다.

명령어 버스(124)는 제어기(102)로부터 시작되며, CSR 버스(122)와 유사하게, 링 내의 타일 세트들(112, 114) 내의 타일들을 제어기(102)에 연결시키는 버스 데이터 경로를 통해 통신 커플링을 제공한다. 일 실시 예에서, 제어기(102)는 명령어 버스(124)를 통해 하나 이상의 명령어를 전송(broadcast)한다. 제어기(102)에 의해 전송되는 명령어는 CSR 버스(122)를 통해 제공된 명령어와 다를 수 있다. 그러나, 타일이 버스(124)를 통해 수신된 명령어를 수신 및/또는 소비 또는 실행하는 방식은 CSR 버스(122)를 통해 수신된 명령어를 실행하기 위한 프로세스와 유사할 수 있다.

일 예시에서, 명령어의 헤더(즉, 비트맵)는 수신 타일이 명령어와 관련된 비트맵에 기초하여 특정 명령어를 소비할 필요가 있음을 수신 타일에 나타낸다. 상기 비트맵은 비트 단위로 정의된 특정 폭을 가질 수 있다. 명령어는 일반적으로 명령어의 파라미터를 기반으로 한 타일에서 다음 타일로 전달된다. 일 실시 예에서, 명령어 버스(124)의 폭은 명령어의 크기/폭보다 작도록 구성될 수 있다. 따라서, 이러한 구성에서, 명령어들의 전송은 여러 사이클을 거치며, 명령어 버스(124)의 버스 스톱(bus stops)은 타일에서 수신된 명령어를 그 타일과 연관된 적절한 타겟 명령어 버퍼에 배치하기 위한 디코더를 가질 것이다.

아래에서 더 설명하는 바와 같이, 타일 세트들(112, 114) 내의 타일들은 일반적으로 2개의 광범위한 카테고리의 명령어들을 지원하도록 구성된다. 2개의 광범위한 카테고리는 명령어 유형이라고도 한다. 명령어 유형은 텐서 연산(TensorOp) 명령어와 직접 메모리 액세스(DMAOp) 명령어를 포함한다. 일부 구현 예에서, DMAOp 명령어에는 동시 처리가 허용되는 하나 이상의 스펙(specialization)이 있다. 하나 이상의 스펙은 DMAOp 명령어 서브 유형 또는 연산 코드(opcode)라고 할 수 있다. 일부 경우에, 모든 유일하고 유효한 DMAOp 명령어 유형/서브 유형 튜플(tuple)은 특정 타일 내에 별도의 명령어 버퍼를 가질 것이다.

타일들(112, 114) 중 특정 타일에서, 명령어 버스(124)와 연관된 버스 스톱은 명령어 유형/서브유형을 결정하기 위해 헤더 비트맵을 조사할 것이다. 명령어는 타일에 의해 수신될 수 있고 이어서 타일에 의한 명령어의 실행 이전에 타일의 명령어 버퍼에 기록될 수 있다. 명령어가 기록되는 타일의 명령어 버퍼는 명령어의 유형 및 서브 유형 인디케이터(indicator)/필드에 의해 결정될 수 있다. 명령어 버퍼는 하나 이상의 관련 명령어의 소비를 우선시하는 FIFO(first-in first-out) 제어 구조를 포함할 수 있다. 따라서, 이 FIFO 제어 구조하에서, 동일한 유형/서브 유형의 명령어는 명령이 명령어 버스에 도착한 순서로 항상 실행될 것이다.

타일 내의 다른 명령어 버퍼는 TensorOp 명령어 버퍼 및 DMAOp 명령어 버퍼이다. 상기한 바와 같이, 명령어 유형은 TensorOp 명령어와 DMAOp 명령어를 포함한다. DMAOp 명령어와 관련하여, 명령 서브유형(버퍼 위치에 기록("write-to")을 지시함)은 1) 메쉬 인바운드 명령어 버퍼; 2) 아웃 바운드 명령어 버퍼 메쉬; 3) 내로우-와이드(narrow-wide) DMA 명령어 버퍼; 4) 외이드-내로우(narrow-wide) DMA 명령어 버퍼; 그리고 5) 링 버스 DMA 명령어 버퍼를 포함한다. 이들 버퍼 위치는 도 2를 참조하여 이하에서보다 상세하게 설명될 것이다. 와이드 그리고 내로우 지정은 명세서 전반에 걸쳐 사용되며, 일반적으로 하나 이상의 메모리 유닛의 폭(비트/바이트)의 대략적인 크기를 나타낸다. 본 명세서에 사용된 바와 같이, "내로우"는 각각 16비트 미만의 크기 또는 폭을 갖는 하나 이상의 메모리 유닛을 지칭할 수 있고, "와이드"는 각각 64비트 미만의 크기 또는 폭을 갖는 하나 이상의 메모리 유닛을 지칭할 수 있다.

메쉬(mesh) 버스(126)는 CSR 버스(122), 명령어 버스(124), 및 링 버스(128)(후술함)와 구별되는 데이터 통신 경로를 제공한다. 도 1에 도시된 바와 같이, 메쉬 버스(126)는 X 및 Y 차원 모두에서 각각의 타일을 그 해당 이웃(인접한) 타일에 연결하거나 커플링하는 통신 경로를 제공한다. 다양한 구현 예에서, 메쉬 버스(126)는 인접한 타일들 내의 하나 이상의 내로우 메모리 유닛들 사이에서 입력 활성화 양(input activation quantities)을 전송하는데 사용될 수 있다. 도시된 바와 같이, 메쉬 버스(126)는 인접하지 않은 타일들에 입력 활성화 데이터의 직접 전달을 허용하지 않는다.

다양한 구현 예에서, 메쉬 버스(126) 및 메쉬 버스(126)를 통해 연결된 다양한 타일은 다음과 같은 구성을 가질 수 있다. 메쉬의 네 코너(Four corner) 타일에는 두 개의 아웃 바운드 포트와 두 개의 인바운드 포트가 있다. 메쉬의 네 에지(Four edge) 타일은 세 개의 인바운드 포트와 세 개의 아웃 바운드 포트를 가지고 있다. 에지가 아닌 모든 비-코너 타일에는 4개의 인바운드 포트와 4개의 아웃 바운드 포트가 있다. 일반적으로, 예시적인 N × N 타일 레이아웃이 주어지면, 에지 타일은 단지 3개의 인접 타일을 갖는 타일이고, 코너 타일은 2개의 인접 타일을 갖는 타일이다. 메쉬 버스(126)를 통한 데이터 흐름 방법에 관해서는, 일반적으로, 특정 타일에 대한 메쉬 버스(126)를 통해 도착한 모든 입력 활성화는 타일의 하나 이상의 내로우 메모리 유닛에 커밋(committed)되어야 한다. 또한, 인바운드 포트가 4개 미만인 타일 구성의 경우, DMAOp 명령어는 결여된 입력 포트에서 데이터를 기다리는 대신 타일의 내로우 메모리에 있는 위치에 0 값을 기록(쓰기)할 수 있다. 마찬가지로, 아웃 바운드 포트가 4개 미만인 타일 구성의 경우, DMAOp 명령어는 결여된 포트에 대한 전송과 관련된 내로우 메모리 읽기 및 포트 쓰기를 실행하지 않을 것이다.

일부 구현 예에서, 특정 입력 활성화가 쓰여지거나 읽히는 내로우 메모리 유닛(들)의 위치 또는 주소는 메쉬 버스(126)를 통해 제공된 인바운드/아웃 바운드 DMAOp를 기반으로 TTU(Tensor Traversal Unit)에 의해 생성될 것이다. 인바운드 DMAOp 및 아웃 바운드 DMAOp는 동시에 실행될 수 있고, 임의의 필요한 동기화는 제어기(102)에 의해 관리되는 동기 플래그 제어 방식을 통해 관리될 것이다. TTU는 도 2 및도 3을 참조하여 이하에서 더 상세하게 설명된다.

링 버스(128)는 제어기(102)로부터 시작되며, CSR 버스(122) 및 명령어 버스(124)와 유사하게, 링의 타일(112, 114)을 제어기(102)에 다시 연결시키는 버스 데이터 경로를 통해 통신 커플링을 제공한다. 다양한 구현 예에서, 링 버스(128)는 일반적으로 모든 타일(112, 114)에서 모든 와이드 메모리 유닛(도 2를 참조하여 이하에서보다 상세하게 설명됨)을 연결하거나 커플링한다. 따라서, 링 버스(128)의 페이로드 폭은 타일 세트들(112, 114)의 각각의 타일 내에 배치된 와이드 메모리 유닛들의 폭에 대응한다. 상술한 바와 같이, 링 버스(128)는 또한 링 버스(128)를 통해 전달되는 명령어들 또는 파라미터들을 포함하는 페이로드 데이터를 소비할 필요가 있는 타일들을 나타내는 비트맵 헤더를 포함한다.

링 버스(128)를 통해 특정 타일에서 수신된 데이터(즉, 페이로드)와 관련하여, 정보의 수신에 응답하여, 각각의 타일은 다른 타일로 데이터를 전송하기 전에 수신 타일에 고유한 비트맵 헤더에 표시된 위치 데이터를 제로(즉, 클리어 아웃(clear out))로 할 것이다. 따라서, 헤더 비트맵이 페이로드를 수신할 특정 타일을 나타내는 잔여 비트 세트 데이터를 갖지 않으면, 페이로드를 다른 타일로 전달하는 것이 중지될 것이다. 페이로드 데이터는 일반적으로 심층 중첩된(네스트) 루프(deeply nested loop)의 실행을 기반으로 수행되는 텐서 연산 중 하나 이상의 타일에서 사용되는 활성화 및 가중치를 나타낸다.

일부 구현 예에서, 제어기(102)는 링 버스(128)의 일부인 것으로 설명될 수 있다. 일 예시에서, 특정 타일 내에서 실행되는 DMAOp 명령어의 경우, 제어기(102)는 링 버스 스톱으로부터 데이터/페이로드를 팝핑(pop)하고 페이로드를 링 내의 다음 타일의 링 버스 스톱에 전송하는데 사용될 수 있다. 제어기(102)는 비트맵 헤더 내의 명령어들에 의해 그러한 동작이 요구되는 경우 페이로드 데이터가 타일의 하나 이상의 와이드 메모리 유닛들에 커밋되도록 할 수 있다. 데이터가 기록(write)될 필요가 있는 하나 이상의 와이드 메모리 유닛의 어드레스(주소)는 특정 타일 내의 DMAOp 명령어에 의해 생성될 수 있다.

다양한 구현 예에서, 타일 세트(112, 114)의 각 타일은 페이로드 데이터의 컨슈머(consumer) 또는 페이로드 데이터의 프로듀서(producer)일 수 있다. 타일이 페이로드 데이터의 프로듀서일 때, 타일은 하나 이상의 와이드 메모리 유닛들로부터 데이터를 읽고(read), 하나 이상의 다른 타일들에 의한 소비를 위해 링 버스(128)를 통해 데이터를 멀티캐스트한다. 타일이 페이로드 데이터의 프로듀서일 때, 타일은 타일 내의 하나 이상의 와이드 메모리 유닛에 데이터를 수신 및 기록하고, 하나 이상의 다른 타일에 의해 소비되도록 페이로드 데이터를 전송한다. 링 버스(128)를 통한 페이로드 데이터의 이동과 관련하여, 임의의 소정 시간에 링 버스(128) 상의 데이터의 하나의 프로듀서/마스터만이 일반적으로 존재할 것이다. 모든 타일에서의 DMAOp 명령어 실행 순서(예를 들어, FIFO 제어 구조)는 소정 시간에 링 버스(128) 상의 데이터의 단지 하나의 프로듀서/마스터만이 있음을 보장할 것이다.

일부 구현 예에서, 제어기(102)는 동기화 플래그 제어 구조를 사용하여 소정 시간에 링 버스(128)상의 페이로드 데이터의 단지 하나의 프로듀서/마스터가 있음을 보장한다. 일 예시에서, 링 출력에 대한 타일에 의한 모든 기록(write)은 대응하는 동기 플래그 카운트의 증가를 트리거할 것이다. 제어기(102)는 페이로드 데이터를 조사하여 페이로드를 포함하는 세그먼트 또는 데이터 청크(chunk)의 수를 결정할 수 있다. 그 다음, 제어기(102)는 타일에 의한 실행을 모니터하여, 다른 타일이 마스터 모드에서 실행되기 전에 데이터 세그먼트의 예상된 수가 타일에 의해 전송 및/또는 소비(consumed)되도록 보장한다.

소정 시간에 링 버스(128)상의 단지 하나의 데이터의 프로듀서/마스터가 존재한다는 것을 보장하는 예외는 링 버스 상에 중첩 영역을 가지지 않는 링 버스(128)를 통해 연결된 로컬 멀티캐스트 그룹이 있을 때 발생한다. 예를 들어, 타일 0(마스터)은 타일 0-타일 3 그룹핑에서 타일로 멀티 캐스팅(즉, data produce) 할 수 있는 반면, 타일 4(마스터)는 타일 4-타일 7 그룹화에서 타일을 동일하게 할 수 있다. 이 듀얼 마스터 멀티 캐스트 방법론의 중요한 요구 사항은 패킷이 겹쳐져 하나 이상의 데이터 연산 오류가 발생할 수 있기 때문에 서로 다른 멀티 캐스트 그룹이 서로의 데이터 패킷을 볼 수 없도록 해야한다는 것이다.

도 1에 도시된 바와 같이, 제어기(102)는 타일 세트들(112, 114) 내의 타일들을 I/O(110)에 연결하거나 커플링하는 통신 데이터 경로를 제공하며 일부 핵심 기능들을 포함한다. 제어기(102)의 핵심 기능은 일반적으로 I/O(110)로부터 수신된 하나 이상의 입력 활성화들 및 파라미터들을 타일들에 공급하는 타일 세트들(112, 114) 내의 타일들에 하나 이상의 I/O 입력 활성화들을 공급하고, I/O(110)로부터 수신된 하나 이상의 명령어를 타일들에 공급하고, I/O 출력 활성화를 호스트 인터페이스(108)에 전송하고, CSR 버스(122) 및 링 버스(128)에 대한 링 스톱으로서 기능하는 것을 포함한다. 아래에서보다 상세하게 설명되는 바와 같이, 제1 타일 세트(112) 및 제2 타일 세트(114)는 각각 내부 및 외부 루프로 구성된 DLN(deep loop nest)에 기초하여 실행되는 하나 이상의 텐서 연산을 수행하는데 사용되는 다수의 타일을 포함한다.

시스템(100)은 일반적으로 다음과 같이 동작한다. 호스트 인터페이스(108)는 주어진 연산을 위해 발생하는 직접 메모리 액세스 동작(DMAOp)을 정의하는 하나 이상의 명령어를 제어기(102)에 제공할 것이다. 제어기(102)에 공급된 명령어와 관련된 디스크립터(Descriptor)는 다차원 데이터 어레이(텐서)와 관련된 대규모의 점곱 연산을 용이하게 하기 위해 제어기에 의해 요구되는 정보를 포함할 것이다. 일반적으로, 제어기(102)는 신경망의 소정 계층에 대한 텐서 연산을 실행하기 위한 입력 활성화, 타일 명령어 및 모델 파라미터(즉, 가중치)를 호스트 인터페이스(108)로부터 수신한다. 그 후, 제어기(102)는 명령어들이 명령(들)에 의해 정의된 데이터 흐름 방식으로 타일들(112, 114)에 멀티캐스팅되도록 할 수 있다. 전술한 바와 같이, 명령어를 소비하는 타일은 명령어 헤더 내의 비트맵 데이터에 기초하여 새로운/후속 명령어의 다른 타일로의 브로드캐스트(전송)를 개시할 수 있다.

데이터 흐름과 관련하여, 입력 활성화 및 파라미터는 링 버스(128)를 통해 타일 세트(112, 114)의 타일로 전송된다. 타일들(112, 114) 각각은 그 특정 타일에 할당된 출력 활성화들의 서브세트를 연산하는데 필요한 입력 활성화들의 서브세트를 저장할 것이다.

타일에 대한 DMAOp 명령어는 입력 활성화가 와이드 메모리에서 내로우 메모리로 이동하게 할 것이다. 타일 내의 연산은 필요한 입력 활성화, 파라미터/가중치 및 연산 명령어(TTU 동작, 메모리 주소 등)가 타일에서 사용 가능할 때 시작한다. 타일 내의 MAC 오퍼레이터(아래에서 설명됨)가 명령어 세트에 의해 정의된 모든 점곱 연산을 완료하고 사전 활성화 함수가 곱셈 연산의 결과(즉, 출력 활성화)에 적용될 때 타일 내에서 발생하는 연산이 종료된다.

하나 이상의 텐서 연산의 결과는 연산을 수행하는 타일의 내로우 메모리 유닛(들)에 연산 계층의 출력 활성화를 기록하는 것을 포함한다. 특정 텐서 연산에 대해, 메쉬 버스(126)를 통해 인접한 타일로 출력 에지 활성화가 전송될 것이다. 인접한 타일로 출력 에지 활성화를 전송하는 것은 연산이 여러 계층에 걸쳐있을 때 후속 계층에 대한 출력 활성화를 연산하는 데 필요하다. 모든 계층에 대한 연산이 완료되면, DMAOp는 최종 활성화를 링 버스(128)를 통해 분류기 타일(116)로 이동시킬 것이다. 그 다음 제어기(102)는 분류기 타일(116)로부터 최종 활성화를 판독(read)하고 DMAOp를 실행하여 최종 활성화를 호스트 인터페이스(108)로 이동시킨다. 일부 구현 예에서, 분류기 부분(116)은 NN(신경망)의 출력층(즉, 최종 계층)의 연산을 수행한다. 다른 구현예에서, NN의 출력층은 분류기 계층, 회귀(regression) 계층 또는 일반적으로 신경망과 관련된 다른 계층 유형 중 하나이다.

도 2는 예시적인 신경망(NN) 연산 타일(200)을 도시한다. 일반적으로, 예시적인 타일(200)은 도 1을 참조하여 전술한 제1 타일 세트(112) 및 제2 타일 세트(114) 내의 타일들 중 임의의 타일에 대응할 수 있다. 다양한 구현 예에서, 연산 타일(200)은 연산 유닛(200)으로 참조되거나 지칭될 수도 있다. 각각의 연산(계산) 타일(200)은 타일 세트들(112, 114) 내의 다른 대응하는 타일들에 대해 독립적으로 명령어들을 실행하도록 구성된 독립적인 연산 유닛이다. 위에서 간략히 설명한 것처럼, 각 연산 타일(200)은 TensorOp 명령어와 DMAOp 명령어의 두 가지 유형의 명령어를 실행한다. 일반적으로, 각 명령어 유형은 DLN(deep loop nests)과 연관된 연산 동작을 포함하므로 각 명령 유형은 일반적으로 모든 루프 반복의 완료를 보장하기 위해 여러 시간대에 걸쳐 실행할 것이다.

아래에서보다 상세하게 설명되는 바와 같이, 상이한 명령어 유형은 연산 타일(200) 내에서 관리되는 동기 플래그 제어를 통해 데이터를 동기화하는 연산 타일(200) 내의 독립적인 제어 유닛에 의해 실행된다. 동기 플래그 제어는 연산 타일(200) 내의 상이한 명령어 유형의 실행 사이의 동시성을 관리한다. 각각의 명령어 유형과 연관된 각각의 연산 동작은 발행의 엄격한 순서(즉, 선입 선출(First-In First-Out))로 실행될 것이다. 두 개의 명령어 유형, TensorOP 및 DMAOp에 관련하여, 이들 상이한 명령어 유형 간에는 순서 보장이 없으며, 각각의 유형은 별도의 제어 스레드로서 연산 타일(200)에 의해 처리된다.

데이터 흐름 구성과 관련하여, 연산 타일(200)은 일반적으로 연산 타일(200)에 대한 데이터 흐름을 위한 통신 경로를 제공하는 데이터 경로(202) 및 데이터 경로(205)를 포함한다. 상기 설명된 바와 같이, 시스템(100)은 링 구성(ring configuration)으로 배치된 3개의 개별 데이터 버스 구조(CSR 버스(122), 명령어 버스(124) 및 링 버스(128))를 포함한다. 도 2에서, 데이터 경로(205)는 명령어 버스(124)에 대응하고, 데이터 경로(202)는 일반적으로 CSR 버스(122) 및 링 버스(128) 중 하나에 대응한다. 도시된 바와 같이, 데이터 경로(202)는 연산 타일(200)을 떠나는 데이터에 대한 출력 경로를 제공하는 링 출력(203) 및 연산 타일(200)에 들어가는 데이터에 대한 입력 경로를 제공하는 링 입력(204)을 포함한다.

연산 타일(200)은 TensorOp 텐서 트래버스 유닛(TTU)(226)을 포함하는 TensorOP 제어부(control)(206) 및 DMAOp TTU(228)를 포함하는 DMAOp 제어부(DMA control)(208)를 더 포함한다. TensorOp 제어부(206)는 일반적으로 TensorOp TTU 레지스터(register)(232)에 대한 기록 및 TensorOp TTU 레지스터(232)로부터의 판독을 관리하고, TensorOp TTU(226)에 의한 실행을 위한 트래버스 동작(traversal operation)을 관리한다. 마찬가지로, DMAOp 제어부(208)는 일반적으로 DMAOp TTU 레지스터(234)로의 기록 및 DMAOp TTU 레지스터(234)로부터의 판독을 관리하고, DMAOp TTU(228)에 의한 실행을 위한 트래버스 동작을 관리한다. TTU 레지스터(232)는 TensorOp 제어부(control)(206)에 의한 명령어들의 실행시 TensorOp TTU(226)에 의해 수행될 동작들을 포함하는 하나 이상의 명령어들을 저장하기 위한 명령어 버퍼를 포함한다. 마찬가지로, TTU 레지스터(234)는 DMAOp 제어부(208)에 의한 명령어들의 실행시 TTU(228)에 의해 수행될 동작들을 포함하는 하나 이상의 명령어들을 저장하기 위한 명령어 버퍼를 포함한다.

아래에서 더 설명하는 바와 같이, TTU들(226 및/또는 228)은 일반적으로 내로우 메모리(210) 및 와이드 메모리(212)에 상주하는 하나 이상의 텐서들의 어레이 요소들을 트래버스하기 위해 연산 타일(200)에 의해 사용된다. 일부 구현 예에서, TTU(226)는 TensorOp 제어부(206)에 의해 사용되어 DLN(deep loop nest)의 실행에 기초하여 다차원 텐서의 차원을 트래버스하는 텐서 연산을 제공한다.

일부 구현 예에서, 연산 타일(200)에 의한 실행을 위한 특정 명령어들은 데이터 경로(205)(즉, 명령어 버스(124)의 일부)를 통해 타일에 도달한다. 연산 타일(200)은 헤더 비트맵을 조사하여 명령어 유형(TensorOp 또는 DMAOp) 및 명령어 서브유형(판독 동작 또는 기록 동작)을 결정할 것이다. 연산 타일(200)에 의해 수신된 명령어(들)는 이후에 명령어 유형에 따라 특정 명령어 버퍼에 기록된다. 일반적으로, 연산 타일(200)의 컴포넌트에 의한 명령어의 실행 이전에 명령어들이 수신되어 저장된다(즉, 버퍼에 기록된다). 도 2에 도시된 바와 같이, 명령어 버퍼(즉, TensorOp TTU 레지스터(232) 및 DMAOp TTU 레지스터(234))는 각각 하나 이상의 관련 명령어(명령)의 소비(실행)를 우선시하는 선입선출(FIFO) 제어 구조를 포함할 수 있다.

위에서 간략히 설명한 것처럼, 텐서는 다차원 기하학적 객체이고, 예를 들어 다차원 기하학적 객체는 행렬 및 데이터 어레이(배열)를 포함한다. 심층 중첩된(네스트) 루프(deeply nested loop)를 포함하는 알고리즘은 하나 이상의 중첩된 루프를 반복하여 N 차원 텐서를 트래버스함으로써 텐서 연산을 수행하도록 연산 타일(200)에 의해 실행될 수 있다. 일례의 연산 프로세스에서, 루프 네스트(loop nest)의 각 루프는 N 차원 텐서의 특정 차원을 트래버스할 책임이 있다. 본 명세서에 기술된 바와 같이, TensorOp 제어부(206)는 일반적으로 심층 네스트 루프에 의해 정의된 연산을 완료하기 위해 특정 텐서 구조의 차원 요소가 트래버스되고 액세스되는 시퀀스를 구동하는 하나 이상의 텐서 연산을 관리한다.

연산 타일(200)은 내로우 메모리(210) 및 와이드 메모리(212)를 더 포함한다. 내로우 및 와이드 지정은 일반적으로 내로우 메모리(210) 및 와이드 메모리(212)의 메모리 유닛의 폭(비트/바이트)의 크기를 지칭한다. 일부 구현 예에서, 내로우 메모리(210)는 각각 16비트 미만의 폭 또는 크기를 갖는 메모리 유닛을 포함하고, 외이드 메모리(212)는 각각 32비트 미만의 폭 또는 크기를 갖는 메모리 유닛을 포함한다. 일반적으로, 연산 타일(200)은 데이터 경로(205)를 통해 입력 활성화를 수신하고, DMA 제어부(208)는 입력 활성화를 내로우 메모리(210)에 기록하기 위한 동작을 실행한다. 마찬가지로, 연산 타일(200)은 데이터 경로(202)를 통해 파라미터(가중치)를 수신하고, DMA 제어부(208)는 파라미터를 와이드 메모리(212)에 기록하기 위한 동작을 실행한다. 일부 구현 예에서, 내로우 메모리(210)는 각각의 메모리 사이클에 대해 어떤 제어 장치(예를 들어, TensorOp 제어부(206) 또는 DMAOp 제어부(208))가 내로우 메모리(210)의 공유 메모리 유닛에 액세스하도록 허용될지를 결정하기 위해 공유 메모리 시스템에서 통상적으로 사용되는 메모리 아비터(arbiter)를 포함할 수 있다.

연산 타일(200)은 MAC 오퍼레이터(215) 및 합 레지스터(sum register)(220)를 각각 포함하는 다수의 셀을 포함하는 MAC 어레이(214) 및 입력 활성화 버스(216)를 더 포함한다. 일반적으로, MAC 어레이(214)는, 다수의 셀에 걸쳐 MAC 오퍼레이터들(215) 및 합 레지스터들(220)을 사용하여, 점곱 연산에 관련된 산술 연산들을 포함하는 텐서 계산을 실행한다. 입력 활성화 버스(216)는 내로우 메모리(210)에 의해, 입력 활성화가 MAC 어레이(214)의 각 MAC 오퍼레이터(215)에 의한 각각의 액세스에 대해 하나씩 제공되는 데이터 경로를 제공한다. 따라서, 입력 활성화의 1대1 전송에 기초하여, 특정 셀의 단일 MAC 오퍼레이터(215)는 각각 입력 활성화를 수신할 것이다. MAC 어레이(214)의 MAC 오퍼레이터에 의해 수행되는 산술 연산은 일반적으로 내로우 메모리(210)에 의해 제공된 입력 활성화에 와이드 메모리(212)로부터 액세스된 파라미터를 곱하여 단일 출력 활성화 값을 생성하는 것을 포함한다.

산술 연산 동안, 부분 합(partial sum)이 누적되어 대응하는 예를 들어 합 레지스터(220)에 저장되거나 와이드 메모리(212)에 기록되고 후속 곱(곱셈) 연산을 완료하기 위해 MAC 어레이(214)의 특정 셀에 의해 다시 액세스될 수 있다. 텐서 연산은 제1 부분 및 제2 부분을 갖는 것으로 설명될 수 있다. 제1 부분은 곱셈 연산이 출력 활성화를 생성할 때 완료되는데, 예를 들어 입력 활성화와 파라미터의 곱셈을 완료하여 출력 활성화를 생성함으로써 완료한다. 제2 부분은 출력 활성화에 대한 비선형 함수의 적용을 포함하고, 제2 부분은 출력 활성화가 그 함수의 적용 후에 내로우 메모리(210)에 기록될 때 완료된다.

연산 타일(200)은 출력 활성화 버스(218), 출력 활성화 파이프라인(Pipeline)(224)을 포함하는 비선형 유닛(NLU, Non-Linear Unit)(222), NLU 제어부(238) 및 연산 타일(200) 내의 컴포넌트의 핵심(Core) 속성을 나타내는 참조 맵(230)을 더 포함한다. 참조 맵(230)은 명확성을 위해 도시되었지만, 연산 타일(200)에는 포함되지 않는다. 핵심 속성에는 특정 컴포넌트가 유닛, 저장 장치, 오퍼레이터, 제어 장치 또는 데이터 경로 중 어느 것인지 여부가 포함된다. 일반적으로, 텐서 연산의 제1 부분의 완료시, 출력 활성화는 출력 활성화 버스(218)를 통해 MAC 어레이(214)에서 NLU(222)로 제공된다. NLU(222)에 도착한 후에, 활성화 파이프라인(224)을 통해 수신된 활성화 함수를 특정하는 데이터가 출력 활성화에 인가되고, 출력 활성화가 내로우 메모리(Narrow memory)(210)에 기록된다. 일부 구현 예에서, 출력 활성화 버스(218)는 적어도 하나의 파이프라인된 시프트 레지스터(REG)(236)를 포함하고, 텐서 연산의 제2 부분을 완료하는 것은 출력 활성화를 내로우 메모리(210)로 시프트시키기 위해 활성화 버스(218)의 시프트 레지스터(236)를 사용하는 것을 포함한다.

단일 연산 타일(200)에 대해, 예를 들어 2개의 다차원 데이터 어레이의 점곱 연산과 관련하여, MAC 어레이(214)는 강력한(robust) 단일 명령어 다중 데이터(SIMD) 기능을 제공한다. SIMD는 일반적으로 모든 병렬 유닛(다중 MAC 오퍼레이터(215))이 (심층 루프 네스트에 기초하여) 동일한 명령어를 공유하지만, 각각의 MAC 오퍼레이터(operator)(215)는 상이한 데이터 요소에 대해 명령어를 실행한다는 것을 의미한다. 하나의 기본 예에서, 한 사이클에 어레이[6,8,10,12]를 얻기 위해 요소별로 어레이[1,2,3,4]와 [5,6,7,8]를 가산하는 것은 일반적으로 각 요소에 대해 연산을 실행하기 위해 4개의 연산 유닛을 요구할 것이다. SIMD를 사용함으로써, 4개의 유닛은 동일한 명령어(예를 들어, "가산")를 공유하고 병렬로 연산을 수행할 수 있다. 명령어가 공유되므로 명령어 대역폭 및 명령어 메모리에 대한 요구사항이 줄어들어 효율성이 높아진다. 따라서, 시스템(100) 및 연산 타일(200)은 종래의 방법에 비해 텐서 연산에서 향상된 가속도 및 병렬성을 제공한다.

하나의 예에서, 이하에서 보다 상세하게 설명되는 바와 같이, 단일 명령어는 다수의 MAC 어레이(214)에 의한 소비를 위해 제어기(102)에 의해 다수의 컴퓨팅 타일(200)(도 1의 타일 세트(112, 114) 참조)에 제공될 수 있다. 일반적으로, 신경망 계층은 다수의 출력 뉴런을 포함할 수 있고, 출력 뉴런은 출력 뉴런의 서브세트와 연관된 텐서 연산이 타일 세트(112, 114)의 특정 타일에 할당될 수 있도록 분할될 수 있다. 타일 세트(112, 114)의 각각의 타일은 소정의 계층에 대한 뉴런의 상이한 그룹에 관한 관련 텐서 연산을 수행할 수 있다. 따라서, 연산 타일(200)은 다음과 같은 적어도 두 가지 형태의 병렬 처리를 제공할 수 있으며, 1) 하나의 형태는 타일 세트(112, 114)의 다수의 타일 사이에서 출력 활성화(출력 뉴런의 서브세트에 대응함)를 분할하는 것을 포함하며; 그리고 2) 다른 형태는 타일 세트들(112, 114)의 타일들 사이의 분할에 기초하여 출력 뉴런들의 다수의 서브 세트들의 동시 연산(단일 명령어로)을 포함한다.

도 3은 8개의 뎁스(depth)를 각각 트랙킹하는 4개의 텐서를 포함하는 예시적인 TTU(ensor Traversal Unit) 구조(300)를 도시한다. TTU(300)는 일반적으로 카운터 텐서(counters tensor)(302), 스트라이드(stride) 텐서(304), 초기화(init) 텐서(306) 및 한계(limit) 텐서(308)를 포함한다. TTU(300)는 또한 가산기 뱅크(310) 및 텐서 어드레스 인덱스(index)(312)를 포함한다. 상기 설명한 바와 같이, 텐서는 다차원적인 기하학적 객체이고, 텐서의 요소에 접근하기 위해서는 각 차원의 인덱스가 제공되어야 한다. 텐서가 내로우 메모리(210) 및 와이드 메모리(212)에 저장되기 때문에, 텐서 인덱스의 세트는 메모리 어드레스의 세트로 변환되어야 한다. 일부 구현 예에서, 인덱스의 메모리 어드레스로의 변환은 메모리 어드레스를 텐서 어드레스 인덱스(312)를 통해 인덱스와 반사 어드레스의 선형 조합으로 만듦으로써 이루어진다.

제어 스레드 당 TTU가 있으며, 연산 타일(200)의 명령어 유형(TensorOP 및 DMAOp)마다 제어 스레드가 있다. 따라서, 전술한 바와 같이, 연산 타일(200)에 2개의 TTU 세트(1) TensorOp TTU(226); 및 2) DMAOp TTU(228))가 있다. 다양한 구현 예에서, TensorOp 제어부(206)는 특정 텐서 연산의 시작시에 TTU(300)가 TensorOp TTU 카운터(302), 한계(308) 및 스트라이드 값(304)을 로드하게 하고, 명령어가 폐기되기 전에 레지스터 값을 변경하지 않을 것이다. 2개의 TTU 각각은 연산 타일(200) 내의 다음 메모리 어드레스 포트에 대한 어드레스를 생성할 필요가 있을 것이며, 다음 메모리 어드레스 포트는 1) 와이드 메모리(212) 어드레스(주소) 포트 및 2) 4개의 어드레스 포트로서 제공되는 4개의 독립적으로 중재된 뱅크를 갖는 내로우 메모리(210)를 포함한다.

전술한 바와 같이, 일부 구현 예에서, 내로우 메모리(210)는 각각의 메모리 사이클에 대해 어떤 제어 장치(예를 들어, TensorOp 제어부(206) 또는 DMAOp 제어부(208))가 내로우 메모리(210)의 공유 메모리 리소스에 액세스하도록 허용될지를 결정하기 위해 공유 메모리 시스템에서 통상적으로 사용되는 메모리 아비터를 포함할 수 있다. 일 예시에서, 다른 명령어 유형(TensorOp 및 DMAOp)은 중재가 필요한 메모리 액세스를 요청하는 독립적인 제어 스레드이다. 특정 제어 스레드가 텐서 요소를 메모리에 커밋(commit)할 때, 제어 스레드는 메모리에 커밋된 텐서 참조(reference)의 카운터(302)를 증가시킨다.

일 예시에서, TensorOP 제어부(206)가 텐서의 특정 요소에 액세스하기 위한 명령어를 실행할 때, TTU(300)는 텐서의 특정 요소의 어드레스를 결정할 수 있어서, 제어부(206)는 특정 요소의 활성화 값을 나타내는 데이터를 판독하기 위해 내로우 메모리(210)와 같은 스토리지(저장소)를 액세스할 수 있다. 일부 구현 예에서, 프로그램은 네스트 루프(nested loop)를 포함할 수 있고, 제어부(206)는 네스트 루프와 관련된 현재 인덱스 변수 값에 따라 상기 네스트 루프 내의 2차원 어레이 변수의 요소에 액세스하는 명령어를 실행할 수 있다.

TTU(300)는 동시에 주어진 텐서(들)에 대해 최대 X개의 TTU 로우(row)에 대한 트래버스 상태(traversal state)를 유지할 수 있다. TTU(300)에 동시에 상주하는 각 텐서는 전용 하드웨어 텐서 제어 디스크립터(descriptor)를 차지한다. 하드웨어 제어 디스크립터는 로우 차원당 최대 X 개의 TTU 카운터를 갖는 텐서를 지원하는 한계 레지스터(308), 스트라이드(304) 및 로우(row) 위치당 최대 X 개의 TTU 카운터로 구성할 수 있다. 일부 구현 예에서, 로우 수와 로우 당 카운터 수는 다를 수 있다.

소정의 위치 레지스터의 경우, 최종 메모리 어드레스는 위치 레지스터를 함께 추가하는 것을 포함하는 가산 동작으로부터 계산된다. 기본 어드레스는 카운터(302)에 통합된다. 동일한 메모리에 있는 텐서 참조에 대해 하나 이상의 가산기가 공유된다. 일 구현예에서, 사이클의 소정의 포트에는 단일 로드/저장소만 있을 수 있기 때문에, 동일한 내로우 또는 와이드 메모리에 있는 여러 텐서 참조가 소정의 사이클에서 카운터를 증가시키지 않도록 하는 루프 네스트 제어(oop nest control)의 함수가 될 것이다.

오프셋 값들의 결정을 포함하는 메모리 액세스 어드레스 값들을 연산하기 위한 레지스터들의 사용은 2016년 2월 3일자로 출원된 "Matrix Processing Apparatus"라는 제목의 미국 특허 출원 번호 15/014,265에 더 상세히 기술되어 있으며, 그 전체 내용은 여기에 전체적으로 참조로 포함된다.

예를 들어, 소프트웨어 알고리즘이 N 차원 텐서를 처리할 때, 네스트 루프가 사용될 수 있으며, 여기서 각 루프는 N 차원 텐서의 각 차원을 트래버스하는 역할을 한다. 다차원 텐서는 행렬 또는 다차원 행렬들일 수 있다. N 차원 텐서의 각 차원은 하나 이상의 요소를 포함할 수 있으며, 각 요소는 각각의 데이터 값을 저장할 수 있다. 예를 들어, 텐서는 프로그램에서 변수일 수 있으며, 여기서 변수는 3차원을 가질 수 있다. 제1 차원은 300개의 요소 길이를 가질 수 있으며, 제2 차원은 천 개의 요소 길이를 가질 수 있으며, 제3 차원은 20개의 요소 길이를 가질 수 있다.

네스트 루프에서 텐서를 트래버스하는 것은 요소의 해당 데이터 값을 로드하거나 저장하기 위해 요소의 메모리 어드레스(주소) 값을 연산해야 한다. 예를 들어, "for-loop"는 네스트 루프이며, 여기서 3개의 루프 인덱스 변수에 의해 트랙킹된 3개의 루프는 3차원 텐서를 통해 트래버스하도록 네스트될 수 있다. 일부 경우에, 프로세서는 외부 루프 인덱스 변수로 내부 루프의 루프 바운드를 설정하는 것과 같이 루프 바운드 조건을 실행해야 할 수 있다. 예를 들어, 네스트 루프의 가장 안쪽 루프(inner-most loop)를 종료할지 여부를 결정할 때, 상기 프로그램은 가장 안쪽 루프의 루프 인덱스 변수의 현재 값을 네스트 루프의 가장 바깥쪽 루프(outer-most loop)의 루프 인덱스 변수의 현재 값과 비교할 수 있다.

일반적으로, 연산 타일의 프로세싱 유닛이 텐서의 특정 요소에 액세스하기 위한 명령어를 실행할 때, 텐서 트래버스 유닛은 프로세싱(처리) 유닛이 저장 매체(메모리)에 액세스하여 특정 요소의 값을 나타내는 데이터를 판독하도록 텐서의 특정 요소의 어드레스를 결정한다. 예를 들어, 프로그램은 네스트 루프(nested loop)를 포함할 수 있고, 프로세싱 유닛은 네스트 루프와 연관된 현재 인덱스 변수 값에 따라 네스트 루프 내의 2차원 어레이 변수의 요소에 액세스하기 위한 명령어를 실행할 수 있다. 네스트 루프와 관련된 현재 인덱스 변수 값에 따라, 텐서 트래버스 유닛은 2차원 어레이 변수의 제1 요소로부터의 오프셋을 나타내는 오프셋 값을 결정할 수 있다. 그 후, 프로세싱 유닛은 오프셋 값을 사용하여 메모리로부터 2차원 어레이 변수의 특정 요소에 액세스할 수 있다.

다음은 특수화된 TTU(300)를 인스턴스화하는 데 사용할 수 있는 템플릿 파라미터를 제공하며, 이는 1) TTU 로우의 X 개수; 2) 로우당 TTU 카운터의 X 개수; 3) TTU 가산기 유닛의 X 개수; 4) TTU 로우당 공유된 가산기 참조 표시; 그리고 5) 카운터당 X 카운터 크기[TTU][로우][뎁스] 표시를 포함한다. 모든 TTU 레지스터는 구조적으로 볼 수 있다. 연산을 위해 액세스될 필요가 있는 특정 텐서 요소(즉, 텐서 어드레스(312))의 어드레스는 카운터의 가산 결과이다. 증가 신호가 제어 스레드로부터 TTU의 로우로 발행될 때, TTU(300)는 단일 사이클 동작을 실행하고, 그 차원의 스트라이드(stride)(304)에 의해 가장 안쪽의 차원(innermost dimension)을 증가시키고 모든 뎁스를 통해 롤오버(rollover)를 전파한다.

일반적으로, TTU(300)는 하나 이상의 텐서와 관련된 상태를 결정한다. 상태는 루프 바운드 값, 현재 루프 인덱스 변수 값, 메모리 어드레스 값을 연산하기 위한 차원 곱셈 및/또는 브랜치 루프 바운드를 처리하기 위한 프로그램 카운터 값을 포함할 수 있다. TTU(300)는 하나 이상의 텐서 상태 요소 및 산술 로직 유닛을 포함할 수 있다. 각각의 텐서 상태 요소는 저장 요소, 예를 들어 레지스터 또는 임의의 다른 적절한 저장 회로일 수 있다. 일부 구현 예에서, 텐서 상태 요소는 미국 특허 출원번호 15/014,265호에서 보다 상세히 기술된 바와 같이 물리적으로 또는 논리적으로 상이한 그룹으로 배열될 수 있다.

도 4는 입력 버스(216)를 통해 하나 이상의 MAC (multiply accumulate) 오퍼레이터에 활성화(404)를 브로드캐스팅하는 내로우 메모리(210)를 포함하는 예시적인 아키텍처를 도시한다. 시프트 레지스터(404)는 시프트 기능을 제공하며, 활성화(404)가 MAC 셀(410) 내의 하나 이상의 MAC 오퍼레이터(215)에 의한 수신을 위해 입력 버스(216)에 한번에 하나씩 전송된다. 일반적으로, MAC 오퍼레이터(215)를 포함하는 MAC 셀(410)은 부분 합(partial sum)을 계산하는 연산 셀로서 정의될 수 있고, 일부 구현 예에서는 부분 합 데이터를 출력 버스(218)에 기록하도록 구성된다. 보여진 바와 같이, 셀들(410)은 하나 이상의 MAC 오퍼레이터(operator)로 구성될 수 있다. 일 실시 예에서, MAC 셀(410) 내의 MAC 오퍼레이터(215)의 수는 셀의 발행 폭(issue width)으로 참조된다. 예로서, 듀얼 발행(issue) 셀은 (와이드 메모리(212)로부터의) 두 개의 파라미터와 (내로우 메모리(210)로부터의) 두 개의 활성화 값의 곱을 계산하고, 현재 부분합과 두 개의 곱셈의 결과들 간의 합산을 수행할 수 있는 두 개의 MAC 오퍼레이터를 갖는 셀을 나타낸다.

상기 설명한 바와 같이, 입력 버스(216)는 선형 유닛(즉, MAC 어레이(214))의 MAC 오퍼레이터(215)에 입력 활성화를 제공하는 브로드캐스트(전송) 버스이다. 일부 구현 예에서, 동일한 입력은 모든 MAC 오퍼레이터(215)간에 공유된다. 입력 버스(216)의 폭은 브로드캐스트 입력을 소정의 MAC 어레이(214)에 대한 해당 수의 셀에 공급하기에 충분히 와이드(wide)해야만한다. 입력 버스(216)의 구조를 설명하기 위해 다음의 예를 고려한다. 선형 유닛 내의 셀들의 수가 4와 같고, 활성화 폭이 8비트와 같을 때, 입력 버스(216)는 매 사이클마다 최대 4개의 입력 활성화를 제공하도록 구성될 수 있다. 이 예에서, MAC 어레이(214) 내의 모든 셀은 브로드캐스트되는 4개의 활성화들 중 하나를 액세스할 뿐이다.

연산 타일(200)에 의해 수신된 명령어의 TensorOp 필드 설정에 기초하여, MAC 어레이(214)의 셀은 동일한 입력 활성화를 사용하여 연산을 수행할 필요가 있을 수 있다. 이는 MAC 어레이(214)의 셀 내에서 "Zout 파티셔닝(Zout partitioning)"으로 지칭될 수 있다. 마찬가지로, 셀 내의 "Zin 파티셔닝"은 MAC 어레이(214)의 셀이 연산을 수행하기 위해 상이한 활성화를 필요로 할 때 발생한다. 전자의 경우, 단일 입력 활성화는 4번 복제되고, 내로우 메모리(210)로부터 판독된 4개의 활성화는 4 사이클 동안 브로드캐스트된다. 후자의 경우, 내로우 메모리(210)의 판독이 매 사이클마다 요구된다. 전술한 예에서, TensorOp 제어부(206)는 제어기(102)로부터 수신된 명령어들의 실행에 기초하여 이 브로드캐스트 방법론을 조정한다.

도 5는 도 2 및 도 4의 내로우 메모리 유닛(210)에 출력 활성화를 제공하기 위한 출력 버스(218)를 포함하는 예시적인 아키텍처를 도시한다. 일반적으로, 연산 타일(200) 내의 MAC 어레이(214)의 모든 MAC 셀(215)은 상이한 출력 활성화를 연산한다. 그러나, 출력 피처(feature) 어레이와 관련하여, 출력 피처 뎁스가 연산 타일(200) 내의 MAC 셀(215)의 수보다 적은 경우, 셀은 하나 이상의 셀 그룹을 형성하도록 그룹화될 수 있다. 셀 그룹의 모든 MAC 셀(215)은 동일한 출력(즉, 출력 피처 맵)을 연산하지만, 각 셀은 Zin 차원의 서브 세트에 대응하는 출력의 서브 세트만을 연산한다. 결과적으로, MAC 셀(215)의 출력은 최종 선형 출력이 아닌 부분 합(partial sum)이다. 일부 구현 예에서, NLU(222)는 NLU 제어부(238)에 의해 NLU(222)에 제공된 제어 신호에 기초하여 이들 부분 합을 최종 선형 출력으로 합산할 것이다.

상기 설명한 바와 같이, 출력 버스(218)는 파이프라인된 시프트 레지스터이다. 다양한 구현 예에서, TensorOp 제어부(206) 및 텐서 연산 종료의 제1 부분이 부분 합이 기록될 필요가 있음을 (명령어를 실행함으로써) 나타낼 때, 출력 버스(218)에 제공되는 부분 합의 병렬 로드(parallel load)가 존재할 것이다. 병렬 로드의 수는 연산 타일(200) 내의 MAC 셀의 수에 대응할 것이다. 그 다음, TensorOP 제어부(206)는 부분 합이 시프트 아웃(shifted out)되어 비선형 파이프라인을 통해 전송되게 할 것이다. 일부 구현 예에서, 타일 내의 모든 MAC 셀들이 실제로 연산을 수행하는데 이용되는 것은 아닌 상황이 있을 수 있다. 이러한 상황에서, 출력 버스로 시프트된 모든 부분 합이 유효하지는 않는다. 이 예에서, TensorOp 제어부(206)는 MAC 어레이(214)에 제어 신호를 제공하여 시프트 아웃되어야 하는 유효 셀들의 수를 나타낼 수 있다. 출력 버스(218)에 로딩된 병렬 로드 양은 여전히 연산 타일 내의 MAC 셀의 수와 일치하지만, 유효값만이 시프트 아웃되어 내로우 메모리(210)에 커밋된다.

도 6은 도 2의 신경망 연산 타일(200)을 사용하여 텐서 연산을 수행하기 위한 프로세스(600)의 예시적인 흐름도이다. 프로세스(600)는 블럭(602)에서 시작하고 연산 타일(200)의 내로우 메모리(210)는 입력 활성화 데이터 버스(216)에 활성화를 하나씩 전송(즉, 브로드캐스트)한다. 활성화 값은 내로우 메모리(210)에 저장된다. 내로우 메모리(210)는 입력량(input quantities)에 액세스하기 위한 특정 메모리 위치에 대한 어드레싱을 허용하는 정적 랜덤 액세스 메모리(SRAM) 뱅크의 집합일 수 있다. 내로우 메모리(210)로부터 판독된 활성화는 입력 활성화 버스(216)를 통해 다수의 MAC 오퍼레이터(215) 및 합 레지스터(220)를 포함하는 MAC 어레이(214)(즉, 선형 유닛)의 선형 셀로 전송된다. 프로세스(600)의 블록(604)에서, 연산 타일(200)의 MAC 오퍼레이터(215)는 각각 2개의 입력을 수신하며, 2개의 입력중 하나는 입력 활성화 버스(216)로부터 수신된 하나의 입력(활성화)이고; 2개의 입력중 다른 하나는 와이드 메모리(212)로부터 수신된 다른 입력(파라미터)이다. 따라서, 활성화는 각 MAC 오퍼레이터(215)의 입력들 중 하나를 공급하고, MAC 어레이(214)의 셀에서 각각의 MAC 오퍼레이터(215)는 와이드 메모리(212)로부터 그들의 제2 곱셈(multiplier) 입력을 얻는다.

프로세스(600)의 블록(606)에서, 연산 타일(200)의 MAC 어레이(214)는 메모리로부터 액세스된 데이터 어레이 구조의 요소에 기초하여 점곱 연산을 포함하는 텐서 연산을 수행한다. 와이드 메모리(212)는 선형 유닛의 폭(32비트)과 동일한 비트 폭을 갖는다. 따라서, 선형 유닛(LU, linear unit)은 벡터 메모리(즉, 와이드 메모리(212))로부터 데이터를 수신하는 SIMD 벡터 ALU(arithmetic logic unit) 유닛이다. 일부 구현 예에서, MAC 오퍼레이터(215)는 또한 와이드 메모리(212)로부터 어큐뮬레이터(accumulator) 입력(부분 합)을 또한 얻을 수 있다. 일부 구현 예에서, 2개의 상이한 피연산자(operand)(파라미터 및 부분 합)에 관한 판독(read) 및/또는 기록(write)을 위해 와이드 메모리(212) 포트에 대한 시간 공유가 있다. 일반적으로, 영역을 최적화하기 위해, 와이드 메모리(212)는 제한된 수의 포트를 가질 수 있다. 결과적으로, 동시에 와이드 메모리(212)로부터 피연산자(예를 들어, 파라미터)를 판독하고 동시에 피연산자(예를 들어 부분 합)를 와이드 메모리(212)에 기록할 필요가 있는 경우, 특정 피연산자와 관련된 파이프라인이 정지(stalled)될 수 있다.

블록(608)에서, 연산 타일(200)의 연산 셀(MAC 오퍼레이터(215) 및 합 레지스터(220)를 가짐)은 MAC/연산 셀에 의해 수행된 곱셈 연산에 기초하여 적어도 하나의 출력 활성화를 생성한다. MAC 셀 동작의 결과는 출력 메모리(218)에 전송되는 출력 활성화 또는 와이드 메모리에 다시 기록되는 부분 합을 포함한다. 블록(610)에서, 연산 타일(200)의 NLU(222)는 비선형 활성화 함수를 출력 활성화에 적용한 다음 그 활성화를 내로우 메모리(210)에 기록한다. 일부 구현 예에서, 출력 버스(218)는 시프트 레지스터이고, MAC 오퍼레이터(215)로부터의 결과/출력 활성화의 병렬 로드를 누적(accumulate)할 수 있지만, 비선형 함수 및 기록 연산을 동일한 타일의 내로우 메모리(210)에 적용하기 위해 한번에 하나씩 시프트한다.

본 명세서에서 설명된 요지 및 기능적 동작의 실시 예는 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있으며, 이 명세서 및 구조적 등가물에 개시된 구조 또는 이들 중 하나 이상의 조합을 포함한다. 본 명세서에서 설명된 본 발명의 실시 예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위한 유형적인 비-일시적인 프로그램 캐리어상에 인코딩된 컴퓨터 프로그램 명령어의 하나 이상의 모듈로서 구현될 수 있다. 선택적으로 또는 부가적으로, 프로그램 명령어는 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성된, 인위적으로 생성된 전파된 신호, 예를 들어, 기계-생성 전기, 광학 또는 전자기 신호 상에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 장치, 기계 판독 가능 저장 기판, 랜덤 또는 시리얼 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다.

본 명세서에서 설명된 프로세스 및 로직 흐름은 입력 데이터를 오퍼레이팅하고 출력을 생성함으로써 기능을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 프로세스 및 로직 흐름은 또한 특수 목적 로직 회로에 의해 수행될 수 있고, 장치는 FPGA(field programmable gate array), ASIC(application specific integrated circuit) 또는 GPGPU(General purpose graphics processing unit)와 같은 특수 목적의 로직 회로에 의해 수행될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들어 범용 또는 특수 목적 마이크로프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성 요소는 명령어를 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)로부터 데이터를 수신하거나 또는 그 이상의 대용량 저장 장치로 데이터를 전송하거나 둘 모두를 포함하거나 동작 가능하도록 결합될 것이다. 반면, 컴퓨터는 이러한 장치를 가질 필요는 없다.

컴퓨터 프로그램 명령어 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크와 같은 반도체 메모리 장치를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 프로세서 및 메모리는 특수 목적 로직 회로에 의해 보충되거나 또는 그 안에 포함될 수 있다.

본 명세서는 많은 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구되는 범위에 대한 제한으로 해석되어서는 안되며, 오히려 특정 발명의 특정 실시 예에 특정할 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시 예와 관련하여 본 명세서에서 설명되는 특정 특징은 또한 단일 실시 예에서 조합하여 구현될 수 있다. 반대로, 단일 실시 예의 컨텍스트에서 설명된 다양한 특징은 또한 다수의 실시 예에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 더욱이, 특징들은 특정 조합으로 작용하는 것으로 상기에서 설명될 수 있고, 심지어 처음에는 그러한 것으로서 주장될지라도, 청구된 조합으로부터의 하나 이상의 특징이 어떤 경우 조합으로부터 제거될 수 있고, 청구된 조합은 부분 조합 또는 서브 조합의 변형으로 유도될 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 동작을 달성하기 위해 이러한 동작이 도시된 순서 또는 순차적인 순서로 수행되거나 도시된 모든 동작이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시 예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시 예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안되며, 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다중 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.

추가 구현예는 다음 예제에 요약되어 있다.

예 1: 텐서 연산을 가속화하기 위한 연산(컴퓨팅) 유닛으로서, 입력 활성화 또는 출력 활성화 중 적어도 하나를 저장하기 위한 제1 데이터 폭을 갖는 제1 메모리 뱅크; 연산을 수행하는데 사용되는 하나 이상의 파라미터를 저장하기 위해 상기 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크; 상기 제2 메모리 뱅크로부터 파라미터를 수신하고 연산을 수행하는 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함하는 적어도 하나의 셀; 적어도 상기 제1 메모리 뱅크와 데이터 통신하는 제1 트래버스(traversal) 유닛을 포함하며, 상기 제1 트래버스 유닛은 상기 MAC 오퍼레이터에 의해 액세스 가능한 데이터 버스에 입력 활성화가 제공되도록 상기 제1 메모리 뱅크에 제어 신호를 제공하도록 구성되며; 상기 연산 유닛은 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산을 수행하고, 상기 하나 이상의 연산은 상기 MAC 오퍼레이터에 의해 수행되며, 상기 데이터 버스로부터 수신된 상기 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 파라미터의 곱셈 연산을 부분적으로 포함한다.

예 2: 예 1의 연산 유닛에 있어서, 상기 연산 유닛은 복수의 루프를 포함하는 루프 네스트(loop nest)를 실행함으로써 상기 연산 중 하나 이상을 수행하고, 상기 루프 네스트의 구조는 데이터 어레이의 하나 이상의 차원을 트래버스하기 위해 상기 제1 트래버스 유닛에 의해 사용되는 각각의 루프를 포함한다.

예 3: 예 2의 연산 유닛에 있어서, 상기 하나 이상의 연산은 상기 제1 트래버스 유닛에 의해 제공되는 텐서 연산에 부분적으로 기초하여 수행되고, 상기 텐서 연산은 상기 데이터 어레이의 하나 이상의 요소에 액세스하기 위한 루프 네스트 구조를 포함한다.

예 4: 예 1 내지 3중 어느 하나의 연산 유닛은, 상기 연산 유닛의 외부에 있는 소스로부터 수신된 명령어에 기초하여 상기 제1 메모리 뱅크의 적어도 하나의 메모리 위치 및 상기 제2 메모리 뱅크의 적어도 하나의 메모리 위치에 액세스하도록 구성된 제2 트래버스 유닛을 더 포함한다.

예 5: 예 4의 연산 유닛에 있어서, 상기 제1 트래버스 유닛은 텐서 연산 트래버스 유닛이고, 상기 제2 트래버스 유닛은 직접 메모리 액세스 트래버스 유닛이며, 상기 데이터 어레이는 복수의 요소를 포함하는 텐서에 대응한다.

예 6: 예 1 내지 5중 하나의 연산 유닛에 있어서, 상기 연산 유닛은 비선형 유닛을 포함하고, 연산들의 제1 부분은 상기 곱셈 연산에 기초하여 하나 이상의 출력 활성화들을 생성하는 것을 포함하고, 상기 연산들의 제2 부분은 상기 비선형 유닛에 의해, 상기 하나 이상의 출력 활성화들에 비선형 함수를 적용하는 것을 포함한다.

예 7: 예 6의 연산 유닛에 있어서, 상기 연산 유닛에 의해 수행되는 상기 하나 이상의 연산들은 시프트 레지스터를 사용하여 상기 출력 활성화들을 상기 제1 메모리 뱅크로 시프트하는 것을 포함한다.

예 8: 예 1 내지 8중 하나의 연산 유닛은 연산 유닛의 외부로 연장되는 링 버스의 부분을 더 포함하고, 상기 링 버스는 상기 제1 메모리 뱅크와 다른 인접한 연산 유닛의 메모리 뱅크 사이 및 상기 제2 메모리 뱅크와 다른 인접한 연산 유닛의 메모리 뱅크 사이의 데이터 경로를 제공한다.

예 9: 예 1 내지 8중 하나의 연산 유닛에 있어서, 상기 제2 메모리 뱅크는 부분 합들 또는 하나 이상의 풀링 계층 입력들 중 적어도 하나를 저장하도록 구성된다.

예 10: 텐서 연산을 가속화하기 위한 컴퓨터로 구현되는 방법으로서,

제1 데이터 폭을 갖는 제1 메모리 뱅크에 의해, 제1 트래버스 유닛으로부터 제어 신호를 수신하는 상기 제1 메모리 뱅크에 응답하여 제1 입력 활성화를 전송하는 단계 -상기 제1 메모리 뱅크는 연산 유닛에 배치되고, 상기 제1 입력 활성화는 상기 연산 유닛의 적어도 셀에 의해 액세스 가능한 데이터 버스에 의해 제공됨-; 상기 적어도 하나의 셀에 의해, 상기 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크로부터 하나 이상의 파라미터를 수신하는 단계 -상기 적어도 하나의 셀은 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함함 -; 그리고 상기 MAC 오퍼레이터에 의해, 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산들을 수행하는 단계를 포함하며, 상기 하나 이상의 연산들은 상기 데이터 버스로부터 액세스된 적어도 제1 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 적어도 하나의 파라미터의 곱셈 연산을 부분적으로 포함한다.

예 11: 예 10의 컴퓨터로 구현되는 방법에 있어서, 상기 하나 이상의 연산들은 복수의 루프를 포함하는 루프 네스트를 실행하는 상기 연산 유닛에 부분적으로 기초하여 수행되며, 상기 루프 네스트의 구조는 상기 데이터 어레이의 하나 이상의 차원을 트래버스하기 위해 상기 제1 트래버스 유닛에 의해 사용되는 각각의 루프를 포함한다.

예 12: 예 11의 컴퓨터로 구현되는 방법은, 제1 트래버스 유닛에 의해, 데이터 어레이의 하나 이상의 요소에 액세스하기 위한 루프 네스트 구조를 포함하는 텐서 연산을 제공하는 단계를 더 포함한다.

예 13: 예 10 내지 12중 하나의 컴퓨터로 구현되는 방법에 있어서, 상기 제1 트래버스 유닛은 텐서 연산 트래버스 유닛이고, 상기 제2 트래버스 유닛은 직접 메모리 액세스 트래버스 유닛이며, 상기 데이터 어레이는 복수의 요소들을 포함하는 텐서에 대응한다.

예 14: 예 10 내지 예 13중 하나의 컴퓨터로 구현되는 방법은, 상기 곱셈 연산에 기초하여 적어도 하나의 출력 활성화를 생성함으로써 상기 하나 이상의 연산들의 제1 부분을 수행하는 단계를 더 포함한다.

예 15: 예 14의 컴퓨터로 구현되는 방법은, 비-선형 함수를 상기 하나 이상의 출력 활성화에 적용함으로써 상기 하나 이상의 연산들의 제2 부분을 수행하는 단계를 더 포함한다.

예 16: 하나 이상의 프로세서에 의해 실행 가능한 명령어를 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어는 실행시에, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하며, 상기 동작들은, 제1 데이터 폭을 갖는 제1 메모리 뱅크에 의해, 제1 트래버스 유닛으로부터 제어 신호를 수신하는 상기 제1 메모리 뱅크에 응답하여 제1 입력 활성화를 전송하는 동작 -상기 제1 메모리 뱅크는 연산 유닛에 배치되고, 상기 제1 입력 활성화는 상기 연산 유닛의 적어도 셀에 의해 액세스 가능한 데이터 버스에 의해 제공됨-; 상기 적어도 하나의 셀에 의해, 상기 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크로부터 하나 이상의 파라미터를 수신하는 동작 -상기 적어도 하나의 셀은 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함함 -; 그리고 상기 MAC 오퍼레이터에 의해, 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산들을 수행하는 동작을 포함하며, 상기 하나 이상의 연산들은 상기 데이터 버스로부터 액세스된 적어도 제1 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 적어도 하나의 파라미터의 곱셈 연산을 부분적으로 포함한다.

예 17: 예 16의 비 일시적 컴퓨터 판독 가능 매체에 있어서, 상기 하나 이상의 연산들은 복수의 루프들을 포함하는 루프 네스트를 실행하는 상기 연산 유닛에 부분적으로 기초하여 수행되며, 상기 루프 네스트의 구조는 상기 데이터 어레이의 하나 이상의 차원을 트래버스하기 위해 상기 제1 트래버스 유닛에 의해 사용되는 각각의 루프들을 포함한다.

예 18: 예 17의 비 일시적 컴퓨터 판독 가능 매체는, 제1 트래버스 유닛에 의해, 데이터 어레이(배열)의 하나 이상의 요소에 액세스하기 위한 루프 네스트 구조를 포함하는 텐서 연산을 제공하는 동작을 더 포함한다.

예 19: 예 16 내지 예 18중 어느 하나의 비 일시적 컴퓨터 판독 가능 매체는, 상기 곱셈 연산에 기초하여 적어도 하나의 출력 활성화를 생성함으로써 상기 하나 이상의 연산들의 제1 부분을 수행하는 동작을 더 포함한다.

예 20: 예 19의 비 일시적 컴퓨터 판독 가능 매체는, 비-선형 함수를 상기 하나 이상의 출력 활성화에 적용함으로써 상기 하나 이상의 연산들의 제2 부분을 수행하는 동작을 더 포함한다.

본 발명의 특정 실시 예가 설명되었다. 다른 실시 예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에서 열거된 동작은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

텐서 연산들을 가속화하기 위한 연산 유닛으로서,
입력 활성화들 또는 출력 활성화들 중 적어도 하나를 저장하기 위한 제1 데이터 폭을 갖는 제1 메모리 뱅크;
연산들을 수행하는데 사용되는 하나 이상의 파라미터들을 저장하기 위해 상기 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크;
상기 제2 메모리 뱅크로부터 파라미터들을 수신하고 그리고 상기 연산들을 수행하는 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함하는 적어도 하나의 셀;
적어도 상기 제1 메모리 뱅크와 데이터 통신하는 제1 트래버스(traversal) 유닛을 포함하며, 상기 제1 트래버스 유닛은 상기 MAC 오퍼레이터에 의해 액세스 가능한 데이터 버스에 입력 활성화가 제공되도록 상기 제1 메모리 뱅크에 제어 신호를 제공하도록 구성되며;
상기 연산 유닛은 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산들을 수행하고, 상기 하나 이상의 연산들은 상기 MAC 오퍼레이터에 의해 수행되며, 상기 데이터 버스로부터 수신된 상기 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 파라미터의 곱셈 연산을 부분적으로 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제1항에 있어서,
상기 연산 유닛은 복수의 루프들을 포함하는 루프 네스트(loop nest)를 실행함으로써 상기 연산들 중 하나 이상을 수행하고, 상기 루프 네스트의 구조는 데이터 어레이의 하나 이상의 차원들을 트래버스하기 위해 상기 제1 트래버스 유닛에 의해 사용되는 각각의 루프들을 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제2항에 있어서,
상기 하나 이상의 연산들은 상기 제1 트래버스 유닛에 의해 제공되는 텐서 연산에 부분적으로 기초하여 수행되고, 상기 텐서 연산은 상기 데이터 어레이의 하나 이상의 요소에 액세스하기 위한 루프 네스트 구조를 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제1항에 있어서,
상기 연산 유닛의 외부에 있는 소스로부터 수신된 명령어들에 기초하여 상기 제2 메모리 뱅크의 적어도 하나의 메모리 위치 및 상기 제1 메모리 뱅크의 적어도 하나의 메모리 위치에 액세스하도록 구성된 제2 트래버스 유닛을 더 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제4항에 있어서,
상기 제1 트래버스 유닛은 텐서 연산 트래버스 유닛이고, 상기 제2 트래버스 유닛은 직접 메모리 액세스 트래버스 유닛이며, 상기 데이터 어레이는 복수의 요소들을 포함하는 텐서에 대응하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제1항에 있어서,
상기 연산 유닛은 비-선형 유닛을 포함하고, 연산들의 제1 부분은 상기 곱셈 연산에 기초하여 하나 이상의 출력 활성화들을 생성하는 것을 포함하고, 상기 연산들의 제2 부분은 상기 비-선형 유닛에 의해, 상기 하나 이상의 출력 활성화들에 비-선형 함수를 적용하는 것을 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제6항에 있어서,
상기 연산 유닛에 의해 수행되는 상기 하나 이상의 연산들은 시프트 레지스터를 사용하여 상기 출력 활성화들을 상기 제1 메모리 뱅크로 시프트하는 것을 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제1항에 있어서, 상기 연산 유닛은,
연산 유닛의 외부로 연장되는 링 버스의 부분을 더 포함하고, 상기 링 버스는 상기 제1 메모리 뱅크와 다른 인접한 연산 유닛의 메모리 뱅크 사이 그리고 상기 제2 메모리 뱅크와 다른 인접한 연산 유닛의 메모리 뱅크 사이의 데이터 경로를 제공하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
제1항에 있어서, 상기 제2 메모리 뱅크는 부분 합들 또는 하나 이상의 풀링 계층 입력들 중 적어도 하나를 저장하도록 구성되는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 연산 유닛.
텐서 연산들을 가속화하기 위한 컴퓨터로 구현되는 방법으로서,
제1 데이터 폭을 갖는 제1 메모리 뱅크에 의해, 제1 트래버스 유닛으로부터 제어 신호를 수신하는 상기 제1 메모리 뱅크에 응답하여 제1 입력 활성화를 전송하는 단계 -상기 제1 메모리 뱅크는 연산 유닛에 배치되고, 상기 제1 입력 활성화는 상기 연산 유닛의 적어도 하나의 셀에 의해 액세스 가능한 데이터 버스에 의해 제공됨-;
상기 적어도 하나의 셀에 의해, 상기 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크로부터 하나 이상의 파라미터들을 수신하는 단계 -상기 적어도 하나의 셀은 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함함 -; 그리고
상기 MAC 오퍼레이터에 의해, 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산들을 수행하는 단계를 포함하며, 상기 하나 이상의 연산들은 상기 데이터 버스로부터 액세스된 적어도 제1 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 적어도 하나의 파라미터의 곱셈 연산을 부분적으로 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 컴퓨터로 구현되는 방법.
제10항에 있어서,
상기 하나 이상의 연산들은 복수의 루프들을 포함하는 루프 네스트(loop nest)를 실행하는 상기 연산 유닛에 부분적으로 기초하여 수행되며, 상기 루프 네스트의 구조는 상기 제1 트래버스 유닛이 상기 데이터 어레이의 하나 이상의 차원들을 트래버스하는 방식을 나타내는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 컴퓨터로 구현되는 방법.
제11항에 있어서, 상기 컴퓨터로 구현되는 방법은,
제1 트래버스 유닛에 의해, 데이터 어레이의 하나 이상의 요소들에 액세스하기 위한 루프 네스트 구조를 포함하는 텐서 연산을 제공하는 단계를 더 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 컴퓨터로 구현되는 방법.
제10항에 있어서,
상기 제1 트래버스 유닛은 텐서 연산 트래버스 유닛이고, 상기 제2 트래버스 유닛은 직접 메모리 액세스 트래버스 유닛이며, 상기 데이터 어레이는 복수의 요소들을 포함하는 텐서에 대응하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 컴퓨터로 구현되는 방법.
제10항에 있어서, 상기 컴퓨터로 구현되는 방법은, 상기 곱셈 연산에 기초하여 적어도 하나의 출력 활성화를 생성함으로써 상기 하나 이상의 연산들의 제1 부분을 수행하는 단계를 더 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 컴퓨터로 구현되는 방법.
제10항에 있어서, 상기 컴퓨터로 구현되는 방법은, 비-선형 함수를 상기 하나 이상의 출력 활성화들에 적용함으로써 상기 하나 이상의 연산들의 제2 부분을 수행하는 단계를 더 포함하는 것을 특징으로 하는 텐서 연산들을 가속화하기 위한 컴퓨터로 구현되는 방법.
하나 이상의 프로세서들에 의해 실행 가능한 명령어들을 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어들은 실행시에, 상기 하나 이상의 프로세서들로 하여금 동작들을 수행하게 하며, 상기 동작들은,
제1 데이터 폭을 갖는 제1 메모리 뱅크에 의해, 제1 트래버스 유닛으로부터 제어 신호를 수신하는 상기 제1 메모리 뱅크에 응답하여 제1 입력 활성화를 전송하는 동작 -상기 제1 메모리 뱅크는 연산 유닛에 배치되고, 상기 제1 입력 활성화는 상기 연산 유닛의 적어도 셀에 의해 액세스 가능한 데이터 버스에 의해 제공됨-;
상기 적어도 하나의 셀에 의해, 상기 제1 데이터 폭보다 큰 제2 데이터 폭을 갖는 제2 메모리 뱅크로부터 하나 이상의 파라미터들을 수신하는 동작 -상기 적어도 하나의 셀은 적어도 하나의 MAC(multiply accumulate) 오퍼레이터를 포함함 -; 그리고
상기 MAC 오퍼레이터에 의해, 데이터 어레이의 적어도 하나의 요소와 관련된 하나 이상의 연산들을 수행하는 동작을 포함하며, 상기 하나 이상의 연산들은 상기 데이터 버스로부터 액세스된 적어도 제1 입력 활성화 및 상기 제2 메모리 뱅크로부터 수신된 적어도 하나의 파라미터의 곱셈 연산을 부분적으로 포함하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
제16항에 있어서, 상기 하나 이상의 연산들은 복수의 루프들을 포함하는 루프 네스트를 실행하는 상기 연산 유닛에 부분적으로 기초하여 수행되며, 상기 루프 네스트의 구조는 상기 제1 트래버스 유닛이 상기 데이터 어레이의 하나 이상의 차원을 트래버스하는 방식을 나타내는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
제17항에 있어서, 상기 비 일시적 컴퓨터 판독 가능 매체는, 상기 제1 트래버스 유닛에 의해, 데이터 어레이의 하나 이상의 요소들에 액세스하기 위한 루프 네스트 구조를 포함하는 텐서 연산을 제공하는 것을 더 포함하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
제16항에 있어서, 상기 비 일시적 컴퓨터 판독 가능 매체는, 상기 곱셈 연산에 기초하여 적어도 하나의 출력 활성화를 생성함으로써 상기 하나 이상의 연산들의 제1 부분을 수행하는 것을 더 포함하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
제19항에 있어서, 상기 비 일시적 컴퓨터 판독 가능 매체는, 비-선형 함수를 상기 하나 이상의 출력 활성화들에 적용함으로써 상기 하나 이상의 연산들의 제2 부분을 수행하는 것을 더 포함하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.