KR20230069952A

KR20230069952A - 공유 피연산자들의 수직 및 수평 브로드캐스트

Info

Publication number: KR20230069952A
Application number: KR1020237011912A
Authority: KR
Inventors: 알렌 에이치. 러쉬; 사테쉬 라구두; 마이클 만토르; 아룬 바이디야나탄 아난타나라얀; 프라사드 나가브후샤남가리; 막심 브이. 카자코프
Original assignee: 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date: 2020-09-25
Filing date: 2021-09-24
Publication date: 2023-05-19
Also published as: EP4217856A1; US20230289191A1; WO2022066998A1; US11635967B2; JP2023542835A; CN116420136A; US20220100528A1

Abstract

어레이 프로세서는 행들 및 열들로 분산된 프로세서 엘리먼트 어레이들을 포함한다. 프로세서 엘리먼트 어레이들은 파라미터 값들에 대한 동작들을 수행한다. 어레이 프로세서는 또한 프로세서 엘리먼트 어레이들의 행들 및 열들의 상호 배타적인 서브세트들에 파라미터 값들의 세트들을 브로드캐스트하는 메모리 인터페이스들을 포함한다. 일부 경우들에서, 어레이 프로세서는 대응하는 행들 내의 프로세서 엘리먼트 어레이들의 서브세트들을 포함하는 SIMD(single-instruction-multiple-data) 유닛들, SIMD 유닛들의 서브세트들을 포함하는 작업그룹 프로세서(workgroup processor, WGP)들, 및 파라미터 값들을 저장하는 외부 메모리와 상호접속하도록 구성된 메모리 패브릭을 포함한다. 메모리 인터페이스들은 파라미터 값들을, 메모리 인터페이스들과 연관된 행들 내의 프로세서 엘리먼트 어레이들 및 WGP들 내의 SIMD 유닛들에 걸쳐 구현되는 프로세서 엘리먼트 어레이들의 열들을 포함하는 SIMD 유닛들에 브로드캐스트한다. 메모리 인터페이스들은 메모리 패브릭을 통해 외부 메모리로부터 파라미터 값들에 액세스한다.

Description

공유 피연산자들의 수직 및 수평 브로드캐스트

본 발명은 컴퓨팅 디바이스의 어레이 프로세서 시스템에 관한 발명이다.

그래픽 처리 장치(GPU)들 및 다른 멀티스레드(multithreaded) 처리 장치들은 전형적으로 다수의 데이터 세트들에 대해 단일 프로그램의 다수의 인스턴스들을 동시에 실행하는 다수의 처리 엘리먼트들(프로세서 코어들 또는 컴퓨팅 유닛들이라고도 함)를 구현한다. 예를 들어, 처리 엘리먼트들은 다수의 컴퓨팅 유닛들을 사용하여 다수의 데이터 세트들에 대해 동일한 명령어를 동시에 실행하기 위해 SIMD(single-instruction-multiple-data) 프로토콜들을 구현할 수 있다. 따라서, 처리 엘리먼트들은 SIMD 유닛들로 지칭된다. 계층적 실행 모델은 하드웨어로 구현된 계층과 매칭하기 위해 사용된다. 실행 모델은 모든 웨이브들(웨이브프론트들, 스레드들, 스트림들, 또는 작업 항목들로도 지칭됨)에 의해 실행되는 명령어들의 커널을 정의한다. 일부 경우들에서, 처리 시스템에서 구현되는 GPU들 또는 다른 멀티스레드 처리 장치들의 처리 능력(processing power)은 SIMD 프로토콜들을 또한 구현하는 하나 이상의 가속기들로 보충된다. GPU들 또는 다른 멀티스레드 처리 장치들에서 구현되는 가속기 회로의 일 예는 어레이 프로세서이다.

일 양태에서, 장치는 행들 및 열들로 분산된 프로세서 엘리먼트 어레이들을 포함하고, 프로세서 엘리먼트 어레이들은 파라미터 값들에 대한 동작들을 수행하도록 구성되고, 프로세서 엘리먼트 어레이들의 행들 및 열들의 상호 배타적인 서브세트들에 파라미터 값들의 세트들을 브로드캐스트하도록 구성된 메모리 인터페이스들을 더 포함한다. 다양한 실시예들에서, 프로세서 엘리먼트 어레이들은 벡터 산술 논리 유닛(ALU) 프로세서들을 포함하고, 메모리 인터페이스들은 DMA(direct memory access) 엔진들을 포함하고, 메모리 인터페이스들 각각은 행들 중 대응하는 행 및 열들 중 대응하는 열의 프로세서 엘리먼트 어레이들에 파라미터 값들을 브로드캐스트하고 그리고/또는 메모리 인터페이스들의 제1 메모리 인터페이스는 제1 행 및 제1 열의 프로세서 엘리먼트 어레이들에 제1 파라미터 값들을 브로드캐스트하고, 그리고 메모리 인터페이스들의 제2 메모리 인터페이스는 제2 행 및 제2 열의 프로세서 엘리먼트 어레이들에 제2 파라미터 값들을 브로드캐스트하고, 메모리 인터페이스들은 별개의 물리적 연결들을 통해 프로세서 엘리먼트 어레이들의 행들 및 열들의 상호 배타적인 서브세트들에 연결되고, 메모리 인터페이스들은 행들 및 열들의 상호 배타적인 서브세트들에서 프로세서 엘리먼트 어레이들과 연관된 레지스터들을 파라미터 값들로 동시에 파퓰레이션하도록(populate) 구성되고, 장치는 대응하는 행들에서 프로세서 엘리먼트 어레이들의 서브세트들을 포함하는 SIMD(single-instruction-multiple-data) 유닛들을 더 포함하고, 메모리 인터페이스들은 메모리 인터페이스들과 연관된 행들에서 프로세서 엘리먼트 어레이들을 포함하는 SIMD 유닛들에 파라미터 값들을 브로드캐스트하고, 장치는 SIMD 유닛들의 서브세트들을 포함하는 작업그룹 프로세서들을 더 포함하고, 메모리 인터페이스들은 작업그룹 프로세서들에서 SIMD 유닛들에 걸쳐 구현되는 프로세서 엘리먼트 어레이들의 열들에 파라미터 값들을 브로드캐스트하고, 그리고/또는 장치는 파라미터 값들을 저장하는 외부 메모리와 상호접속하도록 구성된 메모리 패브릭을 더 포함하고, 메모리 인터페이스들은 메모리 패브릭을 통해 외부 메모리로부터 파라미터 값들에 액세스하도록 구성된다.

다른 양태에 따르면, 방법은 메모리 인터페이스들을 통해, 메모리로부터 파라미터 값들을 페치하는(fetch) 단계; 메모리 인터페이스들로부터, 프로세서 엘리먼트 어레이들의 행들 및 열들의 상호 배타적인 서브세트들에 파라미터 값들을 브로드캐스트하는 단계; 및 프로세서 엘리먼트 어레이들에서, 파라미터 값들에 대한 동작들을 수행하는 단계를 포함한다.

다양한 실시예들에서, 메모리 인터페이스들로부터 파라미터 값들을 브로드캐스트하는 단계는 메모리 인터페이스들 각각으로부터 행들 중 대응하는 행 및 열들 중 대응하는 열의 프로세서 엘리먼트 어레이들로 파라미터 값들을 브로드캐스트하는 단계를 포함하고, 파라미터 값들을 브로드캐스트하는 단계는 메모리 인터페이스들의 제1 메모리 인터페이스로부터 제1 행 및 제1 열의 프로세서 엘리먼트 어레이들로 제1 파라미터 값들을 브로드캐스트하는 단계를 포함하고, 그리고 파라미터 값들을 브로드캐스트하는 단계는 메모리 인터페이스들의 제2 메모리 인터페이스로부터 제2 행 및 제2 열의 프로세서 엘리먼트 어레이들로 제2 파라미터 값들을 브로드캐스트하는 단계를 포함하고, 파라미터 값들을 브로드캐스트하는 단계는 메모리 인터페이스들과 대응하는 행들 및 열들 사이의 별개의 물리적 연결들을 통해 파라미터 값들을 브로드캐스트하는 단계를 포함하고, 파라미터 값들을 브로드캐스트하는 단계는 행들 및 열들의 상호 배타적인 서브세트들에 프로세서 엘리먼트 어레이들과 연관된 레지스터들을 파라미터 값들로 동시에 파퓰레이션하는 단계를 포함하고, 각각의 행의 프로세서 엘리먼트 어레이들의 서브세트들은 대응하는 SIMD(single-instruction-multiple-data) 유닛들에서 구현되고, 그리고 파라미터 값들을 브로드캐스트하는 단계는 메모리 인터페이스들과 연관된 행들에 프로세서 엘리먼트 어레이들을 포함하는 SIMD 유닛들에 파라미터 값들을 브로드캐스트하는 단계를 포함하고 그리고/또는 SIMD 유닛들의 서브세트들은 대응하는 작업그룹 프로세서들에서 구현되고, 그리고 파라미터 값들을 브로드캐스트하는 단계는 작업그룹 프로세서들의 SIMD 유닛들에 걸쳐 구현되는 프로세서 엘리먼트 어레이들의 열들에 파라미터 값들을 브로드캐스트하는 단계를 포함하고, 그리고/또는 파라미터 값들을 페치하는 단계는 파라미터 값들을 저장하는 메모리와 상호접속하도록 구성되는 메모리 패브릭을 통해 파라미터 값들에 액세스하는 단계를 포함한다.

첨부 도면을 참조함으로써 본 개시가 더 잘 이해되고, 본 개시의 많은 특징 및 이점이 당업자에게 명백해질 수 있다. 상이한 도면에서의 동일한 도면 부호의 사용은 유사하거나 동일한 아이템을 나타낸다.
도 1은 일부 실시예들에 따른 어레이 프로세서에서 공유 피연산자들의 수직 및 수평 브로드캐스트를 수행하는 처리 시스템의 블록도이다.
도 2는 일부 실시예들에 따른 파라미터 값들의 수직 및 수평 브로드캐스트를 지원하는 처리 시스템의 부분 블록도이다.
도 3은 일부 실시예들에 따른, 프로세서 엘리먼트 어레이들의 상호 배타적인 서브세트들에 대한 파라미터 값들의 수직 및 수평 브로드캐스트를 구현하는 어레이 프로세서의 블록도이다.
도 4는 일부 실시예들에 따른 프로세서 엘리먼트 어레이들의 행(row)들 또는 열(column)들에 파라미터 값들을 브로드캐스트하는 방법의 흐름도이다.

어레이 프로세서 시스템은 SIMD 유닛들의 세트를 포함하는 하나 이상의 작업그룹 프로세서(WGP)들을 포함한다. 예를 들어, 어레이 프로세서는 각각 4개의 SIMD 유닛들을 구현하는 4개의 WGP들을 포함할 수 있다. SIMD 유닛은 벡터들 또는 행렬들에 대한 곱셈-누산 연산들과 같은 벡터 연산(vector operation)들을 수행하는 프로세서 엘리먼트 어레이들의 세트를 포함한다. 예를 들어, SIMD 유닛은 입력 벡터들의 쌍에 대한 연산들(곱셈-누산 연산들과 같은)을 수행하기 위한 회로들의 8 x 8 어레이를 포함하는 프로세서 엘리먼트 어레이들 각각에 4개의 프로세서 엘리먼트 어레이들을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 "벡터"는 또한 행렬들의 개별 행들 또는 열들을 지칭할 수 있다. 또한, 용어 "행렬"은 일반적으로 1 x N 행렬들로서 이해되는 벡터들을 포함하는 값들의 어레이들을 지칭한다. 어레이 프로세서 시스템에서의 프로세서 엘리먼트 어레이들은 프로세서 엘리먼트 어레이들의 수에 대응하는 차원들을 갖는 행렬들에 대해 행렬 곱셈과 같은 커널 동작들을 수행한다. 예를 들어, 4개의 프로세서 엘리먼트 어레이들로 구성된 4개의 SIMD 유닛들을 포함하는 4개의 WGP를 포함하는 어레이 프로세서는 64 x 64 행렬을 곱할 수 있다.

프로세서 엘리먼트 어레이들에 의해 수행되는 커널 동작들에 대한 입력 값들은 메모리 패브릭을 통해 하나 이상의 직접 메모리 액세스(DMA) 엔진들에 의해 메모리로부터 검색되고, DMA 엔진들은 출력 값들을 메모리 패브릭을 통해 메모리에 다시 기록한다. 예를 들어, 4개의 WGP 각각은 SIMD 유닛들의 대응하는 쌍들에 대한 값들을 페치하는 한 쌍의 DMA 엔진들을 포함할 수 있다. 어레이 프로세서 시스템에 의해 행렬들에 대해 수행된 커널 동작들 중 많은 것은 동일한 파라미터 값들을 반복해서 재사용한다. 예를 들어, 기계 학습 애플리케이션을 구현하는 데 사용되는 곱셈-누산 연산은 벡터 또는 행렬 곱셈을 수행할 때 동일한 벡터 또는 행렬 값들을 여러 번 재사용할 수 있다. 동일한 파라미터들을 반복적으로 프리페치하는 것은 어레이 프로세서 시스템에서 상당한 메모리 대역폭을 소비하고, 시스템은 대역폭이 제한됨에 따라 어레이 프로세서 시스템의 효율을 감소시킨다.

도 1 내지 도 4는 어레이 프로세서 시스템의 상호 배타적인 행들 및 열들에서 프로세서 엘리먼트 어레이들에 파라미터 값들의 세트들을 브로드캐스트하기 위해 직접 메모리 액세스(DMA) 엔진들을 사용하는 어레이 프로세서 시스템의 실시예들을 개시하며, 이에 의해 프로세서 엘리먼트 어레이들로 파라미터들을 페치함으로써 소비되는 대역폭을 감소시킨다. 프로세서 엘리먼트 어레이들은 벡터 산술 논리 유닛(ALU) 프로세서들로서 구현된다. 일부 실시예들에서, 각각의 DMA 엔진은 프로세서 엘리먼트 어레이들의 하나의 행 및 프로세서 엘리먼트 어레이들의 하나의 열에 파라미터 값들을 브로드캐스트한다. 어레이 프로세서 시스템이 다수의 작업그룹 프로세서들(WGP들)을 지원하는 경우, 각각의 DMA 엔진은 DMA 엔진과 연관된 SIMD 유닛들에서 구현된 프로세서 엘리먼트 어레이들의 행 및 WGP들의 SIMD 유닛들에 걸쳐 구현된 프로세서 엘리먼트 어레이들의 열에 파라미터 값들을 브로드캐스트한다. 예를 들어, 제1 DMA 엔진은 프로세서 엘리먼트 어레이들의 제1 행 및 프로세서 엘리먼트 어레이들의 제1 열에 파라미터 값들을 브로드캐스트하고, 제2 DMA 엔진은 프로세서 엘리먼트 어레이들의 제2 행 및 프로세서 엘리먼트 어레이들의 제2 열에 파라미터 값들을 브로드캐스트하고, 제3 DMA 엔진은 프로세서 엘리먼트 어레이들의 제3 행 및 프로세서 엘리먼트 어레이들의 제3 열에 파라미터 값들을 브로드캐스트하는 등이다. DMA 엔진들을 행들/열들의 상호 배타적인 세트들과 연관시키는 것은 상이한 프로세서 엘리먼트 어레이들에 대한 입력 값들을 유지하는 레지스터들의 동시적인 파퓰레이션(population)을 허용한다. 따라서, 재사용된 파라미터 값들을 페치함으로써 소비되는 메모리 패브릭의 대역폭은 감소되고, 어레이 프로세서 시스템의 효율이 증가된다.

도 1은 일부 실시예들에 따른 어레이 프로세서(101)에서 공유 피연산자들의 수직 및 수평 브로드캐스트를 수행하는 처리 시스템(100)의 블록도이다. 처리 시스템(100)은 동적 랜덤-액세스 메모리(DRAM: dynamic random-access memory)와 같은 비일시적 컴퓨터 판독가능 매체를 사용하여 구현되는 메모리(105) 또는 다른 저장 구성요소를 포함하거나 이에 액세스할 수 있다. 그러나, 일부 경우에, 메모리(105)는 정적 랜덤-액세스 메모리(SRAM: static random-access memory), 비휘발성 RAM 등을 포함하는 다른 유형의 메모리를 사용하여 구현된다. 메모리(105)는 외부 메모리로 지칭되는데, 이는 처리 시스템(100)에서 구현되는 처리 장치의 외부에서 구현되기 때문이다. 또한, 처리 시스템(100)은 메모리(105)와 같은 처리 시스템(100)에서 구현되는 엔티티 간의 통신을 지원하기 위한 버스(110)를 포함한다. 처리 시스템(100)의 일부 실시예는 명확성을 위해 도 1에 도시되지 않은 다른 버스, 브릿지, 스위치, 라우터 등을 포함한다.

본 명세서에 설명된 기술들은, 상이한 실시예들에서, 다양한 병렬 프로세서들(예를 들어, 벡터 프로세서들, 그래픽 처리 장치(GPU)들, 범용 GPU(GPGPU)들, 논-스칼라 프로세서들, 고병렬 프로세서들, 인공 지능(AI) 프로세서들, 추론 엔진들, 기계 학습 프로세서들, 다른 멀티스레드 처리 장치들 등) 중 임의의 것에서 이용된다. 도 1은 일부 실시예들에 따른 병렬 프로세서, 특히 GPU(115)의 예를 예시한다. GPU(115)는 디스플레이(120) 상에 제시하기 위해 이미지들을 렌더링한다. 예를 들어, GPU(115)는 객체를 렌더링하여 디스플레이(120)에 제공되는 픽셀의 값을 생성하며, 이때 픽셀 값을 사용하여 렌더링된 객체를 나타내는 이미지를 디스플레이 한다. GPU(115)는 명령어를 동시에 또는 병렬로 실행하는 복수의 프로세서 코어(121, 122, 123)(본 명세서에서는 "프로세서 코어(121 내지 123)"로 총칭됨)를 구현한다. 프로세서 코어(121 내지 123)의 일부 실시예들은 상이한 데이터 세트들에 대해 동일한 동작을 수행하는 SIMD 유닛들로서 동작한다. GPU(115)에 구현된 프로세서 코어(121 내지 123)의 수는 설계 선택의 문제이고, GPU(115)의 일부 실시예는 도 1에 도시된 것보다 더 많거나 더 적은 프로세서 코어들을 포함한다. GPU(115)의 일부 실시예는 범용 컴퓨팅에 사용된다. GPU(115)는 메모리(105)에 저장된 프로그램 코드(125)와 같은 명령어들을 실행하고, GPU(115)는 실행된 명령어들의 결과들과 같은 정보를 메모리(105)에 저장한다.

또한, 처리 시스템(100)은 버스(110)에 연결되고 따라서 버스(110)를 통해 GPU(115) 및 메모리(105)와 통신하는 중앙 처리 장치(CPU)(130)를 포함한다. CPU(130)는 명령어를 동시에 또는 병렬로 실행하는 복수의 프로세서 코어(131, 132, 133)(본 명세서에서는 "프로세서 코어(131 내지 133)"로 총칭됨)를 구현한다. 프로세서 코어(131 내지 133)의 일부 실시예들은 상이한 데이터 세트들에 대해 동일한 동작을 수행하는 SIMD 유닛들로서 동작한다. CPU(130)에서 구현된 프로세서 코어(131 내지 133)의 수는 설계 선택의 문제이고, 일부 실시예는 도 1에 예시된 것보다 더 많거나 더 적은 프로세서 코어를 포함한다. 프로세서 코어(131 내지 133)는 메모리(105)에 저장된 프로그램 코드(135)와 같은 명령어를 실행하고, CPU(130)는 실행된 명령어의 결과와 같은 정보를 메모리(105)에 저장한다. 또한, CPU(130)는 GPU(115)에 드로우 콜을 발행함으로써 그래픽 처리를 개시할 수 있다. CPU(130)의 일부 실시예는 동시에 또는 병렬로 명령어를 실행하는 다수의 프로세서 코어(명확성을 위해 도 1에 도시되지 않음)를 구현한다.

입력/출력(I/O) 엔진(145)은 디스플레이(120) 뿐만 아니라 키보드, 마우스, 프린터, 외부 디스크 등과 같은 처리 시스템(100)의 다른 요소와 연관된 입력 또는 출력 작동을 처리한다. I/O 엔진(145)은 버스(110)와 결합되어 I/O 엔진(145)이 메모리(105), GPU(115), 또는 CPU(130)와 통신한다. 예시된 실시예에서, I/O 엔진(145)은 컴팩트 디스크(CD), 디지털 비디오 디스크(DVD) 등과 같은 비일시적 컴퓨터 판독가능 매체를 사용하여 구현되는 외부 저장 구성요소(150)에 저장된 정보를 판독한다. 또한, I/O 엔진(145)은 GPU(115) 또는 CPU(130)에 의한 처리 결과와 같은 정보를 외부 저장 구성요소(150)에 기록할 수 있다.

어레이 프로세서(101)는 GPU(115) 및 일부 경우들에서 CPU(130)의 처리 능력을 보충한다. 프로세서 엘리먼트 어레이들의 세트(155)는 GPU(115)가 태스크들을 세트(155) 내의 프로세서 엘리먼트 어레이들 중 하나 이상으로 오프로드하게 함으로써 GPU(115)의 성능을 가속화하거나 개선하는 동작들을 수행하는 데 사용된다. 그런 다음 프로세서 엘리먼트 어레이들은 결과들을 GPU(115)에 반환한다. 일부 실시예들에서, 프로세서 엘리먼트 어레이들은 정수 이진수에 대해 산술 및 비트단위(bitwise) 연산들을 수행하기 위한 회로부를 포함하는 벡터 산술 논리 유닛(ALU)들로서 구현된다. 따라서, 프로세서 엘리먼트 어레이들은 하나 이상의 입력들(또는 피연산자들)을 수신하고, 피연산자들 및 프로세서 엘리먼트 어레이에 의해 수행되는 연산을 표시하는 오피코드(opcode)에 기초하여 대응하는 출력들을 생성한다. 피연산자들, 오피코드들, 및 다른 상태 값들은 프로세서 엘리먼트 어레이들과 연관된 레지스터들에 저장된다.

세트(155) 내의 프로세서 엘리먼트 어레이들은 행들 및 열들로 분산된다. 아래에서 논의되는 바와 같이, 어레이 프로세서(101)는 또한 (예를 들어, 메모리(105)로부터) 파라미터 값들을 판독하고 파라미터 값들의 세트들을 프로세서 엘리먼트 어레이들의 행들 및 열들의 상호 배타적인 서브세트들에 브로드캐스트하는 메모리 인터페이스들을 포함한다. 일부 경우들에서, 어레이 프로세서(101)는 대응하는 행 내의 프로세서 엘리먼트 어레이들의 서브세트들을 포함하는 SIMD(single-instruction-multiple-data) 유닛들, SIMD 유닛들의 서브세트들을 포함하는 작업그룹 프로세서(workgroup processor, WGP)들, 및 파라미터 값들을 저장하는 외부 메모리(예를 들어, 메모리(105))와 상호접속하도록 구성된 메모리 패브릭을 포함한다. 메모리 인터페이스들은 파라미터 값들을, 메모리 인터페이스들과 연관된 행들 내의 프로세서 엘리먼트 어레이들 및 WGP들 내의 SIMD 유닛들에 걸쳐 구현되는 프로세서 엘리먼트 어레이들의 열들을 포함하는 SIMD 유닛들에 브로드캐스트한다. 메모리 인터페이스들은 메모리 패브릭을 통해 외부 메모리로부터 파라미터 값들에 액세스한다.

도 2는 일부 실시예들에 따른 파라미터 값들의 수직 및 수평 브로드캐스트를 지원하는 처리 시스템의 부분(200) 블록도이다. 부분(200)은 도 1에 도시된 어레이 프로세서(101)의 일부 실시예들을 구현하는 데 사용된다. 부분(200)은 컴퓨팅 유닛들(210, 215)의 쌍들을 구현하는 WGP들(205, 206, 207, 208)(본 명세서에서 "WGP(205 내지 208)"로 총칭됨)의 세트를 포함한다. WGP(206 내지 208)는 또한 컴퓨팅 유닛들의 쌍들을 포함하지만, 컴퓨팅 유닛들(210, 215)은 명료성을 위해 WGP(205)에만 예시된다. 부분(200)의 일부 실시예들은 더 많거나 더 적은 WGP 및 대응하는 컴퓨팅 유닛들을 구현한다.

WGP(205 내지 208)는 SIMD 유닛들(220, 221, 222, 223)(본 명세서에서 "SIMD 유닛들(220 내지 223)"로 총칭됨) 및 DMA(direct memory access) 엔진들(225, 230)과 같은 메모리 인터페이스들을 포함한다. 메모리 인터페이스들의 일부 실시예들은 또한 DMA 엔진들(225, 230)과 함께 동작하는 TA/TD 로직 및 TCP 인터페이스들을 포함한다. 각각의 SIMD 유닛들(220 내지 223)은 프로세서 엘리먼트 어레이들의 세트의 부분을 구현한다. 예시된 실시예에서, SIMD 유닛(221)은 프로세서 엘리먼트 어레이들(240, 241, 242, 243)(본 명세서에서 "프로세서 엘리먼트 어레이들(240 내지 243)"로 총칭됨)의 서브세트(235)를 포함하고, SIMD 유닛(223)은 프로세서 엘리먼트 어레이들(250, 251, 252, 253)(본 명세서에서 "프로세서 엘리먼트 어레이들(250 내지 253)"로 총칭됨)의 서브세트(245)를 포함한다. SIMD 유닛들(220, 222)은 또한 명료성을 위해 도 2에 도시되지 않은 프로세서 엘리먼트 어레이들의 다른 서브세트들을 포함한다.

DMA 엔진들(225, 230)은 DMA 엔진들(225, 230)과 SRAM(260)과 같은 랜덤 액세스 메모리(RAM) 사이에 하나 이상의 채널들을 제공하는 메모리 패브릭(255)에 연결된다. 예시된 실시예에서, SRAM(260)은 도 1에 예시된 메모리(105)와 같은 시스템 메모리(265)에 연결된다. 부분(200)은 또한 WGP(205-208) 및 메모리 패브릭(255)과 통신하는 비동기 컴퓨팅 엔진(270)을 포함한다.

DMA 엔진들(225, 230)은 메모리 패브릭(255)을 통해 SRAM(260) 또는 시스템 메모리(265)로부터 파라미터 값들을 페치한다. 그런 다음 페치된 파라미터 값들은 프로세서 엘리먼트 어레이들(240 내지 243, 250 내지 253)을 포함하는 프로세서 엘리먼트 어레이들의 상호 배타적인 서브세트들로 브로드캐스트된다. 일부 실시예들에서, DMA 엔진들(225, 230)은 프로세서 엘리먼트 어레이들의 세트의 대응하는 행들 및 열들에서 프로세서 엘리먼트 어레이들에 파라미터 값들을 브로드캐스트한다. 예를 들어, DMA 엔진(225)은 제1 행(예를 들어, 프로세서 엘리먼트 어레이들(240 내지 243)을 포함하는 행) 및 제1 열(예를 들어, 프로세서 엘리먼트 어레이들(240, 250)을 포함하는 열)의 프로세서 엘리먼트 어레이들에 제1 파라미터 값들을 브로드캐스트할 수 있다. DMA 엔진(230)은 제2 행(예를 들어, 프로세서 엘리먼트 어레이들(250 내지 253)) 및 제2 열(예를 들어, 프로세서 엘리먼트 어레이들(241, 251))의 프로세서 엘리먼트 어레이들에 제2 파라미터 값들을 브로드캐스트할 수 있다. 이 경우, 프로세서 엘리먼트 어레이들(240 내지 243)의 서브세트 및 하나의 행은 다른 행의 프로세서 엘리먼트 어레이들(250 내지 253)의 서브세트에 상호 배타적이다. 프로세서 엘리먼트 어레이들(240, 250)을 포함하는 열 내의 프로세서 엘리먼트 어레이들의 서브세트는 프로세서 엘리먼트 어레이들(241, 251)을 포함하는 열 내의 프로세서 엘리먼트 어레이들의 서브세트와 상호 배타적이다. 따라서, DMA 엔진들(225, 230)은 행들 및 열들의 상호 배타적인 서브세트들 내의 프로세서 엘리먼트 어레이들과 연관된 레지스터들을 그들의 대응하는 페치된 파라미터 값들로 동시에 파퓰레이션한다.

도 3은 일부 실시예들에 따른, 프로세서 엘리먼트 어레이들의 상호 배타적인 서브세트들에 대한 파라미터 값들의 수직 및 수평 브로드캐스트를 구현하는 어레이 프로세서(300)의 블록도이다. 어레이 프로세서(300)는 도 1에 도시된 어레이 프로세서(101)의 일부 실시예들을 구현하는 데 사용된다. 어레이 프로세서(300)는 도 1에 도시된 메모리(105) 또는 도 2에 도시된 메모리들(260, 265)과 같은 메모리로부터 파라미터들을 페치하는 DMA 엔진들(301, 302, 303, 304)(본 명세서에서 "DMA 엔진들(301 내지 304)"로 총칭됨)을 포함한다. 어레이 프로세서(300)는 또한 프로세서 엘리먼트 어레이들(311, 312, 313, 314, 321, 322, 323, 324, 331, 332, 333, 334, 341, 342, 343, 344, 351, 352, 353, 354, 361, 362, 363, 364, 371, 372, 373, 374, 381, 382, 383 및 384)(간략화를 위해 본 명세서에서 "프로세서 엘리먼트 어레이들(311-384)"로 총칭되므로 하이픈은 311과 384사이의 연속적인 숫자 시퀀스를 나타내려는 의도가 아님)의 대응하는 서브세트들을 사용하여 구현되는 SIMD 유닛들(310, 320, 330, 340, 350, 360, 370, 380)을 포함한다. SIMD 유닛들(310, 320, 330, 340, 350, 360, 370, 380)의 일부 실시예들은 상이한 WGP들에서 구현된다. 예를 들어, 제1 WGP는 SIMD 유닛(310, 320)을 구현할 수 있고, 제2 WGP는 SIMD 유닛(330, 340)을 구현할 수 있고, 제3 WGP는 SIMD 유닛(350, 360)을 구현할 수 있고, 제4 WGP는 SIMD 유닛(370, 380)을 구현할 수 있다.

DMA 엔진들(301-304)은 프로세서 엘리먼트 어레이들(311-384)의 상호 배타적인 서브세트들과 상호접속된다. 예시된 실시예에서, DMA 엔진들(301-304)은 와이어들, 트레이스들 등을 포함하는 물리적 연결들을 사용하여 프로세서 엘리먼트 어레이들(311-384)의 어레이 내의 상호 배타적인 행들 및 열들에 상호접속된다. DMA 엔진(301)은 물리적 연결(391)에 의해 프로세서 엘리먼트 어레이들(311-314, 321-324)을 포함하는 행 및 프로세서 엘리먼트 어레이들(311, 331, 351, 371)을 포함하는 열에 연결된다. 따라서 DMA 엔진(301)은 메모리로부터 페치된 파라미터 값들을 프로세서 엘리먼트 어레이들(311-314, 321-324), 프로세서 엘리먼트 어레이들(311, 331, 351, 371), 이들 프로세서 엘리먼트 어레이들의 서브세트들, 또는 이들의 조합으로 브로드캐스트할 수 있다. DMA 엔진(302)은 물리적 연결(392)에 의해 프로세서 엘리먼트 어레이들(331-334, 341-344)을 포함하는 행 및 프로세서 엘리먼트 어레이들(312, 332, 352, 372)을 포함하는 열에 연결된다. 따라서 DMA 엔진(302)은 메모리로부터 페치된 파라미터 값들을 프로세서 엘리먼트 어레이들(331-334, 341-344), 프로세서 엘리먼트 어레이들(312, 332, 352, 372), 이들 프로세서 엘리먼트 어레이들의 서브세트들, 또는 이들의 조합으로 브로드캐스트할 수 있다. DMA 엔진(303)은 물리적 연결(393)에 의해 프로세서 엘리먼트 어레이들(351-354, 361-364)을 포함하는 행 및 프로세서 엘리먼트 어레이들(313, 333, 353, 373)을 포함하는 열에 연결된다. 따라서 DMA 엔진(303)은 메모리로부터 페치된 파라미터 값들을 프로세서 엘리먼트 어레이들(351-354, 361-364), 프로세서 엘리먼트 어레이들(313, 333, 353, 373), 이들 프로세서 엘리먼트 어레이들의 서브세트들, 또는 이들의 조합으로 브로드캐스트할 수 있다. DMA 엔진(304)은 물리적 연결(394)에 의해 프로세서 엘리먼트 어레이들(371-374, 381-384)을 포함하는 행 및 프로세서 엘리먼트 어레이들(324, 344, 364, 384)을 포함하는 열에 연결된다. 따라서 DMA 엔진(304)은 메모리로부터 페치된 파라미터 값들을 프로세서 엘리먼트 어레이들(371-374, 381-384), 프로세서 엘리먼트 어레이들(324, 344, 364, 384), 이들 프로세서 엘리먼트 어레이들의 서브세트들, 또는 이들의 조합으로 브로드캐스트할 수 있다.

도 4는 일부 실시예들에 따른 프로세서 엘리먼트 어레이들의 행들 또는 열들에 파라미터 값들을 브로드캐스트하는 방법(400)의 흐름도이다. 방법(400)은 도 1에 도시된 처리 시스템(100), 도 2에 도시된 처리 시스템의 부분(200), 및 도 3에 도시된 어레이 프로세서(300)의 일부 실시예들에서 구현된다.

방법(400)은 블록(401)에서 시작한다. 블록(405)에서, 하나 이상의 메모리 인터페이스들(예컨대, DMA 엔진들)은 메모리로부터 SIMD 명령어에 대한 대응하는 파라미터 값들에 액세스한다. 블록(410)에서, DMA 엔진들은 파라미터 값들을 프로세서 엘리먼트 어레이들의 상호 배타적인 열들 또는 행들에 브로드캐스트한다. 본 명세서에서 논의되는 바와 같이, DMA 엔진들은 프로세서 엘리먼트 어레이들의 열들 또는 행들의 상호 배타적인 서브세트들과 DMA 엔진들 사이의 물리적 상호접속들을 사용하여 파라미터 값들을 브로드캐스트한다.

결정 블록(415)에서, 시스템은 추가 파라미터 값들이 메모리로부터 페치되어야 하는지 여부를 결정한다. 만약 그렇다면, 방법(400)은 블록(405)으로 다시 돌아가고 추가 파라미터 값들이 메모리로부터 페치된다. 페치할 추가 파라미터 값들이 없으면, 방법(400)은 블록(420)으로 가고 방법(400)은 종료된다.

일부 실시예들에서, 위에서 설명된 장치들 및 기술들은 도 1 내지 도4를 참조하여 위에서 설명된 어레이 프로세서와 같은 하나 이상의 집적 회로(IC) 디바이스들(집적 회로 패키지들 또는 마이크로칩들로도 지칭됨)을 포함하는 시스템에서 구현된다. 전자 설계 자동화(EDA) 및 컴퓨터 지원 설계(CAD) 소프트웨어 도구들이 이러한 IC 장치의 설계 및 제조에 사용될 수 있다. 이러한 설계 도구들은 통상적으로 하나 이상의 소프트웨어 프로그램으로 표현된다. 하나 이상의 소프트웨어 프로그램은 회로부를 제조하도록 제조 시스템을 설계하거나 조정하기 위한 프로세스의 적어도 일부를 수행하기 위해 하나 이상의 IC 장치의 회로부를 나타내는 코드에 대해 동작하도록 컴퓨터 시스템을 조작하기 위한 컴퓨터 시스템에 의해 실행 가능한 코드를 포함한다. 이러한 코드는 명령어, 데이터, 또는 명령어와 데이터의 조합을 포함할 수 있다. 설계 도구 또는 제조 도구를 표현하는 소프트웨어 명령어는 통상적으로 컴퓨팅 시스템이 액세스 가능한 컴퓨터 판독 가능 저장 매체에 저장된다. 마찬가지로, IC 장치의 설계 또는 제조의 하나 이상의 단계를 나타내는 코드는 동일한 컴퓨터 판독 가능 저장 매체 또는 상이한 컴퓨터 판독 가능 저장 매체에 저장되고 그로부터 액세스될 수 있다.

컴퓨터 판독 가능 저장 매체는 명령어 및/또는 데이터를 컴퓨터 시스템에 제공하기 위해 사용되는 동안 컴퓨터 시스템에 의해 액세스 가능한 임의의 비일시적 저장 매체, 또는 비일시적 저장 매체의 조합을 포함할 수 있다. 그러한 저장 매체는 광 매체(예를 들어, 콤팩트 디스크(CD), 디지털 다기능 디스크(DVD), 블루레이 디스크), 자기 매체(예를 들어, 플로피 디스크, 자기 테이프, 또는 자기 하드 드라이브), 휘발성 메모리(예를 들어, 랜덤 액세스 메모리(RAM) 또는 캐시), 비휘발성 메모리(예를 들어, 판독 전용 메모리(ROM) 또는 플래시 메모리), 또는 미세전자기계 시스템(MEMS)-기반 저장 매체를 포함할 수 있지만, 이로 제한되지 않는다. 컴퓨터 판독 가능 저장 매체는 컴퓨팅 시스템에 내장되거나(예를 들어, 시스템 RAM 또는 ROM), 컴퓨팅 시스템에 고정적으로 부착되거나(예를 들어, 자기 하드 드라이브), 컴퓨팅 시스템에 제거 가능하게 부착되거나(예를 들어, 광 디스크 또는 범용 직렬 버스(USB)-기반 플래시 메모리), 유선 또는 무선 네트워크를 통해 컴퓨터 시스템에 결합(예를 들어, 네트워크 액세스 가능한 저장소(NAS))될 수 있다.

일부 실시예들에서, 전술된 기술의 특정 양태는 소프트웨어를 실행하는 처리 시스템의 하나 이상의 프로세서에 의해 구현될 수 있다. 소프트웨어는 비일시적 컴퓨터 판독 가능 저장 매체에 저장되거나 달리 유형적으로 구현된 실행 가능 명령어의 하나 이상의 세트를 포함한다. 소프트웨어는 하나 이상의 프로세서에 의해 실행될 때, 전술된 기술의 하나 이상의 양태를 수행하도록 하나 이상의 프로세서를 조작하는 명령어 및 특정 데이터를 포함할 수 있다. 비일시적 컴퓨터 판독 가능 저장 매체는, 예를 들어, 자기 또는 광 디스크 저장 장치, 플래시 메모리, 캐시, 랜덤 액세스 메모리(RAM) 또는 다른 비휘발성 메모리 장치 또는 장치들 등과 같은 솔리드 스테이트 저장 장치를 포함할 수 있다. 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 실행 가능 명령어는 하나 이상의 프로세서에 의해 해석되거나 달리 실행 가능한 소스 코드, 어셈블리 언어 코드, 객체 코드, 또는 다른 명령어 포맷일 수 있다.

일반적인 설명에서 전술된 모든 활동 또는 요소가 요구되는 것은 아니고, 특정 활동 또는 장치의 일부는 요구되지 않을 수 있고, 기술된 것에 더하여, 하나 이상의 추가 활동이 수행되거나 하나 이상의 추가 요소가 포함될 수 있다는 점에 유의한다. 또한 추가적으로, 활동이 열거된 순서는 반드시 그들이 수행되는 순서는 아니다. 또한, 특정 실시예들을 참조하여 개념이 설명되었다. 그러나, 당업자는 아래의 청구범위에 기재된 것과 같은 본 개시의 범위로부터 벗어나지 않으면서 다양한 수정 및 변경이 이루어질 수 있음을 이해한다. 따라서, 명세서 및 도면은 제한적인 의미보다는 예시적인 의미로 간주되어야 하며, 모든 그러한 수정은 본 개시의 범위 내에 포함되도록 의도된다.

이익, 다른 이점, 및 문제에 대한 해결책이 특정 실시예와 관련하여 전술되었다. 그러나, 이익, 이점, 문제에 대한 해결책, 그리고 임의의 이익, 이점, 또는 해결책이 발생되게 하거나 더 명확해지게 할 수 있는 임의의 특징(들)은 임의의 또는 모든 청구항의 중요한, 요구되는, 또는 본질적인 특징으로 해석되어서는 안 된다. 또한, 위에 개시된 특정 실시예는 단지 예시적인 것인데, 개시된 주제는 본 명세서의 교시 내용의 이익을 갖는 당업자에게 명백한, 상이하지만 동등한 방식으로 수정 및 실시될 수 있기 때문이다. 아래의 청구범위에 기술된 것 이외에, 본 명세서에서 도시된 구성 또는 설계의 상세 사항에 대한 제한이 의도되지 않는다. 따라서 위에서 개시된 특정 실시예들은 변경되거나 수정될 수 있고 모든 그러한 변형은 개시된 주제의 범위 내에 있는 것으로 고려된다는 것이 명백하다. 따라서, 본 명세서에서 추구되는 보호는 아래의 청구범위에 기재된 것과 같다.

Claims

장치로서,
행들 및 열들로 분산된 프로세서 엘리먼트 어레이들 - 상기 프로세서 엘리먼트 어레이들은 파라미터 값들에 대한 동작들을 수행하도록 구성됨 -; 및
상기 프로세서 엘리먼트 어레이들의 행들 및 열들의 상호 배타적인 서브세트들에 상기 파라미터 값들의 세트들을 브로드캐스트하도록 구성된 메모리 인터페이스들을 포함하는, 장치.
제1항에 있어서,
상기 프로세서 엘리먼트 어레이들은 벡터 산술 논리 유닛(ALU) 프로세서들을 포함하고, 상기 메모리 인터페이스들은 직접 메모리 액세스(DMA) 엔진들을 포함하는, 장치.
제1항 또는 제2항에 있어서,
상기 메모리 인터페이스들 각각은 상기 행들 중 대응하는 행 및 상기 열들 중 대응하는 열 내의 상기 프로세서 엘리먼트 어레이들에 상기 파라미터 값들을 브로드캐스트하는, 장치.
제3항에 있어서,
상기 메모리 인터페이스들의 제1 메모리 인터페이스는 제1 파라미터 값들을 제1 행 및 제1 열의 상기 프로세서 엘리먼트 어레이들에 브로드캐스트하고, 상기 메모리 인터페이스들의 제2 메모리 인터페이스는 제2 파라미터 값들을 제2 행 및 제2 열의 상기 프로세서 엘리먼트 어레이들에 브로드캐스트하는, 장치.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 메모리 인터페이스들은 별개의 물리적 연결들을 통해 상기 프로세서 엘리먼트 어레이들의 행들 및 열들의 상기 상호 배타적인 서브세트들에 연결되는, 장치.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 메모리 인터페이스들은 상기 행들 및 열들의 상기 상호 배타적인 서브세트들 내의 상기 프로세서 엘리먼트 어레이들과 연관된 레지스터들을 상기 파라미터 값들로 동시에 파퓰레이션하도록(populate) 구성되는, 장치.
제1항 내지 제6항 중 어느 한 항에 있어서,,
대응하는 행들에서 상기 프로세서 엘리먼트 어레이들의 서브세트들을 포함하는 SIMD(single-instruction-multiple-data) 유닛들을 더 포함하고, 그리고
상기 메모리 인터페이스들은 상기 파라미터 값들을 상기 메모리 인터페이스들과 연관된 행들 내의 상기 프로세서 엘리먼트 어레이들을 포함하는 상기 SIMD 유닛들에 브로드캐스트하는, 장치.
제7항에 있어서,
상기 SIMD 유닛들의 서브세트들을 포함하는 작업그룹 프로세서들을 더 포함하고, 그리고
상기 메모리 인터페이스들은 상기 작업그룹 프로세서들 내의 상기 SIMD 유닛들에 걸쳐 구현되는 프로세서 엘리먼트 어레이들의 열들에 상기 파라미터 값들을 브로드캐스트하는, 장치.
제1항 내지 제8항 중 어느 한 항에 있어서,,
상기 파라미터 값들을 저장하는 외부 메모리와 상호접속하도록 구성된 메모리 패브릭을 더 포함하고, 그리고
상기 메모리 인터페이스들은 상기 메모리 패브릭을 통해 상기 외부 메모리로부터의 상기 파라미터 값들에 액세스하도록 구성되는, 장치.
방법으로서,
메모리 인터페이스들을 통해 메모리로부터 파라미터 값들을 페치하는(fetch) 단계;
상기 메모리 인터페이스들로부터, 상기 파라미터 값들을 프로세서 엘리먼트 어레이들의 행들 및 열들의 상호 배타적인 서브세트들에 브로드캐스트하는 단계; 및
상기 프로세서 엘리먼트 어레이들에서, 상기 파라미터 값들에 대한 동작들을 수행하는 단계를 포함하는, 방법.
제10항에 있어서,
상기 메모리 인터페이스들로부터 상기 파라미터 값들을 브로드캐스트하는 단계는 상기 메모리 인터페이스들 각각으로부터 상기 행들 중 대응하는 행 및 상기 열들 중 대응하는 열 내의 상기 프로세서 엘리먼트 어레이들로 상기 파라미터 값들을 브로드캐스트하는 단계를 포함하는, 방법.
제11항에 있어서,
상기 파라미터 값들을 브로드캐스트하는 단계는 상기 메모리 인터페이스들의 제1 메모리 인터페이스로부터 제1 행 및 제1 열의 상기 프로세서 엘리먼트 어레이들로 제1 파라미터 값들을 브로드캐스트하는 단계를 포함하고, 상기 파라미터 값들을 브로드캐스트하는 단계는 상기 메모리 인터페이스들의 제2 메모리 인터페이스로부터 제2 행 및 제2 열의 상기 프로세서 엘리먼트 어레이들로 제2 파라미터 값들을 브로드캐스트하는 단계를 포함하는, 방법.
제10항에 있어서,
상기 파라미터 값들을 브로드캐스트하는 단계는 상기 메모리 인터페이스들과 상기 대응하는 행들 및 열들 사이의 별개의 물리적 연결들을 통해 상기 파라미터 값들을 브로드캐스트하는 단계를 포함하는, 방법.
제10항에 있어서,
상기 파라미터 값들을 브로드캐스트하는 단계는 상기 프로세서 엘리먼트 어레이들과 연관된 레지스터들을 상기 행들 및 열들의 상기 상호 배타적인 서브세트들에 상기 파라미터 값들로 동시에 파퓰레이션하는 단계를 포함하는, 방법.
제10항에 있어서,
각각의 행의 상기 프로세서 엘리먼트 어레이들의 서브세트들은 대응하는 SIMD(single-instruction-multiple-data) 유닛들에서 구현되고, 상기 파라미터 값들을 브로드캐스트하는 단계는 상기 메모리 인터페이스들과 연관된 행들에서 상기 프로세서 엘리먼트 어레이들을 포함하는 상기 SIMD 유닛들에 상기 파라미터 값들을 브로드캐스트하는 단계를 포함하는, 방법.
제15항에 있어서,
상기 SIMD 유닛들의 서브세트들은 대응하는 작업그룹 프로세서들에서 구현되고, 상기 파라미터 값들을 브로드캐스트하는 단계는 상기 작업그룹 프로세서들에서 상기 SIMD 유닛들에 걸쳐 구현되는 상기 프로세서 엘리먼트 어레이들의 열들에 상기 파라미터 값들을 브로드캐스트하는 단계를 포함하는, 방법.
제10항 내지 제16항 중 어느 한 항에 있어서,
상기 파라미터 값들을 페치하는 단계는 상기 파라미터 값들을 저장하는 상기 메모리와 상호접속하도록 구성된 메모리 패브릭을 통해 상기 파라미터 값들에 액세스하는 단계를 포함하는, 방법.