KR20190011317A

KR20190011317A - 가상 벡터 레지스터 파일을 사용하기 위한 시스템 및 방법

Info

Publication number: KR20190011317A
Application number: KR1020197001541A
Authority: KR
Inventors: 루비사 바직; 마이클 맨토; 시에드 조하이브 엠. 길라니; 라자발리 엠. 코두리
Original assignee: 어드밴스드 마이크로 디바이시즈, 인코포레이티드; 에이티아이 테크놀로지스 유엘씨
Priority date: 2016-06-23
Filing date: 2017-06-14
Publication date: 2019-02-01
Also published as: JP2019519843A; EP3475809A1; CN109478136A; WO2017222893A1; US20170371654A1; EP3475809A4

Abstract

가상 벡터 레지스터 파일을 사용하기 위한 시스템 및 방법이 개시된다. 특히, 그래픽 프로세서는, 논리 유닛, 논리 유닛에 커플링되는 가상 벡터 레지스터 파일, 가상 벡터 레지스터 파일에 커플링되는 벡터 레지스터 보조 저장소, 및 가상 벡터 레지스터 파일에 커플링되는 가상 벡터 레지스터 파일 컨트롤러를 포함한다. 가상 벡터 레지스터 파일은, N 깊이(deep) 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하는데, N은 M보다 더 작다. 가상 벡터 레지스터 파일 컨트롤러는, 적어도, 소정의 벡터 레지스터에 대한 액세스 요청에 따라, N 깊이 벡터 레지스터 파일, M 깊이 벡터 레지스터 파일 및 벡터 레지스터 보조 저장소 사이에서 퇴출 및 할당을 수행한다.

Description

가상 벡터 레지스터 파일을 사용하기 위한 시스템 및 방법

관련 출원에 대한 상호 참조

본 출원은 2016년 6월 23일자로 출원된 미국 정규 출원 제15/191,339호의 이익을 주장하는데, 그 내용은 마치 본 명세서에서 완전히 기술되는 것처럼 참고로 원용된다.

그래픽 프로세싱 유닛(graphics processing unit: GPU)은, 수천 개의 스레드를 동시에 실행하기 위한 많은 수의 실행 유닛 및 고 대역폭 메모리 채널을 갖는 병렬 프로세서이다. GPU 아키텍처는, 각각이 기능성(functionality)의 풀 세트 - 명령어 페치 및 스케줄링 파이프라인 - 를 갖는 순서대로의 스코어 보드 기반의 수퍼 스칼라 머신(in-order, score board based, super scalar machine)인 단일 명령어 다중 스레드(single-instruction multiple thread: SIMT) 유닛의 대규모 어레이, 초월 함수(transcendental function)에 대한 하드웨어 지원을 포함하는 벡터 산술 논리 유닛(arithmetic logic unit: ALU), 메모리 서브시스템, 및 벡터 레지스터 파일을 중심으로 한다. 벡터 레지스터 파일은, 벡터 레지스터 파일이 GPU 동작의 모든 양태에 대해 상당한 도전 과제 - 비용, 면적, 전력 및 타이밍을 포함함 - 를 제시하기 때문에, 최신 GPU 아키텍처에서 주요한 병목(bottleneck)으로 부각되었다.

첨부하는 도면과 연계하여 예로서 주어지는 다음의 설명으로부터 더 상세한 이해가 이루어질 수도 있다:
도 1은 소정의 구현예에 따른 그래픽 프로세서의 하이 레벨 블록도;
도 2는 소정의 구현예에 따른 그래픽 프로세싱 파이프라인의 하이 레벨 블록도;
도 3은 소정의 구현예에 따른 벡터 레지스터 파일을 갖는 그래픽 프로세서의 논리 블록도;
도 4는 소정의 구현예에 따른 단일 명령어 다중 스레드(SIMT) 유닛에 대한 예시적인 흐름도;
도 5는 소정의 구현예에 따른 가상 벡터 레지스터 파일의 논리 블록도;
도 6은 소정의 구현예에 따른 가상 벡터 레지스터 파일과 함께 사용하기 위한 가상 벡터 레지스터 파일 컨트롤러의 논리 블록도;
도 7은 소정의 구현예에 따른 가상 벡터 레지스터 파일에 대한 동작 흐름을 갖는 논리 블록도;
도 8은 소정의 구현예에 따른 가상 벡터 레지스터 파일을 사용하기 위한 플로우차트; 및
도 9는 하나 이상의 개시된 구현예가 구현될 수도 있는 예시적인 디바이스의 블록도.

가상 벡터 레지스터 파일을 사용하기 위한 시스템 및 방법이 개시된다. 특히, 그래픽 프로세서는, 논리 유닛, 논리 유닛에 커플링되는 가상 벡터 레지스터 파일, 가상 벡터 레지스터 파일에 커플링되는 벡터 레지스터 보조 저장소(vector register backing store), 및 가상 벡터 레지스터 파일에 커플링되는 가상 벡터 레지스터 파일 컨트롤러를 포함한다. 가상 벡터 레지스터 파일은, N 깊이(deep) 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하는데, N은 M보다 더 작다. 가상 벡터 레지스터 파일 컨트롤러는, 적어도, 소정의 벡터 레지스터에 대한 액세스 요청에 따라, N 깊이 벡터 레지스터 파일, M 깊이 벡터 레지스터 파일 및 벡터 레지스터 보조 저장소 사이에서 퇴출(eviction) 및 할당을 수행한다.

도 1은 그래픽 프로세서 또는 GPU(100) 내의 쉐이더 연산부(shader compute part)의 하이 레벨 블록도이다. 그래픽 프로세서(100)의 쉐이더 연산부는 연산 유닛(105)을 포함하는데, 각각의 연산 유닛(105)은 시퀀서(107) 및 다수의 단일 명령어 다중 스레드(SIMT) 유닛(110)을 포함한다. 각각의 SIMT 유닛(110)은 다수의 VALU(115)를 포함할 수 있는데, 각각의 VALU(115)는 벡터 레지스터 파일(120)에 연결될 수 있다. 각각의 연산 유닛(105)은 L1 캐시(130)에 연결되는데, 이 캐시는 계속해서(in turn) L2 캐시(140)에 연결된다. L2 캐시(140)는 메모리(150)에 연결될 수 있다. 예를 들면, 그래픽 코어 넥스트(Graphics Core Next: GCN) 아키텍처에서, 각각의 연산 유닛(105)은 4 개의 SIMT 유닛을 포함할 수 있는데, 각각의 SIMT 유닛은 4 개의 VALU를 포함할 수 있고, 각각의 VALU는 4 개의 ALU를 포함할 수 있다. 비록 본 명세서에서의 설명이 예시적인 아키텍처에 관한 것이지만, SIMT마다 상이한 레벨의 다중 스레딩, SIMT마다 상이한 수의 피연산자 및 상이한 하드웨어 폭이 청구범위의 범위를 벗어나지 않으면서 구현될 수 있다. 본 명세서에서의 설명은 예시적인 것이다.

도 2는 삼차원 장면을 이차원 스크린 상으로 변환하는 그래픽 프로세서 파이프라인(200)의 하이 레벨 블록도이다. 그래픽 쉐이더 연산 프로세싱 파이프라인(200)은 처음에 연산 유닛(205) 내의 시퀀서(210)에 의한 명령어 페치, 디코드 및 스케줄 프로세스를 수행한다. 그 다음, 명령어 및 데이터는 연산 유닛(210) 내의 실행 유닛으로 공급된다. 실행 유닛은 4 개의 SIMT(215)를 포함할 수 있는데, 각각의 SIMT(215)는 계속해서 4 개의 VALU(220)를 포함할 수 있다. 각각의 VALU(220)는 4 개의 ALU의 그룹일 수 있다. 연산 유닛(205)의 출력은 벡터 레지스터 파일(225), L1 캐시(230), L2 캐시(235) 또는 메모리(240)에 저장될 수 있다.

일반적으로, 그래픽 프로세싱 유닛(GPU)은, 수천 개의 스레드를 동시적으로 실행하기 위한 많은 수의 실행 유닛 및 고 대역폭 메모리 채널을 갖는 병렬 프로세서이다. GPU 아키텍처는, 각각이 기능성의 풀 세트 - 명령어 페치 및 스케줄링 파이프라인 - 를 갖는 순서대로의 스코어 보드 기반의 수퍼 스칼라 머신인 SIMT 유닛의 대규모 어레이, 초월 함수에 대한 하드웨어 지원을 포함하는 VALU, 메모리 서브시스템, 및 벡터 레지스터 파일을 중심으로 한다. 벡터 레지스터 파일은, 벡터 레지스터 파일이 GPU 동작의 모든 양태에 대해 상당한 도전 과제 - 비용, 면적, 전력 및 타이밍 - 를 제시하기 때문에, 최신 GPU 아키텍처에서 주요한 병목으로 부각되었다.

각각의 SIMT 유닛(215)은 하드웨어에서 광범위한 세분된(extensive fine grained) 다중 스레딩을 구현할 수 있고, 따라서, SIMT 유닛에서 동시에 실행되는 모든 스레드에 대한 런타임 컨텍스트를 유지하기 위해 벡터 레지스터 파일마다 많은 수의 벡터 레지스터를 요구할 수 있다. 결과적으로, 많은 GPU 내의 SIMT 유닛(215)은 일반적으로 큰 벡터 레지스터 파일을 구현한다. SIMT 유닛(215)이, 본질적으로, 벡터 머신이기 때문에, 레지스터 파일은 머신 클록 사이클마다 세 개의 벡터 피연산자에 대한 판독 액세스 및 하나의 벡터 피연산자에 대한 기록 액세스를 제공할 필요가 있다. 공유 메모리 또는 GPU 메모리 판독 및 기록을 핸들링하기 위해서는 추가적인 판독 및 기록 포트가 또한 필요로 될 수 있다. 몇몇 GPU는, 벡터 레지스터 파일을, 의사 듀얼 포트의 정적 랜덤 액세스 메모리(Static Random Access Memory: SRAM)의 다수의 뱅크로서 구현하는 것에 의해 필요한 고 대역폭을 달성하고 제어 하에서 비용을 유지한다. 쉐이더 컴파일러는 생성된 코드에 의해 트리거되는 뱅크 충돌의 가능성을 최소화하기 위해 적절한 명령어 순서화(ordering)를 수행한다.

도 3은 VALU(305)를 포함하는 그래픽 프로세서 또는 GPU(300)의 논리 블록도이다. 상기에서 언급되는 바와 같이, VALU(305)는 4 개의 ALU(도시되지 않음)를 구비할 수 있다. VALU(305)는, 크로스바 스위치(XBAR)(310)를 통해 벡터 레지스터 파일(315)의 다수의 뱅크, 예를 들면, 뱅크 A, 뱅크 B, 뱅크 C 및 뱅크 D에 연결되거나 또는 커플링된다. XBAR(310)는 벡터 레지스터 파일 뱅크로부터 소스(판독) 피연산자를 그리고 VALU(305)로부터 기록(목적지) 피연산자를 수신할 수 있다. XBAR(305)는, 예를 들면, XBAR(310)을 뱅크 A, 뱅크 B, 뱅크 C 및 뱅크 D에 각각 연결하는 뱅크 A 판독 포트, 뱅크 B 판독 포트, 뱅크 C 판독 포트, 및 뱅크 D 판독 포트를 포함하는 판독 및 기록 동작을 위한 복수의 포트를 구비할 수 있다.

벡터 레지스터 파일(315)은, 벡터 레지스터 파일이 GPU 동작의 모든 양태에 대해 상당한 도전 과제 - 비용, 면적, 전력 및 타이밍 - 를 제시하기 때문에, 최신 GPU 아키텍처에서 주요한 병목으로 부각되었다. 면적 및 비용의 면에서, SIMT 벡터 레지스터 파일은 대부분의 GPU 면적에 큰 기여를 하는데, 면적의 약 10%를 구성한다. 벡터 레지스터 파일 영역을 감소시키는 것은 GPU 면적의 상당한 감소로 해석된다. 직접적인 면적 고려 사항 외에도, 벡터 레지스터 파일 영역은, 제한하지 않으면 간단하고 유익할, 전력 및 성능에 대한 다수의 최적화를 제한한다. 최적화는, 예를 들면, 전력 감소를 위한 추가적인 RAM 뱅킹을 포함한다(즉, RAM를 여러 개의 조각으로 분할하고 액세스되고 있는 것만을 동작 상태로 두고, 나머지는 저전력 상태로 남겨둔다). 심지어 SRAM 뱅크의 수를 단지 두 배로 늘리더라도, 면적을 25% 내지 30%만큼 증가시킨다. 다른 최적화는, 예를 들면, 더 높은 주파수에서 SRAM을 실행하는 것을 포함한다. 현재의 벡터 레지스터 파일 SRAM은 의사 듀얼 포트화되어 구현되는데(즉, 워드 라인의 단일의 세트가 포트 양자에 대해 사용됨), 이것은 SRAM이 달성할 수 있는 최고 주파수를 심각하게 제한한다. 두 개의 포트에 대해 별개의 워드 라인을 갖는 진정한 듀얼 포트의 설계로 이동하는 것은, 최대 SRAM 동작 주파수에서 바람직한 증가를 산출할 수도 있거나, 또는, 일반적으로, 더 낮은 전압에서 동일한 주파수를 달성하는 것을 가능하게 할 수도 있지만 그러나 다시금 면적 및 전력에서의 증가를 야기할 것이다. 이러한 관점에서, 벡터 레지스터 파일 영역을 감소시키는 것은, 현존하는 설계와 관련하여 면적 중립성을 유지하면서, 성능 및/또는 전력에 대한 다른 최적화를 가능하게 할 것이다.

전력의 관점에서, 면적에 대한 최대의 단일 기여자인 것 외에도, SIMT 벡터 레지스터 파일은, GPU 전력의 10 내지 15%를 차지하는, GPU 유효 전력에 대한 큰 기여자이다. 따라서, 벡터 레지스터 파일에서 소비되는 전력의 감소가 소망된다. 추가적인 뱅킹에 의해 벡터 레지스터 파일 전력에서 상당한 감소가 간단하게 달성될 수도 있다. 그러나, 상기에서 설명되는 바와 같이, 이 액션은 상당한 면적 패널티로 나타날 수도 있다.

타이밍의 관점에서, SIMT 벡터 레지스터 파일은, 필요한 판독 및 기록 대역폭을 달성하는 저 비용의 SRAM 구성을 사용하여 구현된다. 그러나, 이들 SRAM은 특별히 빠르지 않을 수도 있고 따라서 SIMT 설계에 의해 달성되는 주파수(또는 최소 동작 전압)에 대한 제한을 제시할 수도 있다. 더 빠른, 진정한 듀얼 포트 SRAM을 사용하여 벡터 레지스터 파일을 구현하는 것은, 큰 면적 증가로 나타난다.

도 1 내지 도 3의 예시적인 아키텍처의 예에서 도시되는 바와 같이, 그래픽 프로세서(100)는 64 피연산자 폭의(64 operand wide) SIMT 유닛(110)(또는 도 2의 SIMT(215))의 어레이를 중심으로 할 수 있는데, 각각의 SIMT 유닛(110)은 10 웨이 동시 다중 스레딩(ten-way simultaneous multi-threading)(각각의 스레드는, 차례로, 64 피연산자 폭의 SIMT임)에 대한 지원을 구현할 수 있다. 각각의 SIMT 유닛(110)이 논리적으로 64 피연산자 폭임에도 불구하고, 하드웨어적으로 그들은, 단일의 SIMT 명령어가 발행 및 실행하기 위해 4 클록 사이클을 취하면서, 16 폭(16-wide)으로서 구현된다. 각각의 SIMT 유닛(110) 내의 벡터 레지스터 파일은 16 개의 단정밀도 부동 소수점 피연산자 폭이다.

SIMT 유닛(110)은, 임의의 주어진 스레드에서의 메모리 액세스와 관련되는 긴 레이턴시를 숨기기 위해 그들이 몇몇 상주 스레드(각각의 스레드는 64 피연산자 폭임)를 지원한다는 사실에 의존한다. 예를 들면, 현재 실행 중인 SIMT 스레드가, 메모리로부터의 데이터의 반환을 기다리고 있는 벡터 레지스터 파일에 대한 종속성과 조우하는 경우, 그것은 일시 중지되고 새로운 스레드가 활성화된다; 원래의 쓰레드는, 자신을 정지시켰던(stalled) 의존성이 해결되면(예를 들면, 메모리로부터의 데이터 반환 및 언급된 벡터 레지스터를 채우는 경우) 재활성화된다. 이 메커니즘은, 기다렸던 메모리 데이터가 동적 RAM(Dynamic RAM: DRAM)으로부터 유래하는지, 캐시로부터 유래하는지, 또는 로컬 스크래치패드 메모리로부터 유래하는지의 여부에 무관하게 동일하다.

SIMT 엔진의 ALU를 일정하게 점유되게 유지하는 것은 효율적인 동작을 위한 필수 조건이며, 임의의 주어진 순간에 ALU로 디스패치하는 데 이용 가능한 항상 준비가 되어 있고 정지되지 않은 코드가 존재하는 것을 보장하는 것에 이른다. 지원되는 10개의 모든 스레드가 정지되고 종속성이 해결되기를 기다리는 상황은 SIMT 엔진에 대한 유휴 사이클 및 비효율적인 동작을 가져온다. 도 4는 10개의 스레드(400, 402, ..., 418)가 SIMT 유닛을 간신히 포화시키는 구성에서 SIMT 유닛 상에서 실행되고 있는 예시적인 시나리오를 도시한다. 스레드(400, 402, ..., 418) 중 하나가 자신의 연산/메모리 동작 비율의 감소를 본 경우, SIMT 유닛은 유휴 클록 사이클을 가지기 시작할 것이고, 따라서 100% 효율성 미만으로 떨어질 것이다. 메모리로부터의 데이터 반환, 예를 들면, 데이터 프리페칭을 대기하는 것에 기인하는 실행 중지를 감소시키기 위한 다수의 방법이 존재한다. 그러나, 이들 최적화 방법은 종종 더 큰 벡터 레지스터 파일 사용으로 나타나게 된다.

그래픽 프로세서에서의 레지스터 파일 사용은 또한 성능을 향상시키기 위해 조정될 수도 있다. 예를 들면, 쉐이더 코드의 일부가 컴파일되는 경우, 컴파일러는 코드에 필요한 적절한 수의 레지스터를 결정한다. 컴파일러는 일반적으로, 사용할 벡터 레지스터 파일의 최대 수를 설정하는 유저 명시 구성(user-specified configuration)을 사용한다. 그러나, 컴파일러는 자신의 최적화 알고리즘에 따라 벡터 레지스터 파일을 자유롭게 할당한다. 컴파일러가 사용하도록 제한되는 것보다, 원래 쉐이더 코드가 실제로 더 많은 벡터 레지스터 파일을 필요로 하는 경우, 메모리로의 그리고 메모리로부터의 벡터 레지스터 파일 유출(spill) 및 채우기(fill)를 수행하는 코드는 컴파일러에 의해 자동적으로 추가된다. 메모리로의 유출은 성능을 저하시키며 고성능 코드는 일반적으로 벡터 레지스터 파일 유출 및 채우기 사용을 방지한다.

컴파일된 쉐이더가 그래픽 프로세서 상에서 실행될 수 있기 이전에, 하나 이상의 SIMT 유닛은 먼저 그것에 대한 리소스를 할당해야 한다. 하드웨어 스레드 스케줄링 블록(예를 들면, 쉐이더 파이프 인터폴레이터(Shader Pipe Interpolator: SPI))은, 자신의 스케줄링 작업의 일부로서 리소스 한계 검사를 수행하여, 자신이 이용 가능한 충분한 리소스가 있는 SIMT 유닛에 쉐이더 코드를 할당한다. 이 활동의 결과로서, 임의의 주어진 SIMT 유닛으로 디스패치되는 모든 스레드는 SIMT 유닛에서 이용 가능한 것보다 더 많은 벡터 레지스터를 사용하지 않는 것이 보장된다. 스레드에 의해 사용되는 SIMT 유닛의 하드웨어 리소스는, 모든 자신의 명령어의 실행을 완료할 때까지 동일한 스레드에 전용된다. 이 하드웨어 스케줄링의 부작용은, 일반적으로, SIMT 유닛의 몇몇 벡터 레지스터가 사용되지 않는다는 것이다. 한 예로서, SPI가 10개의 동일한 스레드를 스케줄링하고 있고, 그들 중의 각각의 스레드가 100개의 벡터 레지스터를 필요로 하는 경우, 그것은 임의의 SIMT 유닛 상에서 작업하기 위한 스레드를 한 번에 2 개만을 스케줄링할 수 있을 것이다. 두 개의 스레드는 200 개의 벡터 레지스터를 활용할 것이고 (예를 들면, 256 개의 벡터 레지스터 파일을 갖는 벡터 레지스터 파일을 가정하면) 56 개는 사용되지 않을 것이다. 미사용 벡터 레지스터의 정확한 수는 그래픽 프로세서에서 실행되는 코드의 혼합에 의존하지만, 그러나, 어느 경우든, 이 거동은 레지스터 파일 최적화를 위한 확실한 기회를 구성한다.

다른 예에서, 임의의 주어진 시간에, 많은 양의 벡터 레지스터(메모리 계층에서의 더 높은 레벨로부터 유래하는 데이터에 대한 스테이징(staging)을 위해 사용되는 모든 벡터 레지스터)가 LOAD 명령어의 타겟으로서 기능한다. 그들 벡터 레지스터에 유지되는 값은 유효 기간이 지났으며, 벡터 레지스터 저장 그 자체는, 데이터 반환을 위한 예약된 저장을 제외하고는 쓸모가 없다. 이것은 최적화의 다른 기회이다.

다른 예에서, 현대의 게임 개발 엔진은, 다수의 재료 및 관련된 양방향 반사 분포 함수(bidirectional reflectance distribution function: BRDF)뿐만 아니라 상이한 속성을 갖는 다수의 상이한 광원을 갖는, 많은 잠재적 사용 사례를 커버하도록 의도되는 기능성의 수퍼 세트를 구현하는 "수퍼 픽셀 쉐이더"를 종종 활용한다. 쉐이더 개발에서의 이러한 경향은, 쉐이더 컴파일러가 벡터 레지스터에 할당해야 하는 다수의 변수로 나타나게 된다. 이 벡터 레지스터 할당은 불필요할 수 있는데, 그 이유는 벡터 레지스터가 전혀 사용되지 않을 수도 있기 때문이다(또는 아주 드물게 사용될 수도 있기 때문이다). 이것은, 주어진 쉐이더 호출에서 재료/광/다른 특성 중 어떤 것이 실제로 사용되고 있는지의 결정이 런타임에서 분기를 사용하여 동적으로 행해지기 때문에 발생한다. 이것은 최적화의 다른 기회이다.

일반적으로, 영구적 특색(trait)은 모든 그래픽 프로세서 작업 부하, 그래픽 렌더링 및 레지스터 사용을 위한 연산 시나리오 전반에 걸쳐 가시적이다. 이들 특색은, 벡터 레지스터 값이 한 번만 가장 자주(시간의 대략 60%) 액세스된다는 것을 포함할 수도 있다. 즉, ALU 또는 LOAD는, 덮어쓰여지기 이전에 또는 더 이상 참조되지 않기 이전에 한 번의 판독만으로 귀결된다. 다른 특색은, 벡터 레지스터 값이 90%의 경우에 한 번 또는 두 번 액세스된다는 것 또는 한 번만 판독되는 70%의 벡터 레지스터 값이 즉시 소비되지 않는다는 것일 수도 있다. 레지스터 값이 한 번보다 더 많이 액세스되는 경우, 연속하는 액세스 사이의 평균 시간은 400 GPU 클록 사이클을 초과하며, 많은 작업 부하의 경우, 그것은 1000 클록 사이클을 초과한다.

낮은 레이턴시 및 레지스터 사용의 균형을 맞추면서 더 작은 다이 면적, 더 낮은 전력 및 더 빠른 SIMT 유닛을 산출하는 것에 의해 현재 레지스터 파일 아키텍처에 의해 제시되는 모든 병목 현상을 해결할 수도 있는 가상 벡터 레지스터 파일을 사용하기 위한 시스템 및 방법이 설명된다. 가상 벡터 레지스터 파일 아키텍처는, 가능한 한 작은 구조를 선호하여 큰 구조의 액세스를 방지하는 것에 의해 상당한 전력 이익을 산출할 수 있는 2 레벨의 비 동질성(non-homogenous) 하드웨어 벡터 레지스터 파일 구조를 포함할 수 있다. 더 큰 벡터 레지스터 파일에 대한 액세스의 수를 최소화하기 위해, 두 레벨 사이의 벡터 레지스터 할당의 관리가 제공된다. 특히, 가상 벡터 레지스터 파일 아키텍처는, 임의의 주어진 시간에 사용할 수 없는 벡터 레지스터의 큰 비율을 갖는 것을 방지하는 것 및 벡터 레지스터 파일 사이즈를 감소시키는 것에 의해, 벡터 레지스터 파일 저장의 더욱 효율적으로 관리를 제공한다. 예를 들면, "수퍼 픽셀 쉐이더"의 경우, 가상 벡터 레지스터 파일은, 미사용(또는 한 번만 두 번 사용되는 - 그 다음 죽는) 벡터 레지스터 상에서 고가의 물리적 벡터 레지스터 저장을 낭비하는 것을 깔끔하게 방지한다.

일반적으로, 가상화된 벡터 레지스터 파일 구조는 소프트웨어 및 SPI에게 동일한 논리적 뷰(256 개의 가상 벡터 레지스터)를 제공하지만, 그러나 칩에서 256 개의 가상 벡터 레지스터의 서브세트, 예를 들면, 128 또는 196 개만을 구현한다. 소프트웨어 및 SPI에게 256 개의 이용 가능한 벡터 레지스터의 전체 논리적 뷰를 유지하기 위해, 벡터 레지스터는 메모리의 보조 저장소에서 스왑 인 및 아웃을 지원하는 것을 필요로 한다.

도 5는 가상 벡터 레지스터 파일(505)을 갖는 그래픽 프로세서(500)의 일부의 논리 블록도이다. 그래픽 프로세서(500)는 크로스바 스위치(XBAR)(515)를 통해 가상 벡터 레지스터 파일(505)에 연결되거나 또는 커플링되는 VALU(510)를 포함한다. 특히, XBAR(515)은 VALU(510)로부터 피연산자를 수신한다. 가상 벡터 레지스터 파일(505)은 벡터 레지스터의 다수의 뱅크, 예를 들면, 뱅크 A, 뱅크 B, 뱅크 C 및 뱅크 D를 구비할 수 있다. 벡터 레지스터의 각각의 뱅크는, 소형이며, 저 전력의 벡터 레지스터 파일(520) 및 더 크고 전력이 많이 소모되는 벡터 레지스터 파일(525)을 포함할 수 있다. 벡터 레지스터 파일 양자는 폭이 동일하다. 벡터 레지스터 파일(520)은 N 개의 벡터 레지스터 깊이일 수 있고 벡터 레지스터 파일(525)은 M 개의 벡터 레지스터 깊이일 수 있는데, 여기서 M은 N보다 더 크다. XBAR(310)은, 예를 들면, XBAR(310)을 벡터 레지스터 파일(520)의 각각의 뱅크에 연결하는 뱅크 A 판독 포트, 뱅크 B 판독 포트, 뱅크 C 판독 포트, 및 뱅크 D 판독 포트를 포함하는 판독 및 기록 동작을 위한 복수의 포트를 구비한다. 벡터 레지스터 파일(525)은, DRAM과 같은, 메모리에서 구현될 수 있는 벡터 레지스터 보조 저장소(530)에 연결된다.

도 6은, 레지스터 보조 저장소(615) 및 가상 벡터 레지스터 파일(610)과 함께 사용하기 위한 가상 벡터 레지스터 파일 컨트롤러(605)를 포함하는 그래픽 프로세서(600)의 일부의 논리 블록도이다. 가상 벡터 레지스터 파일 컨트롤러(605)는 가상화 기능성 및 2 레벨 벡터 레지스터 파일을 용이하게 한다. 특히, 가상 벡터 레지스터 파일 컨트롤러(605)는, 마치 모든 벡터 레지스터 파일이 물리적으로 구현된 것처럼, 소프트웨어 및 SPI에게 동일한 논리적 뷰를 제공한다. 가상 벡터 레지스터 파일 컨트롤러(605)는 할당기(allocator)/할당 해제기(de-allocator) 모듈(625)에 연결되는 벡터 레지스터 재매핑 테이블(620)을 포함한다. 가상 벡터 레지스터 파일(610)은, N 개의 벡터 레지스터를 갖는 작은 벡터 레지스터 파일(630) 및 M 개의 벡터 레지스터를 갖는 큰 벡터 레지스터 파일(635)을 포함한다.

벡터 레지스터 재매핑 테이블(620)은 가상 벡터 레지스터 번호에 의해 인덱싱되는데, 각각의 테이블 엔트리는 대응하는 물리적 하드웨어 벡터 레지스터 파일(예컨대, 작은 벡터 레지스터 파일(630) 또는 큰 벡터 레지스터 파일(635)), 또는 벡터 레지스터 보조 저장소(615)에 대한 포인터를 저장한다. 각각의 테이블 엔트리는 또한, 벡터 레지스터가 (벡터 레지스터 보조 저장소에 있는 것과는 대조적으로) 물리적 하드웨어 벡터 레지스터 파일 내에 존재하는지의 여부를 명시하는 "상주" 비트, 벡터 레지스터 할당/할당 해제를 위한 대체 알고리즘의 사용을 가능하게 하기 위한 "액세스된(accessed)" 비트, 및 다음으로 더 높은 레벨의 벡터 레지스터 파일 계층에 대한 라이트 백을 최적화하기 위해 사용될 수 있는 "더티(dirty)" 비트를 포함할 수 있다. CLOCK 알고리즘은 대체 알고리즘의 예일 수 있다.

벡터 레지스터 파일 가상화를 지원하는 것 외에, 벡터 레지스터 재매핑 테이블(620)은, 할당기/할당 해제기 모듈(625)와 함께, 작은 벡터 레지스터 파일(630) 및 큰 벡터 레지스터 파일(635)에 걸친 벡터 레지스터 할당을 관리하기 위해 사용될 수 있다. 특히, 효율적인 벡터 레지스터 할당/할당 해제 스킴의 정의는 가상 벡터 레지스터 파일 아키텍처의 효율성을 촉진한다. 물리적 레지스터 할당은 요구(명령어는 보조 저장소에 있는 벡터 레지스터를 필요로 하고, 로드 결과는 메모리로부터 반환되는 등임), 작은 벡터 레지스터 파일의 물리적 벡터 레지스터를 할당할지 또는 큰 벡터 레지스터 파일의 물리적 벡터 레지스터를 할당할지에 대한 결정 및 퇴출할 벡터 레지스터 파일에 어떤 벡터 레지스터가 이미 상주하는지에 대한 결정에 의해 구동되는데, 이들 모두는 인자 또는 휴리스틱스(heuristics)의 조합에 기초하여 예상될 것이다.

GPU의 벡터 레지스터 사용에서 관찰되는 일관된 패턴은, 벡터 레지스터 관리를 최적화하기 위한 어떤 간단한 휴리스틱스의 사용을 가능하게 한다. 예시적인 휴리스틱스는, 작은 벡터 레지스터 파일(630)에 할당된 로드 또는 텍스처 액세스 명령어로부터의 반환 데이터일 수 있는데, 그것이 곧 액세스될 가능성이 있기 때문이다. 다른 예에서, 명령어에 의해 액세스되도록 시도되는 가상 벡터 레지스터는 아직 현재 칩 상에 상주하지 않고(즉, 그것은 벡터 레지스터 보조 저장소(615)에 있음), 할당되어 작은 벡터 레지스터 파일(630)로 옮겨지는데 그것이 곧 판독될 가능성이 있기 때문이다. 유입하는 가상 벡터 레지스터의 벡터 레지스터 파일 위치는, 벡터 레지스터 초기화 시의 사전 할당과는 대조적으로, 관련 값이 메모리로부터 도달할 때까지 할당되지 않는다(즉, 적시의(just-in-time) 할당). 다른 예에서, STORE 명령어에 대한 값을 보유하는 가상 벡터 레지스터는 작은 벡터 레지스터 파일(630)로부터 큰 벡터 레지스터 파일(635) 또는 벡터 레지스터 보조 저장소(615)로 전송될 수 있는데, 그 값은 곧 사용되지 않을 수도 있기 때문이다. 대조적으로, ALU 명령어 결과는 작은 벡터 레지스터 파일(630)에 저장될 수 있는데, 그것이 곧 다시 액세스될 가능성이 있기 때문이다. 상기의 휴리스틱스는 벡터 레지스터 파일 할당 및 할당 해제에 대한 예시이며, 다른 것은 설명의 범위를 벗어나지 않으면서 사용될 수 있다.

가상 벡터 레지스터 파일 컨트롤러(605)는 벡터 레지스터 파일 관리를 위한 목록(또는 데이터 구조)의 세트를 유지한다. 즉, 이들 파일은 하드웨어 관리 목록일 수 있다. 예를 들면, 하드웨어 가상 벡터 레지스터 파일 컨트롤러는 벡터 레지스터를 상이한 벡터 레지스터 파일 또는 보조 저장소로 이동시키기 위해 상이한 목록을 유지할 수 있다. 각각의 목록은, 다른 벡터 레지스터 파일 또는 보조 저장소로 이동될 최상의 후보 벡터 레지스터를 포함할 수 있다. 퇴출 프로세싱을 위해 한 세트의 목록이 유지될 수 있고 다음을 포함할 수 있다: 1) 큰 벡터 레지스터 파일(EVS2LARGE)로의 퇴출을 위한 양호한 후보, 이 경우 작은 벡터 레지스터 파일에 상주하며, ALU 또는 STORE 명령어 중 어느 하나에 의해 액세스되는 벡터 레지스터가 EVS2LARGE 목록에 추가됨; 및 2) 보조 저장소(EVS2BSTR 또는 EVL2BSTR)로의 퇴출을 위한 양호한 후보, 이 경우 어떠한 분기 발산도 나타내지 않는 LOAD 명령어(모든 스레드가 그것을 수행함)의 타겟인 벡터 레지스터는, 벡터 레지스터가 작은 하드웨어 벡터 레지스터 파일에 상주하는지 또는 큰 하드웨어 벡터 레지스터 파일에 상주하는지에 따라, EVS2BSTR 또는 EVL2BSTR에 추가됨.

할당 및 할당 해제 프로세싱을 위해 목록의 다른 세트가 유지될 수 있고, 다음을 포함할 수 있다: 1) 현재 할당되지 않은 물리적 벡터 레지스터의 목록을 작은 벡터 레지스터 파일에 유지하는 FREESMALL; 및 2) 현재 할당되지 않은 물리적 벡터 레지스터의 목록을 큰 벡터 레지스터 파일에 유지하는 FREELARGE. 일반적으로, FREESMALL 및 FREELARGE 목록은, 초기화된 이후, SIMT 유닛이 작동함에 따라 점차적으로 빌 수 있다. 일단 FREESMALL 및 FREELARGE 목록이 비게 되면, 그들은 다음의 이벤트를 제외하고는 다시 채워지지 않을 것이다: 1) SIMT 유닛이 다시 초기화됨; 및 2) SIMT 유닛이 스레드의 실행을 종료하고 스레드에 관련되는 벡터 레지스터가 할당 해제됨. 정상 상태 동작 조건 하에서, 모든 벡터 레지스터 할당 해제는, 퇴출 프로세싱 목록 및 CLOCK 알고리즘과 같은 대체 알고리즘에 의해 관리될 것으로 예상된다.

스레드에 의한 벡터 레지스터 관리를 구현하기 위해, 다른 목록 또는 데이터 구조가 사용될 수 있다. 이 목록 또는 데이터 구조는 스레드에 의한 가상 벡터 레지스터 "소유권"을 추적할 수 있고, 특정한 벡터 레지스터를 소유하는 스레드가 일시 중지되었는지 또는 활성화 상태인지의 여부에 기초하여 벡터 레지스터 스와핑 및 큰/작은 하드웨어 벡터 레지스터 파일 상주 결정을 수정할 수 있다. 예를 들면, 스레드가 일시 중지된 경우, 모든 관련 벡터 레지스터 파일은 벡터 레지스터 보조 파일(backing file)로 이동될 수 있다.

동작에서, 새로운 가상 벡터 레지스터 파일이 큰 하드웨어 벡터 레지스터 파일 또는 작은 하드웨어 벡터 레지스터 파일 중 어느 하나의 물리적 슬롯에 할당될 필요가 있는 경우, EVS2LARGE, EVS2BSTR 및 EVL2BSTR 목록이 각각 검사된다. 적절한 목록이 비어 있지 않으면, 목록의 헤드 값이 대기열에서 제외되고 헤드 목록 요소와 관련되는 물리적 벡터 레지스터가 큰 벡터 레지스터 파일 또는 벡터 레지스터 보조 기억 장치로 적절히 퇴출된다. 새롭게 비워진(freed) 물리적 벡터 레지스터는 필요에 따라 할당된다. 어떠한 물리적 벡터 레지스터도 하나보다 많은 목록(FREE * 및 EV *)에 상주하지 않아야 한다는 규칙이 구현되어 엄격하게 강제될 수 있다. 적절한 퇴출 후보(EV*2*) 및 비어 있는 큐(free queue)가 없고 새로운 물리적 벡터 레지스터 할당이 필요한 경우, 어떤 벡터 레지스터 파일을 (큰 레지스터 파일 또는 작은 레지스터 파일로부터) 퇴출할 것인지의 결정은 대체 알고리즘을 사용하여 이루어질 수도 있다. 예시적인 대체 알고리즘에서, 벡터 레지스터 파일 값 수명이 퇴출 적합성의 강력한 지표이기 때문에, CLOCK 알고리즘은 퇴출할 벡터 레지스터 파일을 결정하기 위한 효과적인 방법일 수 있다.

동적 할당 또는 교착 상태(deadlock)에 기인하는 잠재적 리소스 부족의 방지는, 임의의 주어진 연산 유닛(CU)/SIMT 유닛 내의 활성 쉐이더가 임의의 주어진 시간에 진행하도록 보장되어야 한다는 것을 보장하는 것에 의해, 달성될 수 있다. 이것은 하나의 활성 쉐이더를 특별한 것으로 지정하는 것에 의해 행해질 수 있다. 이 지정은, 지정된 활성 쉐이더에 다른 쉐이더보다 더 높은 우선 순위를 부여하고(이것은 디스패치의 연령 또는 다른 메타 데이터에 기초하여 행해질 수 있음), 다른 활성 쉐이더의 비효율성 및 부족을 대가로 하더라도 지정된 요구에 모든 리소스를 보장한다.

도 7은 가상 벡터 레지스터 파일(710)을 포함하는 그래픽 프로세서(700)에 대한 동작 흐름을 갖는 논리 블록도이다. 일반적으로, 그래픽 프로세서(700)는 두 개의 쉐이더 쌍(shader pair: SP)을 포함하는데, 각각의 SP는 한 쌍의 SIMT 유닛을 포함한다. 각각의 SIMT 유닛은 네 개의 VALU를 포함하는데, 각각의 VALU는 네 개의 ALU를 포함한다. 예시의 목적을 위해, 도 7은 시퀀서(SQ)(702)에 커플링되는 또는 연결되는 SP(705)를 갖는 그래픽 프로세서(700)를 도시한다. SP(705)는 가상 벡터 레지스터 파일(710)을 포함하는데, 가상 벡터 레지스터 파일은, 계속해서, 큰 벡터 레지스터 파일(714)의 세트에 각각 커플링되는 작은 벡터 레지스터 파일(712)의 세트로 이루어진다. 작은 벡터 레지스터 파일(712) 각각은 판독/기록 포트를 통해 XBAR(716)에 커플링되는데, XBAR은, 계속해서, VALU(718)로부터 피연산자를 수신하도록 커플링된다. 큰 벡터 레지스터 파일(714)의 각각은 벡터 레지스터 보조 저장소(720)에 커플링된다.

SQ(702)는 가상 벡터 레지스터 파일 컨트롤러(730), 스레드별 명령어 버퍼(732), 레지스터 준비 검사기(734), 준비가 된 벡터 레지스터를 갖는 명령어 버퍼(736) 및 스레드 중재기(738)를 포함한다. 스레드별 명령어 버퍼(732)는 명령어 캐시(740)에 연결된다. 가상 벡터 레지스터 파일 컨트롤러(730)는 할당기/할당 해제기 모듈(745) 및 레지스터 재매핑 테이블(750)을 포함한다.

동작에서, 스레드별 명령어 버퍼(732)는 명령어 캐시(740)로부터 명령어를 공급받는다. 각각의 스레드별 명령어 버퍼(732)의 헤드에 있는 명령어가 발행될 자격이 있다. 벡터 레지스터 준비 검사기(734)는, 헤드 명령어 벡터 레지스터가 "사용 준비가 된" 물리적 스토리지(예를 들면, 작은 벡터 레지스터 파일(712))에 있는지 또는 큰 벡터 레지스터 파일(714) 또는 벡터 레지스터 보조 저장소(720)에 있는지의 여부를 결정한다. 벡터 레지스터가 사용 준비가 되면, 명령어는 준비가 된 벡터 레지스터를 갖는 명령어 버퍼(736)로 포워딩되는데, 여기서, 명령어는 스레드 중재기(738)를 통한 SP(705)(즉, VALU(718))로의 발행을 위해 선택되기를 대기한다.

벡터 레지스터가 명령어에 의해 필요로 될 때 마침 벡터 레지스터가 하드웨어 벡터 레지스터 파일에 상주하지 않으면, 벡터 레지스터 준비 검사기(734)는 그 경우이다는 통지를 받을 것이고, 액세스를 야기한 관련 스레드는 다른 스레드는 일시 중지되고 다른 스레드가 실행을 위해 선택될 것이다. 그 다음, 가상 벡터 레지스터 파일 컨트롤러(730)는, 요구된 벡터 레지스터를 적어도 작은 벡터 레지스터 파일(712)로 가져오기 위해, 스와핑 프로세스(퇴출/할당 분석)를 수행한다. 할당기/할당 해제 모듈(745) 및 벡터 레지스터 재매핑 테이블(750)은, 적절히, 퇴출 및 빈 목록을 리뷰하여, 필요한 벡터 레지스터를 가져오기 위해 이미 상주하는 어떤 벡터 레지스터를 퇴출시킬지를 결정한다. 선택은, 예를 들면, 예컨대 가장 최근에 사용된 것과 같은 표준 퇴출 정책에 기초하여 행해질 수 있다. 후속하여, 가상 벡터 레지스터 파일 컨트롤러(730)는 누락된 벡터 레지스터를 교환해 넣고(swap in), 벡터 레지스터를 원했던 스레드가 다시 스케줄링될 준비가 되었다는 것을 벡터 레지스터 준비 검사기(734)(및 궁극적으로 SQ(702)의 스케줄러)에게 통지한다. 그 다음, 관련 명령어는 준비가 된 벡터 레지스터를 갖는 명령어 버퍼(736)로 포워딩되어 발행을 대기한다.

준비가 된 벡터 레지스터를 갖는 명령어 버퍼(736) 내의 명령어와 관련되는 모든 벡터 레지스터는, 벡터 레지스터 보조 저장소(720)로 전송되는 것을 허용하는 것이 교착 상태로 이어질 수도 있을 때, 그것으로부터 실격된다는 것을 알 수 있다.

본 명세서에서 설명되는 가상 파일 레지스터 아키텍처는 SIMT마다 또는 CU마다 구현될 수 있다. 그것이 주어지면, 가상 레지스터 파일 컨트롤러는 (도 7에서 도시되는 바와 같이) SP 또는 SQ에서 구현될 수 있다.

도 8은 소정의 구현에 따른 가상 벡터 레지스터 파일을 사용하기 위한 플로우차트(800)이다. 메모리 요청을 수신하면, 그래픽 프로세서는 요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 존재하는지를 결정하는데, 여기서 가상 벡터 레지스터 파일은 N 깊이 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하되, N은 M보다 더 작다(블록 805). 벡터 레지스터 재매핑 테이블은, 요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 있는지를 결정하도록 인덱싱된다(블록 810). 할당기/할당 해제 모듈은 복수의 목록을 리뷰하여 요청된 벡터 레지스터를 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져온다(블록 815). 가상 벡터 레지스터 파일 컨트롤러는 스와핑 프로세스를 개시하여 요청된 벡터 레지스터를 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오고(블록 820), 요청된 벡터 레지스터가 이제 존재한다는 통지를 전송한다(블록 825).

도 9는 하나 이상의 개시된 실시형태의 하나 이상의 부분이 구현될 수도 있는 예시적인 디바이스(900)의 블록도이다. 디바이스(900)는, 예를 들면, 헤드 마운트형 디바이스, 서버, 컴퓨터, 게이밍 디바이스, 핸드헬드 디바이스, 셋탑 박스, 텔레비전, 이동 전화, 또는 태블릿 컴퓨터를 포함할 수도 있다. 디바이스(900)는 프로세서(902), 메모리(904), 스토리지(906), 하나 이상의 입력 디바이스(908), 및 하나 이상의 출력 디바이스(910)를 포함한다. 디바이스(900)는 또한, 옵션 사항으로(optionally), 입력 드라이버(912) 및 출력 드라이버(914)를 포함할 수도 있다. 디바이스(900)는 도 9에 도시되지 않는 추가적인 컴포넌트를 포함할 수도 있다는 것이 이해된다.

프로세서(902)는 중앙 프로세싱 유닛(central processing unit: CPU), 그래픽 프로세싱 유닛(graphics processing unit: GPU), 동일한 다이 상에 위치되는 CPU 및 GPU, 또는 하나 이상의 프로세서 코어를 포함할 수도 있는데, 각각의 프로세서 코어는 CPU 또는 GPU일 수도 있다. 메모리(904)는 프로세서(902)와 동일한 다이 상에 위치될 수도 있거나, 또는 프로세서(902)와는 별개로 위치될 수도 있다. 메모리(904)는 휘발성 또는 불휘발성 메모리, 예를 들면, 랜덤 액세스 메모리(RAM), 동적 RAM, 또는 캐시를 포함할 수도 있다.

스토리지(906)는, 고정식 또는 착탈식(removable) 스토리지, 예를 들면, 하드 디스크 드라이브, 솔리드 스테이트 드라이브, 광학 디스크, 또는 플래시 드라이브를 포함할 수도 있다. 입력 디바이스(908)는, 키보드, 키패드, 터치스크린, 터치 패드, 검출기, 마이크, 가속도계, 자이로스코프, 생체 인식 스캐너, 또는 네트워크 연결부(예를 들면, 무선 IEEE 802 신호의 송신 및/또는 수신을 위한 무선 근거리 통신망 카드)를 포함할 수도 있다. 출력 디바이스(910)는 디스플레이, 스피커, 프린터, 햅틱 피드백 디바이스, 하나 이상의 조명, 안테나, 또는 네트워크 연결부(예를 들면, 무선 IEEE 802 신호의 송신 및/또는 수신을 위한 무선 근거리 통신망 카드)를 포함할 수도 있다.

입력 드라이버(912)는 프로세서(902) 및 입력 디바이스(908)와 통신하고, 프로세서(902)가 입력 디바이스(908)로부터 입력을 수신하는 것을 허용한다. 출력 드라이버(914)는 프로세서(902) 및 출력 디바이스(910)와 통신하고, 프로세서(902)가 출력 디바이스(910)로 출력을 전송하는 것을 허용한다. 입력 드라이버(912) 및 출력 드라이버(914)는 옵션 사항의 컴포넌트이다는 것, 및 입력 드라이버(912) 및 출력 드라이버(914)가 존재하지 않는 경우 디바이스(900)는 동일한 방식으로 동작할 것이다는 것을 유의한다.

일반적으로, 그래픽 프로세서는 논리 유닛 및 논리 유닛에 커플링되는 가상 벡터 레지스터 파일을 포함한다. 가상 벡터 레지스터 파일은 N 깊이 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하는데, 여기서 N은 M보다 더 작다. 그래픽 프로세서는, 가상 벡터 레지스터 파일에 커플링되는 벡터 레지스터 보조 저장소 및 가상 벡터 레지스터 파일에 커플링되는 가상 벡터 레지스터 파일 컨트롤러를 더 포함하는데, N 깊이 벡터 레지스터 파일, M 깊이 벡터 레지스터 파일 벡터 레지스터 보조 저장소 사이의 퇴출/할당은, 적어도, 소정의 벡터 레지스터에 대한 액세스 요청에 의존한다. 가상 벡터 레지스터 파일 컨트롤러는 벡터 레지스터 재매핑 테이블 및 벡터 레지스터 재매핑 테이블에 그리고 가상 벡터 레지스터 파일 및 벡터 레지스터 보조 저장소에 커플링되는 할당기/할당 해제기 모듈을 포함한다.

벡터 레지스터 재매핑 테이블은 가상 벡터 레지스터 번호에 의해 인덱싱되는데, 각각의 테이블 엔트리는 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 또는 벡터 레지스터 보조 저장소에 대한 포인터를 저장한다. 각각의 테이블 엔트리는 벡터 레지스터가 가상 벡터 레지스터 파일 내에 물리적으로 존재하는지의 여부를 명시하는 상주 비트, 벡터 레지스터 할당/할당 해제를 위한 대체 알고리즘의 사용을 가능하게 하기 위한 액세스된 비트, 및 다음으로 더 높은 레벨의 벡터 레지스터 파일 계층에 대한 라이트 백을 최적화하기 위한 더티 비트를 포함한다. 할당기/할당 해제기는, 퇴출을 위한 후보를 추적하기 위해 그리고 퇴출/할당 분석을 위해 할당되지 않은 벡터 레지스터 파일을 추적하기 위해 복수의 목록을 사용한다. 할당기/할당 해제기는 퇴거/할당 분석을 위해 목록을 사용하여 스레드에 의한 벡터 레지스터 파일 소유권을 추적한다. 가상 벡터 레지스터 파일 컨트롤러는, 모든 벡터 레지스터가 하드웨어로 물리적으로 구현되는 논리적 뷰를 외부 컴포넌트에게 제공한다.

일반적으로, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법은, 요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 존재하는지를 결정하는데, 여기서 가상 벡터 레지스터 파일은 N 깊이 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하되, N은 M보다 더 작다. 방법은 또한, 가상 벡터 레지스터 파일 컨트롤러에 의해, 스와핑 프로세스를 개시하여 요청된 벡터 레지스터를 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오고 요청된 벡터 레지스터가 이제 존재한다는 통지를 전송한다.

방법은 또한, 요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 있는지를 결정하도록 벡터 레지스터 재매핑 테이블을 인덱싱하고, 할당기/할당 해제기 모듈에 의해, 요청된 벡터 레지스터를 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오기 위한 복수의 목록을 리뷰한다. 벡터 레지스터 재매핑 테이블은 가상 벡터 레지스터 번호에 의해 인덱싱되는데, 각각의 테이블 엔트리는 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 또는 벡터 레지스터 보조 저장소에 대한 포인터를 저장한다. 각각의 테이블 엔트리는 벡터 레지스터가 가상 벡터 레지스터 파일 내에 물리적으로 존재하는지의 여부를 명시하는 상주 비트, 레지스터 할당/할당 해제를 위한 대체 알고리즘의 사용을 가능하게 하기 위한 액세스된 비트, 및 다음으로 더 높은 레벨의 벡터 레지스터 파일 계층에 대한 라이트 백을 최적화하기 위한 더티 비트를 포함한다. 복수의 목록은, 퇴출을 위한 후보를 추적하고 퇴출/할당 분석을 위해 할당되지 않은 벡터 레지스터 파일을 추적한다. 할당기/할당 해제기는 퇴거/할당 분석을 위해 목록을 사용하여 스레드에 의한 벡터 레지스터 파일 소유권을 추적한다. 가상 벡터 레지스터 파일 컨트롤러는, 모든 벡터 레지스터가 하드웨어로 물리적으로 구현되는 논리적 뷰를 외부 컴포넌트에게 제공한다.

일반적으로, 비일시적 컴퓨터 판독 가능 매체는, 그래픽 프로세서에서 실행될 때 그래픽 프로세서로 하여금 가상 벡터 레지스터 파일을 사용하기 위한 방법을 실행하게 하는 명령어를 포함하는데, 방법은, 요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 존재하는지를 결정하되, 가상 벡터 레지스터 파일은 N 깊이 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하고, N은 M보다 더 작다. 방법은, 가상 벡터 레지스터 파일 컨트롤러에 의해, 스와핑 프로세스를 개시하여 요청된 벡터 레지스터를 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오고 요청된 벡터 레지스터가 이제 존재한다는 통지를 전송한다. 방법은 또한, 요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 있는지를 결정하도록 벡터 레지스터 재매핑 테이블을 인덱싱하고, 할당기/할당 해제기 모듈에 의해, 요청된 벡터 레지스터를 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오기 위한 복수의 목록을 리뷰한다. 벡터 레지스터 재매핑 테이블은 가상 벡터 레지스터 번호에 의해 인덱싱되는데, 각각의 테이블 엔트리는 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 또는 벡터 레지스터 보조 저장소에 대한 포인터를 저장한다. 각각의 테이블 엔트리는 벡터 레지스터가 가상 벡터 레지스터 파일 내에 물리적으로 존재하는지의 여부를 명시하는 상주 비트, 벡터 레지스터 할당/할당 해제를 위한 대체 알고리즘의 사용을 가능하게 하기 위한 액세스된 비트, 및 다음으로 더 높은 레벨의 벡터 레지스터 파일 계층에 대한 라이트 백을 최적화하기 위한 더티 비트를 포함한다. 복수의 목록은, 퇴출을 위한 후보를 추적하고 퇴출/할당 분석을 위해 할당되지 않은 벡터 레지스터 파일을 추적한다. 할당기/할당 해제기는 퇴거/할당 분석을 위해 목록을 사용하여 스레드에 의한 벡터 레지스터 파일 소유권을 추적한다. 가상 벡터 레지스터 파일 컨트롤러는, 모든 벡터 레지스터가 하드웨어로 물리적으로 구현되는 논리적 뷰를 외부 컴포넌트에게 제공한다.

일반적으로 그리고 본 명세서에서 설명되는 실시형태를 제한하지 않으면서, 컴퓨터 판독 가능 비일시적 매체는, 프로세싱 시스템에서 실행될 때 프로세싱 시스템으로 하여금 가상 벡터 레지스터 파일을 사용하기 위한 방법을 실행하게 하는 명령어를 포함한다.

본 명세서에서의 개시에 기초하여 많은 변형이 가능하다는 것이 이해되어야 한다. 비록 특징부 및 요소가 특정한 조합으로 상기에서 설명되지만, 각각의 특징부 또는 요소는 다른 특징부 및 요소 없이 단독으로 또는 다른 특징부 및 요소의 유무에 무관하게 다양한 조합으로 사용될 수도 있다.

제공되는 방법은 범용 컴퓨터, 프로세서 또는 프로세서 코어에서 구현될 수도 있다. 적절한 프로세서는, 예로서, 범용 프로세서, 특수 목적 프로세서, 종래의 프로세서, 디지털 신호 프로세서(digital signal processor: DSP), 복수의 마이크로프로세서, DSP 코어와 관련되는 하나 이상의 마이크로프로세서, 컨트롤러, 마이크로컨트롤러, 주문형 반도체(Application Specific Integrated Circuit: ASIC), 필드 프로그래머블 게이트 어레이(field programmable gate array: FPGA) 회로, 임의의 다른 타입의 집적 회로(integrated circuit: IC), 및/또는 상태 머신을 포함한다. 이러한 프로세서는, 프로세싱된 하드웨어 기술 언어(hardware description language: HDL) 명령어 및 넷리스트(netlist)를 포함하는 다른 중간 데이터(예컨대 컴퓨터 판독 가능 매체 상에 저장될 수 있는 그러한 명령어)의 결과를 사용하여 제조 프로세스를 구성하는 것에 의해 제조될 수도 있다. 그 다음, 이러한 프로세싱의 결과는 실시형태의 양태를 구현하는 프로세서를 제조하기 위해 반도체 제조 프로세스에서 사용되는 마스크워크(maskwork)일 수도 있다.

본 명세서에서 제공되는 방법 또는 플로우차트는, 범용 컴퓨터 또는 프로세서에 의한 실행을 위해 비일시적 컴퓨터 판독 가능 저장 매체에 통합되는 컴퓨터 프로그램, 소프트웨어, 또는 펌웨어로 구현될 수도 있다. 비일시적 컴퓨터 판독 가능 저장 매체의 예는, 판독 전용 메모리(read only memory: ROM), 랜덤 액세스 메모리(RAM), 레지스터, 캐시 메모리, 반도체 메모리 디바이스, 내장 하드 디스크 및 착탈식 디스크와 같은 자기 매체, 광자기 매체, 및 광학 매체 예컨대 CD-ROM 디스크 및 디지털 다기능 디스크(digital versatile disk: DVD)를 포함한다.

Claims

그래픽 프로세서로서,
논리 유닛;
상기 논리 유닛에 커플링되는 가상 벡터 레지스터 파일로서, 상기 가상 벡터 레지스터 파일은 N 깊이(N deep) 벡터 레지스터 파일 및 M 깊이(M deep) 벡터 레지스터 파일을 포함하되, N은 M보다 더 작은, 상기 가상 벡터 레지스터 파일;
상기 가상 벡터 레지스터 파일에 커플링되는 벡터 레지스터 보조 저장소(vector register backing store); 및
상기 가상 벡터 레지스터 파일에 커플링되는 가상 벡터 레지스터 파일 컨트롤러를 포함하되, 상기 N 깊이 벡터 레지스터 파일, 상기 M 깊이 벡터 레지스터 파일 및 상기 벡터 레지스터 보조 저장소 사이의 퇴출(eviction)/할당은, 적어도, 소정의 벡터 레지스터에 대한 액세스 요청에 의존하는, 그래픽 프로세서.
제1항에 있어서, 상기 가상 벡터 레지스터 파일 컨트롤러는,
벡터 레지스터 재매핑 테이블; 및
상기 벡터 레지스터 재매핑 테이블에 그리고 상기 가상 벡터 레지스터 파일 및 상기 벡터 레지스터 보조 저장소에 커플링되는 할당기/할당 해제기 모듈을 포함하는, 그래픽 프로세서.
제2항에 있어서, 상기 벡터 레지스터 재매핑 테이블은 가상 벡터 레지스터 번호에 의해 인덱싱되되, 각각의 테이블 엔트리는 상기 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 또는 상기 벡터 레지스터 보조 저장소에 대한 포인터를 저장하는, 그래픽 프로세서.
제3항에 있어서, 각각의 테이블 엔트리는 벡터 레지스터가 상기 가상 벡터 레지스터 파일 내에 물리적으로 존재하는지의 여부를 명시하는 상주 비트(resident bit), 벡터 레지스터 할당/할당 해제를 위한 대체 알고리즘의 사용을 가능하게 하기 위한 액세스된 비트(accessed bit), 및 다음으로 더 높은 레벨의 벡터 레지스터 파일 계층에 대한 라이트 백(write-back)을 최적화하기 위한 더티 비트(dirty bit)를 포함하는, 그래픽 프로세서.
제2항에 있어서, 상기 할당기/할당 해제기는, 퇴출을 위한 후보를 추적하기 위해 그리고 퇴출/할당 분석을 위해 할당되지 않은 벡터 레지스터 파일을 추적하기 위해 복수의 목록을 사용하는, 그래픽 프로세서.
제5항에 있어서, 할당기/할당 해제기는 퇴거/할당 분석을 위해 목록을 사용하여 스레드에 의한 벡터 레지스터 파일 소유권을 추적하는, 그래픽 프로세서.
제1항에 있어서, 상기 가상 벡터 레지스터 파일 컨트롤러는, 모든 벡터 레지스터가 하드웨어로 물리적으로 구현되는 논리적 뷰를 외부 컴포넌트에게 제공하는, 그래픽 프로세서.
그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법으로서,
요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 존재하는지를 결정하는 단계로서, 상기 가상 벡터 레지스터 파일은 N 깊이 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하되, N은 M보다 더 작은, 상기 결정하는 단계;
가상 벡터 레지스터 파일 컨트롤러에 의해, 스와핑 프로세스를 개시하여 상기 요청된 벡터 레지스터를 상기 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오는 단계; 및
상기 요청된 벡터 레지스터가 이제 존재한다는 통지를 전송하는 단계를 포함하는, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법.
제8항에 있어서,
상기 요청된 벡터 레지스터가 상기 가상 벡터 레지스터 파일 내의 상기 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 있는지를 결정하도록 벡터 레지스터 재매핑 테이블을 인덱싱하는 단계; 및
할당기/할당 해제기 모듈에 의해, 상기 요청된 벡터 레지스터를 상기 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오기 위한 복수의 목록을 리뷰하는 단계를 더 포함하는, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법.
제9항에 있어서, 상기 벡터 레지스터 재매핑 테이블은 가상 벡터 레지스터 번호에 의해 인덱싱되되, 각각의 테이블 엔트리는 상기 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 또는 상기 벡터 레지스터 보조 저장소에 대한 포인터를 저장하는, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법.
제10항에 있어서, 각각의 테이블 엔트리는 벡터 레지스터가 상기 가상 벡터 레지스터 파일 내에 물리적으로 존재하는지의 여부를 명시하는 상주 비트, 레지스터 할당/할당 해제를 위한 대체 알고리즘의 사용을 가능하게 하기 위한 액세스된 비트, 및 다음으로 더 높은 레벨의 벡터 레지스터 파일 계층에 대한 라이트 백을 최적화하기 위한 더티 비트를 포함하는, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법.
제9항에 있어서, 상기 복수의 목록은, 퇴출을 위한 후보를 추적하고 퇴출/할당 분석을 위해 할당되지 않은 벡터 레지스터 파일을 추적하는, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법.
제9항에 있어서, 할당기/할당 해제기는 퇴거/할당 분석을 위해 목록을 사용하여 스레드에 의한 벡터 레지스터 파일 소유권을 추적하는, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법.
제8항에 있어서, 상기 가상 벡터 레지스터 파일 컨트롤러는, 모든 벡터 레지스터가 하드웨어로 물리적으로 구현되는 논리적 뷰를 외부 컴포넌트에게 제공하는, 그래픽 프로세서에서 가상 벡터 레지스터 파일을 사용하기 위한 방법.
그래픽 프로세서에서 실행될 때 상기 그래픽 프로세서로 하여금 가상 벡터 레지스터 파일을 사용하기 위한 방법을 실행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 방법은,
요청된 벡터 레지스터가 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 존재하는지를 결정하는 단계로서, 상기 가상 벡터 레지스터 파일은 N 깊이 벡터 레지스터 파일 및 M 깊이 벡터 레지스터 파일을 포함하되, N은 M보다 더 작은, 상기 결정하는 단계;
가상 벡터 레지스터 파일 컨트롤러에 의해, 스와핑 프로세스를 개시하여 상기 요청된 벡터 레지스터를 상기 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오는 단계; 및
상기 요청된 벡터 레지스터가 이제 존재한다는 통지를 전송하는 단계를 포함하는, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.
제15항에 있어서,
상기 요청된 벡터 레지스터가 상기 가상 벡터 레지스터 파일 내의 상기 대응하는 물리적 하드웨어 벡터 레지스터 파일 내에 있는지를 결정하도록 벡터 레지스터 재매핑 테이블을 인덱싱하는 단계; 및
할당기/할당 해제기 모듈에 의해, 상기 요청된 벡터 레지스터를 상기 대응하는 물리적 하드웨어 벡터 레지스터 파일로 가져오기 위한 복수의 목록을 리뷰하는 단계를 더 포함하는, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.
제16항에 있어서, 상기 벡터 레지스터 재매핑 테이블은 가상 벡터 레지스터 번호에 의해 인덱싱되되, 각각의 테이블 엔트리는 상기 가상 벡터 레지스터 파일 내의 대응하는 물리적 하드웨어 벡터 레지스터 파일 또는 상기 벡터 레지스터 보조 저장소에 대한 포인터를 저장하는, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.
제17항에 있어서, 각각의 테이블 엔트리는 벡터 레지스터가 상기 가상 벡터 레지스터 파일 내에 물리적으로 존재하는지의 여부를 명시하는 상주 비트, 벡터 레지스터 할당/할당 해제를 위한 대체 알고리즘의 사용을 가능하게 하기 위한 액세스된 비트, 및 다음으로 더 높은 레벨의 벡터 레지스터 파일 계층에 대한 라이트 백을 최적화하기 위한 더티 비트를 포함하는, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.
제16항에 있어서, 상기 복수의 목록은, 퇴출을 위한 후보를 추적하고 퇴출/할당 분석을 위해 할당되지 않은 벡터 레지스터 파일을 추적하는, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.
제16항에 있어서, 할당기/할당 해제기는 퇴거/할당 분석을 위해 목록을 사용하여 스레드에 의한 벡터 레지스터 파일 소유권을 추적하는, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.
제15항에 있어서, 상기 가상 벡터 레지스터 파일 컨트롤러는, 모든 벡터 레지스터가 하드웨어로 물리적으로 구현되는 논리적 뷰를 외부 컴포넌트에게 제공하는, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체.