KR20130010442A

KR20130010442A - 가상 ｇｐｕ

Info

Publication number: KR20130010442A
Application number: KR1020120078202A
Authority: KR
Inventors: 로버트 에이. 드레빈; 제임스 왕
Original assignee: 애플 인크.
Priority date: 2011-07-18
Filing date: 2012-07-18
Publication date: 2013-01-28
Also published as: US9727385B2; TW201308211A; EP2549382B1; US10120728B2; WO2013012668A1; JP2013025823A; JP5583180B2; US20130021353A1; US20170329646A1; CN102982505A; EP2549382A1

Abstract

가상 그래픽 처리 유닛(VGPU)들에 관한 기술 및 구조가 개시된다. VGPU는 독립형 하드웨어 GPU로서 소프트웨어에 나타날 수 있다. 그러나, 2개 이상의 VGPU는 제어 구조의 이용을 통하여 그리고 GPU의 (전부가 아니라) 일부 하드웨어 구성요소를 복제함으로써 동일한 GPU 상에서 구현될 수 있다. 예를 들어, 다수의 VGPU를 지원하는 GPU에 부가적인 레지스터 및 저장 공간이 추가될 수 있다. 지원되는 서로 다른 VGPU에 대응하는 태스크 및 스레드에 대하여 서로 다른 실행 우선순위가 설정될 수 있다. VGPU에 대한 메모리 어드레스 공간 또한 관리될 수 있는데, 이는 서로 다른 VGPU에 대한 가상 어드레스 공간의 이용을 포함한다. 서로 다른 VGPU의 실행을 중단하고 재개하는 것은 보다 미세한 정밀도의 실행 제어를 허용하며, 보다 양호한 GPU 효율을 허용할 수 있다.

Description

가상 ＧＰＵ{VIRTUAL GPU}

본 개시물은 그래픽 처리 유닛(graphical processing unit: GPU)들에 관한 것으로, 보다 상세하게는 다수의 GPU 명령들의 효율적인 실행을 허용하는 구조들 및 기술들에 관한 것이다.

GPU들은 다양한 컴퓨팅 태스크들을 실행하기 위해 이용될 수 있다. GPU는, 예를 들어, 스크린 상에 디스플레이될 픽셀들을 계산할 수 있고, 또한 애니메이션 렌더링 및 일반적인 벡터 계산(vector math) 등의 다른 집약적인 연산들을 수행할 수 있다.

GPU는 때때로, 하나 이상의 실행 유닛들이 어떠한 계산들도 수행하지 않는 "정지 시간(down time)"(기능 정지 기간(stall periods))을 경험할 수 있다. 정지 시간은, 예를 들어, 실행 유닛이 새로운 데이터가 도달하기를 기다리고 있기 때문에 메모리에 액세스하는 경우에 발생할 수 있다. 따라서, 때로는, 하나 이상의 GPU 실행 유닛들이 유휴 상태(idle)일 수 있다.

또한, 제1 프로그램이 GPU에 의해 실행 중인 경우, 제2 프로그램은 대기해야 할 수 있다. 심지어 제1 프로그램이 기능 정지되는 동안(메모리 액세스 동안 등)에도 제2 프로그램이 대기해야 할 수 있다. 비록 제1 프로그램이 기능 정지되는 동안 제2 프로그램이 유휴 상태인 GPU 실행 유닛들을 이용하는 것이 유리할 지라도, 제2 프로그램으로의 스위칭의 간접비가 엄청나게 고비용이 소요될 수 있다. 즉, 제1 프로그램이 기능 정지되는 동안 제2 프로그램을 실행시키기 위해 GPU를 설정하는 것은 너무 많은 시간 및 노력(즉, 전력 소비)이 들어 수고할 만한 가치가 없을 수 있다. 따라서 제1 프로그램이 기능 정지되는 동안, GPU 실행 유닛들은 유휴 상태로 남을 수 있다.

따라서, GPU 실행은, 특히 다수의 컴퓨팅 태스크들이 수행되고 있는 환경에서 비효율적일 수 있다.

본 명세서는, 특히 다수의 컴퓨팅 태스크들(또는 명령들)을 핸들링하는 경우에, GPU가 더 효율적이고 더 적은 정지 시간으로 명령어들을 실행할 수 있게 하는 구조들 및 기술들을 설명한다. 이러한 이점들은, 단일 GPU 구조로 다수의 가상 GPU들을 구현함으로써 일 실시예에서 제공된다. 가상 GPU들은 동일한 GPU 하드웨어(예를 들어, 실행 유닛들)를 공유할 수 있는 한편, 계산의 결과는 각각의 가상 GPU에 대해 개별적으로 저장된다.

가상 GPU들은 고비용일 수 있는 콘텍스트 스위칭(context switching)에 대한 이점을 제공할 수 있다. 제1 프로그램으로부터 제2 프로그램으로의 콘텍스트 스위칭은, 예를 들어, 제2 프로그램이 실행되기 이전에 GPU로부터 모든 결과 및 모든 상태 정보를 클리어링하는 것을 수반할 수 있다. 따라서 콘텍스트 스위칭은 모든 레지스터 값들, 프로그램 카운터들, 및 다른 값들(예를 들어 메모리로부터의 작업 데이터(working data))을 외부 저장소로 복사하는 것을 포함할 수 있다. 이러한 복사 동작들은 시간이 걸리며, (배터리로 전력 공급되는 모바일 장치들에 대해 특히 악영향을 야기시킬 수 있는) 전력을 소비한다.

GPU 콘텍스트 스위칭의 비용은 언제 콘텍스트 스위칭이 수행되는지에 따라 달라질 수 있다. 예를 들어, 프레임 경계들 또는 다각형 경계들 사이의 콘텍스트 스위칭은 비용이 덜 소요될 수 있다. 이는 보다 적은 중간 상태 정보(intermediate state information)가 외부 저장소로 전송될 필요가 있을 수 있기 때문이다. 그러나, 단지 프레임 또는 다각형 경계들 상에서의 콘텍스트 스위칭은 비용이 덜 소요될 수 있는 한편, 이는 열등한 정밀도(granularity) 제어를 초래할 수 있다. 예를 들어, 프레임들이 20 프레임/초로 드로잉되고 있는 경우, GPU가 프레임 경계에 도달하고 다른 태스크로의 콘텍스트 스위칭을 수행하기 위해 최대 50 밀리초(또는 훨씬 더 긴 시간)가 걸릴 수 있다.

가상 GPU들은, 전체 콘텍스트 스위칭(full context switch)을 수행하는 비용 없이 상이한 프로그램들에 대한 명령어들이 실행되게 할 수 있다. 일 실시예에서, 이것은 GPU 하드웨어의 일부 부분들을 복제하고 추가적인 제어 구조들을 추가하여 그 복제된 부분들을 핸들링함으로써 달성된다. 가상 GPU들은 또한 실행을 위해 더 미세한 정밀도 제어를 제공할 수 있고, 상이한 프로그램들에 대한 GPU 명령어들이 더 작은 시간의 "윈도우" 내에서 실행되게 함으로써 GPU 하드웨어를 더 효율적으로 이용할 수 있다. 예를 들어, 제1 프로그램에 의해 이용되고 있는 GPU 실행 유닛은, 메모리로부터 데이터가 검색되는 동안, 기능 정지되어야 할 수 있다. 이러한 기능 정지 기간 동안, 실행 유닛은 유휴 상태이다. 기능 정지 기간이 짧아서 전체 콘텍스트 스위칭의 비용이 매우 높을 수 있다. 그러나, 가상 GPU들 사이의 스위칭의 더 낮은 비용은 실행 유닛들이 유휴 상태에 있는 대신에 (상이한 가상 GPU에 대한) 상이한 명령어들이 실행되게 할 수 있다. 따라서, 가상 GPU들이 구현되는 경우, GPU 실행 유닛들에 대한 정지 시간이 더 적을 수 있다.

그러나, 본 개시물 및 첨부된 청구항들의 교시는 전술한 발명의 내용에 설명된 특징들, 실시예들 및/또는 이익들에 의해 명백히 제한되지는 않는다.

도 1은 집적 회로의 실시예의 블록도.
도 2는 다수의 가상 GPU들이 구현되는 GPU의 실시예의 블록도.
도 3은 다수의 가상 GPU들이 구현되는 GPU의 실시예의 다른 블록도.
도 4는 다수의 GPU 스레드들이 실행될 수 있는 방법의 일 실시예의 흐름도.
도 5는 시스템의 일 실시예의 블록도.

본 명세서는 "일 실시예" 또는 "실시예"에 대한 언급을 포함한다. "일 실시예에서" 또는 "실시예에서"라는 어구들의 출현은 반드시 동일한 실시예를 지칭하는 것은 아니다. 특정 특징들, 구조들 또는 특성들은 본 개시물에 부합하는 임의의 적합한 방식으로 결합될 수 있다.

다음의 단락들은 본 개시물(첨부된 청구항들을 포함함)에서 발견되는 용어들에 대한 정의들 및/또는 콘텍스트를 제공한다:

"포함하는(comprising)". 이 용어는 개방형(open-ended)이다. 이 용어는, 본 명세서에서 이용되는 경우, 부가적인 구조 또는 단계를 배제하지 않는다. "GPU(graphics processing unit)를 포함하는 장치"라고 기재되어 있는 청구항이 고려된다. 그러한 청구항은 이 장치가 부가적인 컴포넌트들(예를 들어, 중앙 처리 유닛, 메모리 제어기, 인터페이스 회로 등)을 포함하는 것을 배제하지 않는다.

"~하도록 구성되는(configured to)". 다양한 유닛들, 회로들, 또는 다른 컴포넌트들은 태스크 또는 태스크들을 "수행하도록 구성되는" 것으로서 기술 또는 청구될 수 있다. 그러한 콘텍스트에서, "~하도록 구성되는"은 유닛들/회로들/컴포넌트들이 동작 중에 그 태스크 또는 태스크들을 수행하는 구조(예를 들어, 회로)을 포함한다는 것을 나타냄으로써 구조를 암시하는데 이용될 수 있다. 이와 같이, 유닛/회로/컴포넌트는, 특정 유닛/회로/컴포넌트가 현재 동작 중이 아닌(예를 들어, 온(on)이 아닌) 때에도 태스크를 수행하도록 구성되는 것으로 언급될 수 있다. "~하도록 구성되는"이라는 표현과 함께 이용된 유닛들/회로들/컴포넌트들은 하드웨어, 예를 들어, 회로들, 동작을 구현하도록 실행가능한 프로그램 명령어들을 저장하는 메모리 등을 포함한다. 유닛/회로/컴포넌트가 하나 이상의 태스크들을 "수행하도록 구성된다"라고 기술하는 것은, 그 유닛/회로/컴포넌트에 대해 35 U.S.C.§112, 제6 절을 인보크하지 않도록 의도된 것이 명백하다. 또한, "~하도록 구성되는"은 당면 태스크(들)를 수행할 수 있는 방식으로 동작하도록 소프트웨어 및/또는 펌웨어(예를 들어, 소프트웨어를 실행하는 범용 프로세서 또는 FPGA)에 의해 조작되는 일반적인 구조(예를 들어, 일반적인 회로)를 포함할 수 있다. "~하도록 구성되는"은 또한 하나 이상의 태스크들을 구현하거나 수행하도록 되어 있는 장치들(예를 들어, 집적 회로들)을 (예를 들어, 반도체 제조 설비에서) 제조하도록 제조 프로세스를 적응시키는 것을 포함할 수 있다.

"제1", "제2" 등. 이 용어들은, 본 명세서에서 이용되는 경우, 그들에 후속하는 명사들에 대한 라벨로서 이용될 수 있으며, 달리 명백한 지시가 없다면 임의의 유형(예를 들어, 공간적, 시간적, 논리적 등)의 순서화를 내포하고 있는 것은 아니다. 예를 들어, "제1" 스레드 및 "제2" 스레드는 임의의 2개의 스레드를 지칭하는데 이용될 수 있으며, (예를 들어) 하나의 스레드가 다른 스레드 전 또는 후에 생성되었다는 것을 의미하는 것은 아니다. 즉, "제1" 및 "제2"는 디스크립터들이다.

"~에 기초하여". 이 용어는, 본 명세서에서 이용되는 경우, 결정에 영향을 미치는 하나 이상의 인자들을 기술하는데 이용된다. 이 용어는, 부가적인 인자들이 결정에 영향을 미치지 못하게 한다는 것은 아니다. 즉, 결정은, 단지 이 인자들에 기초할 수 있거나, 또는 이 인자들에 적어도 부분적으로 기초할 수 있다. "B에 기초하여 A를 결정한다"라는 어구가 고려된다. B는 A의 결정에 영향을 미치는 인자일 수 있는 한편, 그러한 어구는 A의 결정이 또한 C에 기초하는 것을 배제하는 것은 아니다. 그러나, 다른 경우에, A는 B에만 기초하여 결정될 수 있다.

집적 회로

이하 도 1을 참조하면, 시스템(5)의 일 실시예의 블록도가 도시되어 있다. 도 1의 실시예에서, 시스템(5)은 외부 메모리들(12A 및 12B)에 연결된 집적 회로(IC)(10)를 포함한다. 도시된 실시예에서, 집적 회로(10)는 하나 이상의 프로세서들(16) 및 레벨 2(L2) 캐시(18)를 포함하는 중앙 프로세서 유닛(central processor unit: CPU) 블록(14)을 포함한다. 다른 실시예들은 L2 캐시(18)를 포함하지 않을 수 있고/있거나, 부가적인 레벨들의 캐시를 포함할 수 있다. 또한, 3개 이상의 프로세서들(16)을 포함하는 실시예 및 단 하나의 프로세서(16)를 포함하는 실시예가 고려된다. 집적 회로(10)는 하나 이상의 비실시간(NRT: non-real time) 주변 장치들의 세트(20) 및 하나 이상의 실시간(RT: real time) 주변 장치들의 세트(22)를 더 포함한다. 도시된 실시예에서, CPU 블록(14)은 하나 이상의 주변 장치들(32) 및/또는 하나 이상의 주변 장치 인터페이스 제어기들(34)에 연결될 수 있는 브리지/DMA(direct memory access) 제어기(30)에 연결된다. 주변 장치(32) 및 주변 장치 인터페이스 제어기(34)의 수는 다양한 실시예에서 0부터 임의의 원하는 수로 변할 수 있다. 도 1에 도시된 시스템(5)은, G0(38A) 및 G1(38B)과 같은 하나 이상의 그래픽 제어기를 포함하는 그래픽 유닛(36)을 더 포함한다. 그래픽 유닛당 그래픽 제어기의 수 및 그래픽 유닛의 수는 다른 실시예에서 변할 수 있다. 도 1에 도시된 바와 같이, 시스템(5)은 하나 이상의 메모리 물리적 인터페이스 회로(PHY)(42A-42B)에 연결된 메모리 제어기(40)를 포함한다. 메모리 PHY(42A-42B)는 집적 회로(10)의 핀들을 통해 메모리들(12A-12B)과 통신하도록 구성된다. 메모리 제어기(40)는 또한 포트들(44A-44E)의 세트를 포함한다. 포트(44A-44B)는 그래픽 제어기(38A-38B)에 각각 연결된다. CPU 블록(14)은 포트(44C)에 연결된다. NRT 주변 장치(20) 및 RT 주변 장치(22)는 포트(44D-44E)에 각각 연결된다. 메모리 제어기(40) 내에 포함된 포트들의 수는 메모리 제어기들의 수가 변하는 것과 같이, 다른 실시예에서 변할 수 있다. 즉, 도 1에 도시된 포트들보다 더 많은 또는 더 적은 포트들이 존재할 수 있다. 메모리 PHY(42A-42B) 및 대응하는 메모리들(12A-12B)의 수는 다른 실시예에서 하나 또는 3개 이상일 수 있다.

일반적으로, 포트는 하나 이상의 소스들과 통신하기 위한 메모리 제어기(40) 상의 통신 포인트일 수 있다. 몇몇 경우에, 포트는 소스에 전용일 수 있다(예컨대, 포트(44A-44B)는 그래픽 제어기(38A-38B)에 각각 전용일 수 있다). 다른 경우에, 포트는 다수의 소스들 간에 공유될 수 있다(예컨대, 프로세서(16)는 CPU 포트(44C)를 공유할 수 있고, NRT 주변 장치(20)는 NRT 포트(44D)를 공유할 수 있고, RT 주변 장치(22)는 RT 포트(44E)를 공유할 수 있다). 각각의 포트(44A-44E)는 인터페이스에 연결되어 그 각각의 에이전트와 통신한다. 인터페이스는 임의의 유형의 통신 매체(예컨대, 버스, 점대점 상호접속 등)일 수 있고, 임의의 프로토콜을 구현할 수 있다. 메모리 제어기와 소스 간의 상호접속은 또한 메쉬, 칩 패브릭(chip fabrics) 상의 네트워크, 공유 버스들, 점대점 상호접속 등과 같은 임의의 다른 원하는 상호접속을 포함할 수 있다.

프로세서(16)는 임의의 명령어 세트 아키텍처를 구현할 수 있고, 그 명령어 세트 아키텍처에 정의된 명령어들을 실행하도록 구성될 수 있다. 프로세서(16)는 스칼라, 수퍼스칼라, 파이프라인, 수퍼파이프라인, 비순차적(out of order), 순차적(in order), 추론적(speculative), 비추론적 등, 또는 이들의 조합을 포함하는 임의의 마이크로아키텍처를 이용할 수 있다. 프로세서(16)는 회로를 포함할 수 있고, 선택적으로 마이크로코딩 기술을 구현할 수 있다. 프로세서(16)는 하나 이상의 레벨 1 캐시들을 포함할 수 있고, 이에 따라 캐시(18)는 L2 캐시이다. 다른 실시예들은 프로세서들(16) 내에 다수의 레벨의 캐시를 포함할 수 있고, 캐시(18)는 계층에서 아래의 다음 레벨이 될 수 있다. 캐시(18)는 임의의 크기 및 임의의 구성(세트 연관(set associative), 직접 매핑(direct mapped) 등)을 이용할 수 있다.

그래픽 제어기(38A-38B)는 임의의 그래픽 처리 회로일 수 있다. 일반적으로, 그래픽 제어기(38A-38B)는 객체들이 프레임 버퍼로 디스플레이되게 하도록 구성될 수 있다. 그래픽 제어기(38A-38B)는 그래픽 동작의 일부 또는 모두를 수행하기 위한 그래픽 소프트웨어, 및/또는 특정 그래픽 동작의 하드웨어 가속화를 실행할 수 있는 그래픽 프로세서를 포함할 수 있다. 하드웨어 가속화 및 소프트웨어 구현의 양은 실시예마다 변할 수 있다. 몇몇 실시예에서, 그래픽 유닛(36) 및/또는 그래픽 제어기(38A-38B)는 이하 기술되는 바와 같이 그래픽 처리 유닛(50)의 특징들 중 임의의 특징 또는 모든 특징들을 포함할 수 있다.

NRT 주변 장치(20)는, 성능 및/또는 대역폭 이유로 인해, 메모리(12A-12B)에 대한 독립적인 액세스가 제공되는 임의의 비실시간 주변 장치들을 포함할 수 있다. 즉, NRT 주변 장치(20)에 의한 액세스는 CPU 블록(14)에 독립적이고, CPU 블록 메모리 동작들과 병행하여 진행될 수 있다. 주변 장치(32) 및/또는 주변 장치 인터페이스 제어기(34)에 의해 제어되는 주변 장치 인터페이스에 연결된 주변 장치들과 같은 다른 주변 장치들도 또한 비실시간 주변 장치일 수 있지만, 메모리에 대한 독립적인 액세스를 요구하지 않을 수 있다. NRT 주변 장치(20)의 다양한 실시예들은 비디오 인코더 및 디코더, 스케일러 회로 및 이미지 압축 및/또는 압축해제 회로 등을 포함할 수 있다.

RT 주변 장치(22)는 메모리 레이턴시에 대한 실시간 요건을 갖는 임의의 주변 장치를 포함할 수 있다. 예컨대, RT 주변 장치는 이미지 프로세서 및 하나 이상의 디스플레이 파이프를 포함할 수 있다. 디스플레이 파이프는, 하나 이상의 프레임들을 페치하며, 디스플레이 이미지를 생성하기 위해 프레임들을 블렌딩하기 위한 회로를 포함할 수 있다. 디스플레이 파이프는 하나 이상의 비디오 파이프라인을 더 포함할 수 있다. 디스플레이 파이프의 결과는 디스플레이 스크린 상에 디스플레이되는 픽셀들의 스트림일 수 있다. 픽셀 값들은 디스플레이 스크린 상의 디스플레이를 위해 디스플레이 제어기로 전송될 수 있다. 이미지 프로세서는 카메라 데이터를 수신하며, 그 데이터를 메모리에 저장되는 이미지로 처리할 수 있다.

브리지/DMA 제어기(30)는 주변 장치(들)(32) 및 주변 장치 인터페이스 제어기(들)(34)를 메모리 공간에 브리징하는 회로를 포함할 수 있다. 도시된 실시예에서, 브리지/DMA 제어기(30)는 주변 장치들/주변 장치 인터페이스 제어기들로부터의 메모리 동작들을 CPU 블록(14)을 통해 메모리 제어기(40)로 브리징할 수 있다. CPU 블록(14)은 브리징된 메모리 동작들과 프로세서들(16)/L2 캐시(18)로부터의 메모리 동작들 간의 코히런스를 또한 유지할 수 있다. L2 캐시(18)는 프로세서들(16)로부터의 메모리 동작들과 함께 브리징된 메모리 동작들을 또한 중재하여 CPU 인터페이스를 통해 CPU 포트(44C)에 전송되게 할 수 있다. 브리지/DMA 제어기(30)는 주변 장치들(32) 및 주변 장치 인터페이스 제어기(34)를 대신하여 DMA 동작을 또한 제공하여 데이터의 블록들을 메모리에 전송하고 또한 데이터의 블록들을 메모리로부터 전송할 수 있다. 보다 구체적으로, DMA 제어기는 주변 장치들(32) 및 주변 장치 인터페이스 제어기(34)를 대신하여 메모리 제어기(40)를 통해 메모리(12A-12B)로의 전송들 및 메모리(12A-12B)로부터의 전송들을 수행하도록 구성될 수 있다. DMA 제어기는 DMA 동작들을 수행하도록 프로세서들(16)에 의해 프로그램가능할 수 있다. 예컨대, DMA 제어기는 디스크립터들을 통해 프로그램가능할 수 있다. 디스크립터들은 DMA 전송들(예를 들면, 소스 및 목적지 어드레스들, 크기 등)을 기술하는, 메모리(12A-12B)에 저장된 데이터 구조들일 수 있다. 대안으로, DMA 제어기는 DMA 제어기에서의 레지스터들(도시되지 않음)을 통해 프로그램가능할 수 있다.

주변 장치들(32)은 집적 회로(10) 상에 포함되는 임의의 원하는 입력/출력 장치들 또는 다른 하드웨어 장치들을 포함할 수 있다. 예컨대, 주변 장치들(32)은 이더넷 MAC(media access controller) 등의 하나 이상의 네트워킹 MAC 또는 WiFi(wireless fidelity) 제어기와 같은 네트워킹 주변 장치들을 포함할 수 있다. 다양한 오디오 처리 장치들을 포함하는 오디오 유닛이 주변 장치들(32)에 포함될 수 있다. 하나 이상의 디지털 신호 프로세서들이 주변 장치들(32)에 포함될 수 있다. 주변 장치들(32)은 타이머들, 온칩 비밀 메모리(on-chip secrets memory), 암호화 엔진 등 또는 이들의 임의의 조합과 같은 임의의 다른 원하는 기능을 포함할 수 있다.

주변 장치 인터페이스 제어기들(34)은 임의의 유형의 주변 장치 인터페이스용의 임의의 제어기들을 포함할 수 있다. 예컨대, 주변 장치 인터페이스 제어기들은 USB(universal serial bus) 제어기, PCIe(peripheral component interconnect express) 제어기, 플래시 메모리 인터페이스, 범용 입력/출력(I/O) 핀들 등과 같은 다양한 인터페이스 제어기들을 포함할 수 있다.

메모리들(12A-12B)은 DRAM(dynamic random access memory), SDRAM(synchronous DRAM), (mDDR3 등과 같은 SDRAM들의 모바일 버전들 및/또는 LPDDR2 등과 같은 SDRAM들의 저전력 버전들을 포함하는) (DDR(double data rate), DDR2, DDR3 등의) SDRAM, RAMBUS DRAM(RDRAM), SRAM(static RAM) 등과 같은 임의의 유형의 메모리일 수 있다. 하나 이상의 메모리 장치들은 회로 기판 상에 결합되어 SIMM(single inline memory module)들, DIMM(dual inline memory module)들과 같은 메모리 모듈들을 형성할 수 있다. 대안으로, 이러한 장치들은 칩-온-칩 구성, 패키지-온-패키지 구성 또는 멀티-칩 모듈 구성으로 집적 회로(10)에 탑재될 수 있다.

메모리 PHY들(42A-42B)은 메모리(12A-12B)로의 저레벨 물리적 인터페이스를 핸들링할 수 있다. 예컨대, 메모리 PHY들(42A-42B)은 동기 DRAM 메모리 등으로의 적절한 클로킹을 위해 신호들의 타이밍을 맡을 수 있다. 일 실시예에서, 메모리 PHY들(42A-42B)은 집적 회로(10) 내에 공급되는 클록에 로킹하도록 구성될 수 있으며, 메모리(12)에 의해 이용되는 클록을 생성하도록 구성될 수 있다.

다른 실시예들은 도 1에 도시된 컴포넌트들 및/또는 다른 컴포넌트들의 서브세트들 또는 슈퍼세트들을 포함하는, 컴포넌트들의 다른 조합들을 포함할 수 있다는 점에 유의하여야 한다. 주어진 컴포넌트의 하나의 예가 도 1에 도시되어 있을 수 있지만, 다른 실시예들은 주어진 컴포넌트의 하나 이상의 예들을 포함할 수 있다. 마찬가지로, 이 상세한 설명 전체에 걸쳐, 하나만 도시되어 있더라도 주어진 컴포넌트의 하나 이상의 예들이 포함될 수 있고/있거나, 다수의 예들이 도시되어 있더라도 하나의 예만을 포함하는 실시예들이 이용될 수 있다.

가상 GPU들을 구현하는 그래픽 처리 유닛

이하 도 2를 참조하면, 블록도는, 다수의 가상 GPU(graphics processing unit)를 구현하는 GPU(50)의 일 실시예를 도시한다. 도 2의 실시예에서, GPU(50)는 인터페이스 로직 유닛(62), 피딩(feeding) 유닛(58), 태스크 관리자(55), 메모리 관리자(64), 및 하나 이상의 실행 유닛(60)을 포함한다. GPU(50)는 또한 이 실시예에서 복수의 가상 GPU(52)(VGPU)를 포함한다. 도시된 바와 같이, 각각의 가상 GPU(52)는 하나 이상의 명령어 버퍼(54) 및 하나 이상의 저장 위치(56)를 포함한다.

다양한 구조들이 도 2에 서로 접속된 것으로서 도시된다. 이 접속들은 버스, 점 대 점 전송 라인, 또는 당업자에게 알려진 임의의 다른 적합한 접속일 수 있다. GPU(50)에서의 구조들 간의 모든 접속들 또는 인터페이스들이 반드시 도시되는 것은 아니다. 따라서, 다양한 실시예에서, 도 2에서 도시된 임의의 또는 모든 구조들은 필요한 경우에 도 2에서의 임의의 또는 모든 다른 구조들에 대해 하나 이상의 적절한 접속에 의해 접속될 수 있다.

임의의 수의 가상 GPU들(52)이 GPU(50)의 다양한 실시예에서 존재할 수 있다. 도 2의 실시예에서, GPU(50)는 세 개의 가상 GPU(52A 내지 52C)로 도시된다. 이 실시예에서, 하나 이상의 명령어 버퍼(54) 및 저장 위치들(56) 각각의 세트는 각각의 가상 GPU들에 대응한다. 다른 실시예들에서, 더 많거나 더 적은 수의 VGPU가 존재할 수 있다.

따라서, VGPU들을 구현하는데 이용되는 회로 및 구조들의 레이아웃은 상이한 실시예들에서(또는 심지어 동일한 실시예 내에서도) 변할 수 있다. 예를 들어, 명령어 버퍼(들)(54)는 GPU(50)의 상이한 영역들에 위치할 수 있고, 상이한 서브 구조들을 포함할 수 있다. 일 실시예에서, 명령어 버퍼들(54) 중 하나는 명령들을 저장하도록 구성되는 반면, 명령어 버퍼들(54) 중 다른 하나는 태스크들을 저장하도록 구성되고, 또한 명령어 버퍼들(54) 중 또 다른 하나는 스레드들을 저장하도록 구성된다. 명령어 버퍼 구성 및/또는 할당은 또한 가상 GPU들 간에서 변할 수 있다. 따라서, 일 실시예에서, 제1 가상 GPU는 명령들, 태스크들, 및 스레드들에 대한 세 개의 각각의 명령어 버퍼들을 가질 수 있는 반면, 또 다른 가상 GPU는 상이한 구성을 이용할 수 있다. (일반적으로 용어 "가상 GPU"는, 예를 들어 GPU 내에서, 본 명세서에서 기술되는 바와 같은 가상 GPU들의 기능의 전부 또는 일부를 구현하도록 구성되는 하나 이상의 구조를 말한다는 것에 유의하라. 그러나, 몇몇 실시예에서, 가상 GPU는, 예를 들어 "복수의 가상 GPU를 구현하도록 구성되는 제1 회로 또는 GPU 등"과 같은 하나 이상의 특정 구조에 의해 구현되는 것으로 언급될 수 있다.)

본 명세서에서 이용되는 것과 같은 용어 "명령"(또는 "GPU 명령")은 GPU에 의한 실행을 위한 보다 고레벨 명령을 언급한다. (즉, 예를 들어 명령이 하나 이상의 대응하는 명령어를 가질 수 있다고 하더라도 용어 "명령"은 단일의 32-비트 또는 64-비트 컴퓨터 명령어를 언급하지는 않는다.) 몇몇 실시예에서, GPU 명령은 CPU의 하나 이상의 스레드에서 실행되는 소프트웨어에 의해 GPU로 발행될 수 있다. 일 실시예에서, 그러한 명령은 메모리에 대한 하나 이상의 포인터를 포함할 수 있는 OpenCL 문장일 수 있다. 예를 들어, GPU 명령은 제1 메모리 위치에 저장되는 제1 매트릭스와 제2 메모리 위치에 저장되는 제2 매트릭스의 내적을 계산하도록 GPU에 지시하는 OpenCL 문장일 수 있다. 많은 다른 유형의 명령들이 가능하고, 하나 이상의 다각형을 렌더링하는 것 등과 같은 그래픽 태스크에 대응할 수 있다. 명령들은 상이한 실시예들에서 임의의 수의 포맷 및/또는 컴퓨터 언어로 이루어질 수 있다. 몇몇 실시예에서, GPU는 (예를 들어, OpenCL, OpenGL, OpenAL, 또는 다른 언어들 및/또는 프로그래밍 프레임워크들과 같은) 다수의 상이한 유형 또는 스타일의 명령을 지원할 수 있다. 몇몇 실시예에서, GPU 명령은 GPU가 접속되는 CPU상에서 실행되는 특정 컴퓨팅 프로세스(또는 스레드)에 대응할 수 있다.

이하에서 더 기술되는 바와 같이, 몇몇 실시예에서, GPU 명령은 자신과 연관되는 하나 이상의 대응하는 저레벨 "태스크들"을 가질 수 있다. 다양한 실시예들에서, "태스크"는 하나 이상의 스레드 및/또는 하나 이상의 명령어들로 더 쪼개질(분할될) 수 있다. 예를 들어, 단락 [0042] 내지 [0045]를 참조하라. 따라서, 일 실시예에서, GPU 명령은 하나 이상의 대응하는 태스크들을 가질 것이며, 각각의 태스크는 하나 이상의 대응하는 스레드들을 가지며, 각각의 스레드는 하나 이상의 명령어들을 포함한다.

도 2의 실시예에서, 인터페이스 로직(62)은 GPU에 의한 실행을 위한 명령들을 수신할 수 있다. 그러한 명령들은 CPU로부터 수신될 수 있으며, 메모리에 대한 포인터들(즉, 데이터 및/또는 실행을 위한 추가적인 명령어들에 대한 포인터들)을 포함할 수 있다. 인터페이스 로직(62)은 결과들을 CPU에 전달하거나, 다르게 계산의 결과들이 준비되었다는 것을 CPU에 나타낼 수 있다(예를 들어, 로직(62)은 결과들이 메모리 내의 위치에 저장되었고 검색될 준비가 되었다는 것을 통지할 수 있음). 따라서, 다양한 실시예들에서, 인터페이스 로직(62)은 CPU, 메모리 제어기, 및/또는 도 1에 도시된 다른 구조들(또는 컴퓨팅 장치 또는 컴퓨터 시스템 내에 존재할 수 있는 다른 것)과 직접 통신하도록 구성될 수 있다. 도 2에 도시된 것과 같이, 인터페이스 로직(62)은 하나의 발신 통신 접속에 연결되지만, 다른 구성들도 가능하다(예컨대, 로직(62)은 CPU로의 접속, 및 메모리 또는 메모리 제어기 등으로의 다른 접속을 가질 수 있다).

일부 실시예들에서, 인터페이스 로직(62)은 또한 특정 (인입) 명령에 대응하는 VGPU를 나타내는 정보를 수신하도록 구성된다. 즉, 로직(62)은 명령이 속하는(또는 할당되는) VGPU를 나타내는 정보를 수신할 수 있다. 일 실시예에서, 이 정보는 수치 0 내지 (N-1)을 특정하는 비트 필드에 표시되며, N은 VGPU들의 수이다. 일 실시예에서, VGPU 지시자는 GPU 명령 자체의 일부일 수 있는 반면, 다른 실시예에서, VGPU 지시자는 개별적으로 (예를 들어, GPU 명령 내의 포인터에 의해 포인팅된 메모리 위치 내에) 저장될 수 있다.

다양한 실시예들에서, 인터페이스 로직(62) 및/또는 VGPU들(52)은 GPU 명령을 VGPU 지시자에 기초하여 특정 명령어 버퍼(54)로 라우팅하도록 구성될 수 있다. 따라서, 8개의 VGPU들을 갖는 실시예에서, 특정 명령에 대한 011의 비트 필드는 그 명령이 VGPU #3에 대한 명령어 버퍼로 라우팅되도록 할 것인 한편, 상이한 명령에 대한 000의 비트 필드는 그 상이한 명령이 VGPU #0에 대한 명령어 버퍼로 라우팅되도록 할 것이다. (일부 실시예들에서, 명령어 버퍼(들)(54)는 둘 이상의 VGPU들 사이에서 공유될 수 있다는 것을 유념하라; 바꾸어 말하면, 동일한 명령어 버퍼가 상이한 VGPU들에 대한 명령들을 유지할 수 있다. 마찬가지로, 일부 실시예들에서, 저장 위치(들)(56)는 둘 이상의 VGPU들 사이에서 공유될 수 있다. 공유된 구조들을 갖는 이런 실시예들에서, VGPU의 지시는 대응하는 데이터, 명령들, 또는 명령어들과 함께 액세스가능한 방식으로 유지될 수 있다.) 전술한 바에 따르면, 각각의 VGPU(52) 내의 하나 이상의 명령어 버퍼들(54)은 실행될 하나 이상의 명령들을 저장하도록 구성될 수 있다. 다양한 실시예들에서, 인터페이스 로직(62)은 CPU로부터 수신한 명령들을 적절한 VGPU들 및 적절한 명령어 버퍼(들)(54)로 적절하게 라우팅하도록 구성된다.

도 2의 실시예에서, GPU 명령들은 태스크 관리자(55)에 의해 처리될 수 있다. 이 실시예에서, 태스크 관리자(55)는 GPU에 의한 명령의 실행을 완료하기 위해, 명령어 버퍼(들)(54) 중 하나에 저장된 명령에 대응하는 하나 이상의 태스크들을 생성하도록 구성된다. 따라서, 태스크는 GPU 명령보다 낮은 레벨로 특정되는 하나 이상의 컴퓨터 동작들을 나타낼 수 있다.

예를 들어, 일 실시예에서, GPU 명령은 특정된 컬러, 및 정육면체 에지들을 정의하는 8개의 정점들의 세트에 따라 적색 정육면체가 드로잉되어야 한다는 것을 특정할 수 있다. 정육면체의 각각의 면에 대해, 그 면에 대한 경계들을 계산하기 위해 상이한 태스크가 생성될 수 있는 한편, 정육면체의 가시 부분들을 쉐이딩하고/하거나 채색하기 위해 하나 이상의 다른 태스크들이 생성될 수 있다. 따라서, 하나의 GPU 명령은 태스크 관리자(55)에 의해 임의의 수의 태스크들로 확장될 수 있다.

일 실시예에서, 태스크 관리자는 저장된 명령어들을 판독함으로써 GPU 명령을 하나 이상의 태스크들로 확장(또는 분할)한다(즉, 일 실시예에서, 주어진 GPU 명령에 대한 태스크들은 미리 특정되어 있다). 태스크 관리자(55)는 상이한 유형의 명령들을 핸들링하기 위한 특정 로직(하드웨어, 펌웨어, 소프트웨어, 또는 이들의 일부 조합)을 포함할 수 있다. 예를 들어, 태스크 관리자(55)는 매트릭스 곱셈을 특정하는 OpenCL 명령어에 응답하여 특정 태스크들을 생성하는 한편, 다수의 다각형들에 대해 수행될 쉐이딩을 특정하는 OpenGL 명령어에 응답하여 다른 특정 태스크들을 생성하도록 구성될 수 있다. 주어진 명령에 대해 태스크 관리자(55)에 의해 생성되고/되거나 관리되는 태스크들의 수는 명령의 유형, 그것의 파라미터, 및/또는 명령을 수반하는 특정 메모리 콘텐츠에 따라 변할 수 있다(예를 들어, 태스크들은 특정 명령에 대한 특정 데이터에 의존할 수 있다).

일부 실시예들에서, 태스크 관리자(55)는 GPU 내의 하나 이상의 실행 유닛(들)(60)에 의한 처리를 위해 주어진 태스크를 하나 이상의 GPU 실행 "스레드들"로 분할하도록 구성된다. 일부 실시예들에서, GPU 스레드는 태스크보다 낮은 레벨에서도 실행된다. 적색 정육면체의 가시 면을 완전하게 렌더링하기 위해, 예를 들어, 채도 및 휘도 값들이 각각의 가시 픽셀에 대해 계산되어야 할 수 있다. 하나의 스레드는 다양한 실시예들에서 단일 픽셀 또는 픽셀들의 그룹(예를 들어, 4x4 픽셀 어레이)에 대한 휘도 값을 계산하기 위해 실행될 수 있다. 따라서, 단일 GPU 태스크는 태스크 관리자(55)에 의해 임의의 수의 스레드들로 확장될 수 있다. 태스크 관리자(55)는 상이한 유형의 태스크들에 대한 스레드 생성을 핸들링하는 특정 로직(하드웨어, 펌웨어, 소프트웨어, 또는 그들의 일부 혼합)을 포함할 수 있다. 일부 실시예들에서, 태스크들 및 스레드들은 하나이고 동일하다(즉, 이들 실시예들에서, "태스크" 조직화 레벨은 "스레드들"에 대한 조직화 레벨과 동일하고, 모든 태스크는 하나의 스레드를 포함한다). 일 실시예에서, 태스크 관리자는 메모리 내의 위치에 저장된 명령어들을 판독함으로써 태스크를 하나 이상의 스레드로 분할하도록 구성된다(즉, 태스크 관리자(55)는 저장된 명령어들을 검색함으로써 실행될 하나 이상의 스레드를 생성하도록 구성될 수 있다). 전술한 바에 따르면, 일 실시예에서, 태스크 관리자(55)는 태스크 및/또는 GPU 명령에 대응하는 하나 이상의 스레드 및/또는 명령어들을 생성하도록 구성된다.

따라서, 하나 이상의 명령어 버퍼(들)(54)는 대응하는 VGPU에 대한 명령들, 태스크들, 스레드들 또는 그들의 임의의 조합을 저장할 수 있다. 따라서, 일 실시예에서, 특정 GPU 명령이 인터페이스 로직(62)에 의해 수신되고, 하나 이상의 명령어 버퍼(들)(54)로 라우팅된다. (이 실시예에서, GPU 명령들을 저장하도록 구성된 명령어 버퍼는 "명령 버퍼"로서 지칭될 수 있다.) 그런 다음, 태스크 관리자(55)는 변환되고/되거나 다수의 대응하는 태스크들로 분할될 명령을 야기시킬 수 있고, 이들 각각은 실행될 임의의 수의 스레드들 및/또는 더 낮은 레벨의 명령어들로 더 분할될 수 있다. 따라서, 그 후에 모든 GPU 명령들, 태스크들, 스레드들, 및/또는 명령어들은, 이들 명령들, 태스크들, 스레드들 및/또는 명령어들이 대응하는 VGPU의 ID(identity)(예를 들어, 비트 필드)를 나타내는 정보와 함께 하나 이상의 명령어 버퍼(들)(54)에 저장될 수 있다. VGPU에 대한 정보를 식별하는 것은 다른 형태들을 취할 수 있으며, 일부 실시예들에서 구조적으로 내재되어 있을 수 있다(예를 들어, 특정 비트 라인들 또는 회로의 부분들이 신호들을 반송하거나 VGPU의 ID를 나타낼 수 있는 정보를 저장하는데 이용된다는 단순한 사실).

임의의 명령, 태스크 및/또는 스레드에 대하여, 다양한 정보는 태스크 관리자(55)에 의해 하나 이상의 실행 유닛들(60)을 통한 실행 과정들로서 유지되고/되거나 업데이트될 수 있다. 태스크 관리자(55)에 의해 유지되는 이러한 정보는 프로그램 카운터, VGPU 식별자, 및 특정 VGPU가 액세스하도록 허용되는 하나 이상의 어드레스 범위들(가상 및/또는 물리)을 나타내는 어드레스 공간 정보를 포함할 수 있다. 명확하게 언급되지 않은 다른 정보가 다양한 실시예에서 또한 태스크 관리자(55)에 의해 유지되고/되거나 업데이트될 수 있다. (어드레스 공간은 또한 메모리 관리자(64)에 대하여 이하에 더 논의되지만, 일부 실시예들에서, 오버랩 어드레스 범위들이 상이한 VGPU들에 할당되는 경우, 에러성(erroneous) 계산들이 발생할 수 있음을 유의한다.)

일 실시예에서, GPU는 CPU 스레드당 하나의 가상 GPU를 지원할 수 있다. 통합된 메모리 시스템에서, 이것은 CPU가 GPU에 컴퓨팅 작업을 미세 정밀도로(fine grained basis) 핸드오프하게 할 수 있다. 그러한 실시예에서, 가상 GPU들은 공정한 공유 우선순위로 시간 순차화될 수 있거나, CPU 스레드 우선순위에 매칭될 수 있다. (즉, 일 실시예에서, CPU 상의 스레드에 대한 우선순위 레벨은 GPU에 대한 명령, 태스크, 스레드 및/또는 명령어에 대해 우선순위 레벨을 결정한다.) 일 특정 실시예에서, 3개의 가상 GPU들, 사용자 인터페이스(UI) 명령어들에 대한 것, "규칙적인(regular)" 명령어들에 대한 것, 및 백그라운드 명령어들에 대한 것이 존재한다. 이 실시예에서, UI 가상 GPU는 "규칙적인" 가상 GPU 위의 우선순위를 갖고, 다음에 이 "규칙적인" 가상 GPU는 "백그라운드" 가상 GPU 위의 우선순위를 갖는다.

VGPU들에 대한 선택 및 우선순위화

하나 이상의 스레드들이 실행될 준비가 되면, 피딩 유닛(58)은 그 스레드들을 선택하고 그들을 실행 유닛(들)(60)으로 포워딩할 수 있다. 일부 실시예들에서, 스레드를 포워딩하는 것은 (하나 이상의 실행가능한 명령어들의 위치를 식별하는) 프로그램 카운터를 실행 유닛으로 전송하는 것을 포함한다. 그 다음 실행 유닛은 명령어들을 페치하고 그들이 실행되도록 할 수 있다. 일 실시예에서, 스레드를 실행 유닛으로 포워딩하는 것은 하나 이상의 실행가능한 명령어들의 스트림(예를 들면, 피연산자 및/또는 op 코드를 포함하는 일련의 비트들)을 제공하는 것을 포함한다. 일부 실시예들에서, 피딩 유닛(58)은 개별 단위로 스레드들을 선택하고 포워딩하도록 구성된다. 그러나, 다른 실시예들에서, 피딩 유닛(58)은 태스크 레벨 기반으로 스레드들을 선택하고 포워딩하도록 구성되며, 이러한 실시예에서, (스레드들의 단지 일부만이 포워딩되는 것보다는) 특정 태스크에 대한 모든 스레드들이 실행 유닛(들)(60)으로 포워딩될 것이다. 따라서, 이러한 실시예들에서, 선택 및 포워딩은 스레드 레벨의 정밀도보다는 태스크 레벨의 정밀도로 발생하는 것으로 언급될 수 있다.

피딩 유닛(58)에 의한 스레드들의 선택은 하나 이상의 우선순위 스킴들에 따라서 수행될 수 있다. 도 2의 실시예에서, 고정된 우선순위 스킴이 채용된다. 이 실시예에서, VGPU(52A)는 가장 높은 우선순위를 가지며, VGPU(52B)는 다음으로 높은 우선순위를 가지며, VGPU(52C)는 가장 낮은 우선순위를 가진다. 따라서, 피딩 유닛(58)이 실행 유닛(들)(60)으로 어떤 스레드(들)을 포워딩할지를 결정할 때, VGPU(52A)에 대해 대기 중인 스레드(또는 태스크)가 VGPU(52B) 또는 VGPU(52C)에 대해 대기 중인 스레드보다 우선하여 실행될 것이다. 이러한 스킴에서, VGPU(52A)에 대한 스레드들(또는 태스크들)은 아무 것도 남지 않을 때까지 계속 실행될 것이며(즉, 피딩 유닛에 의해 실행되도록 포워딩되며), 이 때 VGPU(52B) 또는 VGPU(52C)에 대한 스레드들 또는 태스크들은 (VGPU(52B)에 우선도가 주어진 상태로) 실행 유닛(들)(60)으로 포워딩될 것이다.

다른 우선순위화 스킴들이 가능하며 고려된다. 예를 들면, 일 스킴에서, GPU(50)의 다수의 VGPU들이 GPU가 접속되도록 구성된 CPU에 대한 다수의 스레드들에 의해 이용될 수 있다. 각각의 CPU 스레드는 (예를 들면, 운영 체제에 의해 설정될 수 있는) 자신의 우선순위 레벨을 가질 수 있다. 이러한 스킴에서, CPU 스레드가 GPU 명령을 VGPU들 중의 하나에 디스패치할 때, 그 명령(및 그의 관련된 태스크들, 스레드들, 및/또는 명령어들)에는 대응하는 CPU 스레드의 우선순위 레벨과 동일한 우선순위 레벨이 주어질 수 있다.

(가장 마지막으로 논의된 스킴과 동일한 실시예들 중 일부에서 이용될 수 있는) 다른 우선순위 스킴에서, VGPU는 별개 수의 서로 다른 우선순위들 중 임의의 하나를 부여받을 수 있다. 예로서, 네 개의 VGPU들 각각이 0 내지 3으로부터 가변적인 우선순위 레벨을 가질 수 있는데, 여기서 우선순위 레벨 0은 가장 높은 순위를 갖는다. 일 변형예에서, 하나 이상의 공정성 스킴들에 따라, 동일한 레벨의 우선순위를 갖는 둘 이상의 VGPU들이 피더 유닛(58)에 의해 포워딩된 스레드들 또는 태스크들을 가질 수 있다(예를 들면, 가중된 또는 가중되지 않은 순환식 중재(round robin arbitration)가 이용될 수 있다). 일부 실시예들에서, 우선순위 스킴들은 서비스 레벨 보증들을 수반할 수 있다(예를 들면, 특정 우선순위 레벨은 GPU 명령, 태스크, 및/또는 스레드가 일부 특정 시간 프레임 내에서 또는 몇 개의 클록 사이클 내에서 실행되는 것을 보증할 수 있다). 이러한 일 실시예에서 VGPU 우선순위 선택에 대하여 가중된 순환식 중재가 또한 이용될 수 있다(이는 보다 저레벨 우선순위 명령들, 태스크들, 또는 스레드들에 대하여 긴 시간의 기능 정지를 회피할 수 있다). 따라서, 이용가능한 실행 유닛(60)을 이용할 수 있게 되는 특정의 VGPU를 결정하는 것은 다양한 인자들에 종속될 수 있다.

전술한 바에 따르면, 피딩 유닛은 도 2의 실시예에서 주어진 GPU 명령에 대응하는 스레드들을 주어진 GPU 명령에 대한 우선순위 레벨에 기초하여 하나 이상의 실행 유닛들로 포워딩하도록 구성된다. (이 우선순위 레벨은 다음에 VGPU의 ID에 기초할 수 있다; 즉, 일부 VGPU들은 다른 것들보다 더 높거나, 더 낮거나, 동일한 우선순위를 가질 수 있다.) 따라서, 주어진 GPU 명령에 대응하는 하나 이상의 스레드들은 더 낮은 우선순위 GPU 명령에 대응하는 다른 스레드들에 우선하여 선택적으로 포워딩될 수 있다. (그러나, 일 실시예에서, 더 낮은 우선순위 GPU 명령에 대한 하나 이상의 스레드들은 더 높은 우선순위를 갖는 GPU 명령에 대응하는 스레드들이 포워딩된 이후에, 나중에 포워딩될 수 있다.)

피딩 유닛은 또한, 일 실시예에서, 이용가능하며 이용할 준비가 된 실행 유닛들의 유형들에 기초하여 실행을 위한 스레드들 및/또는 명령어들을 포워딩하도록 구성된다. 예를 들면, 더 낮은 우선순위 스레드는, 특정 유형의 실행 유닛 상에서 실행될 수 있는 대기하고 있는 더 높은 우선순위 스레드가 없는 경우에, 그 유형의 실행 유닛(예를 들면, 쉐이딩)에 포워딩될 수 있다. 따라서, 도 2의 실시예에서, 쉐이딩 유닛(60)이 비어있으나 더 높은 우선순위 VGPU들(52A 및 52B)이 실행할 준비가 된 어떠한 쉐이딩 스레드들도 갖지 않는 경우, 가장 낮은 우선순위 VGPU(52C)로부터의 스레드가 대신에 선택될 수 있다. 따라서, 스레드 선택 및 포워딩은, 일부 실시예들에서, 스레드의 유형 및/또는 그 스레드를 포함하는 명령어들의 유형들에 기초한다.

실행

실행 유닛(들)(60)은 각각의 VGPU들에 대한 명령어들을 실행하도록 구성된다. 실행 유닛(들)은 당업자에 공지된 기법들에 따라 구성될 수 있고, 또한 특정 VGPU들에 대한 스레드들, 태스크들, 및/또는 명령들에 대응하는 명령어들을 실행하도록 다양한 실시예들에서 구성된다. 일부 실시예들에서, 하나 이상의 실행 유닛(들)(60)은 파이프라인되고(pipelined), 따라서, 동시에 상이한 VGPU들에 대한 명령어들을 실행할 수 있다. 하나 이상의 실행 유닛(들)(60)은 또한 일부 실시예들에서 다중-스레딩된다(multi-threaded). 따라서, 그러한 실시예들에서의 개별 실행 유닛은 둘 이상의 스레드들(일부 경우에는, 수백 또는 수천의 스레드들)에 대한 명령어들의 동시 실행을 지원할 수 있다. 실행 유닛(들)(60)은, 쉐이딩 유닛들, 텍스처링 유닛들, 틸링 유닛들, 정점 유닛들, 벡터 계산 유닛들 등 중 하나 이상의 임의의 조합을 포함할 수 있으나, 이에 제한되지 않는다.

실행 유닛(들)(60)은 도 2의 실시예의 실행된 스레드들 및/또는 명령어들에 대한 결과들을 생성하도록 구성된다. 일부 실시예들에서, 다른 구조들이 또한 실행된 스레드들 및/또는 명령어들에 대한 결과들의 전부 또는 일부를 생성할 수 있다. 실행 유닛(들)(60)은, 일 실시예에서, 주어진 명령어가 실행되고(예를 들면, 실행 파이프라인을 통과하고) 있을 때, 그 명령어가 속한 VGPU의 지시자를 유지하도록 구성된다. 도 2의 실시예에서 주어진 명령어의 결과들이 계산된 후에, GPU(50)는 그 명령어가 속한 VGPU의 지시자에 기초하여 저장 위치(들)(56) 중 적절한 하나에 결과들을 저장하도록 구성된다. 따라서, VGPU(52A)에 대한 명령어(또는 일련의 하나 이상의 명령어들)의 결과들이 계산될 때, 그들은 그 특정 VGPU(및 마찬가지로 VGPU들(52B 및 52C))에 대응하는 저장 위치(56)로 송신될 수 있다. 다양한 실시예들에서, 명령어들의 결과들은 데이터 및/또는 메모리 포인터들(즉, 다른 데이터가 상주하는 메모리 내의 어드레스에 대한 포인터들)을 포함할 수 있다. 일 실시예에서, 하나 이상의 레지스터들의 세트들은 상이한 VGPU들에 대응하는 명령어들에 대한 데이터 값들을 저장하도록 구성된다. 따라서, 일 실시예에서, 64개의 상이한 레지스터들을 포함하는 아키텍처 설계를 갖는 GPU는, GPU에 의해 지원되는 네 개의 VGPU들 중 각 하나에 대해 설정된 레지스터를 구현하기 위해 총 256개의 레지스터들(4*64)을 가질 수 있다.

일부 실시예들에서, 스레드들 및/또는 명령어들의 실행의 결과들은 추가 정보를 포함한다. 일 실시예에서, 실행의 결과들은 특정 스레드에 대한 모든 명령어들이 실행되어 있다(즉, 스레드가 실행하는 것을 마쳤다)는 표시를 포함할 수 있다. 실행의 결과들은 또한 특정 태스크에 대해 또는 특정 GPU 명령에 대해 실행이 완료되었다는 표시를 포함할 수 있다. 일 실시예에서, 명령어들의 결과들은 또한 (예를 들면, 실행될 다음 명령어 또는 스레드에 대해 증분될 수 있는) 하나 이상의 프로그램 카운터 값들을 포함할 수 있다. 따라서, 각 VGPU는 일부 실시예들에서 하나 이상의 대응하는 프로그램 카운터들을 가질 수 있다.

VGPU들에 대한 실행의 중지 및 재개는 상이한 실시예들에서 상이한 레벨의 정밀도로 발생할 수 있다. 즉, GPU 명령, 태스크, 스레드, 또는 명령어는 더 높은 우선순위 VGPU가 실행 유닛(들)(60)을 이용하는 동안 동결될 수 있다. (예를 들면, 저장 위치들(56)의) 실행의 저장된 결과들은 그 후 특정 VGPU가 GPU의 우선순위를 다시 얻었을 때 그것에 대한 실행을 재개하기 위해 이용될 수 있다.

일 실시예에서, 스레드의 실행은, 스레드(명령어 레벨 상의 VGPU 정밀도)에 대한 마지막 프로그램 카운터 값을 이용함으로써 다음 명령어에서 재개될 수 있다. 태스크의 실행은, 일 실시예에서, 태스크(스레드 레벨 상의 VGPU 정밀도)의 완료를 위해 필요한 새로운 스레드의 실행을 시작함으로써 재개될 수 있다. 그러한 실행의 재개는, 예를 들면, 실행이 이전에 이전 스레드의 끝부분에서 중단된 후에 그러나 다음 스레드가 시작되기 전에 일어날 수 있다.

GPU 명령의 실행은 다음 태스크(태스크 레벨 상의 VGPU 정밀도)의 실행을 시작함으로써 재개될 수 있다. 명령 레벨에서의 정밀도(및 우선순위 선택)은 또한 일부 실시예들에서 가능하다. 정밀도의 이러한 레벨들은 서로 배타적이지 않지만, 예를 들면, GPU 명령의 실행은 일부 실시예들에서 부분적으로 실행되는 스레드의 중간에 또는 부분적으로 실행되는 태스크의 중간에 시작함으로써 재개될 수 있다. 실행을 재개하는 것은 일부 실시예들에서, 특정 VGPU 전용인 하나 이상의 레지스터의 세트로부터 중간 결과들을 검색하는 것을 포함한다.

일반적으로, 용어 "우선순위 레벨"은 VGPU, GPU 명령, 태스크, 스레드, 및/또는 명령어의 전부 또는 임의의 것에 적용될 수 있다는 것에 유의해야 한다. 예를 들면, 스레드는 특정 우선순위 레벨을 갖는다고 언급할 수 있고, 또는 특정 우선순위 레벨은 명령어 또는 태스크에 대응한다고(또는 "에 대한" 것이라고) 언급할 수 있다. 따라서, 일부 실시예들에서는, 스레드 내의 각각의 명령어는 스레드와 동일한 우선순위 레벨을 갖는다고 언급할 수 있고; 태스크에 속한 각각의 스레드는 태스크와 동일한 우선순위 레벨을 갖는다고 언급할 수 있고; GPU 명령에 대응하는 각각의 태스크는 GPU 명령 그 자체와 동일한 우선순위 레벨을 갖는다고 언급할 수 있다. 일 실시예에서, 특정한 VGPU에 대응하는 모든 GPU 명령, 태스크, 스레드 및/또는 명령어들은 그 VGPU의 우선순위 레벨에서 모두 실행된다.

GPU 메모리 관리 및 리소스 할당

각각의 VGPU(52)는 도 2의 실시예에서 보호된 데이터 및 어드레스 공간을 갖는다. 실행 유닛(들)(60)이 이 실시예에서 상이한 VGPU들에 대해 상이한 스레드 및/또는 명령어를 실행하는데 이용되더라도, GPU는 하나의 VGPU에 대한 실행 결과가 상이한 VGPU에 대한 실행 결과에 의해 덮어 쓰여지지 않도록 하는 방식으로 동작할 수 있다. 이런 이유로, 도 2의 실시예에서, 저장 위치(들)(56)는 계산을 위해 그리고/또는 결과를 저장하기 위해 이용되는 레지스터 세트를 포함한다. 그러나, 레지스터 값들에 영향을 미치는 것에 부가하여, 명령어들의 실행은 또한 메모리(로컬 GPU 메모리 및/또는 인터페이스 로직(62)을 통해 액세스가능한 시스템 메모리)에 저장된 데이터를 변경시킬 수 있다.

따라서, 도 2의 실시예에서, 메모리 관리자(64)는 다수의 VGPU에 대한 메모리 액세스를 관리하도록 구성된다. 특히, 메모리 관리자(64)는 가상 어드레스 공간의 이용으로부터 발생하는 이슈들을 핸들링하도록 구성된다. 도 2에 도시된 바와 같이, 상이한 가상 어드레스 공간은 각각의 VGPU에 의해 이용된다. 각각의 VGPU는 예를 들면, 크기가 512MB인 (가상) 범위에서의 메모리에 액세스가능할 수 있다. 물리적 메모리 어드레스 범위보다 가상 어드레스 범위를 이용함으로써, 태스크 및/또는 GPU 명령으로부터 스레드 및/또는 명령어를 발생시키는 것은 (일부 실시예에서) 단순화될 수 있는데, 이는 가상 메모리 어드레스 범위가 수치적으로 동일하기(그리고 따라서 상이한 물리적 베이스 어드레스에 기초하여 상이할 수 있는 특정 메모리 어드레스 계산을 수행할 필요가 없기) 때문이다. 제1 VGPU에 대한 제1 명령어 및 제2 VGPU에 대한 제2 명령어는 가상 어드레스 공간에서의 정확한 몇몇 위치(들)를 목표로 할 수 있다(그러나 서로 간섭하지는 않을 것임). 그러한 실시예에서, 메모리 관리자(64)는 데이터가 VGPU 각각에서 메모리에 쓰여지거나 그로부터 판독될 때, 실제 물리적 메모리의 상이한 오버랩되지 않은 부분들이 이용되는 것을 보장하도록 구성된다.

일부 실시예들에서, 주어진 VGPU는 따라서 임의의 주어진 시간에 물리적 메모리의 할당된 상이한 부분들일 수 있다. 일부 실시예들에서, 이러한 할당은 꽤 간단할 수 있다. 예를 들면, GPU가 VGPU의 개수에 VGPU 가상 어드레스 공간의 길이를 곱한 값과 동일한 또는 더 큰 물리적 메모리 양을 갖는다면, 충돌은 없을 수 있고, 각각의 VGPU는 단순히 하나 이상의 물리적 메모리 부분의 배타적 이용에 할당될 수 있다. 예를 들면, 4GB 메모리를 갖는 GPU 및 512MB의 가상 어드레스 공간을 각각 갖는 8개의 VGPU에서, 충돌이 없을 수 있다. 그러나, 일부 실시예들에서, VGPU에 대한 가상 메모리 공간의 총량은 GPU에서 이용가능한 물리적 메모리의 양을 초과할 수 있다. 예를 들면, 3개의 VGPU가 2GB 가상 어드레스 공간을 각각 갖는다면, GPU는 3GB의 메모리를 가질 뿐이고, 모든 VGPU를 수용하기에 충분한 물리적 메모리가 없을 수 있다. 그러한 실시예들에서, 메모리 관리자(64)는 물리적 메모리를 다양한 VGPU의 가상 어드레스 공간들에 할당(및 매핑)하도록 구성된다.

가상 어드레스 공간에 대한 물리적인 메모리 할당은 다양한 방식으로 수행될 수 있다. 일 실시예에서, 최고 우선순위 VGPU가 그것의 전체 가상 어드레스 범위에 물리적으로 할당될 수 있는 한편, 낮은 우선순위 VGPU들은 그것들 각각의 가상 어드레스 범위들 중 일부의 부분에 할당된다. 다른 실시예에서, 높은 우선순위 VGPU는 그것의 가상 어드레스 범위의 일부의 큰 부분에 할당되는 한편, 낮은 우선순위 VGPU들은 그것들 각각의 가상 어드레스 범위들 중 일부의 작은 부분들에 할당된다. 또한, 일부의 실시예들에서, 물리적인 메모리 할당은 "필요에 따른" 방식으로 수행될 수 있다. 이러한 실시예들에서, 스레드 및/또는 명령어가 가장 최근에 실행된 VGPU는 임의의 메모리 요청들에 대하여 우선순위가 주어질 수 있다. 따라서, 어떤 것도 이용가능하지 않을 때 활성 VGPU가 물리적 메모리를 더 요구하면, 활성 VGPU가 계산, 결과들 또는 실행될 명령어들의 저장 등에 물리적 메모리를 이용하도록, 다른 VGPU들 중 하나에 대한 물리적 메모리가 할당해제될 수 있다. 물리적 메모리의 할당해제는, 일부의 실시예들에서, 인터페이스 로직(62)을 통해 GPU로부터 외부 위치(예를 들어, 메인 시스템 메모리 또는 다른 저장 장치)로 정보를 복사하는 것을 포함할 수 있다. "필요에 따른" 물리적 메모리 할당은, VGPU가 실제로 물리적 메모리를 필요로 할 때까지 물리적 메모리가 할당될 수 없다는 점에서 또한 유용하다(예를 들어, VGPU에 의해 실행되고 있는 스레드들 및/또는 명령어들이 1GB의 가상 어드레스 공간 중 24MB의 메모리만을 필요로 한다면, 물리적 메모리의 그 전체 1GB를 할당하는 것은 잠재적으로 낭비일 것이다).

따라서, 메모리 관리자(64)는 가상 메모리와 물리적 메모리 사이를 매핑하도록 구성되고, 실행 유닛(들)(60)과 GPU의 메모리 및/또는 다른 시스템 메모리 사이에 투명한(transparent) 인터페이스로서 기능할 수 있다. 따라서, 일 실시예에서, 실행 유닛(들)(60)에 의한 모든 메모리 액세스들은 메모리 관리자(64)가 가상 어드레스로부터 물리적 어드레스로의 변환을 수행하는 단계를 포함한다. 메모리 관리자(64)는, 일 실시예에서, VGPU들(52) 중 특정한 VGPU를 식별하는 주어진 명령어와 연관된 정보에 기초하여 그 명령어에 대한 가상 어드레스 변환을 수행하도록 구성된다. 예를 들어, 메모리 관리자(64)는 VGPU ID에 의해 인덱싱되는 하나 이상의 룩업 테이블들을 유지할 수 있다. 일부의 실시예들에서, 물리적 메모리는 페이지마다 할당된다. 예를 들어, 스레드 및/또는 명령어가 아직 할당되지 않은(즉, 이전에 전혀 기입되지 않았던) 가상 어드레스로의 기입을 시도하는 경우, 메모리 관리자는 하나 이상의 (물리적) 메모리 페이지들을 대응하는 VGPU에 할당할 것이다. 다른 GPU 리소스들은, VGPU가 할당될 수 있는 (공유된) "일시적인 레지스터들"의 수 또는 비율을 비롯하여, 다양한 실시예들에서 메모리 관리자(64)에 의해 관리되고/되거나 구성될 수 있다. (다른 실시예에서, 이 기능은 실행 유닛(들)(60)에 의해 수행될 수 있다.)

이하 도 3을 참조하면, GPU의 일 실시예의 블록도가 도시된다. 도 3에서, GPU는 저장 위치들(76) 및 실행 유닛들(94, 96, 98)을 포함한다. 다양한 실시예들에서, 저장 위치들(76)은, 예를 들어, 도 2와 관련하여 기술된 바와 같이, 저장 위치(들)(56)의 특성들 및/또는 기능 중 임의의 것 또는 전부를 가질 수 있다.

정점 실행 유닛(들)(94)은 정점 처리 연산들을 수행하도록 구성되는 하나 이상의 실행 유닛들을 포함한다. 픽셀 실행 유닛(들)(98)은 픽셀 처리 연산들을 수행하도록 구성되는 하나 이상의 실행 유닛들을 포함한다. 컴퓨팅 실행 유닛(들)(96)은 다른 컴퓨팅 연산들(예를 들어, 일반적인 산술 연산 및/또는 어레이 연산)을 수행하도록 구성되는 하나 이상의 실행 유닛들을 포함한다. 다양한 실시예들에서, 실행 유닛들(94-98)은 (예를 들어, 도 2와 관련하여 기술된 바와 같이) 실행 유닛(들)(60)의 특성들 및/또는 기능 중 임의의 것 또는 전부를 가질 수 있다. 일부의 실시예들에서, 추가의 실행 유닛들 또는 실행 유닛 유형들이 GPU에 존재할 수 있다. 도시된 바와 같이, 저장 영역들(81-92)은 하나 이상의 버스들, 점대점 전송 라인들 및/또는 상호접속들을 통해 실행 유닛들(94-98)에 접속된다.

실행 유닛들(94-98) 각각은 중간 결과들을 위한 대응하는 저장소를 갖는다. 따라서, 도 3에서, 저장 영역들(81-84)은 픽셀 처리 연산들에 대한 중간 결과들을 저장하도록 구성되고, 저장 영역들(85-88)은 정점 처리 연산들에 대한 중간 결과들을 저장하도록 구성되고, 저장 영역들(89-92)은 다른 컴퓨팅 연산들에 대한 중간 결과들을 저장하도록 구성된다. 도시된 바와 같이, 특정한 저장 영역들은 특정한 가상 GPU들에 대응한다(예를 들어, 저장소(81)는 VGPU #0에 대응하는 한편, 저장소(82)는 VGPU #1에 대응한다).

일부의 실시예들에서, 결합된 실행 유닛은 정점 실행 유닛(94)의 기능의 일부 또는 전부, 컴퓨팅 유닛(96)의 기능의 일부 또는 전부, 및 픽셀 실행 유닛(98)의 기능의 일부 또는 전부를 구현할 수 있다. 예를 들어, 일 실시예에서, 공통 쉐이딩 실행 유닛은 정점, 픽셀 및 컴퓨팅 처리의 전부 또는 일부를 구현할 수 있다. 이러한 실시예에서, 정점 연산들 지원에 전용인 특정 로직, 픽셀 연산들 지원에 전용인 특정 로직, 및/또는 컴퓨팅 연산들 지원에 전용인 특정 로직이 존재할 수 있지만, 공통 실행 유닛(예를 들어, 실행 파이프라인)의 다른 부분들이 공유되어 상이한 유형들의 처리 연산들을 수행하는데 공통으로 이용될 수 있다.

따라서, 다양한 실시예들에서, 가상 GPU는 태스크 큐들, 정점 쉐이딩 전 프리미티브 상태(pre-vertex shading primitive state), 정점 쉐이딩 후 프리미티브 상태(post-vertex shading primitive state), 단편 쉐이딩 전 프리미티브 상태(pre-fragment shading primitive state), 및 깊이, 스텐실 및 컬러 프레임버퍼 상태에 대응하는 분산형 저장소를 포함하여 모든 비일시적(중간) 상태들에 대해 제공된 저장소를 가질 수 있다. 따라서, 일 실시예에서, 전술한 상태 정보에 대한 저장소는 가상 GPU마다 고유한 사본을 갖는 상태가 이용되는 곳에 가까운 GPU 전반에 걸쳐 분산될 수 있고, 활성 정점 및 단편 쉐이딩 처리를 위한 저장소가 가상 GPU들에 공통인 쉐이딩 처리 유닛들에 연결(tie)된다. 가상 GPU에 대응하는 중간 저장된 정보는 GPU의 전체 그래픽 실행 파이프라인을 따라 여러 위치들에서 저장될 수 있다. 따라서, 도 3은 저장소(81)를 VGPU #0에 대한 중간 픽셀 처리 저장소로서 도시하지만, 저장 공간(81)은 실제로는 GPU의 상이한 영역들에 위치하는 2 이상의 물리적으로 분리된 메모리들, 캐시들, 레지스터들 등에 위치한 다수의 상이한 저장 영역들일 수 있다. 마찬가지로, 다양한 실시예들에서, 저장 영역들(81-92) 중 임의의 하나는 GPU 내의 2 이상의 위치들에 걸쳐 분산될 수 있다.

도 3의 실시예에서, 가상 GPU #0은 하나 이상의 불완전한 정점 처리 연산들의 실행을 재개하는데 이용될 수 있는 중간 정점 처리 결과들을 저장하도록 구성되는 제1 저장 영역(81)을 갖는다. 또한, 가상 GPU #0은 하나 이상의 불완전한 픽셀 처리 연산들의 실행을 재개하는데 이용가능한 중간 픽셀 처리 결과들을 저장하도록 구성되는 제2 저장 영역(85)을 갖는다. 제3 저장 영역(89)은 다른 컴퓨팅 연산들의 실행을 재개하는데 이용가능한 다른 중간 컴퓨팅 결과들을 저장하도록 구성될 수 있다. 가상 GPU #1, #2 및 #3 각각은 마찬가지의 대응하는 중간 저장소를 가질 수 있다. 도 3의 실시예는 4개의 가상 GPU들을 도시하지만, 다른 실시예들은 본 개시물의 다른 곳에서 논의되는 바와 같이 더 적은 또는 더 많은 수의 GPU들을 이용할 수 있음을 유의하도록 한다.

다양한 실시예들에서, 불완전한 정점 처리 연산들, 불완전한 픽셀 처리 연산들 및/또는 불완전한 컴퓨팅 연산들은 정밀도의 가변하는 레벨들에서 재개될 수 있다. 일 실시예에서, 이들 유형들의 연산들 중 일부 또는 전부는 스레드마다 기초하여 재개될 수 있다. 따라서, 이러한 실시예에서, 스레드는 전체적으로 실행될 수 있고, 스레드로부터의 임시 정보는 81-92와 같은 저장 영역들에 의해 저장되지 않는다. 대신에, 이러한 실시예에서, 결과들은 스레드의 완료 시에 저장될 수 있다. 따라서, 실행은 스레드 레벨에서 중단되고 재개될 수 있지만, 반드시 개개의 스레드를 포함하는 2 이상의 명령어들 사이에서 중단되고 재개되지는 않을 것이다. 다른 실시예들에서, 불완전한 정점 처리 연산들, 불완전한 픽셀 처리 연산들 및 불완전한 컴퓨팅 연산들 중 일부 또는 전부는 정밀도의 태스크 레벨에서 재개될 수 있다. 이러한 실시예들에서, 실행의 재개를 위한 중간 정보는 태스크가 완료된 후에 저장될 수 있지만, 실행되는 태스크를 포함하는 2 이상의 스레드들 간의 실행을 중단시키고 재개시킬 수 있는 재개 정보가 반드시 저장될 필요는 없다. 실행을 재개시킬 수 있는 중간 결과들의 저장을 위한 정밀도의 다른 레벨들(예를 들어, 명령어 레벨 정밀도 또는 GPU 명령 레벨 정밀도)이 가능하고 고려된다. 예를 들어, 위에서 논의된 단락 [0044] 내지 [0046]을 참조하라.

하나의 추가적인 실시예에서, 저장 영역들(81-92) 중 하나 이상은 GPU 내의 복수의 상이한 위치들 각각에 걸쳐 분산된다. 따라서, 81과 같은 저장 영역은 하나 이상의 메모리 버퍼들, 레지스터들, 또는 정보(예를 들어, 쉐이딩 저장 정보 등)를 저장하도록 구성된 다른 구조들을 포함할 수 있다. 일부 실시예들에서, 이들 저장 구조들은 GPU 파이프라인의 특정 실행 영역들에 대한 그들의 근접도로 인해 GPU의 상이한 부분들에 위치할 수 있다. 81과 같은 저장 영역은 큐들, 랜덤 액세스 메모리, 또는 다른 정보 액세스 스킴들로서 구현되는 저장소를 포함할 수 있다. 따라서, 다양한 실시예들에서, 81-92와 같은 저장 영역은 태스크 큐들, 명령 버퍼들 또는 다른 GPU 프론트-엔드 동작들; 정점 쉐이딩 전 프리미티브 상태; 정점 쉐이딩 후 프리미티브 상태; 정점 변환 전 상태(pre-transform vertex state); 정점 변환 후 상태(post-transform vertex state); 단편 쉐이딩 전 프리미티브 상태; 래스터화 및/또는 보간; 깊이, 스텐실 및 컬러 프레임버퍼 상태; 또는 상태 기반 정보를 유지할 수 있는 당업자에게 알려진 다른 GPU 구조들에 대응하는 하나 이상의 저장 구조를 포함할 수 있다.

따라서, 다양한 실시예들에서, 저장 영역들(81-92)의 이용은 GPU로 하여금 이전 솔루션들보다 미세한 정밀도에서 상이한 가상 GPU들에 대한 정점 처리 연산들과 픽셀의 실행 사이를 빠르게 스위칭하게 할 수 있어서, (예를 들어) 태스크들, 스레드들, 명령어들 등으로 하여금 더 작은 시간의 윈도우들 동안에 상이한 가상 GPU들에 대해 실행되게 할 수 있다. 또한, 그래픽 프로세서 설계의 기술 분야의 당업자에게 떠오르는 것과 같이, 도 3의 실시예는 본 개시물의 다른 곳에서 기술된 다른 실시예들 및 특징과 양립가능하다(또는 이들을 고려하여 변형될 수 있다).

이제 도 4를 참조하면, 본 개시물에 따른 방법(110)의 일 실시예의 흐름도가 도시된다. 이하에 기술되는 방법(110)의 다양한 실시예들에서, 기술된 구성요소들 및/또는 단계들 중 하나 이상은 도시된 것과는 상이한 순서로 동시에 수행될 수 있고, 또는 전체적으로 생략될 수 있다. 다른 추가의 구성요소들은 또한 원하는 대로 수행될 수 있다. 또한, 일부 방법 단계들의 일부 부분들만이 일부 실시예들에서 수행된다. 방법(110)의 단계들의 전체 또는 일부는 일부 실시예들에서 GPU(50)에 의해 수행될 수 있고, 도 2와 관련하여 위에서 논의된 개시물을 고려하여 이해되어야 한다.

단계(120)에서, 제1 스레드의 실행은 그래픽 처리 유닛(GPU)에 의해 개시되고, 제1 스레드는 제1 GPU 명령에 대응한다. 본 실시예에서, 제1 스레드의 실행은 제2 GPU 명령에 대응하는 제2 스레드의 실행을 개시하기 전에 개시된다. 제1 스레드의 실행을 개시하는 것은 제2 GPU 명령에 대한 제2 우선순위 레벨보다 높은 제1 GPU 명령에 대한 제1 우선순위 레벨에 기초하고, 제1 및 제2 GPU 명령들에 대한 우선순위 레벨들은 제1 및 제2 GPU 명령들이 대응하는 가상 GPU들의 ID들에 기초한다. 본 개시물에서, 용어 "실행 개시" 또는 "실행" 및 그들의 변형은 GPU의 하나 이상의 실행 유닛에 하나 이상의 스레드들 및/또는 명령어들을 포워딩하는 것을 지칭할 수 있다. 일부 실시예들에서, "실행 개시" 또는 "실행"은 이전에 계산되었지만 실행이 전체적으로 완료되지 않은 일부 부분들을 갖는 GPU 명령, 태스크 및/또는 스레드를 재개하는 것을 지칭할 수 있다.

단계(130)에서, 제2 스레드의 실행은 제2 우선순위 레벨보다 높은 우선순위 레벨들을 갖는 다른 GPU 명령들이 없다는 표시에 기초하여 개시된다. 일 실시예에서, 이 표시는 비어 있는 모든 다른 가상 GPU들(제2 스레드에 대응하는 것 제외)에 대한 명령 버퍼들을 포함한다. 다른 실시예에서, 표시는 주어진 가상 GPU에 대한 모든 스레드들이 실행 유닛으로 포워딩되지는 않았음을 나타내는 정보를 포함한다. 단계(130)에서, 제3 GPU 명령에 대응하는 제3 스레드의 실행은 제1 GPU 명령에 대응하는 모든 스레드들의 실행 개시 전에 개시되고, 제3 스레드의 실행 개시는 제1 우선순위 레벨보다 높은 제3 우선순위 레벨에 기초하고, 제3 우선순위 레벨은 제3 GPU 명령이 대응하는 가상 GPU의 ID에 기초한다. 따라서, 제3 스레드는, 제2 스레드보다 높은 우선순위 레벨을 가질 수 있는 제1 스레드보다 높은 우선순위 레벨을 가질 수 있다. 제1, 제2 및 제3 스레드들 각각은 복수의 가상 GPU들 중 상이한 것들에 각각 대응할 수 있다.

예시적인 컴퓨터 시스템

다음으로 도 5를 참조하면, 블록도는, GPU(50)가 있을 수 있는 시스템(200)의 일 실시예를 도시한다. 도시된 실시예에서, 시스템(200)은, 외부 메모리(252)에 연결된 적어도 하나의 예의 집적 회로(10)를 포함한다. 외부 메모리(252)는, 도 1과 관련하여 위에 언급된 메인 메모리 서브시스템을 형성할 수 있다(예컨대, 외부 메모리(252)는 메모리(12A-12B)를 포함할 수 있다). 집적 회로(10)는, 하나 이상의 주변 장치들(254) 및 외부 메모리(252)에 연결된다. 전원(256)이 또한 제공되는데, 이는 집적 회로(10)에 공급 전압들을 공급할 뿐만 아니라, 하나 이상의 공급 전압들을 메모리(252) 및/또는 주변 장치들(254)에도 공급한다. 일부 실시예들에서는, 둘 이상의 예의 집적 회로(10)가 포함될 수 있다(그리고 둘 이상의 외부 메모리(252)가 또한 포함될 수 있다).

메모리(252)는 임의의 유형의 메모리일 수 있는데, 그 예로는 동적 랜덤 액세스 메모리(DRAM), 동기 DRAM(SDRAM), 더블 데이터 레이트(DDR, DDR2, DDR3 등) SDRAM (mDDR3 등과 같은 모바일 버전의 SDRAM들 및/또는 LPDDR2 등과 같은 저전력 버전의 SDRAM들을 포함함), 램버스 DRAM(RDRAM), 정적 RAM(SRAM) 등을 들 수 있다. 하나 이상의 메모리 장치들은 회로 기판 상에 연결되어, SIMM(single inline memory module), DIMM(dual inline memory module) 등과 같은 메모리 모듈을 형성할 수 있다. 대안적으로는, 장치들은 칩-온-칩 구성, 패키지-온-패키지 구성, 또는 멀티-칩 모듈 구성으로 집적 회로(10)에 장착될 수 있다.

주변 장치들(254)은, 시스템(200)의 유형에 따라 임의의 원하는 회로를 포함할 수 있다. 예를 들면, 일 실시예에서, 시스템(200)은 모바일 장치(예컨대, 개인 휴대 단말기(PDA), 스마트 폰, 등)일 수 있고, 주변 장치들(254)은 wifi, 블루투스, 셀룰러, GPS(global positioning system) 등과 같은 다양한 유형의 무선 통신용 장치들을 포함할 수 있다. 주변 장치들(254)은 또한, RAM 저장소, 고체 상태 저장소, 또는 디스크 저장소를 포함하여, 추가적인 저장소를 포함할 수 있다. 주변 장치들(254)은, 디스플레이 스크린(터치 디스플레이 스크린 또는 멀티터치 디스플레이 스크린을 포함함), 키보드 또는 다른 입력 장치들, 마이크로폰, 스피커 등과 같은 사용자 인터페이스 장치를 포함할 수 있다. 다른 실시예들에서, 시스템(200)은 임의의 유형의 컴퓨팅 시스템(예컨대, 데스크톱 개인 컴퓨터, 랩톱, 워크스테이션, 넷 톱 등)일 수 있다.

컴퓨터 판독가능 매체 및 하드웨어 제조

전술한 기술들 및 방법들은, 임의의 적합한 컴퓨터 판독가능 저장 매체 상에 저장되는 컴퓨터 판독가능 명령어들로 구현될 수 있다. 본원에서 이용되는 용어인 컴퓨터 판독가능 저장 매체는, 컴퓨터 또는 컴퓨터 시스템에 의해 판독가능한 (비일시적인, 유형의(tangible)) 매체를 가리키며, 하드 드라이브, 광학 디스크, DVD, 휘발성 또는 비휘발성 RAM 장치, 홀로그래픽 저장소, 프로그램가능 메모리 등과 같은 자기적, 광학적, 및 고체 상태 저장 매체를 포함한다. 본원에서 컴퓨터 판독가능 매체에 적용된 "비일시적"이라는 용어는, 일시적인 (무형의) 매체(예컨대, 반송파)와 같이 35 U.S.C §101에 의해 부적합한 것으로 간주되는 임의의 청구 대상의 청구범위로부터 배제하도록 의도된 것일 뿐이며, 그 외에 적법한 것으로 간주되는 임의의 청구 대상을 배제하도록 의도되는 것은 아니다.

전술한 이러한 컴퓨터 판독가능 저장 매체는, 일부 실시예들에서, 프로그램에 의해 판독되는 명령어들을 저장하기 위해 이용될 수 있고, 직접 또는 간접적으로 GPU(50), IC(10) 및/또는 그 부분들을 포함하는 하드웨어를 제조하기 위해 이용될 수 있다. 예를 들면, 명령어들은, Verilog 또는 VHDL과 같은 고레벨 설계 언어(HDL)로, 하드웨어 기능의 거동-레벨 또는 레지스터-전송 레벨(RTL) 디스크립션을 기술하는 하나 이상의 데이터 구조를 약술할 수 있다. 디스크립션은 합성 툴(synthesis tool)에 의해 판독될 수 있으며, 합성 툴은 디스크립션을 합성하여 넷리스트를 생성할 수 있다. 넷리스트는 게이트들의 세트(예컨대, 합성 라이브러리에 정의됨)을 포함할 수 있으며, 이는 GPU(50), IC(10), 및/또는 그 부분들의 기능을 나타낸다. 그 후에, 넷리스트가 배치되고 라우팅되어 마스크에 적용될 기하학적 형상들을 기술하는 데이터 세트를 생성할 수 있다. 그리고 나서, 마스크가 다양한 반도체 제조 단계에 이용되어, 하드웨어 실시예에 대응하는 반도체 회로 또는 회로들을 생성할 수 있다. 대안적으로, 원하는 경우에, 데이터베이스가 (합성 라이브러리가 있는 또는 없는) 넷리스트, 또는 데이터 세트일 수 있다. 따라서, 일 실시예는 데이터 구조를 포함하는 (비일시적인) 컴퓨터 판독가능 저장 매체이며, 이는 컴퓨터 시스템에서 실행가능한 프로그램에 의해 이용되어 데이터 구조에 의해 기술된 회로를 포함하는 집적 회로를 제조하기 위한 프로세스의 일부분을 수행하며, 여기서, 데이터 구조에 기술된 회로는 GPU(50), IC(10), 및/또는 그 부분들을 포함한다.

특정 실시예들이 위에 기술되었지만, 이 실시예들은 본 개시물의 범위를 제한하려고 의도되는 것은 아니고, 또한 단지 하나의 실시예가 특정한 특징과 관련하여 기술되어 있더라도 그러하다. 본 개시물에 제공된 특징들의 예들은, 달리 언급하지 않는 한 제한적인 것이 아니라 예시적인 것으로 의도된다. 위에 기술된 내용은, 본 개시물의 이익을 갖는 당업자에게 명백할 것인, 대안물, 변형물, 등가물들을 커버하도록 의도된다. 또한, 전술한 상세한 설명에 제공된 섹션 또는 제목은, 어떠한 방식으로든 본 개시물을 제한하는 것으로 해석되어서는 안 된다.

본 개시물의 범위는, 본원에서 다루는 임의의 문제점 또는 문제점들 모두를 완화시키든 그렇지 않든, (명시적으로 또는 내재적으로) 본원에 개시된 임의의 특징 또는 특징들의 조합, 또는 그것의 임의의 일반화를 포함한다. 따라서, 새로운 청구항들이, 임의의 그러한 특징들의 조합을 위해 본 출원(또는 그 우선권을 주장하는 출원)의 계속 중에 만들어질 수 있다. 특히, 첨부된 청구항들과 관련하여, 종속항들의 특징들은 독립 청구항들의 특징과 결합될 수 있고, 각각의 독립 청구항들의 특징들은, 첨부된 청구항들에 나열된 특정 결합들뿐만 아니라, 적절한 방식으로 결합될 수 있다.

Claims

복수의 저장 위치들을 포함하는 그래픽 처리 유닛(GPU: graphics processing unit)을 포함하고,
상기 GPU에 의해 구현된 복수의 가상 GPU들 중 각각의 가상 GPU에 대하여, 상기 복수의 저장 위치들 중 대응하는 저장 위치는 중간 결과들을 저장하도록 구성된 제1 저장 영역 및 제2 저장 영역을 포함하고,
상기 제1 저장 영역 및 상기 제2 저장 영역은, 그 가상 GPU에 대응하는 중간 정점 처리 결과들 및 그 가상 GPU에 대응하는 중간 픽셀 처리 결과들을 저장하도록 각각 구성되고,
상기 중간 정점 처리 결과들은 그 가상 GPU에 대한 하나 이상의 불완전한 정점 처리 연산들의 실행을 재개하는데 이용가능하며, 상기 중간 정점 처리 결과들은 그 가상 GPU에 대한 하나 이상의 불완전한 픽셀 처리 연산들의 실행을 재개하는데 이용가능한 장치.
제1항에 있어서,
상기 복수의 가상 GPU들 각각에 대한 상기 제1 저장 영역 및 상기 제2 저장 영역은 각각 상기 GPU 내의 복수의 상이한 위치들 각각에 걸쳐 분산되는 장치.
제1항에 있어서,
상기 GPU는,
복수의 GPU 명령들을 저장하도록 구성된 명령 버퍼; 및
하나 이상의 실행 유닛들
을 더 포함하며,
상기 장치는, 주어진 GPU 명령에 대한 우선순위 레벨에 기초하여 상기 주어진 GPU 명령에 대응하는 하나 이상의 명령어들을 상기 하나 이상의 실행 유닛들에 포워딩하도록 구성되는 장치.
제3항에 있어서,
상기 GPU에 의해 구현된 상기 복수의 가상 GPU들 각각은 그 고유의 우선순위 레벨을 가지며, 상기 복수의 GPU 명령들 각각은 상기 GPU에 의해 구현된 상기 복수의 가상 GPU들 중 대응하는 가상 GPU의 우선순위 레벨에 기초하는 우선순위 레벨을 갖는 장치.
제3항에 있어서,
상기 GPU는, 상기 복수의 GPU 명령들 중 하나 이상의 GPU 명령들에 대응하는 명령어들을 저장하도록 구성된 하나 이상의 명령어 버퍼들을 더 포함하고,
상기 하나 이상의 명령어 버퍼들은, 상기 복수의 GPU 명령들 중 하나 이상의 GPU 명령들에 대응하는 명령어들 각각에 대하여, 그 명령어에 대한 상기 복수의 가상 GPU들 중 대응하는 GPU의 ID(identity)를 나타내는 정보를 저장하도록 구성되는 장치.
제1항에 있어서,
상기 GPU는, 스레드 단위로(on a per-thread basis) 상기 하나 이상의 불완전한 정점 처리 연산들을 재개하도록 구성되며, 상기 GPU는, 스레드 단위로 상기 하나 이상의 불완전한 픽셀 처리 연산들을 재개하도록 구성되는 장치.
제1항에 있어서,
상기 GPU는, 상기 GPU에 의해 구현된 상기 복수의 가상 GPU들 각각에 대한 가상 어드레스 공간을 물리적 메모리에 매핑하도록 구성되는 장치.
그래픽 처리 유닛(GPU)으로서,
복수의 가상 GPU들을 구현하도록 구성된 하나 이상의 회로들 - 각각의 GPU는, 하나 이상의 GPU 명령들을 저장하도록 구성된 하나 이상의 대응하는 명령어 버퍼들 및 실행 결과들을 저장하도록 구성된 하나 이상의 대응하는 저장 위치들을 포함함 -;
태스크 관리자;
피딩 유닛; 및
하나 이상의 실행 유닛들
을 포함하고,
상기 태스크 관리자는, 제1 우선순위 레벨을 갖는 제1 GPU 명령에 대응하는 하나 이상의 스레드들을 생성하도록 구성되고,
상기 피딩 유닛은, 주어진 스레드에 대한 우선순위 레벨에 응답하여 상기 하나 이상의 실행 유닛들에 상기 주어진 스레드를 포워딩하도록 구성되며,
상기 우선순위 레벨은 상기 복수의 가상 GPU들 중 하나의 가상 GPU의 ID에 기초하는 그래픽 처리 유닛.
제8항에 있어서,
상기 하나 이상의 실행 유닛들은 제1 유형의 제1 실행 유닛 및 제2 유형의 제2 실행 유닛을 포함하며,
상기 피딩 유닛은, 상기 주어진 스레드를 실행하는데 이용되는 실행 유닛의 유형을 나타내는 정보에 기초하여 상기 주어진 스레드를 포워딩하도록 구성되는 그래픽 처리 유닛.
제8항에 있어서,
상기 피딩 유닛은, 상기 제1 실행 유닛에 의해 실행되기 위해서 대기하는 어떠한 높은 우선순위 스레드들도 존재하지 않는다는 지시에 기초하여, 상기 하나 이상의 실행 유닛들 중 제1 실행 유닛으로 낮은 우선순위 레벨을 갖는 스레드를 포워딩하도록 구성되는 그래픽 처리 유닛.
제8항에 있어서,
상기 복수의 가상 GPU들 각각에 대하여, 상기 하나 이상의 대응하는 저장 위치들은 하나 이상의 레지스터들 및 프로그램 카운터 값을 포함하는 그래픽 처리 유닛.
제8항에 있어서,
상기 복수의 가상 GPU들에 대응하는 복수의 가상 어드레스 공간들로 물리적 메모리를 매핑하도록 구성된 메모리 관리자를 더 포함하는 그래픽 처리 유닛.
그래픽 처리 유닛(GPU)에서 제2 스레드를 실행하기 전에 제1 스레드를 실행하는 단계를 포함하고,
복수의 가상 GPU들은 상기 GPU에 의해 구현되고, 상기 제1 스레드는 제1 GPU 명령에 대응하며, 상기 제2 스레드는 제2 GPU 명령에 대응하고,
상기 제1 GPU 명령은 상기 복수의 가상 GPU들 중 제1 가상 GPU에 대응하며, 상기 복수의 가상 GPU들 중 상기 제1 가상 GPU의 ID에 기초하는 제1 우선순위 레벨을 갖고,
상기 제2 GPU 명령은 상기 복수의 가상 GPU들 중 제2 가상 GPU에 대응하며, 상기 복수의 가상 GPU들 중 상기 제2 가상 GPU의 ID에 기초하는 제2 우선순위 레벨을 갖고,
상기 GPU에서 제2 스레드를 실행하기 전에 제1 스레드를 실행하는 단계는, 상기 제1 우선순위 레벨이 상기 제2 우선순위 레벨보다 높은 것에 기초하는 방법.
제13항에 있어서,
상기 GPU에서, 상기 제2 우선순위 레벨보다 높은 우선순위 레벨을 갖는, 실행되기 위해서 대기하는 어떠한 다른 GPU 명령들도 존재하지 않는다는 지시에 기초하여 상기 제2 스레드를 실행하는 단계를 더 포함하는 방법.
제13항에 있어서,
상기 제1 GPU 명령에 대응하는 모든 스레드들의 실행을 완료하기 전에 제3 GPU 명령에 대응하는 제3 스레드를 실행하는 단계를 더 포함하고,
상기 제3 스레드를 실행하는 단계는 상기 제1 우선순위 레벨보다 높은 제3 우선순위 레벨에 기초하며,
상기 제3 우선순위 레벨은, 상기 GPU에 의해 구현된 상기 복수의 가상 GPU들 중 상기 제3 GPU 명령에 대응하는 하나의 가상 GPU의 ID에 기초하는 방법.
제13항에 있어서,
상기 GPU에서, 중앙 처리 유닛(CPU)으로부터 상기 제1 우선순위 레벨 및 상기 제2 우선순위 레벨을 특정하는 정보를 수신하는 단계를 더 포함하는 방법.