KR20090096750A

KR20090096750A - 타일링되고 프리패치되고 캐싱된 깊이 버퍼

Info

Publication number: KR20090096750A
Application number: KR1020097016403A
Authority: KR
Inventors: 마이클 휴 앤더슨; 단 밍룬 추앙; 제프리 쉽페; 라자트 라진더쿠마르 다완
Original assignee: 콸콤 인코포레이티드
Priority date: 2005-03-21
Filing date: 2006-03-21
Publication date: 2009-09-14
Also published as: JP2012033173A; JP5296169B2; CN101176119B; KR20070114224A; WO2006102380A1; KR101036434B1; US20060209078A1; US8089486B2; EP1864256A1; JP2008533628A; KR101009521B1; CN101176119A; JP4861403B2; CA2601452A1

Abstract

3D 그래픽 파이프라인은 깊이 타일들의 캐시를 제공하는 프리패치 메커니즘을 포함한다. 프리패치 메커니즘은 예측적일 수 있으며, 캐시를 미리-충전하기 위해 이전 파이프라인 스테이지들로부터의 트라이앵글 지오메트리 정보를 이용하며, 그리하여 메모리 대역폭 효율을 증가시키도록 허용한다. z-값 압축 기법은 전력 소모 및 메모리 대역폭의 추가적인 감소를 허용하도록 선택적으로 이용될 수 있다.

Description

타일링되고 프리패치되고 캐싱된 깊이 버퍼{TILED PREFETCHED AND CACHED DEPTH BUFFER}

본 발명은 일반적으로 그래픽 프로세서들에 관한 것이며, 더욱 상세하게는, 그래픽 프로세서에 포함된 3D 그래픽 파이프라인에 관한 것이다.

그래픽 엔진들은 컴퓨터 및 텔레비전 스크린들과 같은 고정된 디스플레이 장치들에서 3-차원(3D) 이미지들을 디스플레이하기 위해 사용되어 왔다. 이러한 엔진들은 일반적으로 기존의 AC 전력 아웃렛들에 의해 전력을 공급받는 데스크톱 시스템에 포함되어 있었으며, 그리하여 전력-소모 제한들에 의해 크게 제약받지 않았다. 그러나, 최근의 경향은 3D 그래픽 엔진들을 배터리로 전력을 공급하는 핸드-헬드 장치들에 통합시키는 것이다. 이러한 장치들의 예들은 모바일 폰들 및 개인 정보 단말기(PDA)를 포함한다. 그러나, 유감스럽게도, 기존의 그래픽 엔진들은 많은 양의 전력을 소모하며 그리하여 이러한 저-전력 동작 환경들에 적절하지 않다.

도 1은 기존의 3D 그래픽 엔진에 포함된 기본적인 오픈 GL 래스터화(rasterization) 파이프라인의 블록 다이어그램이다. 도시된 바와 같이, 이러한 예의 래스터화 파이프라인은 트라이앵글(triangle) 설정 스테이지(101), 픽셀 쉐이 딩(shading) 스테이지(102), 텍스처(texture) 매핑 스테이지(103), 텍스처 블렌딩(blending) 스테이지(104), 시저(scissor) 테스트 스테이지(105), 알파 테스트 스테이지(106), 스텐실(stencil) 테스트 스테이지(107), 숨김 표면 제거(HSR: hidden surface removal) 스테이지(108), 알파 블렌딩 스테이지(109) 및 논리 연산 스테이지(110)를 포함한다.

3D 그래픽 시스템들에서, 다른 원시 형태들이 사용될 수 있더라도, 디스플레이될 각각의 오브젝트(object)는 일반적으로 정점(vertex) 정보에 의해 정의된 표면 트라이앵글들로 분할된다. 또한, 일반적으로, 그래픽 파이프라인은 오브젝트 또는 이미지의 트라이앵글들의 순차적인 배치(batch)들을 처리하도록 설계된다. 임의의 주어진 배치의 트라이앵글들은 시각적으로 다른 배치의 트라이앵글들과 오버랩될 수 있으며, 또한 주어진 배치 내에 있는 트라이앵글들이 서로에 대하여 오버랩되는 것이 가능하다.

도 1과 관련하여, 트라이앵글 설정 스테이지(101)는 이후의 파이프라인 스테이지들에 의해 실행되는 계산들에서 사용될 설정 계수들을 계산함으로써 각각의 트라이앵글을 "설정(setup)"한다.

픽셀 쉐이딩 스테이지(102)는 어떤 픽셀들이 각각의 트라이앵글에 의해 포함되는지를 계산하기 위해 설정 계수들을 사용한다. 트라이앵글들은 서로에 대하여 오버랩될 수 있기 때문에, 상이한 깊이(depth)들의 다수의 픽셀들이 스크린 디스플레이 상의 동일한 포인트에 위치될 수 있다. 특히, 픽셀 쉐이딩 스테이지(101)는 정점 정보를 이용하여 각각의 픽셀에 대한 컬러, 포그(fog), 깊이 값들, 텍스처 좌 표, 알파 값들 등을 보간(interpolate)한다. 임의의 다양한 쉐이딩 기법들이 이러한 목적을 위해 채택될 수 있으며, 쉐이딩 연산들은 트라이앵글별로 또는 픽셀별로 발생할 수 있다.

텍스처 매핑 스테이지(103) 및 텍스처 블렌딩 스테이지(104)는 텍스처를 트라이앵글들의 프로세스 배치의 각각의 픽셀로 추가하고 블렌딩하도록 동작한다. 매우 일반적으로, 이것은 정점 정보 내에 포함된 텍스처 좌표들에 따라 미리-정의된 텍스처들을 픽셀들로 매핑함으로써 이루어진다. 쉐이딩과 같은, 다양한 기법들이 텍스처링을 달성하기 위해 채택될 수 있다. 또한, 포그 프로세싱으로 알려진 기법이 구현될 수 있다.

시저 테스트 스테이지(105)는 디스플레이된 장면의 시야를 벗어난 트라이앵글들의 부분들(프래그먼트들(fragments))에 포함된 픽셀들을 버리도록 동작한다. 일반적으로, 이것은 소위 시저 직사각형(scissor rectangle) 내에 픽셀들이 있는지 여부를 결정함으로써 이루어진다.

알파 테스트 유니트(106)는 프래그먼트와 관련된 알파 값(투명도 값)과 기준 알파 값 간의 비교에 기반하여 조건부로 트라이앵글의 프래그먼트(보다 정확하게는, 프래그먼트에 포함된 픽셀들)를 버린다. 유사하게, 스텐실 테스트는 각각의 프래그먼트들 및 저장된 스텐실 값 간의 비교에 기반하여 조건부로 프래그먼트들을 버린다.

(또한, 깊이 테스트 스테이지로도 지칭되는) HSR 스테이지(108)는 동일한 디스플레이 위치를 가지는 다른 픽셀들의 깊이 값들에 기반하여 트라이앵글 프래그먼 트들에 포함된 픽셀들을 버린다. 일반적으로, 이것은 깊이 테스트를 받는 픽셀의 z-축 값(깊이 값)과 소위 z-버퍼(또는 깊이 버퍼)의 대응하는 위치에 저장된 z-축 값을 비교함으로써 이루어진다. 테스트된 픽셀이 z-버퍼에 저장된 z-축 값을 가지는 다른 픽셀의 의해 시야가 가리워진다는 것을 테스트된 픽셀의 z-축 값이 나타내면, 테스트된 픽셀은 버려진다. 반면에, 테스트된 픽셀이 시야로부터 가리워지지 않는 경우에는 z-버퍼 값이 테스트된 픽셀의 z-축 값으로 대체된다. 이러한 방식으로, 시야에서 가리워지는 밑에 있는 픽셀들은 위에 있는 픽셀들로 인하여 버려지게 된다.

알파 블렌딩 스테이지(109)는 오브젝트의 투명도를 달성하기 위해 알파 값들에 기반하여 컬러 버퍼에 이전에 저장된 픽셀들과 렌더링된(rendered) 픽셀들을 결합한다.

논리 연산 유니트(110)는 일반적으로 최종적인 픽셀 디스플레이 데이터를 획득하기 위한 파이프라인의 잡다한 나머지 프로세스들을 나타낸다.

임의의 그래픽 시스템들에서, 만족스러운 성능을 유지하면서 가능한 범위까지 프로세서 및 메모리 대역폭을 보존하는 것이 바람직하다. 이것은 대역폭들이 제한될 수 있는 휴대용 또는 핸드-헬드 장치들의 경우에 특히 그러하다. 또한, 이전에 언급한 바와 같이, 휴대용 또는 핸드-헬드 장치들에서 디스플레이를 위해 3D 그래픽들을 처리할 때 전력 소모를 최소화하고 대역폭 효율을 향상시키기 위한 산업계의 특별한 요구가 존재한다.

본 발명의 실시예들에 대한 일 양상에 따르면, 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인을 포함하는 그래픽 프로세서가 제공된다. 상기 프로세서는 또한 래스터화 파이프라인의 프로세싱 스테이지들 중 적어도 하나에 의해 이용되는 데이터를 저장하는 메모리와, 적어도 하나의 프로세싱 스테이지에 도달하는 프로세싱되는 픽셀에 앞서서 상기 프로세싱되는 픽셀과 관련하여 상기 적어도 하나의 프로세싱 스테이지에 의해 이용되는 데이터를 검색하는 프리-패치(pre-fetch) 메커니즘을 포함한다.

본 발명의 실시예들에 대한 다른 양상에 따르면, 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인을 포함하는 그래픽 프로세서가 제공되며, 상기 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함한다. 상기 프로세서는 또한 이전에 렌더링된 픽셀의 깊이 값을 저장하는 깊이 버퍼, 이전에 렌더링된 픽셀의 깊이 값을 검색하는 메모리 제어기, 및 파이프라인의 HSR 스테이지와 연결되고 메모리 제어기에 의해 검색된 깊이 값을 저장하는 캐시(cache) 메모리를 포함한다.

본 발명의 실시예들에 대한 다른 양상에 따르면, 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인을 포함하는 그래픽 프로세서가 제공되 며, 상기 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함한다. 상기 프로세서는 또한 픽셀들의 2차원 블록의 깊이 값들을 저장하는 깊이 버퍼, 프로세싱되는 픽셀을 포함하는 픽셀들의 2차원 블록의 블록 주소를 생성하는 블록 주소 생성기, 래스터화 프로세서의 HSR 스테이지에 연결된 캐시 메모리, 및 깊이 버퍼로부터의 픽셀들의 2차원 블록의 깊이 값들을 검색하기 위해 블록 주소에 응답하며 캐시 메모리에 있는 깊이 값들을 저장하는 메모리 제어기를 포함한다.

본 발명의 실시예들에 대한 다른 양상에 따르면, 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인과, 메인 메모리로부터 데이터를 프리-패치하고 래스터화 파이프라인을 통해 적어도 하나의 프로세싱 스테이지에 도달하는 픽셀 데이터에 앞서서 프로세싱 스테이지들 중 상기 적어도 하나의 프로세싱 스테이지로 데이터를 제공하기 위한 수단을 포함하는 그래픽 프로세서가 제공된다.

본 발명의 실시예들에 대한 다른 양상에 따르면, 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인을 포함하는 그래픽 프로세서가 제공되며, 상기 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함한다. 상기 프로세서는 또한 픽셀들의 2차원 블록의 깊이 값들을 저장하는 계층적 깊이 버퍼, HSR 스테이지에 연결되며 픽셀들의 2차원 블록의 깊이 값들 중 최대 깊이 값과 초소 깊이 값을 저장하는 랜덤 액세스 메모리, 프로세싱되는 픽셀을 포함하는 픽셀들의 2차원 블록의 블록 주소를 생성하는 블록 주소 생성기, 래스터화 프로세서의 HSR 스테이지에 연결된 캐시 메모리, 및 깊이 버퍼로부터의 픽셀들의 2차원 블록의 깊이 값들을 검색하기 위해 블록 주소에 응답하며 캐시 메모리에 있는 깊이 값들을 저장하는 메모리 제어기를 포함한다.

본 발명의 실시예들에 대한 다른 양상에 따르면, 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인을 포함하는 그래픽 프로세서가 제공되며, 상기 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함한다. 상기 프로세서는 또한 래스터화 파이프라인에 의해 렌더링된 픽셀 데이터와 관련된 2차원 블록의 깊이 값 데이터를 포함하며, 원시 오브젝트 데이터는 원시 형태를 나타내며, 2차원 블록이 프로세싱되는 픽셀을 포함하는 원시 형태 내에 완전히 포함되어 있는 경우에 2차원 블록의 깊이 값 데이터는 압축된다.

본 발명의 실시예들에 대한 다른 양상에 따르면, 그래픽 프로세싱 방법이 제공되며, 상기 방법은 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인으로 원시 오브젝트 데이터를 제공하는 단계, 래스터화 파이프라인의 프로세싱 스테이지들 중 적어도 하나에 의해 사용되는 데이터를 메모리에 저장하는 단계, 및 적어도 하나의 프로세싱 스테이지에 도달하는 프로세싱되는 픽셀에 앞서서 상기 프로세싱되는 픽셀과 관련하여 상기 적어도 하나의 프로세싱 스테이지에 의해 이용되는 데이터를 상기 메모리로부터 프리-패치하는 단계를 포함한다.

본 발명의 실시예들에 대한 다른 양상에 따르면, 그래픽 프로세싱 방법이 제 공되며, 상기 방법은 입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인으로 원시 오브젝트 데이터를 제공하는 단계 - 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함함 -, 및 깊이 버퍼에 있는 깊이 값들의 2차원 블록 데이터를 선택적으로 압축하는 단계를 포함한다. 원시 오브젝트 데이터는 원시 형태를 나타내며, 2차원 블록이 프로세싱되는 픽셀을 포함하는 원시 형태 내에 완전히 포함되어 있는 경우에 2차원 블록의 깊이 값 데이터는 압축된다.

제시된 실시예들의 위에서 언급된 양상들 및 다른 양상들은 아래의 상세한 설명 및 도면으로부터 보다 명백해질 것이다.

여기에 제시되는 몇몇 실시예들은 깊이 타일들의 캐시를 제공하는 프리패치 메커니즘을 포함하는 3D 그래픽 파이프라인에 의해 적어도 부분적으로 특징지워진다. 프리패치 메커니즘은 예측적일 수 있으며, 캐시를 미리-충전(pre-charge)하기 위해 이전 파이프라인 스테이지들로부터의 트라이앵글 지오메트리 정보를 이용하며, 그리하여 메모리 대역폭 효율을 증가시키도록 허용한다.

다른 실시예들은 전력 소모 및 메모리 대역폭을 감소시키도록 허용하는 z-값 압축 기법에 의해 적어도 부분적으로 특징지워진다.

여러개의 바람직한 그러나 여기에 한정되지는 않는 실시예들이 이제 설명될 것이다.

여기서 명령 블록으로 지칭되는 블록이 3D 그래픽 파이프라인의 트라이앵글 설정 블록보다 선행될 수 있다. 명령 블록은 픽셀 스크린 위치 정보를 포함하는, 각각의 트라이앵글에 관한 모든 관련된 데이터를 포함한다. 본 발명의 실시예들에 따르면, 픽셀 스크린 위치 데이터는 파이프라인에서 순방향으로 제공되고 픽셀 프로세싱을 위해 필요한 데이터의 주소들을 계산하기 위해 이후의 파이프라인 스테이지들에 의해 사용된다. 픽셀들이 주어진 스테이지에 도달할 때까지, 상기 스테이지와 관련된 값들은 이미 캐시에 있을 것이며, 그리하여 대역폭 효율이 향상되도록 허용한다.

도 2는 본 발명의 일 실시예를 나타내는 단순화된 블록 다이어그램이다. 3D 그래픽 파이프라인은 명령 블록(200) 및 첫번째 내지 n번째 파이프라인 블록들(201a ... 201n)을 가지도록 도시되어 있다. 파이프라인 블록들 중 적어도 하나는 캐시 메모리(202a ... 202d)를 갖추고 있다. 미리 주소 정보를 파이프라인 스테이지(들) 1, 2, n-1 및/또는 n으로 포워딩함으로써, 프로세싱되는 픽셀이 파이프라인 스테이지(들)에 도달하기 전에 메인 메모리로부터 관련된 데이터를 검색하는 것이 가능해진다. 이러한 방식으로, 메모리 스루풋(throughput)이 증가된다.

또한, 대안적인 실시예에서, 프리-패치 메커니즘은 추가적으로 메모리 효율을 향상시키기 위해 예측적인 메커니즘을 수반한다. 이것은 도 3과 관련하여 이후에 설명되며, 도 3은 깊이 버퍼로부터의 z-값들(깊이 값들)의 예측적 프리-패칭에 대한 일례를 나타낸다.

3차원(3D) 래스터화 파이프라인들은 새롭게 프로세싱되는 픽셀이 이전에 렌 더링된 픽셀에 의해 가리워지는지 여부를 결정하기 위해 "깊이 테스트"를 이용한다. 상기 메커니즘은 깊이 값들(즉, z 값들)이 저장되고 래스터화 과정 동안 체크되는 "깊이 버퍼"(또한 "z-버퍼"로도 지칭됨)에 액세스하는 과정을 포함한다. 필수적으로 뷰어(viewer)로부터의 임의의 가시적인 픽셀의 거리는 깊이 버퍼에 깊이 값으로서 저장된다. 그 후에, 다른 프로세싱되는 픽셀이 스크린 상의 동일한 위치를 점유하도록 시도할 수 있다. 이전에 렌더링된 픽셀의 깊이 값(즉, 해당 픽셀 위치에서 깊이 버퍼에 저장된 깊이 값)이 판독되고 새롭게 프로세싱되는 픽셀의 값과 비교된다. 비교 결과가 새로운 픽셀이 뷰어에 더 근접하다고 표시하면, 새로운 픽셀은 가시적인 것으로 간주되어 깊이 버퍼의 이전 깊이 값은 새로운 픽셀의 깊이 값으로 대체될 수 있다. 새로운 픽셀은 추가적으로 파이프라인에 의해 처리되고, 결과적으로 프레임 버퍼에 렌더링된다. 반면에, 비교 결과가 새로운 픽셀이 뷰어로부터 더 멀리 떨어져 있다고 표시하면, 새로운 픽셀은 보이지 않는 것으로 간주되어 버려질 수 있고 깊이 버퍼의 이전 깊이 값이 유지된다. 이러한 프로세스는 숨김 표면 제어(HSR)로 지칭된다.

도 3은 트라이앵글 스트림이 z-값 픽셀 타일들로 어떻게 매핑되는지에 대한 예를 나타낸다. 트라이앵글들은 A 내지 E로 라벨링되며, 그러한 순서로 파이프라인 상에 나타난다. 타일들은 1-13의 번호가 매겨진다. 트라이앵글 A를 처리하기 위해, 타일들 1, 2, 3, 4, 5 및 8이 요구된다. 이에 따라, 픽셀 타일들 1, 2, 3, 4, 5 및 8의 z-값들은 깊이 버퍼로부터 프리-패칭되어 캐시 메모리에 저장된다. 다음으로, 트라이앵글 B를 처리하기 위해, 픽셀 타일들 4, 5, 8 및 9가 요구된다. 그러나, 픽셀 타일들 4, 5 및 8은 이미 캐시 메모리에 저장되어 있기 때문에, 깊이 버퍼로부터 픽셀 타일 9만을 프리-패칭하면 된다. 유사하게, 트라이앵글 C에 대하여는, 오직 타일 6만이 프리-패치되어야 한다. 메모리 대역폭 효율은 이러한 방식으로 예측적으로 타일들을 캐싱함으로써 향상된다.

도 4는 파이프라인의 숨김 표면 제거(HSR) 블록에서 사용될 z-값들을 프리-패칭하도록 구성된 3D 그래픽 파이프라인의 일례에 대한 블록 다이어그램이다. 상기 도면에서, 파이프라인은 명령 블록(400), 트라이앵글 설정 블록(401), 픽셀 쉐이딩 블록(402), HSR 블록(403), 텍스처 매핑 블록(404) 및 텍스처 블렌딩 블록(405)을 포함한다. 또한, HSR 블록(403)은 깊이 캐시(406)를 갖추고 있으며 깊이 버퍼(407)에 대한 액세스를 가진다.

동작에서, 깊이 픽셀 타일들의 주소 정보는 명령 블록(400)에서 직접 HSR 블록(403)으로 포워딩된다. HSR 블록(403)은 주소 정보에 따라 깊이 버퍼(407)로부터 깊이 값들을 프리-패칭하고, 그 후에 깊이 캐시(406)에 깊이 값들을 저장하도록 구성된다. 이와 같이, 프로세싱되는 픽셀이 파이프라인을 통해 HSR 블록(403)에 도달할 때, 이전에 렌더링된 픽셀의 깊이 값들은 HSR 프로세싱을 위해 캐시(406)로부터 빠르게 검색될 수 있다.

본 발명의 일 실시예의 깊이 버퍼 관리에 대한 예측적인 프리-패칭 기법은 소위 계층적 z-버퍼의 사용을 위해 제공되며, 이에 대한 예는 아래에서 설명된다.

도 5 및 6은 본 발명의 다른 실시예를 나타내는 기능 블록 다이어그램이며, 도 6은 도 5에 도시된 깊이 테스트 블록(504)의 동작을 설명하기 위한 기능 블록 다이어그램이다.

도 5에는 명령 엔진(501), 트라이앵글 설정 블록(502), 픽셀 쉐이딩 블록(503), (계층적 z-버퍼(미도시)를 포함하는) 깊이 테스트 블록(504), (깊이 버퍼를 포함하는) 메모리 시스템(505) 및 나머지 파이프라인 블록들(506)이 도시되어 있다.

동작에서, 명령 엔진(501)으로부터 트라이앵글 데이터는 트라이앵글 설정 블록(502)으로 제공된다. 트라이앵글 설정 블록은 대응하는 깊이 계수들, 지오메트리 데이터 및 속성 계수들을 출력하며, 이들은 모두는 픽셀 쉐이딩 블록(503)으로 제공된다. 그리하여, 명령 엔진(501)으로부터의 트라이앵글 바운딩 박스 데이터 및 트라이앵글 설정 블록(502)으로부터의 깊이 계수들과 함께, 픽셀 속성들 및 픽셀 주소가 픽셀 쉐이딩 블록(503)에 의해 깊이 테스트 블록(504)으로 제공된다. 그 후에 깊이 테스트 블록(504)은 프로세싱되는 픽셀 및 캐시 메모리(미도시)에 저장된 깊이 값들과 관련하여 깊이 테스트를 실행한다. 바람직하게는, 깊이 값들은 예측적으로 메모리 시스템(505)으로부터 검색되고 깊이 테스트를 실제 실행하기 전에 캐시 메모리에 저장된다. 그 후에 프로세싱되는 픽셀은 깊이 테스트의 결과로서 버려지거나, 또는 픽셀 주소 및 픽셀 속성들의 형태로 나머지 파이프라인 블록(506)으로 전송된다.

이미 언급된 바와 같이, 도 6은 도 5에 도시된 깊이 테스트 블록(504)의 동작을 설명하기 위한 기능 블록 다이어그램이다. 도 6에서 도시된 바와 같이, 이러한 예의 깊이 테스트 블록은 일반적으로 타일 인덱스 예측기(601), 타일 인덱스 생 성기(602), 깊이 보간기(603), 타일 테스트 블록(604), 픽셀 테스트 블록(607), 속성 버퍼(608) 및 깊이 캐시(609)를 포함한다.

속성 버퍼(608)는 파이프라인을 따라 이동하는 인입 픽셀들의 픽셀 속성들을 저장하기 위해 사용된다. 깊이 블록은 파이프라인이며, 속성 버퍼(608)는 파이프라인과 매칭된다. 아래에서 설명될 바와 같이, discard_pixel 신호들은 파이프라인(621)을 통해 플로우되는 픽셀들에 대한 유효한 삭제 또는 클리어 신호들이다.

타일 인덱스 예측기(601)는 프로세싱되는 트라이앵글에 의해 점유된 타일들을 표시하는 일련의 타일 인덱스들을 예측적으로 생성하기 위해 바운딩 박스 정보 bounding_box를 이용한다. 도 3과 관련하여 이전에 논의된 바와 같이, 메모리 대역폭 효율은 프로세싱되는 트라이앵글들과 관련하여 예측적인 타일들의 캐싱에 의해 향상된다. 프리패치 로직(610)은 깊이 캐시(609)의 캐시 판독 블록(612)을 제어하기 위해 타일 인덱스 예측기(601)로부터의 타일 인덱스들을 이용한다. 캐시 판독 블록(612)의 동작은 아래에서 설명될 것이다. 그러나, 프리패치 로직 블록(610)은 (아래에서 설명되는) 픽셀 테스트 블록으로부터 나중에 요청된 픽셀들이 캐시 RAM에 존재할 가능성이 크도록 캐시 판독 블록(612)의 이른(early) 타일 요청들을 수행한다.

타일 인덱스 생성기(602)는 인입 픽셀 주소 pixel_address_in으로부터 타일 인덱스 신호 tile_index_in를 생성한다. 동일한 타일 인덱스는 타일 인덱스 예측기(601)에 의해 이전에 예측되었기 때문에, 로직은 타일 인덱스 예측기(601) 및 타일 인덱스 생성기(602) 사이에서 공유될 수 있다는 것을 유의하도록 한다.

깊이 보간기(603)는 인입 픽셀 주소 pixel_address_in에 대하여 실제적으로 깊이 값 z_in을 래스터화하기 위해 깊이 계수들 z_coefficients 및 바운딩 박스 정보 bounding_box를 이용한다. 또한, 쉐이딩 블록(도 5 참조)의 일부로서 깊이 보간기(603)를 포함하는 것도 가능하다. 그러나, 이러한 예에서, 오직 계수들만이 임의의 주어진 타일에 대하여 저장되는 경우에 동일한 보간기가 z를 압축해제하기 위해 사용될 수 있기 때문에, 깊이 보간기(603)는 깊이 테스트 블록에서 구현된다. 이와 관련하여, 깊이 보간기는 또한 깊이 캐시 블록(609) 내에 있을 수 있다는 것을 유의하도록 한다.

타일 테스트 블록(604)은 본질적으로 계층적 z 테스트 블록이며 한계 테이블(605) 및 가시도(visibility) 체크 블록(606)을 포함하도록 구성된다. 한계 테이블(605)은 각각의 스크린 타일에 대한 최대 원거리 깊이 값(z-값) z_max_far과 최소 근접 깊이 값(z-값) z_min_near를 포함한다. 타일 인덱스 생성기(602)로부터의 tile_index는 한계 테이블(605)에 대한 주소로서 사용되며, 그 결과 한계 테이블(605)은 프로세싱되는 픽셀을 포함하는 타일에 대한 최소 깊이 값 z_min_near 및 최대 깊이 값 z_max_far을 생성한다. 그 후에 타일의 최소 깊이 값 z_min_near 및 최대 깊이 값 z_max_far은 z_in과 함께 가시도 체크 블록(606)으로 제공된다. 가시도 체크 블록(606)은 z_in과 z_min_near 및 z_max_far을 비교하며, 비교 결과는 z_in이 타일에 대한 z_max_far보다 멀리 떨어져 있는 경우, z_in이 타일에 대한 z_min_near보다 근접해 있는 경우, 또는 z_in이 타일에 대한 z_max_far보다 근접하나 z_min_near보다 멀리 떨어져 있는 경우와 같은 세 개의 가능한 결과들을 가질 수 있다.

z_in이 타일에 대한 z_max_far보다 멀리 떨어져 있는 경우에, 픽셀은 속성 버퍼(608)에 대한 discard_pixel 신호의 동작에 의해 버려지게 된다.

z_in이 타일에 대한 z_min_near보다 근접해 있는 경우에, 픽셀은 가시적이며 update_pixel 신호의 인에이블먼트(enablement)와 캐시 기록 블록(617)에 대한 update_pixel_tile_index, update_pixel_address, update_pixel_z 및 update_pixel_z_coefficients와 같이 도 6에서 지정된 신호들의 전송에 의해 업데이트되어야 한다. 캐시 기록 블록(617)은 캐시 태그 관리를 포함한다. 픽셀이 업데이트되면, 캐시 기록 블록(617)은 캐시 RAM(619)을 업데이트하고 외부 메모리 시스템(620)과 데이터 코히어런시(coherency)를 유지하도록 기능한다. 또한, 타일이 캐시 RAM(619) 또는 외부 메모리 시스템(620)에 다시 저장되면, 캐시 기록 블록(617)은 타일의 깊이 정보 pixel_z를 한계 생성기(618)로 스트리밍한다.

한계 생성기(618)는 타일의 z_max_far 및 z_min_near를 계산하며, 이는 메모리 시스템(620)에 저장된다. 그 후에, update_tile 신호가 인에이블되고, 신호들 update_tile_index, z_max_far 및 z_min_near은 한계 테이블(605)을 업데이트하기 위해 타일 테스트 블록(604)으로 전송된다.

이전에 언급된 바와 같이, 캐시 기록 블록(617)은 신호들 update_pixel_tile_index, update_pixel_address, update_pixel_z 및 update_pixel_z_coefficients를 수신한다. update_pixel_tile_index 신호는 본질적으로 캐시 블록 인덱스(또는 캐시 라인 인덱스)이다. update_pixel_address는 개별적인 픽셀을 어드레싱하기 위해 사용되는 캐시 주소이다. update_pixel_z는 개별적인 픽셀에 대한 개별적인 깊이 값(z-값)이다. update_pixel_z_coefficients 신호는 z-압축 기법의 일부로서 사용되는 계수들을 포함한다. 즉, 깊이 캐시(609)의 압축 테이블(611)은 어떤 타일들이 자신들만의 저장된 계수들을 가지고 있는지 계속해서 트래킹한다. 이러한 타일이 캐시 판독 블록(612)에 의해 발견되면, 계수들이 캐시 RAM(619)으로부터 판독되고 그 후에 개별적인 깊이 값들을 복원하기 위해 깊이 보간기(616)를 런 스루(run through)한다.

z_in이 z_max_far보다 근접하나 z_min_near보다 멀리 떨어져 있는 경우에, 픽셀은 타일의 최소값 및 최대값 사이에 있다. 이러한 경우에, 개별적인 픽셀 테스트가 pixel_test_enable 신호의 인에이블먼트에 의해 실행된다. 이에 대한 응답으로, 신호들 request_pixel, request_pixel_tile_index 및 request_pixel_address가 이전에 프로세싱된 픽셀의 깊이 값을 요청하기 위해 픽셀 테스트 블록(607)에 의해 깊이 캐시(609)로 전송된다. request_pixel 신호는 본질적으로 캐시 판독 명령이며, request_pixel_tile_index 및 request_pixel_address는 각각 타일 및 픽셀 주소들이다. 이러한 신호들에 응답하여, 캐시 판독 블록(612)은 메모리 인터페이스(613)를 통해 캐시 RAM(619)으로부터 이전에 프로세싱된 픽셀의 요청된 z-값을 검색한다. 캐시 판독 블록(612)은 캐시 태그 체킹 및 관리를 포함한다. 요청된 z-값은 request_pixel_z 신호로서 픽셀 테스트 블록(607)으로 제공되며, 픽셀 테스트 블록(607)은 프로세싱되는 픽셀이 가시적인지 여부를 결정한다. 픽셀이 가시적이 아니라고 결정되면, 타일 테스트 블록(604)과 관련하여 이전에 설명된 바와 같 이 discard_pixel 신호가 인에이블된다. 픽셀이 가시적이라고 결정되면, update_pixel 신호가 인에이블되고, update_pixel_tile_index, update_pixel_address, update_pixel_z 및 update_pixel_z_coefficients 신호들은 타일 테스트 블록(604)과 관련하여 이전에 설명된 바와 같이 동일한 방식으로 이용된다.

계층적 z-버퍼의 다른 레벨이 구현될 수 있다는 것을 유의하도록 하며, 이러한 레벨에서 트라이앵글들이 완전히 타일 내에 있다면, 완전한 트라이앵글들이 타일에 대한 최대 및 최소 값들에 기반하여 버려진다.

도 5 및 6의 실시예는 픽셀 타일들의 깊이 값들이 깊이 버퍼에 저장되고 검색되는 타일 동작 모드를 이용한다. 대역폭 효율을 추가적으로 향상시키기 위해, 픽셀 타일들을 나타내는 데이터를 압축하는 것이 바람직할 수 있다. 본 발명의 일 실시예에 따른 하나의 이러한 z-압축 기법이 아래에서 설명된다.

이러한 실시예에 대한 설명에서, 깊이 버퍼는 타일 모드(예를 들어, 4x4 픽셀들)로 분할되며 트라이앵글들이 타일 모드에서 렌더링된다고 가정한다.

파이프라인 프로세스 초기에, 각각의 트라이앵글의 픽셀들의 깊이 값들은 트라이앵글과 관련된 정점(vertex) 정보로부터 계산된다. 일반적으로, 선형 보간이 이러한 목적을 위해 이용된다.

이와 같이, 타일이 트라이앵글을 렌더링함으로써 업데이트되었던 z-버퍼에 있는 장소에 대응하면, 타일에 있는 깊이 값들은 다음과 같이 선형 함수로서 표현될 수 있다:

Z(x,y)=A_zx+B_zy+C_z

여기서, x 및 y는 4x4 타일 내에 있는 각각의 픽셀의 수평 및 수직 좌표들을 표시한다. 타일의 상위-좌측 픽셀의 깊이 값을 (Z₀₀), A_z 및 B_z의 값으로 설정함으로써, 타일의 남아있는 픽셀들은 다음의 수학식에 따라 보간함으로써 획득될 수 있다:

Z_ij=A_z*i+B_z*j+Z₀₀ (i=0~3, j=0~3)

그리하여, 타일이 압축가능하면, 깊이 버퍼에 대한 16개의 깊이 값들 모두를 업데이트하는 대신에, 오직 Z₀₀, A_z 및 B_z만을 업데이트하면 된다. A_z 및 B_z가 Z₀₀와 동일한 데이터 정확도를 가지고 있다고 가정하면, 이것은 단지 정규적인 타일 정보의 3/16이 된다. 동일한 압축된 타일이 z-버퍼로부터 다시 판독되면, 오직 Z₀₀, A_z 및 B_z만을 판독하고 전체 타일의 깊이 값들을 획득하기 위해 위의 공식에 기반하여 압축해제 함수를 실행하면 된다.

도 7에 도시된 바와 같이, 타일은 자신이 트라이앵글 내에 완전히 포함되는 경우에만 압축될 수 있다. 도시된 바와 같이, 타일 A는 압축가능하지만, 타일들 B 및 C는 이들이 트라이앵글 경계를 넘어서 있기 때문에 압축가능하지 않다. 타일이 완전히 트라이앵글 내에 있는지 여부의 결정은 보통 타일의 모든 네 개의 코너 픽셀들이 트라이앵글 내부에 있는지 여부를 검사하는 것으로 충분하다.

모든 타일이 압축가능하지 않기 때문에, 온-칩(on-chip) 메모리는 특정한 타 일 블록이 깊이 버퍼에서 압축되어 있는지 여부를 표시할 수 있는 플래스들의 어레이(타일당 1-비트)을 저장하기 위해 사용될 수 있다. 타일이 깊이 버퍼로부터 판독되면, 대응하는 압축 플래그는 데이터의 압축해제가 필요한지 여부를 결정하기 위해 검사된다. 타일이 깊이 버퍼에 대하여 업데이트되고 있을 때, 타일이 압축가능하면, 압축된 데이터가 깊이 버퍼에 기록되며 대응하는 압축 플래그가 설정된다.

제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

도 1은 3D 그래픽 엔진에 포함된 기본적인 오픈 GL 래스터화 파이프라인의 일례에 대한 블록 다이어그램이다

도 2는 본 발명의 일 실시예에 따른 그래픽 파이프라인의 회로 블록 구성에 대한 단순화된 예를 나타낸다.

도 3은 본 발명의 다른 실시예에 따른 픽셀 타일(tile)들의 예측적 프리-패칭을 설명하기 위한 보기이다.

도 4는 본 발명의 다른 실시예에 따른 그래픽 파이프라인의 회로 블록 구성에 대한 단순화된 예를 나타낸다.

도 5는 픽셀들의 타일들의 z-값들이 예측적으로 프리-패칭되고 캐시에 저장되는 본 발명의 다른 실시예에 대한 블록 다이어그램을 나타낸다.

도 6은 도 5에 도시된 깊이 캐시의 동작을 설명하기 위한 블록 다이어그램을 나타낸다.

도 7은 본 발명의 일 실시예에 따른 z-압축의 대상들인 픽셀 타일들을 설명하기 위한 보기이다.

Claims

그래픽 프로세서로서,

입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인 - 상기 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함함 -; 및

상기 레스터화 파이프라인에 의해 렌더링되는 픽셀 데이터와 관련된 2차원 스크린 타일들의 깊이 값 데이터를 포함하는 깊이 버퍼를 포함하며,

상기 원시 오브젝트 데이터는 원시 형태를 나타내며, 2차원 스크린 타일이 프로세싱되는 픽셀을 포함하는 상기 원시 형태 내에 완전히 포함되어 있는 경우에 상기 2차원 스크린 타일에 대한 상기 깊이 값 데이터는 압축되는 그래픽 프로세서.
제 1 항에 있어서,

상기 원시 형태는 삼각형인 그래픽 프로세서.
제 2 항에 있어서,

상기 2차원 스크린 타일은 픽셀들의 4x4 픽셀들 타일인 그래픽 프로세서.
제 1 항에 있어서,

상기 깊이 값 데이터는 상기 2차원 스크린 타일의 깊이 값들의 상대적인 값들을 설 명하는 수학식의 계수들(A_z,B_z,C_z)을 저장함으로써 압축되며, 상기 수학식은 Z(x,y)=A_zx+B_zy+C_z 인 그래픽 프로세서.
그래픽 프로세싱 방법으로서,

입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인으로 원시 오브젝트 데이터를 제공하는 단계 - 상기 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함함 -; 및

깊이 버퍼에 있는 2차원 스크린 타일들의 깊이 값 데이터를 선택적으로 압축하는 단계를 포함하며,

상기 원시 오브젝트 데이터는 원시 형태를 나타내며, 상기 2차원 스크린 타일이 프로세싱되는 픽셀을 포함하는 상기 원시 형태 내에 완전히 포함되어 있는 경우에 상기 2차원 스크린 타일의 깊이 값 데이터는 압축되는 방법.
제5항에 있어서,

상기 원시 형태는 삼각형인, 방법.
제6항에 있어서,

상기 2차원 스크린 타일은 4x4 픽셀들 타일인, 방법.
제5항에 있어서,

상기 깊이 값 데이터는 상기 2차원 스크린 타일의 깊이 값들의 상대적인 값들을 설명하는 수학식의 계수들(A_z,B_z,C_z)을 저장함으로써 압축되며, 상기 수학식은 Z(x,y)=A_zx+B_zy+C_z 인, 방법.
그래픽 프로세서로서,

입력 원시 오브젝트 데이터로부터 디스플레이 픽셀 데이터를 렌더링하는 복수의 순차적으로 배열된 프로세싱 스테이지들을 포함하는 래스터화 파이프라인으로 원시 오브젝트 데이터를 제공하기 위한 수단 - 상기 프로세싱 스테이지들은 숨김 표면 제거(HSR) 스테이지를 포함함 -; 및

깊이 버퍼에 있는 2차원 스크린 타일들의 깊이 값 데이터를 선택적으로 압축하기 위한 수단을 포함하며,

상기 원시 오브젝트 데이터는 원시 형태를 나타내며, 상기 2차원 스크린 타일이 프로세싱되는 픽셀을 포함하는 상기 원시 형태 내에 완전히 포함되어 있는 경우에 상기 2차원 스크린 타일의 깊이 값 데이터는 압축되는, 그래픽 프로세서.