KR20160033651A

KR20160033651A - 상이한 인덱싱 방식을 사용하는 1차 캐시와 오버플로 캐시를 갖는 캐시 시스템

Info

Publication number: KR20160033651A
Application number: KR1020157031447A
Authority: KR
Inventors: 콜린 에디; 로드니 이. 후커
Original assignee: 비아 얼라이언스 세미컨덕터 씨오., 엘티디.
Priority date: 2014-07-14
Filing date: 2014-12-12
Publication date: 2016-03-28
Also published as: US20160170884A1; WO2016009247A1; US11620220B2; KR101898322B1; CN105814548A; CN105814548B

Abstract

캐시 메모리 시스템은 1차 캐시 및 검색 어드레스를 사용하여 함께 검색되는 오버플로 캐시를 포함한다. 오버플로 캐시는 1차 캐시에 대해 축출 어레이와 같이 동작한다. 1차 캐시는 검색 어드레스의 비트를 사용하여 어드레스되고, 오버플로 캐시는 검색 어드레스의 비트에 인가되는 해쉬 함수에 의해 생성된 해쉬 인덱스에 의해 어드레스 된다. 전체 캐시 활용성을 개선하기 위하여 해쉬 함수는 1차 캐시로부터 축출된 희생을 오버플로 캐시의 상이한 셋트에 분배하도록 동작한다. 해쉬 함수를 수행하기 위해 해쉬 생성기가 포함되어진다. 1차 캐시내의 유효 엔트리의 해쉬 인덱스를 저장하기 위하여 해쉬 테이블이 포함되어진다. 마이크로프로세서용 변환 색인 버퍼를 구현하기 위하여 캐시 메모리 시스템이 사용된다.

Description

상이한 인덱싱 방식을 사용하는 1차 캐시와 오버플로 캐시를 갖는 캐시 시스템{CACHE SYSTEM WITH A PRIMARY CACHE AND AN OVERFLOW CACHE THAT USE DIFFERENT INDEXING SCHEMES}

본 발명은 2014년 7월 14일자로 출원된 미합중국 가출원 제 62/024,020호의 이익을 주장하며, 그 문헌의 모든 의도와 목적에 대한 전체 내용은 본 출원에 참고 문헌으로 포함되어 있다.

본 발명은 일반적으로 마이크로프로세서의 캐시 시스템에 관한 것이고, 보다 상세하게는 상이한 인덱싱 방식을 사용하는 1차 캐시와 오버플로 캐시를 갖는 캐시 시스템에 관한 것이다.

현대의 마이크로프로세서는 메모리 접근 대기시간을 줄이고 전체 성능 개선을 위하여 메모리 캐시 시스템을 포함하고 있다. 시스템 메모리는 마이크로프로세어의 외부에 있고, 시스템 버스 등을 경유하여 접근됨으로서, 시스템 메모리 접근은 상대적으로 느리다. 일반적으로, 캐시는 이전의 요청에 따라 시스템 메모리로부터 검색된 데이터를 그대로 저장하는 더 작고, 더 빠른 로컬 메모리 부품이고, 이로써 같은 데이터에 대한 미래의 요청이 보다 빨리 검색되도록 한다. 캐시 시스템 그 자체는 전형적으로는, 더 작고 더 빠른 제 1 레벨(L1) 캐시 메모리와 좀더 크고 더 느린 제 2 레벨(L2) 캐시 메모리를 포함하는 다중 캐시 레벨의 계층적 방식으로 구성된다. 추가적인 레벨이 유사한 방식으로 상호 상대적으로 동작하기 때문에 그리고 현재는 주로 L1 캐시의 구성을 주로 공개하기 때문에, 비록 추가적인 레벨이 제공되더라도 그들은 더 이상 논의되지 않는다.

요청된 데이터가 캐시 적중을 호출하는 L1 캐시내에 위치할 때, 데이터는 최소 대기시간으로 검색된다. 그렇지 않으면, L1 캐시내에서 캐시 미스가 일어나고, 같은 데이터에 대해 L2 캐시가 검색된다. L2캐시는 분리된 캐시 어레이이어서, L1 캐시로부터 별도로 검색된다. 또한, L1 캐시는 전형적으로 더 적은 셋트 및/또는 통로를 가지며 L2 캐시보다 더 작고 더 빠르다. 요청된 데이터가 L2 캐시내에서 캐시 적중을 호출하는 L2 캐시내에 있을 때, 데이터는 L1 캐시와 비교할 때 증가된 대기시간으로 검색된다. 그렇지 않으면, L2 캐시에서 캐시 미스가 일어난다면, 데이터는 캐시 메모리와 비교하여 상당히 커진 대기시간으로 더 높은 캐시 레벨 및/또는 시스템 메모리로부터 검색된다.

L2 캐시 또는 시스템 메모리중 어느 하나로부터 검색된 데이터는 L1 캐시에 저장된다. L2 캐시는, L1 캐시로부터 축출된 엔트리가 L2 캐시에 저장되는 "축출" 어레이와 같이 거동한다. L1 캐시는 한정된 리소스이므로, 새롭게 검색되는 데이터는 L1 캐시에서 다른 유효 엔트리를 대체하거나 축출하고, 이를 "희생"이라 칭한다. 따라서 L1 캐시의 희생은 L2 캐시에 저장되고, 만약에 있을 수 있는 L2 캐시의 모든 희생들은 더 높은 레벨에 저장되고, 그렇치 않으면 버려진다. 당업자에게 이해되는 최근최소사용(Least-Recently Used, LRU) 또는 그와 유사한 것과 같이 다양한 대체 정책들이 구현된다.

많은 현대 마이크로프로세서들도 가상 메모리 용량, 특히 메모리 페이징 메카니즘을 포함한다. 당업계에 잘 알려진 바와 같이, 운영체제는 가상 어드레스를 물리적 어드레스로 번역하는데 사용되는 시스템 메모리내에 저장되는 페이지 테이블을 생성한다. 페이지 테이블은, 2006년 6월자 시스템 프로그래밍 가이드, 파트 1: IA-32 인텔 아키텍쳐 소프트웨어 개발자 매뉴얼, 3A권의 챕터3에 기술된 바와 같이 x86 아키텍쳐 프로세서에 의해 채택된 잘 알려진 방식에 따라 계층적 형태로 정렬되고, 그의 모든 의도와 목적에 대한 전체 내용이 여기서 참고 문헌으로 포함되어 있다. 특히, 페이지 테이블은 페이지 테이블 엔트리(PTE)를 포함하고, 각각은 물리적 메모리 페이지의 물리적 페이지 어드레스와 물리적 메모리 페이지의 속성을 저장한다. 희생 메모리 페이지 어드레스를 취하고 그리고 가상 어드레스를 물리적 어드레스로 번역하기 위하여 가상 어드레스와 연관된 PTE를 최종적으로 얻기 위해 페이지 테이블 계층을 가로지르는데 이를 사용하는 과정은 보통 테이블워크(tablewalk)라고 언급된다.

물리적 시스템 메모리 어드레스의 대기시간은 상대적으로 느리며, 그로 인해 테이블워크는 상대적으로 비싸게 동작한다. 왜냐하면 이는 잠재적으로 물리적 메모리에 대한 다원 접속을 포함하기 때문이다. 테이블워크와 관련된 시간 손해를 피하기 위하여, 프로세서는 보통 가상을 물리적 어드레스 변환으로 캐시하는 캐싱방식인 변환 색인 버퍼(Translation Lookaside Table, TLB)를 포함한다. TLB의 크기와 구성은 성능에 영향을 준다. 전형적인 TLB 구성은 L1 TLB와 대응하는 L2 TLB를 포함한다. 각 TLB는 일반적으로 다원 셋트(열)로 이루어진 어레이로서 구성되고, 여기서 각 셋트는 다원 통로(또는 행)를 갖는다. 대부분의 캐싱 방식에서, L1 TLB는 전형적으로 더 적은 셋트와 통로를 가진 L2 TLB 보다 더 작고, 이로써 더 빠르다. 비록 더 작고 더 빠르지만, 성능에 커다란 영향을 미치지 않으면서 L1 TLB의 크기를 더 줄이는 것이 요청된다.

본 발명은 이하에서 TLB 캐싱 방식 및 이와 유사한 것들을 참조하여 설명되고, 이는 원리와 기술들이 어떠한 형태의 마이크로프로세서 캐싱 방식에도 동일하게 적용되는 것이라고 이해된다.

본 발명의 목적은, 캐시 메모리의 활용성을 개선하기 위하여 상이한 인덱싱 방식을 사용하는 1차 캐시와 오버플로 캐시를 가진 캐시 시스템을 제공하는 것이다.

일 실시예에 따른 캐시 메모리 시스템은 검색 어드레스를 사용하여 함께 검색되는 1차 캐시와 오버플로 캐시를 포함한다. 오버플로 캐시는 1차 캐시에 대해 축출 어레이와 같이 동작한다. 1차 캐시는 검색 어드레스의 비트를 사용하여 어드레싱되고, 오버플로 캐시는 검색 어드레스의 비트에 적용되는 해쉬함수에 의해 생성된 해쉬 인덱스에 의해 어드레싱 된다. 해쉬함수는 전체 캐시 활용성을 개선하기 위하여 1차 캐시로부터 축출된 희생을 오버플로 캐시의 상이한 셋트에 분배하도록 동작한다.

해쉬 생성기는 해쉬함수가 해쉬 인덱스를 제공하도록 수행하는데 사용된다. 1차 캐시로부터 축출된 태그는, 축출된 태그를 오버플로 캐시내에 저장하기 위한 희생 해쉬 인덱스를 생성하기 위하여 해쉬 생성기에 제공되어진다. 선택적으로, 해쉬 테이블은 1차 캐시내의 유효 엔트리를 위한 해쉬 인덱스를 저장한다. 이 경우, 미스의 결과로서 외부 위치로부터 검색된 어드레스는 인덱스 및 인덱스에 의해 지정된 위치에서 1차 캐시내에 저장된 태그를 포함한다. 검색된 어드레스는, 검색된 어드레스의 인덱스에 의해 지정된 위치에서 해쉬 테이블내에 저장된 해쉬 인덱스를 생성하기 위하여 해쉬 생성기에 제공된다. 만약 1차 캐시에 의해 축출된 희생이 있다면, 희생 어드레스를 형성하기 위하여 1차 인덱스와 결합하고, 대응하는 희생 해쉬는 해쉬 테이블로부터 축출된다. 희생 어드레스는 희생 해쉬에 의해 지정된 위치에서 오버플로 캐시내에 저장된다.

캐시 메모리 시스템은 마이크로프로세서용 레벨 1(L1) 변환 색인 버퍼(TLB)를 구현하기 위하여 사용될 수 있다. 검색 어드레스는, 물리적 어드레스를 시스템 메모리의 페이지에 대응시키는 가상 어드레스가 될 수 있다. 마이크로프로세서는 레벨 2(L2) TLB 및 테이블워크 엔진을 더 포함한다. L1 TLB는 다원 셋트와 통로를 가진 연관-셋트로서 구성될 수 있다. 오버플로 캐시를 위한 상이한 인덱싱의 사용은 TLB 셋트의 활용성을 증가시키고, 전체 L1 TLB 캐시 크기를 줄이도록 한다.

일 실시예에 따른 데이터 캐싱 방법은 가상 어드레스 비트의 제 1 셋트를 1차 인덱스로서 사용하는 단계, 가상 어드레스 비트의 제 2 셋트로부터 해쉬 인덕스를 생성하는 단계, 1차 인덱스를 사용하여 1차 캐시를 검색하는 단계, 및 1차 캐시를 검색하는 동안에도 해쉬 인덱스를 사용하여 1차 캐시의 오버플로 캐시를 검색하는 단계를 포함한다.

본 발명의 일실시예에 따르면 상이한 인덱싱 방식은 캐시 셋트와 통로의 활용성을 높이고 성능을 개선한다. 이로 인해 전체 캐시 활용성이 개선된다.

본 발명의 잇점, 특징 및 장점들은 이하의 설명과 첨부된 도면들에 의해 더 잘 이해될 것이다.
도 1은 본 발명의 일 실시예에 따라 구현된 캐시 메모리 시스템을 포함하는 마이크로프로세서의 간략한 블럭도이다.
도 2는 도 1의 마이크로프로세서중 프론트-엔드 파이프, 예약 스테이션, MOB의 일부 및 ROB 사이의 인터페이스를 설명하는 좀 더 상세한 블럭도이다.
도 3은 도 1의 마이크로프로세서의 시스템 메모리에서 요청된 데이터 위치의 대응되는 물리적 어드레서(PA)를 검색하고 그리고 가상 어드레스(VA)를 제공하는 MOB의 일부를 간략하게 나타내는 블럭도이다.
도 4는 본 발명의 일 실시예에 따라 구현된 도 3의 L1 TLB를 설명하는 블럭도이다.
도 5는 보다 상세한 실시예에 따라 도 3의 L1 TLB를 설명하는 블럭도로서, 16 셋트 곱하기 4 통로(16×4)의 1차 L1.0 어레이, 및 16 셋트 곱하기 2 통로(16×2)의 오버플로 L1.5 어레이를 포함한다.
도 6은 도 5로 구성된 L1 TLB를 사용한 일 실시예에 따라 축출 과정을 나타낸 블럭도이다.
도 7은 도 5로 구성된 L1 TLB를 사용한 다른 실시예에 따라 축출 과정을 나타낸 블럭도이다.

성능에 실질적인 영향을 끼치지 않으면서 L1 TLB 캐시 어레이의 크기를 줄이는 것이 요구된다. 발명자들은 종래의 L1 TLB 구성과 관련된 비효율성을 인식하게 되었다. 일예로, 대부분의 응용 프로그램 코드는 L1 TLB의 활용성을 극대화할 수 없고, 이로 인해 많은 셋트들이 과대-사용되는 반면 그 밖의 셋트들은 잘 사용되지 못하는 경우가 매우 자주 있다.

따라서, 발명자들은 캐시 메모리의 활용성을 개선하기 위하여 상이한 인덱싱 방식을 사용하는 1차 캐시와 오버플로 캐시를 가진 캐시 시스템을 개발하였다. 캐시 시스템은 캐시 검색동안 1차 캐시 어레이(또는 L1.0 캐시)에 대해 확장과 같이 거동하지만 L1.0 캐시를 위한 축출 어레이와 같이도 거동하는 오버플로 캐시(또는 L1.5 캐시)를 포함한다. 더욱이, 결합된 캐시 구성은 유사한 성능을 달성하는 반면 종래의 L1 캐시 구성보다 상당히 더 작다. 오버플로 캐시 어레이, 또는 L1.5 캐시는 보통의 축출 어레이(L2 캐시와 같은)와 다르고, 1차 L1.0 캐시로서 같은 인덱싱 함수를 사용하지 않는다. 반면에, 축출된 엔트리 또는 희생의 장소를 바꾸는 해쉬된 인덱싱 함수를 사용하고, 이로써 더 크면서 종래와 같이 구성된 L1 캐시와 비교할 때 개선된 리텐션을 만들어낸다. 예를 들어, L1.0 1차 캐시의 주어진 셋트의 통로로부터 축출된 엔트리들은 셋트의 활용성을 개선하기 위해 그리고 축출된 엔트리들의 리텐션을 개선하기 위해 L1.5 오버플로 캐시의 상이한 셋트들에게 분배된다. 해쉬 함수에 따라, 주어진 보통의 어드레스 인덱스를 위해 결합된 통로의 갯수 보다 훨씬 많음이 허용될 수 있다.

여기에서 언급한 바와 같이, 캐시 검색동안 1차 캐시 L1 TLB(또는 L1.0 TLB)의 확장처럼 거동하지만 L1.0 TLB에 대해서는 축출 어레이처럼 거동하기도 하는 오버플로 TLB(또는 L1.5 TLB)를 포함하기 위하여 TLB 구성은 개선된 캐시 시스템에 따라 구성된다. 결합된 TLB 구성은 유사한 성능을 발휘하는 반면 종래의 L1 TLB 구성에 비해 상당히 더 작다. 1차 L1.0 TLB는 이를테면 종래의 가상 어드레스 인덱스와 같은 인덱스의 제 1 타입을 사용하는데 반해, 오버플로 L1.5 TLB 어레이는 축출된 페이지의 장소를 변경하는 해쉬된 인덱싱 함수를 사용한다. 결합된 TLB 구성은 더 크면서 종래와 같이 구성된 L1 TLB 캐시와 비교할 때 개선된 리텐션을 만들어낸다. 비록 본 발명이 여기에서 TLB 캐싱 방식 및 이와 유사한 것들을 참조하여 설명되었으나, 이는 원리와 기술들이 어떠한 형태의 마이크로프로세서 캐싱 방식에도 동일하게 적용되는 것이라고 이해된다.

도 1은 본 발명의 일 실시예에 따라 구현된 캐시 메모리 시스템을 포함하는 마이크로프로세서의 간략한 블럭도이다. 마이크로프로세서(100)의 상위 아키텍쳐는x86 마이크로프로세서에서 실행되도록 설계된 대부분의 응용 프로그램을 정확히 실행할 수 있는 x86 상위 아키텍쳐가 될 수 있다. 만약 예상되는 결과가 얻어진다면 응용 프로그램은 정확히 실행된다. 특히, 마이크로프로세서(100)는 x86명령어 셋트의 명령어를 실행하고, x86 사용자가 볼 수 있는 레지스터 셋트를 포함한다. 그러나, 본 발명은 x86 아키텍쳐에 국한하지 않고, 마이크로프로세서(100)는 당업자에게 알려진 어떠한 선택적 아키텍쳐에도 따를 수 있다.

설명된 실시예에서, 마이크로프로세서(100)는 명령어 캐시(102), 프론트-엔드 파이프(104), 예약 스테이션(106), 실행 유닛(108), 메모리 배열 버퍼(MOB, 110), 재배열버퍼(ROB, 112), 레벨-2(L2) 캐시(114), 및 시스템 메모리에 접근하여 인터페이스하기 위한 버스 인터페이스 유닛(BIU, 116)을 포함한다. 명령어 캐시(102)는 시스템 메모리(118)로부터의 프로그램 명령어를 저장한다. 프론트-엔드 파이프(104)는 명령어 캐시(102)로부터의 프로그램 명령어를 꺼내고, 마이크로프로세서(100)에 의해 실행될 수 있도록 마이크로명령어로 복호화한다. 프론트-엔드 파이프(104)는 공동으로 상위 명령어를 하나 이상의 마이크로명령어로 복호화하고 변환하는 디코더(미도시)와 변환기(미도시)를 포함한다. 일실시예에서, 명령어 변환은 마이크로프로세서(x86 명령어 셋트 아키텍쳐와 같은)(100)의 상위 명령어 셋트의 상위 명령어들을 마이크로프로세서(100)의 마이크로명령어 셋트 아키텍쳐의 마이크로명령어들로 변환한다. 예를 들어, 메모리 접근 명령어는 하나 이상의 로드 또는 저장 마이크로명령어들을 포함하는 마이크로명령어의 배열로 복호화될 수 있다. 본 개시는 주로 로드와 저장 동작 및 대응하는 마이크로명령어들에 관한 것이고, 이는 여기서 단순히 로드와 저장 명령어들로 참고된다. 다른 실시예에서, 로드와 저장 명령어는 마이크로프로세서(100)의 고유 명령어 셋트의 일부가 될 수 있다.

프론트-엔드 파이프(106)는 복호된 명령어 및 그들과 관련된 의존 정보를 예약 스테이션(106)으로 신속히 보낸다. 예약 스테이션(106)은 RAT로부터 수신한 명령어와 의존 정보를 유지하는 대기열을 포함한다. 예약 스테이션(106)은 실행될 준비가 되었을 때 대기열로부터 실행 유닛(108)과 MOB(110)로 명령어를 송출하는 이슈 로직도 포함한다. 모든 의존성이 해결될 때 명령어는 송출되어지고 실행되어질 준비가 된다. 명령어를 신속히 보내는 것과 함께, RAT는 ROB(112)내의 엔트리를 명령어를 위해 할당한다. 따라서, 명령어는 프로그램 배열에 따라 ROB(112)내에 할당되고, 이는 명령어가 프로그램 배열에 따라 퇴각하는 것을 보장하기 위하여 순환 대기열과 같이 구성될 수 있다. 명령어의 엔트리 내의 저장을 위하여 RAT도 ROB(112)에 의존 정보를 제공한다. ROB(112)가 명령어를 재생할 때, ROB 엔트리내에 저장된 의존 정보를 명령어의 재생기간동안 예약 스테이션(106)에 제공한다.

마이크로프로세서(100)는 슈퍼스칼라이고 다중 실행 유닛을 포함하며, 단일 클럭 사이클내의 실행 유닛에 다중 명령어를 송출할 수 있다. 마이크로프로세서(100)는 비순차적 명령어 처리도 수행할 수 있도록 구성된다. 즉, 예약 스테이션(106)은 명령어를 포함하는 프로그램에 의해 특정된 비순차적 명령어를 송출한다. 슈퍼스칼라 비순차적 처리 마이크로프로세서는 계류중인 명령어의 상대적으로 큰 풀을 유지하려는 시도를 하는 것이 일반적이고, 이로써 더 많은 양의 명령어 병렬 계산의 장점을 얻을 수 있다. 명령어가 실제도 완료되는지 여부에 대한 확신을 알기전에, 마이크로프로세서(100)는 명령어를 실행하는 명령어의 추론적 실행도 수행하거나 또는 적어도 명령어에 의해 규정되는 일부 액션을 수행한다. 명령어는 잘못 예견된 브랜치 명령어, 예외들(인터럽트, 페이지 결함, 0으로 나누기, 일반적인 보호 에러들, 등)과 같은 다양한 이유에 의해 완료되지 못할 수 있다. 비록 마이크로프로세서(100)가 명령어에 의해 규정된 액션의 일부를 추론적으로 수행하더라도, 마이크로프로세서는 명령어가 완료될 것이라는 확신이 알려질 때까지 시스템의 아키텍쳐 상태를 명령어의 결과들로 업데이트하지 않는다.

MOB(110)는 L2 캐시(1140와 BIU(116)를 경유하는 시스템 메모리(118)와의 인터페이스를 다룬다. 시스템 메모리(118)와 시스템 칩셋과 같은 다른 장치들이 결합되듯 BIU(116)는 마이크로프로세서(100)와 프로세서 버스(미도시) 사이를 인터페이스한다. 마이크로프로세서(100) 상에서 돌아가는 운영체제는 테이블워크를 수행하기 위하여 마이크로프로세서(100)가 읽고 쓰는 시스템 메모리(118)내에 페이지 맵핑 정보를 저장하고, 이는 이하에서 추가로 설명된다. 예약 스테이션(106)에 의해 송출이 있을 때 실행 유닛(108)은 명령어를 실행한다. 일 실시예에서, 실행 유닛(108)은 연산 로직 유닛(ALU) 등과 같은 마이크로프로세서의 모든 실행 유닛들을 포함한다. 설명된 실시예에서, MOB(110)는 시스템 메모리(118)에 접근하기 위한 로드와 저장 명령어를 실행하기 위하여 로드와 저장 실행 유닛을 병합하고, 이는 이하에서 추가로 설명된다. 실행 유닛(108)은 시스템 메모리(118)에 접근할 때 MOB(110)와 인터페이스 한다.

도 2는 도 1의 마이크로프로세서중 프론트-엔드 파이프(104), 예약 스테이션(106), MOB(110)의 일부 및 ROB(112) 사이의 인터페이스를 설명하는 좀 더 상세한 블럭도이다. 이러한 구성에서, MOB(110)는 일반적으로 로드와 저장 명령어 둘다를 수신하고 실행하기 위하여 동작한다. 예약 스테이션(106)은 로드 예약 스테이션(RS)(206)과 저장 RS(208)로 나누어져 도시된다. MOB(110)는 로드 명령어를 위한 로드 대기열(로드 Q)(210) 및 로드 파이프(212)를 포함하고, 저장 명령어를 위한 저장 파이프(214) 및 저장 Q(216)를 더 포함한다. 일반적으로, 로드와 저장 명령어에 의해 특정된 소스 오퍼랜드를 사용하여 MOB(110)는 로드 명령어용 로드 어드레스를 해결하고 그리고 저장 명령어용 저장 어드레스를 해결한다. 오퍼랜드의 소스들은 아키텍쳐 레지스터(미도시), 상수, 및/또는 명령어에 의해 특정된 치환이 된다. MOB(110)은 연산된 로드 어드레스에서 데이터 캐시로부터 로드 데이터도 판독한다. MOB(110)은 연산된 저장 어드레스에서 데이터 캐시로 저장 데이터도 쓴다.

프론트 엔드 파이프(104)는 로드와 저장 명령어 엔트리들을 프로그램 배열에 따라 푸쉬하는 출력을 갖고, 여기서 로드 명령어는 순차적으로 로드 Q(210), 로드 RS(206) 및 ROB(112)내로 로딩된다. 로드 Q(210)는 시스템 내의 모든 액티브 로드 명령어들을 저장한다. 로드 RS(206)는 로드 명령어의 실행을 스케쥴링하고, 오퍼랜드가 유용할 때와 같이 실행이 "준비"될 때 로드 RS(206)는 실행을 위해 로드 명령어를 출력(203)을 거쳐 로드 파이프(212) 내로 푸쉬한다. 로드 명령어는 설명된 구성에서 비순차적이고 추론적으로 수행된다. 로드 명령어가 완료되었을 때, 로드 파이프(212)는 완료 표식(205)을 ROB(112)에 제공된다. 만약 어떠한 이유로 로드 명령어가 완료될 수 없다면, 로드 파이프(212)는 그 대신에 미완료 표식(207)을 로드 Q(210)에 송출하고, 이로써 로드 Q(210)는 이제 미완료된 로드 명령어의 상태를 제어하게 된다. 로드 Q(210)가 미완료된 로드 명령어가 다시 재생될 수 있다고 판단할 때, 비록 이때 로드 명령어는 로드 Q(210)로부터 로딩되지만, 재생 표식(209)을 로드 명령어가 재실행(재생)되는 곳인 로드 파이프(212)로 전송한다. ROB(112)는 오리지널 프로그램의 순서에서 순차적인 명령어의 퇴각을 보장한다. 완료된 로드 명령어가 퇴각되어질 준비가 되었을 때, 이는 프로그램 순서중 ROB(112)에서 가장 오래된 명령어가 로드 Q(210)에 퇴각 표식(211)을 송출한다는 것을 의미하고, 효율적으로 로드 명령어는 로드 Q(210)로부터 쑥 나가게 된다.

저장 명령어 엔트리들은 저장 Q(216), 저장 RS(208) 및 ROB(112) 내에 프로그램 순서에 따라 푸쉬된다. 저장 Q(216)는 시스템내의 모든 액티브 저장들을 저장한다. 저장 RS(208)는 저장 명령어의 실행을 스케쥴링하고, 그 오퍼랜드가 유용할 때와 같이 실행이 "준비"되었을 때, 저장 RS(208)는 실행을 위해 저장 명령어를 출력(213)을 통해 저장 파이프(214)내로 푸쉬한다. 비록 저장 명령어가 프로그램 순서에 따르지 않으면서 실행되더라도, 그들은 추론적으로 확인된 것은 아니다. 저장 명령어는 자신의 어드레스를 생성하고, 예외 체크를 수행하고, 라인의 소유권을 얻는 등의 실행 단계를 갖고, 이는 추론적으로 또는 비순차적으로 이루어진다. 그러면 저장 명령어는 추론적이거나 비순차적이지 않은 데이터를 실제로 기록했는지에 관한 스스로의 확인 단계를 갖는다. 저장과 로드 명령어들은 실행되어질 때 상호 상대방에 대해 비교한다. 저장 명령어가 완료되었을 때, 저장 파이프(214)는 ROB(112)에 완료 표식(215)을 제공한다. 만약 어떠한 이유로 저장 명령어가 완료될 수 없다면, 저장 파이프(214)는 대신에 저장 Q(216)에 미완료 표식(217)을 송출하고, 이로써 저장 Q(216)는 이제 미완료된 저장 명령어의 상태를 제어한다. 미완료된 저장 명령어가 재생될 수 있다고 저장 Q(216)가 결정하면, 비록 이때 저장 명령어는 저장 Q(216)로부터 로딩되지만, 재생 표식(219)을 저장 명령어가 재실행(재생)되는 곳인 저장 파이프(214)로 전송한다. 완료된 저장 명령어가 퇴각되어질 준비가 되었을 때, ROB(112)는 저장 Q(216)에 퇴각 표식(221)을 송출하고, 그리고 저장 명령어는 저장 Q(216)로부터 효율적으로 쑥 나가게 된다.

도 3은 시스템 메모리(118)에서 요청된 데이터 위치의 대응되는 물리적 어드레서(PA)를 검색하고 그리고 가상 어드레스(VA)를 제공하는 MOB(110)의 일부를 간략하게 나타내는 블럭도이다. 가상 어드레스 공간은 운영체제가 주어진 프로세스를 유용하게 만드는 가상 어드레스("선형" 어드레스라고도 알려진 것 등) 셋트를 사용하여 참조된다. 로드 파이프(212)는 로드 명령어(L_INS)를 수신하도록 도시되고, 저장 파이프(214)는 저장 명령어(S_INS)를 수신하도록 도시되고, 여기서 L_INS와 S_INS 둘다는 시스템 메모리(118)내에 대응하는 물리적 어드레스에 마지막으로 위치하는 데이터에 대한 메모리 접근 명령어들이다. L_INS에 응답하여, 로드 파이프(212)는 VA_L로 도시된 가상 어드레스를 생성한다. 유사하게, S_INS에 응답하여, w저장 파이프(214)는 VA_S로 도시된 가상 어드레스를 생성한다. 검색 어드레스(즉, 가상 어드레스에 대응하는 물리적 어드레스)에 대응하는 데이터 또는 그 밖의 정보를 위해 가상 어드레스(VA_L, VA_S)는 일반적으로 캐시 메모리 시스템(즉, TLB 캐시 시스템)을 검색하기 위한 검색 어드레스로 참조된다. 설명되는 구성에서, MOB(110)는 대응하는 가상 어드레스에 대한 물리적 어드레스의 한정된 갯수를 저장하는 레벨-1 변환 색인 버퍼(L1 TLB)를 포함한다. 적중의 이벤트에서, L1 TLB(302)는 대응하는 물리적 어드레스를 요청하는 장치에 출력한다. 따라서, 만약 VA_L이 적중을 생성한다면, L1 TLB(302)는 로드 파이프(212)에 대해 대응하는 물리적 어드레스(PA_L)를 출력하고, 그리고 만약 VA_S가 적중을 생성한다면, L1 TLB(302)는 저장 파이프(214)에 대해 대응하는 물리적 어드레스(PA_S)를 출력한다.

그러면, 로드 파이프(212)는 요청된 데이터에 접근하기 위하여 검색된 물리적 어드레스(PA_L)를 데이터 캐시 시스템(308)에 제공한다. 캐시 시스템(308)은 데이터 L1 캐시(310)를 포함하고, 그리고 만약 물리적 어드레스(PA_L)에 대응하는 데이터가 그 안에(캐시 적중) 저장되어 있다면, D_L로 도시된 검색된 데이터가 로드 파이프(212)에 제공된다. 만약 L1 캐시(310)가 미스로 고생하고 이로써 요청된 데이터(D_L)가 L1 캐시(310)내에 저장되어 있지 않다면, 마지막의 데이터가 L2 캐시(114) 또는 시스템 메모리(118)중 어느 하나로부터 검색된다. 데이터 캐시 시스템(308)은 캐시 라인을 L2 캐시(114)내로 로딩하기 위한 L2 캐시(114)와 인터페이스하는 FILLQ(312)를 더 포함한다. 데이터 캐시 시스템(308)은 이는 L1 과 L2 캐시(310, 114) 사이의 캐시 일관성을 유지하기 위한 스누프 Q(314)를 더 포함한다. 연산은 저장 파이프(214)와 유사하고, 데이터 캐시 시스템(308)을 경유하여 대응하는 데이터(DS)를 메모리 시스템(L1, L2 또는 시스템 메모리)내에 저장하기 위하여 저장 파이프(214)는 검색된 물리적 어드레스(PA_S)를 사용한다. 데이터 캐시 시스템(308)의 연산과 L2 캐시(114)와 시스템 메모리(118) 사이의 인터페이싱은 더 이상 설명하지 않는다. 그럼에도 불구하고 본 발명의 요지가 유사한 방식으로 데이터 캐시 시스템(308)에 동일하게 적용될 수 있음이 이해된다.

L1 TLB(302)는 한정된 리소스이어서, 처음에 그 후 주기적으로 가상 어드레스에 대응하는 요청된 물리적 어드레스는 그 내부에 저장되지 않는다. 만약 물리적 어드레스가 저장되지 않는다면, 제공된 가상 어드레스에 대응하는 물리적 어드레스를 저장하였는지 여부를 결정하기 위하여 대응하는 가상 어드레스(VA)(VA_L 또는 VA_S)를 따라 L1 TLB(302)는 L2 TLB(304)에 "미스" 표식을 선언한다. 비록 물리적 어드레스가 L2 TLB(304)내에 저장되더라도, 그럼에도 불구하고 제공된 가상 어드레스(PUSH/VA)를 따라 테이블워크 엔진(306)에 테이블워크를 푸쉬한다. 테이블워크 엔진(306)은 L1과 L2 TLB에서 미스된 가상 어드레스(VA)의 물리적 어드레스 변환을 얻기 위해 테이블워크를 반응적으로 초기화한다. L2 TLB(304)는 L1 TLB(302) 보다 더 크고 그리고 더 많은 엔트리들을 저장한다. 만약 가상 어드레스(VA)에 대응하는 물리적 어드레스(PA_L2로 도시됨)가 L2 TLB(304)내에 발견된다면, 테이블워크 엔진(306) 내부로 푸쉬된 대응 테이블워크 연산은 취소되고, 그리고 가상 어드레스(VA) 및 대응하는 물리적 어드레스(PA_L2)는 그 안에 저장되기 위해 L1 TLB(302)로 제공된다. 표식은 로드 파이프(212)(및/또는 로드 Q(210)) 또는 저장 파이프(214(및/또는 저장 Q(216))와 같이 요청하는 엔트리로 되돌려지고, 이로 인해 대응하는 가상 어드레스를 사용하는 후속 요청은 L1 TLB(302)가 대응하는 물리적 어드레스(예, 적중)를 제공하도록 한다.

그 대신에 만약 요청도 L2 TLB(304)에서 미스된다면, 테이블워크 엔지(306)에 의해 수행된 테이블워크 프로세스는 결국 완료되고, PA_TW(가상 어드레스(VA)에 대응함)로 도시된 검색된 물리적 어드레스를 그 내부에 저장하기 위하여 L1 TLB(302)에 되돌려 제공한다. 물리적 어드레스가 L2 TLB(304) 또는 테이블워크 엔진(306)중 어느 하나에 의해 제공되는 것과 같이 L1 TLB(304)에서 미스가 일어날 때, 그리고 만약 검색된 물리적 어드레스가 L1 TLB(302)내에서 다른 유효한 엔트리를 축출한다면, 축출된 엔트리 또는 "희생"은 L2 TLB에 저장된다. L2 TLB(304)의 어떤 희생들도 새롭게 획득된 물리적 어드레스를 위하여 그저 푸쉬될 뿐이다.

물리적 시스템 어드레스(118)에 대한 각각의 접근 대기시간은 느리고, 그래서 다중 시스템 메모리(118) 접근을 포함하는 테이블워크 프로세스는 상대적으로 비싸게 동작한다. 여기서에서 추가로 설명되는 바와 같이, L1 TLB(302)는 종래의 L1 TLB 구성과 대비하여 성능을 개선하는 방식으로 구성된다. 일실시예에서 L1 TLB(302)의 크기는 대응하는 종래의 L1 TLB에 비해 적은 물리적 저장 위치로 더 작지만, 많은 프로그램 과정에서 유사한 성능을 발휘한다. 이는 이하에서 더 설명될 것이다.

도 4는 본 발명의 일 실시예에 따라 구현된 도 3의 L1 TLB(302)를 설명하는 블럭도이다. L1 TLB(302)는 L1.0 TLB(402)로 나타내는 제 1 또는 1차 TLB와 L1.5 TLB("1.0"과 "1.5"는 상호간에 그리고 전체 L1 TLB(302) 사이를 구별하기 위하여 사용된다)(404)로 나타내는 오버플로 TLB를 포함한다. 일실시예에서, TLB(402, 404)는 둘다 멀티 셋트와 통로를 포함하는 셋트-연합 캐시 어레이들이고, 여기서 L1.0 TLB(402)는 J개의 셋트(I_o 부터 I_J _-1까지 색인됨)와 K개의 통로(W_o 부터 W_K-1까지 색인됨)를 포함하는 J×K 어레이이고, L1.5 TLB는 Y개의 셋트(I_o 부터 I_Y _-1까지 색인됨)와 Z개의 통로(W_o 부터 W_Z _-1까지 색인됨)를 포함하는 Y×Z 어레이이고, J, K, Y, 및 Z는 각각 1 보다 큰 정수이다. VA[P]로 나타내어지는, 시스템 메모리(118)내에 저장된 정보의 "페이지"에 대한 가상 어드레스는 L1.0 TLB(402)의 각 위치에 접근하기 위해 사용되어진다. "P"는 각 페이지를 어드레스 하기에 충분한 전체 가상 어드레스의 상위 비트만을 포함하는 정보의 페이지를 나타낸다. 예를 들어, 만약 정보의 페이지가 2¹² = 4,096 (4K)의 크기를 갖는다면, VA[P]가 잔여 상위 비트만을 포함하도록 하기 위하여 하위 12 비트[11...0]는 버려진다.

VA[P] 어드레스(전체 가상 어드레스의 버려진 하위 비트의 바로 위)의 "I" 비트의 하위 배열수는 L1.0 TLB(402)의 선택된 셋트에 어드레스 하기 위한 인덱스 VA[I]로 사용된다. L1.0 TLB(402)를 위한 인덱스 비트 "I"의 수는 LOG₂(J) = I로 결정된다. 예를 들어, 만약 L1.0 TLB(402)가 16 셋트를 갖는다면, 인덱스 어드레스(VA[I])는 페이지 어드레스(VA[P])의 최하위 4비트이다. L1.0 TLB(402)의 비교기(406)의 셋트를 사용하는 선택된 셋트의 각 통로의 태그값과 비교하기 위하여 VA[P] 어드레스의 잔여 상위 비트 "T"는 태그값으로 사용된다. 이러한 방식에서, 인덱스 VA[I]는 L1.0 TLB(402)내의 엔트리중 하나의 셋트 또는 열을 선택하고, 그리고 TA1.0₀, TA1.0₁, ..., TA1.0_K- ₁ 로 도시된 선택된 셋트의 각 K 통로의 선택된 태그값들은 적중 비트 H1.0₀, H1.0₁, ..., H1.0_K- ₁ 의 대응 셋트를 결정하기 위하여 비교기(406)에 의해 태그값 VA[T]와 각각 비교된다.

L1.5 TLB(404)는 다른 방식으로 색인된다. VA[P]는 해쉬 생성기(408)의 입력에 제공되고, 대응하는 해쉬 인덱스 H[L]을 출력한다. 해쉬 생성기(408)는 모든 적절한 위치에 놓여질 수 있다. 일 실시예에서, 해쉬 생성기(408)는 L1 TLB(302)내에 편리하게 위치될 수 있다. 다른 실시예에서, 로드 및 저장 파이프(212, 214)는 다른 목적을 위해 해쉬 함수를 수행하고, 여기서 해쉬 생성기(408) 또는 그 함수들은 로드 및 저장 파이프(212, 214) 양쪽에 위치할 수도 있다. 비록 VA[P]의 모든 비트들이 해쉬 생성기(408)에 의해 수행되는 해쉬 함수에 종속되어지지만, 전형적으로 VA[P] 비트의 부분집합은 해쉬 인덱스 H[L]을 생성하기 위해 사용된다. 비록 VA[P]의 최하위 비트인 인덱스 VA[I]의 하나 이상의 비트가 해쉬 함수를 위해 사용될지라도, 전형적으로 해쉬 함수는 해쉬값을 생성하기 위해 비트의 더 큰 수를 감소시키고, 이로써 더 높은 비트가 독점적으로 또는 부가적으로 사용된다. 일 실시예에서, VA[I] 비트는 VA[P]의 선택된 더 상위 비트를 위해 해쉬 함수용으로 사용되지 않는다. 비록 해쉬 인덱스 H[L]의 주어진 어떠한 비트도 VA[P]의 단일 비트로부터 유도될 수 있지만, 전형적으로 VA[P]의 2개 이상의 비트들이 해쉬 인덱스 H[L] 비트들중 하나를 전개하기 위해 사용된다.

해쉬 함수는 해쉬 인덱스 H[L]을 생성하기 위한 어떠한 공지의 해쉬 함수라도 될 수 있다. 일 실시예에서, 예를 들어, 배타적 논리합(XOR) 로직 함수가 H[L] 인덱스의 비트들을 생성하기 위하여 VA[P]의 선택된 비트들에 적용될 수 있다. VA[P]의 선택된 비트 및 해쉬 함수는 L1.0 TLB(402)로부터 L1.5 TLB(404)내로 축출된 희생의 분배를 최적화하도록 구성될 수 있다. L1.5 TLB(404)용 인덱스 비트 "L"의 갯수는 LOG₂(Y) = L로서 결정된다. 예를 들어, 만약 L1.5 TLB(404)가 16 셋트(즉, J=Y)를 갖는다면, 해쉬 어드레스 H[L]은 4비트(즉, L=I)를 포함한다. 그러나, L1.5 TLB(404)의 셋트 Y의 갯수는 L1.0 TLB(402)의 셋트 J의 갯수와 다르다는 것을 알아야 한다.

L1 TLB(402)와 비교하여 상이하게 색인되도록 하기 위해 VA[P]의 더 하위 비트가 L1.5 TLB(404)의 인덱스로서 직접 사용되지 않기 때문에, L1.5 TLB(404)의 비교기(410) 셋트를 사용하여 선택된 셋트의 각 통로의 태그값과 비교하기 위하여 전체 페이지 어드레스 VA[P]는 태그값으로서 사용된다. 이러한 방식에서, 인덱스 H[L]은 L1.5 TLB(404)에서 하나의 셋트 또는 열의 엔트리를 선택하고, TA1.5₀, TA1.5₁, ..., TA1.5_z-1로 도시된, 선택된 셋트의 각 Z 통로의 선택된 태그값은 적중 비트 H1.5₀, H1.5₁, ..., H1.5_z-1의 대응 셋트를 결정하기 위하여 비교기(410)에 의해 태그 어드레스 VA[P]와 비교된다.

선택된 태그값 TA1.0₀, TA1.0₁, ..., TA1.0_K-1중 어느 하나라도 태그값 VA[T]와 같을때, L1.0 TLB(402)의 적중 비트 H1.0₀, H1.0₁, ..., H1.0_K-1은, L1.0 TLB(402)내에서 적중을 나타내는 적중 신호 L1.0 HIT를 제공하기 위하여 K-입력 로직 OR 게이트(412)의 대응 입력에 제공된다. 선택된 태그값 TA1.5₀, TA1.5₁, ..., TA1.5_K-1중 어느 하나라도 태그값 VA[P]와 같을때, L1.5 TLB(404)의 적중 비트 H1.5₀, H1.5₁, ..., H1.5_Z-1은, L1.5 TLB(404)내에서 적중을 나타내는 적중 신호 L1.5 HIT를 제공하기 위하여 Z-입력 로직 OR 게이트(414)의 대응 입력에 제공된다. L1.0 HIT 신호 및 L1.5 HIT 신호는 적중 신호 L1 TLB HIT를 제공하는 2-입력 로직 OR 게이트(416)의 입력에 제공된다. 따라서, L1 TLB HIT는 전체 L1 TLB(302)내의 적중을 나타낸다.

L1.0 캐시(402)의 각 엔트리는 엔트리(418)에 의해 설명된 형태를 갖는다. 비교기(406)중 대응하는 하나에 의한 비교를 위해 태그값 VA[T]로서 태그 비트 "T"와 같은 수를 갖는 태그값을 저장하기 위하여 각 엔트리는 태그 필드 TA1.0_F[T](아래첨자 "F"는 필드를 지정함)를 저장한다. 시스템 메모리(118) 내에서 대응하는 페이지에 접근하도록 물리적 페이지 어드레스를 저장하기 위해 각 엔트리는 대응하는 물리적 페이지 필드 PA_F[P]를 포함한다. 각 엔트리는 엔트리가 현재 유효한지 여부를 나타내는 하나 이상의 비트를 포함하는 유효 필드 "V"를 포함한다. 대체 벡터(미도시)는 대체 정책을 결정하는데 사용하는 각 셋트를 위해 제공된다. 예를 들어, 만약 주어진 셋트의 모든 통로가 유효하고 그리고 새로운 엔트리가 셋트내의 엔트리중 하나와 대체된다면, 대체 벡터는 유효 엔트리중 어떤 것을 축출하려는지 결정하는데 사용된다. 축출된 데이터는 L1.5 캐시(404)로 전달되어 그 내부에 저장된다. 일 실시예에서, 예를 들어, 대체 벡터가 최저 사용 빈도(LRU) 정책에 따라 구현되고, 이로써 최저 사용 빈도 엔트리는 축출과 대체를 위한 목표로 정해진다. 설명된 엔트리 포맷은 대응 페이지를 위한 상태 정보 또는 이와 유사한 것과 같은 추가 정보(미도시)를 포함할 수 있다.

L1.5 캐시(404)의 각 엔트리는 엔트리(420)과 같은 형태를 갖는다. 엔트리(420)는 실질적으로 엔트리(418)과 유사하고, 다만, P 비트의 전체 페이지 어드레스를 가진 태그값을 저장하기 위하여 태그 필드가 대신 TA1.5_F[P]이다. 이러한 방식에서, L1.5 TLB(404)를 위한 엔트리(420)내의 태그 필드는 L1.0 TLB(402)를 위한 엔트리(418)내의 태그 필드 보다 어느 정도 더 큰 태그값을 저장한다. 따라서 비교기(410)는 더 큰 수의 비트와 비교하기 위하여 좀 더 큰 비교기로 구현된다. 설명된 엔트리 포맷은 대응 페이지를 위한 상태 정보 또는 이와 유사한 것과 같은 추가 정보(미도시)를 포함할 수 있다.

L1.0 TLB(402) 및 L1.5 TLB(404)는 동시에 또는 동일한 클럭 사이클 동안에 접근되고, 이로써 양쪽 TLB의 집단적인 엔트리들이 함께 검색된다. L1 TLB(302)(L1 TLB HIT)내에서 적중이 일어날 때, L1.0 TLB(402) 또는 L1.5 TLB(404)중 어느 하나의 내부에서 대응 엔트리로부터 대응하는 물리적 어드레스 엔트리 PA[P]가 검색된다. L1.5 TLB(404)는 L1.0 TLB(402)와 다른 방식으로 색인되고 해쉬 인덱스 H[L]의 분배가 인덱스 VA[I]의 분배와 다르기 때문에, L1 TLB(302)(L1 및 L1.5)의 결합된 크기의 전체 활용성은 같은 수의 엔트리를 가진 하나의 더 큰 TLB 보다 더 높다. 종래의 TLB 구성에서, 유일한 색인 방식에 기초하여 어떤 셋트들은 지나치게 많이 사용되고 반면 그 밖의 것들은 잘 사용되지 않는다. L1.5 TLB(404)를 위한 상이한 인덱스 방식의 사용은 전체 활용성을 개선하고 이로써 L1 TLB(302)는 실제로 가진 것 보다 더 큰 숫자의 엔트리를 가진 더 큰 어레이로 나타난다. L1.5 TLB(404)도, L1.0 TLB(402)로부터 축출된 희생들이 이하에서 설명되는 바와 같이 L1.5 TLB(404)를 거주케 하는데 사용되는 오버플로 TLB로서 거동한다. 앞서 설명한 바와 같이, 해쉬 생성기(408)에 의해 채택된 해슁 함수는 전체 L1 TLB(302)의 셋트 활용성을 개선하기 위해 L1.0 TLB(402)의 주어진 셋트로부터 축출된 값들이 L1.5 TLB(404)의 상이한 셋트내에 저장되어지는 것과 같은 있음직한 일들을 증가시킨다. 이러한 방식에서, 전체 L1 TLB(302)는 같은 수의 엔트리를 갖는 하나의 더 큰 TLB 보다 일반적으로 더 높은 성능을 갖는다.

도 5는 보다 상세한 실시예에 따라 L1 TLB(302)를 설명하는 블럭도로서, L1.0 TLB(402)가 16 셋트 곱하기 4 통로(16×4)이고, L1.5 TLB(404)가 16 셋트 곱하기 2 통로(16×2)가 되도록 J=Y=16, K=4 그리고 Z=2 이다. 또한, VA[47:0]으로 나타내는 가상 어드레스는 48 비트이고, 페이지의 크기는 4K이다. 로드 및 저장 파이프(212, 214) 양쪽의 내부에 있는 가상 어드레스 생성기(502)는 가상 어드레스의 상위 36 비트, 또는 VA[47:12]를 제공하고, 여기서 데이터의 4K 페이지를 어드레싱 하기 때문에 하위 12 비트는 버려진다. 일 실시예에서, VA 생성기(502)는 L1 TLB(302)를 위한 검색 어드레스로서 사용되어지는 가상 어드레스를 제공하기 위하여 덧셈을 수행한다. VA[47:12]는 해쉬 생성기(408)의 입력 및 L1 TLB(302)의 입력에 제공된다.

가상 어드레스의 하위 4비트는, 선택된 셋트(504)로 도시된 16 셋트들중 하나를 어드레싱 하기 위하여 L1.0 TLB(402)로 제공되는 인덱스 VA[15:12]를 형성한다. 가상 어드레스의 더 높은 잔여 비트들은 비교기(406)의 입력에 제공되는 태그값 VA[47:16]을 형성한다.

각각은 VTX[47:16] 형태를 갖는, 선택된 셋트(504)의 4 통로의 각 엔트리내의 태그값 VT0 - VT3은 태그값 VA[47:16]과 비교하기 위하여 비교기(406)의 각 입력에 제공된다. 비교기(406)는 4 적중 비트 H1.0[3:0]을 출력한다. 만약 4개의 선택된 엔트리들중 어느 하나에서 적중이 있다면, 대응하는 물리적 어드레스 PA1.0[47:12]도 L1.0 TLB(402)의 출력으로서 제공된다.

해쉬 인덱스 H[3:0]은, 선택된 셋트(506)로 도시된 16 셋트중 하나에 어드레싱 하기 위하여 L1.5 TLB(404)에 제공된다. 가상 어드레스 비트 VA[47:12]는 비교기(410)의 입력에 제공되는 태그값을 형성한다. 각각은 VTX[47:12] 형태를 갖는, 선택된 셋트(506)의 4 통로의 각 엔트리내의 태그값 VT0 - VT1은 태그값 VA[47:12]와 비교하기 위하여 비교기(410)의 각 입력에 제공된다. 비교기(406)는 2 적중 비트 H1.5[1:0]을 출력한다. 만약 2개의 선택된 엔트리들중 어느 하나에서 적중이 있다면, 대응하는 물리적 어드레스 PA1.5[47:12]도 L1.5 TLB(404)의 출력으로서 제공된다.

적중 비트 H1.0[3:0]과 H1.5[1:0]은 OR 게이트(412, 414, 및 416)를 나타내고, L1 TLB(302)를 위한 적중 비트 L1 TLB HIT를 출력하는 OR 로직(505)의 각 입력에 제공된다. 물리적 어드레스 PA1.0[47:12] 및 PA1.5[47:12]는 L1 TLB(302)의 물리적 어드레스 PA[47:12]를 출력하는 PA 로직(506)의 각 입력에 제공된다. PA 로직(506)은 L1.0 및 L1.5 TLBs(402, 404)의 물리적 어드레스중 하나를 선택하기 위하여 선택기 또는 다중화기(MUX) 로직 또는 이와 유사한 것들로서 구성될 수 있다. 만약 L1 TLB HIT가 L1 TLB(302)에 대해 MISS를 표시내며 나타나지 않는다면, 대응 물리적 어드레스 PA[47:12]는 무시되거나 또는 그렇지 않으면 무효로서 버려진다.

도 5에 도시된 L1 TLB(302)는 16×4(L1.0) + 16×2(L1.5) 엔트리로서 총 96개의 엔트리를 포함한다. L1 TLB의 과거 종래구성은 16×12 어레이로서 총 192 엔트리이고, 이는 L1 TLB(302) 크기의 2배 이상되는 것이다. 해쉬 인덱스 H[3:0]을 생성하기 위하여 사용되는 해쉬 함수는 인덱스 VA[15:12]에 의해 제공되는 분배 방식과 비교하여 상이한 분배 방식을 제공하고, 이로써 L1 TLB(302)의 셋트와 통로의 활용성은 종래의 구성에 비해 상대적으로 개선된다. 보다 상세하게, 평균적으로, 해쉬 인덱스는 엔트리가 축출되는 L1.0 TLB(302)내의 셋트 보다는 L1.5 TLB(404)내의 엔트리의 저장을 위한 상이한 셋트를 선택한다. 어떤 프로그램 또는 운영 체제 구성에 대해 약 50 ~ 60%의 개선이 이루어진다.

도 6은 도 5로 구성된 L1 TLB(302)를 사용한 일 실시예에 따라 축출 과정을 나타낸 블럭도이다. L2 TLB(304)와 테이블워크 엔진(306)은 블럭(602)내에 공동으로 도시된다. 도 3에 도시된 바와 같이 L1 TLB(302)내에서 미스가 일어날 때, MISS 표식이 L2 TLB(304)에 제공된다. 미스를 호출하는 가상 어드레스의 하위 비트가 대응 물리적 어드레스가 그 내부에 저장되어 있는지 여부를 판단하기 위한 인덱스로서 L2 TLB(304)에 인가된다. 또한, 테이블워크도 동일한 가상 어드레스를 사용하여 테이블워크 엔진(306)에 푸쉬된다. L2 TLB(304) 또는 테이블워크 엔진(306)중 어느 하나는 가상 어드레스 VA[47:12]와 함께 대응하는 물리적 어드레스 PA[47:12]를 따라 되돌아간다. 가상 어드레스 VA[47:12]의 하위 4 비트는 인덱스로서 L1.0 TLB(402)에 인가되고, 가상 어드레스 VA[47:12]의 잔여 상위 비트들 및 대응하는 리턴된 물리적 어드레스 PA[47:12]는 L1.0 TLB(402)내의 엔트리에 저장된다. 도 4에 도시된 바와 같이, VA[47:16] 비트는 새로운 태그값 TA1.0을 형성하고, 물리적 어드레스 PA[47:12]는 접근된 엔트리내에 저장된 새로운 PA[P] 페이지값을 형성한다. 엔트리는 적용될 수 있는 대체 정책에 따라 유효로서 표시된다.

L1.0 TLB(402)에 제공되는 인덱스 VA[15:12]는 L1.0 TLB(402) 내에서 대응하는 셋트를 어드레싱한다. 만약 대응하는 셋트들중 적어도 하나의 무효 엔트리(또는 통로)가 있다면, 데이터는 희생을 유발하지 않으면서 그 밖의 "텅빈" 엔트리내에 저장된다. 그러나, 만약 무효 엔트리가 없다면, 유효 엔트리들중 하나가 축출되고 데이터로 대체되며, L1.0 TLB(402)는 대응하는 희생을 출력한다. 어떤 유효 엔트리 또는 통로를 새로운 엔트리로 대체하는가에 대한 판단은 최저 사용 빈도(LRU) 방식, 의사-LRU 방식, 또는 다른 적당한 대체 정책 또는 방식과 같은 대체 정책에 기반한다. L1.0 TLB(402)의 희생은 희생 가상 어드레스 VVA[47:12] 및 대응하는 희생 물리적 어드레스 VPA[42:12]를 포함한다. L1.0 TLB(402)로부터 축출된 엔트리는 이전에 저장된 태그값(TA1.0)을 포함하고, 이는 희상 가상 어드레스의 상위 비트 VVA[47:16]으로서 사용된다. 희생 가상 어드레스의 하위 비트 VVA[15:12]는 엔트리가 축출되는 셋트의 인덱스와 같다. 예를 들어, 인덱스 VA[15:12]는 VVA[15:12]로서 사용될 수 있거나 그렇지 않으면 태그값이 축출된 셋트의 대응하는 내부 인덱스 비트가 사용될 수 있다. 희생 가상 어드레스 VVA[47:12]를 형성하기 위하여 태그값과 인덱스 비트는 함께 추가된다.

도 6에 도시된 바와 같이, 희생 가상 어드레스 VVA[47:12]는 해쉬 생성기(408)의 입력에 인가되고, 대응하는 희생 해쉬 인덱스 VH[3:0]을 출력한다. VH[3:0]은 L1.5 TLB(404)의 인덱스 입력에 인가되고, L1.5 TLB(404) 내에서 셋트를 어드레스하는데 사용된다. 만약 L1.5 TLB(404) 내에서 어드레스된 셋트들중 적어도 하나의 무효 엔트리(또는 통로)가 있다면, 가상 어드레스 VVA[47:12]와 대응하는 물리적 어드레스 PA[47:12]는 희생을 유발하지 않으면서 무효 엔트리내에 데이터로서 저장되고, 엔트리는 유효로서 표시된다.

그러나, VH[3:0]에 의해 어드레스된 L1.5 TLB(404)내에서 어드레스된 셋트의 무효 엔트리가 없다면, 이전의 유효 엔트리는 축출되고, L1.0 TLB(402)로부터 축출된 VVA[47:12] 및 VPA[47:12]를 포함하는 새로운 엔트리가 L1.5 TLB(404)의 대응하는 엔트리내에 저장된다. L1.5 TLB(404) 희생은 다른 희생 가상 어드레스 VVA[47:12]로서 사용된 태그값을 포함하고, L1.0 TLB(402)의 희생과 유사한 방식으로 대응하는 물리적 어드레스 희생 VPA[47:12]를 포함한다. 설명된 구성에서, L2 TLB(304)는 더 크고 그리고 32개 셋트를 포함함으로서, L1.5 TLB(404)로부터의 희생 가상 어드레스 VVA[16:12]의 하위 5개 비트는 대응하는 셋트에 접근하기 위하여 L2 TLB(304)에 인덱스로서 제공된다. 잔여 상위 희생 가상 어드레스 비트 VVA[47:17] 및 희생 물리적 어드레스 VPA[47:12]는 데이터로서 L2 TLB(304)에 제공된다. 이들 데이터 값은 L2 TLB(304)내에서 인덱스된 셋트의 무효 엔트리내에, 만약 그렇지 않다면 딴 방법으로 이전에 저장된 엔트리를 축출하는 선택된 유효 엔트리내에 저장된다. L2 TLB(304)로부터 축출된 어떠한 엔트리도 새로운 데이터를 위해 단순히 버려질 수 있다.

도 7은 도 5로 구성된 L1 TLB(302)를 사용한 다른 실시예에 따라 축출 과정을 나타낸 블럭도이다. 축출 과정은 도 6에 도시된 것과 실질적으로 유사하고, 유사한 항목과 블럭들은 동일한 참조번호로 가정한다. 그러나 이 경우에서는, L1 TLB 해쉬 테이블(702)이 포함되고, L1.0 TLB(402)에서 현재 유효한 모든 값에 대해 해쉬 인덱스가 저장된다. 따라서, L1.0 TLB(402)가 16×4 캐시 어레이일 때, L1 TLB 해쉬 테이블(702)은 해쉬 인덱스값의 16×4 어레이이다. L2 TLB(304) 또는 테이블워크 엔진(306)으로부터의 가상 어드레스 VA[47:12]가, 대응하는 해쉬 인덱스 H[3:0]을 출력하는 해쉬 생성기(408)의 입력에 직접 제공된다는 것을 제외하고 동작은 유사하다. L1.0 TLB(402)에 인덱스로서 인가되는 가상 어드레스 VA[15:12]의 하위 4개 비트도 해쉬 테이블(702)에 인덱스로서 인가된다. 해쉬 생성기(408)의 출력에서 해쉬 인덱스 H[3:0]은 해쉬 테이블(702)내에서 가상 어드레스 인덱스 VA[15:12]에 의해 확인된 위치에 저장된 대응 데이터로서 제공된다. 이전과 유사한 방식으로 L1.0 TLB(402)로부터 희생이 축출될 때, 대응하는 희생 해쉬 인덱스 VH[3:0]도 L1 TLB 해쉬 테이블(702)로부터 축출되어 인덱스로서 L1.5 TLB(404)에 인가된다. L1.5 TLB(404)로부터 L2 TLB(304)로의 축출 과정은 도 6에서 설명한 것과 동일하다.

도 6의 축출 과정은 L1 TLB 해쉬 테이블(702)의 사용 및 추가적인 메모리 공간의 소비를 회피하는 장점을 갖는다. 해쉬 테이블(702)만 인덱스값을 저장하기 때문에, 중요하게는 L1.0 TLB(702) 보다 더 적은 공간을 소비한다. 해쉬 테이블(702)를 사용하는 도 7의 선택적인 실시예에서, L1.0 TLB(402)로부터 L1.5 TLB(404)까지 단일 클럭 사이클 내에 축출과정을 수행하기를 바란다. 도 6의 L1.0 TLB(402)와 L1.5 TLB(404) 사이에 위치한 해쉬 생성기(408)는 특정 구성에서는 한 사이클내에 축출 과정을 완료할 수 없도록 하는 대기시간을 삽입하거나 그렇지 않으면 오프셋 타이밍을 생성한다. 이러한 방식에서, 도 7의 축출 과정 실시예는 한 사이클 클럭내에서와 같이, L1 TLB(302)의 더 빠른 희생 과정 타이밍의 장점을 갖는다.

이상과 같은 설명은 당업자가 여기서 제공된 특정 응용과 그 조건의 배경하에서 본 발명을 만들고 사용하는 것을 가능하게 한다. 비록 본 발명은 바람직한 형태를 참조하여 상당히 상세히 설명되었으나, 다른 형태와 변형이 가능하고 시도될 수 있다. 바람직한 실시예의 다양한 수정이 당업자에게 명백하고, 여기서 정의된 주요 원리는 다른 실시예에도 적용될 수 있다. 예를 들어, 여기서 설명된 회로는 로직 디바이스 또는 회로 또는 이와 같은 것들을 포함하는 모든 적당한 방법으로 구현된다. 또한, 비록 본 발명이 TLB 어레이 등을 대신하여 설명되었으나, 요지는 제 1 캐시 어레이가 제 2 캐시 어레이에 비해 다르게 색인되는 다른 멀티 레벨 캐시 방식에도 동일하게 적용될 수 있다. 상이한 인덱싱 방식은 캐시 셋트와 통로의 활용성을 높이고 성능을 개선한다.

본 발명의 요지와 범위로부터 벗어남이 없이 본 발명의 동일한 목적을 구현하기 위하여, 당업자는 공개된 요지와 특정 실시예를 다른 구조의 설계나 수정의 기초에 기꺼이 사용할 수 있다는 것을 인정해야만 한다. 따라서, 본 발명은 여기에서 도시되고 설명된 특정 실시예에 국한하려는 것을 의도하지 않을 뿐만 아니라 여기서에 공개된 원리 및 신규한 특징들과 일치하는 최광의의 범위와 조화를 이룬다.

Claims

제 1 복수의 저장 위치를 갖고, 검색 어드레스 비트의 제 1 셋트로 구성된 1차 인덱스에 의해 어드레스되는 1차 캐시 메모리; 및
상기 1차 캐시 메모리를 위한 축출 어레이로서 동작하는 제 2 복수의 저장 위치를 갖고, 상기 검색 어드레스 비트의 제 2 셋트에 인가되는 해쉬 함수에 의해 생성된 해쉬 인덱스에 의해 어드레스되는 오버플로 캐시 메모리;로 구성되고,
상기 검색 어드레스에 대응하는 저장된 값을 위하여 상기 1차 캐시 메모리와 상기 오버플로 캐시 메모리는 상기 검색 어드레스를 사용하여 함께 검색되는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 1차 캐시 메모리와 상기 오버플로 캐시 메모리는 공통 숫자의 셋트로 구성되고, 그리고 상기 해쉬 인덱스는 상기 1차 캐시 메모리내의 셋트로부터 축출된 희생을 상기 오버플로 캐시 메모리 내의 상이한 셋트에 저장되도록 하는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
복수의 검색 어드레스는 복수의 1차 인덱스를 생성하고, 상기 복수의 검색 어드레스는 상기 해쉬 함수가, 상기 복수의 1차 인덱스와 상이한 해쉬 인덱스를 적어도 포함하면서 대응하는 복수의 해쉬 인덱스를 생성하도록 하는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 비트의 제 2 셋트가 상기 비트의 제 1 셋트내에 포함되지 않은 상기 검색 어드레스의 적어도 하나의 비트를 포함하는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 비트의 제 1 셋트와 상기 비트의 제 2 셋트가 상호 배타적인 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 1차 캐시 메모리와 상기 오버플로 캐시 메모리는 마이크로프로세서용 메인 시스템 메모리의 물리적 어드레스를 저장하기 위한 변환 색인 버퍼를 각각 포함하는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 1차 캐시 메모리는 16 셋트 × 4 통로의 저장 위치 어레이로 구성되고, 상기 오버플로 캐시 메모리는 16 셋트 × 2 통로의 저장 위치 캐시 어레이로 구성되는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
제 1 복수의 통로 및 제 1 복수의 적중 신호를 제공하는 대응 제 1 복수의 비교기를 구성하는 상기 1차 캐시 메모리;
제 2 복수의 통로 및 제 2 복수의 적중 신호를 제공하는 대응 제 2 복수의 비교기를 구성하는 상기 오버플로 캐시 메모리; 및
상기 제 1 복수의 적중 신호와 상기 제 2 복수의 적중 신호를 상기 캐시 메모리 시스템을 위한 하나의 적중 신호로 결합하는 로직을 더 포함하는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 해쉬 함수를 수행하는 해쉬 생성기;를 더 포함하고,
상기 검색 어드레스는 상기 해쉬 생성기의 입력에 제공되고, 그리고 상기 검색 어드레스는 상기 1차 캐시 메모리의 인덱스 입력에 제공되는 상기 1차 인덱스를 포함하고; 그리고
상기 해쉬 생성기는 상기 해쉬 인덱스를 생성하고 그리고 상기 해쉬 인덱스를 상기 오버플로 캐시 메모리의 인덱스 입력에 제공하고, 그리고 상기 1차 캐시 메모리와 상기 오버플로 캐시 메모리는 상기 검색 어드레스에 응답하여 캐시 적중 표식을 공동으로 판단하는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 1차 캐시 메모리는 다수의 셋트와 복수의 통로로 이루어지고, 상기 오버플로 캐시 메모리는 상기 다수의 셋트로 이루어지고, 그리고 상기 해쉬 함수는 상기 1차 캐시 메모리의 주어진 셋트의 상기 복수의 통로로부터 축출된 복수의 희생이 상기 오버플로 캐시 메모리의 복수의 상이한 셋트에 분배되도록 하는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 해쉬 함수를 수행하는 해쉬 생성기;를 더 포함하고,
상기 1차 캐시 메모리는 상기 1차 캐시 메모리내의 엔트리로부터 태그값을 축출하고 그리고 축출된 상기 태그값과 상기 엔트리의 인덱스값을 붙임으로서 희생 검색 어드레스를 형성하도록 동작하고;
상기 해쉬 생성기는 상기 희생 검색 어드레스를 사용하여 해쉬 인덱스를 생성하도록 구성되고; 그리고
상기 오버플로 캐시 어레이는 상기 해쉬 인덱스에 의해 어드레스된 위치에 상기 희생 검색 어드레스를 저장하도록 구성되는 것을 특징으로 하는 캐시 메모리 시스템.
제 1 항에 있어서,
상기 해쉬 함수를 수행하는 해쉬 생성기;
상기 1차 캐시 메모리내에 저장된 각각의 유효 엔트리를 위한 해쉬 인덱스를 저장하는 해쉬 테이블;을 더 포함하고,
상기 1차 캐시 메모리내에 저장을 위한 검색된 엔트리는 태그값과 1차 인덱스를 포함하고, 상기 검색된 엔트리는 상기 해쉬 생성기의 입력에 제공되고, 상기 1차 인덱스는 상기 해쉬 테이블의 인덱스 입력과 상기 1차 캐시 메모리의 인덱스 입력에 제공되고, 그리고 상기 태그값은 상기 1차 캐시 메모리의 데이터 입력에 제공되며;
상기 1차 캐시 메모리는 상기 1차 캐시 메모리내의 엔트리로부터 태그값을 축출하고 그리고 축출된 상기 태그값과 상기 엔트리의 인덱스값을 붙임으로서 희생 검색 어드레스를 형성하도록 동작하고;
상기 해쉬 생성기는 상기 검색된 엔트리를 사용하여 새로운 해쉬 인덱스를 생성하도록 구성되고, 그리고 상기 해쉬 테이블은 상기 1차 인덱스에 의해 어드레스된 위치에 상기 새로운 해쉬 인덱스를 저장하고 그리고 희생 해쉬 인덱스를 축출하도록 구성되며; 그리고
상기 오버플로 캐시 어레이는 상기 희생 해쉬 인덱스에 의해 어드레스된 위치에 상기 희생 검색 어드레스를 저장하도록 구성되는 것을 특징으로 하는 캐시 메모리 시스템.
1차 인덱스를 형성하는 비트의 제 1 셋트를 포함하는 가상 어드레스를 생성하는 어드레스 생성기;
상기 가상 어드레스 비트의 제 2 셋트를 해쉬 인덱스로 변환하는 해쉬 생성기; 및
캐시 메모리 시스템으로 구성되고, 상기 캐시 메모리 시스템은,
상기 1차 인덱스에 의해 어드레스되는 1차 캐시 메모리;
상기 해쉬 인덱스에 의해 어드레스되는 오버플로 캐시 메모리;로 구성되며,
상기 1차 캐시 메모리와 상기 오버플로 캐시 메모리는 상기 1차 인덱스와 상기 해쉬 인덱스를 각각 사용하여 함께 검색되고, 그리고 상기 오버플로 캐시 어레이는 상기 1차 캐시 메모리를 위한 축출 어레이를 형성하는 것을 특징으로 하는 마이크로프로세서.
제 13 항에 있어서,
제 1 복수의 통로 및 제 1 복수의 적중 신호를 제공하는 대응 제 1 복수의 비교기를 구성하는 상기 1차 캐시 메모리;
제 2 복수의 통로 및 제 2 복수의 적중 신호를 제공하는 대응 제 2 복수의 비교기를 구성하는 상기 오버플로 캐시 메모리; 및
상기 제 1 복수의 적중 신호와 상기 제 2 복수의 적중 신호를 상기 캐시 메모리 시스템을 위한 하나의 적중 신호로 결합하는 로직을 더 포함하는 것을 특징으로 하는 마이크로프로세서.
제 13 항에 있어서,
상기 캐시 메모리 시스템은 복수의 가상 어드레스에 대응하는 복수의 물리적 어드레스를 저장하기 위한 레벨 1의 변환 색인 버퍼를 구성하는 것을 특징으로 하는 마이크로프로세서.
제 13 항에 있어서,
상기 캐시 메모리 시스템에서 미스가 발생할 때 시스템 메모리에 접근하는 테이블워크 엔진을 더 포함하고; 그리고
상기 캐시 메모리 시스템은 상기 오버플로 캐시 메모리를 위한 축출 어레이를 형성하고 그리고 상기 1차 캐시 메모리와 상기 오버플로 캐시 메모리에서 미스가 발생할 때 검색되는 레벨 2의 변환 색인 버퍼를 포함하는 것을 특징으로 하는 마이크로프로세서.
제 13 항에 있어서,
상기 1차 캐시 메모리는 다수의 셋트와 복수의 통로로 이루어지고,
상기 오버플로 캐시 메모리는 상기 다수의 셋트로 이루어지고, 그리고
상기 1차 캐시 메모리의 주어진 셋트의 상기 복수의 통로는 상기 오버플로 캐시 메모리의 상이한 셋트에 분배되는 것을 특징으로 하는 마이크로프로세서.
제 13 항에 있어서,
상기 1차 캐시 메모리는 상기 1차 캐시 메모리내의 엔트리로부터 태그값을 축출하고 그리고 축출된 상기 태그값과 상기 엔트리의 인덱스값을 붙임으로서 희생 검색 어드레스를 형성하도록 동작하고;
상기 해쉬 생성기는 상기 희생 검색 어드레스를 사용하여 해쉬 인덱스를 생성하도록 구성되고; 그리고
상기 오버플로 캐시 어레이는 상기 해쉬 인덱스에 의해 어드레스된 위치에 상기 희생 검색 어드레스를 저장하도록 구성되는 것을 특징으로 하는 마이크로프로세서.
제 13 항에 있어서,
상기 1차 캐시 메모리내에 저장된 각각의 유효 엔트리를 위한 해쉬 인덱스를 저장하는 해쉬 테이블;을 더 포함하고,
상기 1차 캐시 메모리내에 저장을 위한 검색된 엔트리는 태그값과 1차 인덱스를 포함하고, 상기 검색된 엔트리는 상기 해쉬 생성기의 입력에 제공되고, 상기 1차 인덱스는 상기 해쉬 테이블의 인덱스 입력과 상기 1차 캐시 메모리의 인덱스 입력에 제공되고, 그리고 상기 태그값은 상기 1차 캐시 메모리의 데이터 입력에 제공되며;
상기 1차 캐시 메모리는 상기 1차 캐시 메모리내의 엔트리로부터 태그값을 축출하고 그리고 축출된 상기 태그값과 상기 엔트리의 인덱스값을 붙임으로서 희생 검색 어드레스를 형성하도록 동작하고;
상기 해쉬 생성기는 상기 검색된 엔트리를 사용하여 새로운 해쉬 인덱스를 생성하도록 구성되고, 그리고 상기 해쉬 테이블은 상기 1차 인덱스에 의해 어드레스된 위치에 상기 새로운 해쉬 인덱스를 저장하고 그리고 희생 해쉬 인덱스를 축출하도록 구성되며; 그리고
상기 오버플로 캐시 어레이는 상기 희생 해쉬 인덱스에 의해 어드레스된 위치에 상기 희생 검색 어드레스를 저장하도록 구성되는 것을 특징으로 하는 마이크로프로세서.
가상 어드레스 비트의 제 1 셋트를 1차 인덱스로서 사용하는 단계;
상기 가상 어드레스 비트의 제 2 셋트로부터 해쉬 인덱스를 생성하는 단계;
상기 1차 인덱스를 사용하여 1차 캐시를 검색하는 단계; 및
상기 1차 캐시를 검색하는 동안에도, 상기 해쉬 인덱스를 사용하여 상기 1차 캐시의 오버플로 캐시를 검색하는 단계로 구성되는 것을 특징으로 하는 데이터 캐싱 방법.
제 20 항에 있어서,
상기 비트의 제 2 셋트로부터 상기 해쉬 인덱스를 생성하는 단계는 상기 가상 어드레스 비트의 제 1 셋트와 상호 배타적인 비트의 제 2 셋트를 사용하는 단계를 포함하는 것을 특징으로 하는 데이터 캐싱 방법.
제 20 항에 있어서,
상기 1차 캐시의 상기 검색단계에 기초하여 제 1 적중 표식을 생성하는 단계;
상기 오버플로 캐시의 상기 검색단계에 기초하여 제 2 적중 표식을 생성하는 단계; 및
하나의 적중 표식을 제공하기 위해 상기 제 1 및 제 2 적중 표식을 결합하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 캐싱 방법.
제 20 항에 있어서,
상기 1차 캐시로부터 태그를 축출하는 단계;
상기 태그가 축출되는 상기 1차 캐시에서 저장 위치를 어드레스하는 인덱스 및 희생 어드레스를 생성하기 위한 태그를 붙이는 단계;
상기 희생 어드레스로부터 해쉬 인덱스를 생성하는 단계; 및
상기 해쉬 인덱스에 의해 어드레스된 위치에 상기 오버플로 캐시내의 상기 희생 어드레스를 저장하는 단계를 더 포함하는 것을 특징으로 하는 데이터 캐싱 방법.
제 20 항에 있어서,
상기 1차 캐시 내로 값을 저장하기 위한 어드레스를 수신하는 단계;
상기 수신된 어드레스의 선택된 제 1 비트를 검색 1차 인덱스로 사용하는 단계 및 상기 수신된 어드레스의 선택된 제 2 비트를 태그 어드레스로 사용하는 단계, 그리고 상기 검색 1차 인덱스에서 상기 태그 어드레스를 상기 1차 캐시내로 저장하는 단계;
상기 수신된 어드레스로부터 해쉬 인덱스를 생성하는 단계; 및
상기 검색 1차 인덱스에 의해 표식된 어드레스에서 상기 해쉬 인덱스를 해쉬 테이블 내에 저장하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 캐싱 방법.
제 24 항에 있어서,
상기 검색 1차 인덱스에 대응하는 상기 1차 캐시로부터 태그를 축출하는 단계;
상기 검색 1차 인덱스에 대응하는 상기 해쉬 테이블로부터 희생 해쉬 어드레스를 축출하는 단계;
희생 어드레스를 제공하기 위해 인덱스를 상기 축출된 태그에 붙이는 단계; 및
상기 희생 해쉬 어드레스에 의해 어드레스된 상기 오버플로 캐시의 위치로 상기 희생 어드레스를 저장하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 캐싱 방법.