TWI489387B

TWI489387B - 微處理器以及預取資料至微處理器的方法

Info

Publication number: TWI489387B
Application number: TW102143390A
Authority: TW
Inventors: Rodney E Hooker; John Michael Greer
Original assignee: Via Tech Inc
Priority date: 2009-08-07
Filing date: 2010-08-02
Publication date: 2015-06-21
Also published as: TW201106264A; TWI423128B; US20110035551A1; CN103793202B; US8364902B2; CN103793202A; TW201419145A

Description

微處理器以及預取資料至微處理器的方法

本發明係關於微處理器，特別是關於微處理器中之預先提取(prefetching)。

美國專利第6,832,296號揭露了適用於x86架構之預取指令(prefetch instruction)，上述預取指令利用重複前置碼(REP prefix)將記憶體中之複數條序列快取線(cache lines)預先提取至處理器之快取記憶體中。換言之，處理器之通用暫存器中具有複數條由計數值(count)所指定之序列快取線。然而，程式設計者知道會有想要預先提取記憶體中之非連續快取線的情況，其中非連續快取線代表這些快取線的位置是任意的。若一個程式想要預先提取複數條非連續快取線，則此程式必須包含多個上述美國專利所提及的預取(REP PREFETCH)指令。然而，這會增加程式碼長度(code size)並使得處理器需要執行複數指令而不是單一指令。因此，我們需要一種改良的預取指令用以解決這些問題。

本發明提供一種微處理器，該微處理器包括一指令解碼器。指令解碼器用以解碼一指令集中之複數指令，其中指令集包括一重複預取間接指令。重複預取間接指令包括複數位址運算元以及一計數值。微處理器使用位址運算元來計算一預取表中之一第一項目之一位址，其中預取表具有複數項目，並且預取表中之各個項目包括一預取位址。計數值用以指定欲被預取之複數快取線的數量，其中快取線之每一者的記憶體位址係由項目中之一者中的預取位址所指定。

本發明提供另一種微處理器，該微處理器係位於具有一系統記憶體之一系統中。微處理器包括一指令解碼器、一計數暫存器以及一控制邏輯電路。指令解碼器用以解碼一預取指令，預取指令指定一計數值與用以指向一表格之一位址，其中計數值表示欲從系統記憶體中預取之複數快取線的數量，並且表格用以儲存快取線之複數記憶體位址。計數暫存器用以儲存一剩餘計數值，剩餘計數值表示欲被預取之快取線的一剩餘數量，其中計數暫存器一開始即具有被指定在預取指令中之計數值。控制邏輯電路耦接至指令解碼器與計數暫存器，控制邏輯電路使用計數暫存器與從表格中所提取之記憶體位址，用以控制微處理器將表格中之快取線的記憶體位址提取至微處理器，並且控制微處理器將系統記憶體中之快取線預取至微處理器之一快取記憶體。

本發明提供另一種預取資料至微處理器的方法，該微處理器係位於具有一系統記憶體之一系統中。上述方法包括解碼一預取指令，預取指令指定一計數值與用以指向一表格之一位址，其中計數值表示欲從系統記憶體中預取之複數快取線的數量，並且表格用以儲存快取線之複數記憶體位址。上述方法更包括儲存一剩餘計數值，其中剩餘計數值表示欲被預取之快取線的一剩餘數量，並且剩餘計數值之一初始值係為被指定在預取指令中之計數值。上述方法更包括使用剩餘計數值與表格中之記憶體位址，用以將系統記憶體中之快取線預取至微處理器之一快取記憶體。

為讓本發明之上述和其他目的、特徵、和優點能更明顯易懂，下文特舉出較佳實施例，並配合所附圖式，作詳細說明如下：

100‧‧‧微處理器

102‧‧‧指令解碼器

104‧‧‧暫存器檔案

106‧‧‧延伸計數暫存器

108‧‧‧初始預取表項目位址

114‧‧‧位址產生器

116、118、146‧‧‧多工器

122‧‧‧預取表項目位址暫存器

124‧‧‧重複預取計數暫存器

126‧‧‧加法器

128‧‧‧遞減器

144‧‧‧控制邏輯電路

154‧‧‧快取記憶體

166‧‧‧回應緩衝器

172‧‧‧匯流排介面單元

186‧‧‧第一預取表項目位址

188‧‧‧重複預取計數值

194‧‧‧預取位址

197‧‧‧第二預取表項目位址

400‧‧‧重複預取指令

404、504‧‧‧運算碼欄位

406‧‧‧ModR/M位元組

500、900‧‧‧重複預取間接指令

508‧‧‧位址運算元

600‧‧‧預取表

602‧‧‧預取位址

604‧‧‧快取線

896‧‧‧延伸來源索引暫存器

899‧‧‧偏移暫存器

902‧‧‧偏移量

1004‧‧‧其他資料

第1圖係為本發明實施例之微處理器的方塊圖；第2圖係為習知技術之奔騰Ⅲ預取指令的方塊圖；第3圖係為習知技術之奔騰Ⅲ字串指令的方塊圖；第4圖係為習知技術之重複預取指令的方塊圖；第5圖係為本發明實施例之重複預取間接指令的方塊圖；第6圖係為本發明實施例之預取表的方塊圖；第7圖係為第1圖中之微處理器執行第5圖中之重複預取間接指令的操作流程圖；第8圖係為本發明另一實施例之微處理器的方塊圖；第9圖係為本發明另一實施例之重複預取間接指令的方塊圖；第10圖係為本發明另一實施例之預取表的方塊圖；第11圖係為第8圖中之微處理器執行第9圖中之重複預取間接指令的操作流程圖。

為了解決上述問題，本發明提供一新的預取指令使得程式設計者能夠在記憶體中建立一預取表(如第6圖之預取表600與第10圖之預取表1000)，其中預取表600中之各個項目(entry)用以指定欲被預先提取之快取線的預取位址。此外，本發明所提供之新的預取指令可使程式設計者能夠指定欲被處理器所預先提取之複數條非連續快取線。在本發明中，係以重複預取間接(REP PREFETCH INDIRECT)指令500(參考第5圖)來表示上述新的預取指令。

第1圖係為本發明實施例之微處理器100的方塊圖，此微處理器100能夠執行一重複預取間接指令。由於微處理器100在許多方面與美國專利第6,832,296號之第1圖中的微處理器100(之後簡稱“習知微處理器”)類似，因此本文係以引用方式將“習知微處理器”併入本文中。但值得注意的是，本發明所揭露之微處理器100具有額外特徵一能夠執行重複預取間接指令。以下列出本發明之微處理器100與習知微處理器的差別：

第一，微處理器100以預取表項目位址(Prefetch Table Entry Address；PTEA)暫存器122取代習知微處理器中之重複預取位址(Repeat Prefetch Address；RPA)暫存器122，用以儲存目前所使用之預取表600的項目的位址。因此，預取表項目位址暫存器122提供一第一預取表項目位址186至多工器(MUX)146，而習知微處理器則提供一預取位址。

第二，多工器146被改造用以額外接收來自快取記憶體154之預取位址194。

第三，多工器116被改造用以額外接收來自快取記憶體154之第二預取表項目位址197。

第四，加法器126被改造用以將第一預取表項目位址186增加一個記憶體位址大小(例如4位元組)，而不是增加一條快取線大小。

第2圖係為習知技術之奔騰Ⅲ預取指令的方塊圖。

第3圖係為習知技術之奔騰Ⅲ字串指令的方塊圖。

第4圖係為習知技術之重複預取指令的方塊圖。

第5圖係為本發明實施例之重複預取間接指令REP PREFETCH INDIRECT)500的方塊圖500的格式。重複預取間接指令500在許多方面與第4圖之習知微處理器的重複預取指令400類似。以下將列出本發明之重複預取間接指令500與重複預取指令400的差別之處。重複預取間接指令500之運算碼欄位504的值不同於重複預取指令400之運算碼欄位404的值，使得指令解碼器102能夠區分這兩個指令。在另一實施例中，重複預取間接指令500與重複預取指令400共用相同的運算碼的值，不過重複預取間接指令500包含一額外的前置碼用以與重複預取指令400區別。此外，重複預取間接指令500之位址運算元(address operands)508係用來指定初始之預取表600項目的記憶體位址，而不是指定初始之預取位址。

第6圖係為本發明實施例之預取表REP PREFETCH INDIRECT)600的方塊圖。預取表600包含複數個項目，各個項目包含一預取位址602用以指向記憶體中之快取線604，換言之，預取位址602係為快取線604之記憶體位址。如第6圖所示，預取表600中的預取位址602係彼此相鄰。因此，第1圖中之加法器126將第一預取表項目位址186增加一個記憶體位址大小，用以指向預取表600中的下一個預取位址602。在另一實施例中(參考第8~11圖)，預取表600之預取位址602是非連續(non-sequential)的。

請參考第7圖，第7圖係為第1圖中之微處理器100執行重複預取間接指令500的操作流程圖。流程從步驟702開始。

在步驟702中，指令解碼器102將重複預取間接指令500解碼。流程前進至步驟704。

在步驟704中，位址產生器114產生由重複預取間接指令500中之ModR/M位元組406與位址運算元508所指定的有效位址(初始預取表項目位址)108。初始預取表項目位址108代表預取表600中之第一個項目的記憶體位址。流程前進至步驟706。

在步驟706中，控制邏輯電路144將延伸計數(Extended Count；ECX)暫存器106中之計數值(即欲被預先提取之快取線的數量)複製到重複預取計數(Repeat Prefetch Count；RPC)暫存器124中。此外，位址產生器114將初始預取表項目位址108載入至預取表項目位址暫存器122。計數值係藉由位於重複預取間接指令500之前的一指令載入至延伸計數暫存器106。流程前進至步驟708。

在步驟708中，微處理器100從預取表600中提取由第一預取表項目位址186所指定之預取位址602。值得注意的是，預取位址602可能已經位於快取記憶體154中。仔細而言，在本實施例中，當微處理器100從預取表600中提取第一個預取位址602時，與第一預取表項目位址186有關的整條快取線會被提取。因此，在提取初始之預取表600的項目中之初始的預取位址602之後，預取表600中的後幾個預取位址602可能會位於快取記憶體154中，而此現象會隨著預取動作之執行而持續。若預取位址602尚未位於快取記憶體154中，則匯流排介面單元172會將系統記憶體中之預取位址602提取至回應緩衝器(response buffer)166，用以依序地將預取位址602引退至快取記憶體154中。在另一實施例中，為了避免使用預取位址602來破壞(pollute)快取記憶體154，預取位址602並沒有被引退至快取記憶體154。相反地，回應緩衝器166(或其他中間儲存(intermediate storage)位置)將此預取位址602提供至多工器146用以完成步驟712到步驟716的動作，當完成步驟712到步驟716後再將預取位址602丟棄(discard)。流程前進至步驟712。

在步驟712中，快取記憶體154查找(look up)於步驟708中所提取之預取位址602，其中快取記憶體154(或回應緩衝器166或其他中間儲存位置)將此預取位址602作為預取位址194用以提供至多工器146。流程前進至判斷步驟714。

在判斷步驟714中，若預取位址194出現於(hits in)快取記憶體154，則流程前進至步驟718。若預取位址194未出現於快取記憶體154，則流程前進至步驟716。

在步驟716中，匯流排介面單元172將系統記憶體中由預取位址194所指定之快取線604預先提取至回應緩衝器166，回應緩衝器166接著將預先提取之快取線604寫入至快取記憶體154。流程前進至步驟718。

在步驟718中，控制邏輯電路144控制遞減器(decrementer)128與多工器118用以將重複預取計數暫存器124中之數值遞減1。此外，控制邏輯電路144控制加法器126與多工器116用以將預取表項目位址暫存器122中之數值增加一個記憶體位址大小。流程前進至判斷步驟722。

在判斷步驟722中，控制邏輯電路144判斷重複預取計數值188是否為零。若為零，則流程結束；若不為零，則流程回到步驟708用以完成預取下一條快取線604之動作。

雖然第7圖中並未描述關於本發明之微處理器100的其他實施例，但這些實施例以下所描述的特徵，例如在轉譯查詢緩衝器(Translation Lookaside Buffer；TLB)發生遺漏(miss)時停止預取動作，並且在失去仲裁(arbitration)或未到達自由請求緩衝器(free request buffer)之次臨界數量時重新執行預取動作。

請參考第8圖，第8圖係為本發明中微處理器100之另一實施例的方塊圖，此微處理器100能夠執行一重複預取間接指令900。第8圖之微處理器100在許多方面與第1圖之微處理器100類似。然而，第8圖之微處理器100係用以執行第9圖中之重複預取間接指令900。重複預取間接指令900包含一偏移量(offset value)902用以指定各個預取表600的項目之間的距離。偏移量902有助於程式設計者在記憶體中建立如第10圖所示之預取表1000，其中第10圖中之預取表1000具有非連續位置之預取位址602，相關細節將在以下做進一步說明。

請參考回第8圖，相較於第1圖之微處理器100，第8圖之微處理器100包括一偏移暫存器(offset register)899。偏移暫存器899從暫存器檔案(register file)104之延伸來源索引(Extended Source Index；ESI)暫存器896中接收第9圖之偏移量902，並且將所接收之偏移量902提供至加法器126，使得加法器126將預取表項目位址暫存器122中之數值增加一個偏移量902，以便提供下一個預取表項目位址至預取表項目位址暫存器122。偏移量902係藉由位於重複預取間接指令900之前的一指令載入至延伸來源索引暫存器896。

請參考第11圖，第11圖係為第8圖中之微處理器100執行重複預取間接指令900的操作流程圖。第11圖與第7圖之操作流程圖類似，以下將列出兩者之間的差別。

步驟1106取代了步驟706，並且在步驟1106中，控制邏輯電路144將延伸計數暫存器106中之計數值(即欲被預先提取之快取線的數量)複製到重複預取計數暫存器124中。此外，位址產生器114將初始預取表項目位址108載入至預取表項目位址暫存器122。控制邏輯電路144將偏移量902載入至偏移暫存器899。

步驟1118取代了步驟718，並且在步驟1118中，控制邏輯電路144控制遞減器128與多工器118用以將重複預取計數暫存器124中之數值遞減1。此外，控制邏輯電路144控制加法器126與多工器116用以將預取表項目位址暫存器122中之數值增加一個偏移量902，而不是增加一個記憶體位址大小。

請參考第10圖，第10圖係為本發明中預取表之REP PREFETCH INDIRECT)之另一實施例的方塊圖。假設預取表1000係為一具有複數區間(buckets)或資料結構之開放式雜湊表(open hash table)。各個區間包含兩個欄位，分別為8位元組雜湊值(對應至第10圖中之“其他資料1004”)與4位元組記憶體位址(對應至第10圖中之“預取位址602”)，其中該4位元組記憶體位址係為一雜湊物件指標(hash object pointer)。

雜湊表：

區間[0]：

雜湊值：8位元組

雜湊物件指標：4位元組

區間[1]：

雜湊值：8位元組

雜湊物件指標：4位元組

區間[2]：

雜湊值：8位元組

雜湊物件指標：4位元組

在本實施例中，可利用延伸來源索引暫存器896中之數值8來執行重複預取間接指令900，並且重複預取間接指令900會略過8位元組雜湊值欄位用以提取雜湊物件指標作為預取位址602。現有的程式中普遍具有此類型之資料結構(即使數值大小會變動)。使程式設計者能夠指定偏移量902的優點有助於程式設計者或編譯器使用現有的資料結構(例如雜湊表一預取表1000)，而不需要另外為重複預取間接指令900建立一預取表。

在另一實施例中，程式設計者可在另一個通用暫存器中指定一延遲值(delay value)。若延遲值非為零(non-zero)，則微處理器100在執行重複預取間接指令900時會延遲各個預取一快取線604之疊代(iteration)，其中延遲量係等於被指定在延遲值中之指令的數量。

本發明雖以各種實施例揭露如上，然其僅為範例參考而非用以限定本發明的範圍，任何熟習此項技藝者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾。舉例而言，可使用軟體來實現本發明所述之裝置與方法的功能、構造、模組化、模擬、描述及/或測試。此目的可透過使用一般程式語言(例如C、C++)、硬體描述語言(包括Verilog或VHDL硬體描述語言等等)、或其他可用的程式來實現。該軟體可被設置在任何電腦可用的媒體，例如半導體、磁碟、光碟(例如CD-ROM、DVD-ROM等等)中。本發明實施例中所述之裝置與方法可被包括在一半導體智慧財產權核心(semiconductor intellectual property core)，例如以硬體描述語言(HDL)實現之微處理器核心中，並被轉換為硬體型態的積體電路產品。此外，本發明所描述之裝置與方法可透過結合硬體與軟體的方式來實現。因此，本發明不應該被本文中之任一實施例所限定，而當視後附之申請專利範圍與其等效物所界定者為準。特別是，本發明係實現於一般用途電腦之微處理器裝置中。最後，任何熟知技藝者，在不脫離本發明之精神和範圍內，當可作些許更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種微處理器，包括：一指令解碼器，用以解碼一指令集中之複數指令，其中上述指令集包括一重複預取間接指令；以及上述重複預取間接指令，包括：複數位址運算元，上述微處理器使用上述位址運算元來計算一預取表中之一第一項目之一位址，其中上述預取表具有複數項目，並且上述預取表中之各個項目包括一預取位址；一計數值，用以指定欲被預取之複數快取線的數量，其中上述快取線之每一者的記憶體位址係由上述項目中之一者中的上述預取位址所指定；以及一延遲值，其中上述微處理器在執行上述重複預取間接指令時係以一延遲量來延遲各個預取上述快取線中之一者的疊代，其中上述延遲量係等於上述延遲值中所指定之一指令數量。
如申請專利範圍第1項所述之微處理器，其中上述預取表中之上述項目係位於複數非連續記憶體位置。
如申請專利範圍第1項所述之微處理器，其中上述重複預取間接指令更包括：一偏移量，用以指定上述預取表中之各個項目之間的一距離。
如申請專利範圍第3項所述之微處理器，其中上述偏移量係藉由位於上述重複預取間接指令之前的一指令載入至一通用暫存器。
一種預取資料至微處理器的方法，用以預取資料至一微處理器，預取資料至微處理器的方法包括：解碼一重複預取間接指令；以及以回應上述解碼上述重複預取間接指令且如上述重複預取間接指令之指示，預取複數快取線至上述微處理器；其中上述重複預取間接指令包括：複數位址運算元用以計算具有複數項目之一預取表之一第一項目之一位址，其中上述預取表具有複數項目，並且上述預取表中之各個項目包括一預取位址；一計數值，用以指定欲被預取之上述快取線的數量至上述微處理器內，其中上述快取線之每一者的記憶體位址係由上述預取表中之上述項目中之一者中的上述預取位址所指定；以及一延遲值，其中上述預取係以一延遲量來延遲各個預取上述快取線中之一者的疊代，其中上述延遲量係等於上述延遲值中所指定之一指令數量。
如申請專利範圍第5項所述之預取資料至微處理器的方法，其中上述重複預取間接指令更包括：一運算碼，上述運算碼與一奔騰Ⅲ預取指令運算碼不同。
如申請專利範圍第6項所述之預取資料至微處理器的方法，其中上述重複預取間接指令更包括：一奔騰Ⅲ重複字串指令前置碼，上述奔騰Ⅲ重複字串指令前置碼係位於上述運算碼之前。
如申請專利範圍第5項所述之預取資料至微處理器的方法，其中上述重複預取間接指令更包括：一奔騰Ⅲ預取指令運算碼；一奔騰Ⅲ重複字串指令前置碼；以及一第二前置碼，其中上述奔騰Ⅲ重複字串指令前置碼與第二前置碼係位於上述運算碼之前。
如申請專利範圍第5項所述之預取資料至微處理器的方法，其中上述重複預取間接指令更包括：一偏移量，用以指定上述預取表中之各個項目之間的一距離。
如申請專利範圍第5項所述之預取資料至微處理器的方法，其中上述延遲值係藉由位於上述重複預取間接指令之前的一指令載入至一通用暫存器。
一種微處理器，上述微處理器係位於具有一系統記憶體之一系統中，上述微處理器包括：一指令解碼器，用以解碼一預取指令，上述預取指令指定一計數值與用以指向一表格之一位址，其中上述計數值表示欲從上述系統記憶體中預取之複數快取線的數量，並且上述表格用以儲存上述快取線之複數記憶體位址；一計數暫存器，用以儲存一剩餘計數值，上述剩餘計數值表示欲被預取之上述快取線的一剩餘數量，其中上述計數暫存器一開始即具有被指定在上述預取指令中之上述計數值；一控制邏輯電路，耦接至上述指令解碼器與上述計數暫存器，上述控制邏輯電路使用上述計數暫存器與從上述表格中所提取之上述記憶體位址，用以控制上述微處理器將上述表格中之上述快取線的上述記憶體位址提取至上述微處理器，並且控制上述微處理器將上述系統記憶體中之上述快取線預取至上述微處理器之一快取記憶體；以及一位址暫存器，用以儲存一項目位址，其中上述項目位址指向正被預取之上述快取線中之一者的上述記憶體位址；其中上述預取指令更指定一延遲值，其中上述控制邏輯電路器係以一延遲量來延遲預取上述快取線中之每一者的步驟，其中上述延遲量係等於上述延遲值中所指定之一指令數量。
如申請專利範圍第11項所述之微處理器，其中上述控制邏輯電路一開始即將上述預取指令所指定之上述位址載入至上述位址暫存器。
如申請專利範圍第11項所述之微處理器，其中上述控制邏輯電路根據預取上述快取線中之每一者來更新位於上述位址暫存器中之上述項目位址。
如申請專利範圍第13項所述之微處理器，更包括：一加法器，耦接至上述位址暫存器，用以根據預取上述快取線中之每一者來增加一加數至位址暫存器中之上述項目位址以便產生一總合，其中上述控制邏輯電路使用上述總合來更新上述位址暫存器。
如申請專利範圍第14項所述之微處理器，其中上述加數係為一記憶體位址之大小。