TWI621065B

TWI621065B - 處理器和將架構指令轉譯成微指令的方法

Info

Publication number: TWI621065B
Application number: TW105139477A
Authority: TW
Inventors: 白龍飛; 黃振華; 閻萌萌
Original assignee: 上海兆芯集成電路有限公司
Priority date: 2016-09-30
Filing date: 2016-11-30
Publication date: 2018-04-11
Also published as: EP3301566A1; TW201814501A; EP3301566B1; CN106406814B; KR20180036490A; JP2018060491A; US10073698B2; JP6856358B2; KR102601858B1; US20180095753A1; CN106406814A

Abstract

一處理器具有執行微指令的執行管線和將架構指令轉譯成為微指令的指令轉譯器。指令轉譯器具有：記憶體，保持微碼指令且每時脈週期提供多個微碼指令；佇列，保持記憶體所提供的微碼指令；分支解碼器，對微碼指令解碼以檢測局部分支指令，使得要將讀取的多條微碼指令中直到程式順序首位局部分支指令為止但不包括程式順序首位局部分支指令的微碼指令寫入佇列，並防止將程式順序首位局部分支指令及其後續微碼指令寫入佇列。局部分支指令由指令轉譯器進行解析。微碼轉譯器將每時脈週期從佇列接收到的多個微碼指令轉譯成微指令以提供至執行管線。

Description

處理器和將架構指令轉譯成微指令的方法

本發明是有關於程式處理器之相關技術，尤其是有關於一種處理器和一種將架構指令轉譯成微指令的方法。

一直以來都存在針對儲存程式處理器的性能改進的恒定需求，其中這些程式處理器通常被稱為中央處理單元(CPU)和微處理器。歷史上，一些處理器已經包括了用以實現處理器的指令集架構(Instruction Set Architecture, ISA)的至少一些架構指令以及用以服務於例外的微碼。傳統的處理器每時脈週期從處理器的微碼記憶體獲取單個微碼指令，這樣特別是在具有每時脈處理多個指令的能力的處理器中可能會限制微編碼架構指令和/或例外服務常式的性能。

本發明提供一種處理器，其具有指令集架構即ISA，所述處理器包括：執行管線，其具有執行微指令的多個執行單元；以及指令轉譯器，用於將所述ISA所定義的架構指令轉譯成微指令，所述指令轉譯器包括：記憶體，用於保持微碼指令並且每時脈週期回應於位址提供多個微碼指令；佇列，用於保持所述記憶體所提供的微碼指令；分支解碼器，其耦接在所述記憶體和所述佇列之間，用於對所述記憶體所提供的所述多個微碼指令進行解碼以檢測所述多個微碼指令中的一個或多個局部分支指令，使得要將所述多個微碼指令中的直到所述一個或多個局部分支指令的程式順序首位局部分支指令為止但不包括所述程式順序首位局部分支指令的微碼指令寫入所述佇列，並且防止將所述多個微碼指令中的所述程式順序首位局部分支指令及其後續微碼指令寫入所述佇列，其中，局部分支指令由所述指令轉譯器而非所述執行管線進行解析；以及多個微碼轉譯器，用於將每時脈週期從所述佇列接收到的多個微碼指令轉譯成多個微指令以提供至所述執行管線。

本發明還提供一種用於將架構指令轉譯成微指令以供執行管線執行的方法，所述架構指令是由處理器的指令集架構即ISA所定義的，所述執行管線具有多個執行單元，所述方法包括以下步驟：通過記憶體來每時脈週期回應於位址而提供多個微碼指令；通過耦接在所述記憶體和佇列之間的分支解碼器來對所述記憶體所提供的所述多個微碼指令進行解碼，以檢測所述多個微碼指令中的一個或多個局部分支指令；使得要將所述多個微碼指令中直到所述一個或多個局部分支指令的程式順序首位局部分支指令為止但不包括所述程式順序首位局部分支指令的微碼指令寫入所述佇列；並且防止將所述多個微碼指令中的所述程式順序首位局部分支指令及其後續微碼指令寫入所述佇列；其中，所述局部分支指令由所述分支解碼器而非由所述執行管線進行解析；以及通過多個微碼轉譯器將每時脈週期從所述佇列接收到的所述多個微碼指令轉譯成多個微指令以提供至所述執行管線。

局部分支指令(local branch instruction)是由指令轉譯器(instruction translator)而非由處理器的執行管線進行解析的分支指令。局部分支指令可以是諸如無條件跳轉指令、呼叫指令或返回指令等的目標位址可以從指令轉譯器的呼叫/返回堆疊獲得的無條件分支指令。局部分支指令還可以是條件分支指令，其中該條件分支指令的條件(諸如靜態條件等)可以由指令轉譯器進行解析，因此無需由執行管線進行解析。

非局部分支指令(non-local branch instruction)是由處理器的執行管線進行解析的分支指令。

微碼(microcode)是作為非架構指令的指令的常式或程式執行緒，其中，該非架構指令在處理器的非架構記憶體中儲存、用於實現架構指令執行和/或服務於例外。由微碼來實現執行的架構指令通常是複雜的和/或不頻繁執行的。微碼所服務的例外可以是架構例外和/或微架構例外。微碼常式可以包括一個或多個分支指令。

微指令(microinstruction)是由處理器的一個或多個執行單元來執行並且由與處理器的ISA定義的指令集不同的指令集所定義的指令。處理器的ISA的示例是x86 ISA。架構指令被轉譯成一個或多個微指令。執行單元所進行的一個或多個微指令的統一執行實現了架構指令，即，進行產生如ISA所定義的架構指令的結果所需的操作。

現在參考圖1，示出用於例示處理器100的方塊圖。處理器100包括指令快取記憶體102、指令轉譯器104和超標量非循序執行管線192。指令快取記憶體102基於架構程式計數器(未示出)對來自系統記憶體的架構指令進行快取記憶體並且將架構指令178提供至指令轉譯器104。指令轉譯器104將架構指令178轉譯成提供至執行管線192的微指令138。執行管線192執行微指令138以產生轉譯後的如處理器100的ISA所定義的架構指令178的結果。在一個實施例中，處理器100 ISA是x86 ISA。指令轉譯器104每時脈週期獲取多個微碼指令(例如參見圖2的微碼指令272)以轉譯成微指令138，從而如這裡更詳細地說明那樣，相對於每時脈週期獲取單個微碼指令的傳統處理器的輸送量而言，增加每時脈週期向執行管線192提供的微指令138的輸送量。這相對於每時脈週期獲取單個微碼指令的傳統處理器而言，潛在地改進了服務於諸如中斷等的例外的微碼的性能。

執行管線192包括重命名單元106、保留站108、執行單元112、架構暫存器116、重排序緩衝器118和記憶體子系統122。執行單元112執行微指令138。在一個實施例中，執行單元112包括一個或多個整數單元、一個或多個媒體/浮點單元、一個或多個分支單元以及一個或多個載入/儲存單元。例如，記憶體子系統122包括記憶體順序緩衝器、一個或多個快取記憶體(例如，一級指令快取記憶體、一級資料快取記憶體)、轉譯後備緩衝器、表查找引擎、一個或多個資料預取器、寫入合併緩衝器以及諸如載入佇列、儲存佇列、探測佇列和填充佇列等的各種請求佇列。

指令轉譯器104按程式順序向重命名單元106提供微指令138。重命名單元106從指令轉譯器104接收微指令138並且按程式順序針對各微指令138分配重排序緩衝器118中的條目。例如，重排序緩衝器118是迴圈佇列，並且分配重排序緩衝器118中的條目以保持微指令138的程式順序。執行單元112不按程式循序執行微指令138。然而，重命名單元106檢查微指令138之間的依賴性並且將依賴性資訊與微指令138一起沿著執行管線192發送。保留站108保持微指令138，直到準備好執行微指令138為止。保留站108和調度器(未示出)使用依賴性資訊來確保在準備好執行微指令138之前不向執行單元112發出微指令138以進行執行。在執行單元112可以執行微指令138的情況下並且在微指令138的所有源運算元均可用的情況下，準備好執行微指令138。更具體地，在執行了微指令138所依賴於的任何微指令138並且產生了其結果作為源運算元的情況下，微指令138的源運算元可用。

在一個實施例中，重排序緩衝器118在各條目中包括用於儲存所執行的微指令138的結果的區域。在已經執行了微指令138並且產生了該微指令138的結果以在結果匯流排上提供從而提供至重排序緩衝器118的情況下，將該微指令138的重排序緩衝器118條目標記為已執行。然而，可以不使微指令138提交，即，微指令138的結果可以不被置於架構狀態，直到該微指令138是執行管線192中最老的微指令138。因而，儘管執行單元112不按程式循序執行微指令138，但重命名單元106和重排序緩衝器118一起運行以確保微指令138按程式順序提交。還可根據需要將這些結果經由轉發匯流排轉發回執行單元112以在下一時脈週期中使用。執行管線192可被配置為每時脈週期使4個最老的微指令138提交。在架構指令178所轉換成的所有微指令138均已提交之後，則架構指令178提交。例如，在作為實現架構指令178的微碼常式的最後一個微指令138的微指令138提交的情況下，使架構指令178提交。

在重排序緩衝器118條目包括各微指令138的結果所用的記憶體的實施例中，使微指令138提交包括將結果寫入適當的架構暫存器116。在可供候選的實施例中，執行管線192包括作為架構暫存器116所用的記憶體的實體暫存器檔(未示出)，並且重排序緩衝器118條目不包括結果所用的記憶體。作為替代，重命名單元106針對各微指令138的結果分配實體暫存器檔中的暫存器，並且重命名單元106基於所分配到的實體暫存器檔中的暫存器來檢查依賴性。重命名單元106還維持表示實體暫存器檔中的各暫存器的狀態的表。更具體地，在微指令138提交的情況下，重命名單元106對保持微指令138的結果的實體暫存器檔的暫存器的狀態進行更新，以表示實體暫存器檔現在包含相關聯的架構暫存器116的架構狀態。

指令轉譯器104包括快速轉譯器154、微碼單元156和多工器(mux) 152。快速轉譯器154將架構指令178轉譯成微指令136。微碼單元156將架構指令178轉譯成微指令134。多工器152根據指令轉譯器104的模式選擇來自快速轉譯器154的微指令136或來自微碼單元156的微指令134，以作為微指令138提供至執行管線。在一個實施例中，佇列(未示出)對微指令138進行緩衝以提供至執行管線192。

快速轉譯器154轉譯相對簡單和/或頻繁執行的架構指令178。例如，快速轉譯器154包括如下的可程式設計邏輯陣列的集合，這些可程式設計邏輯陣列針對架構指令178的子集，可在單個時脈週期中將各架構指令178轉譯成一個或多個微指令136。在一個實施例中，快速轉譯器154每時脈週期能夠轉譯多達4個架構指令178並且每時脈週期能夠提供多達6個微指令136。在快速轉譯器154能夠轉譯架構指令178的情況下，指令轉譯器104維持快速轉譯狀態，在這種情況下，多工器152選擇快速轉譯器154所產生的微指令136。

然而，在快速轉譯器154遇到微編碼的架構指令178或者被通知了例外條件的情況下，快速轉譯器154停止轉譯架構指令178並且將控制轉移至微碼單元156並改變成微碼模式，在這種情況下，多工器152選擇微碼單元156所產生的微指令134。在這種情況下，快速轉譯器154提供微碼ROM 202 (參見圖2)中所儲存的進行微編碼架構指令178或服務於例外的微碼常式的位址。以下參考其餘的圖來更詳細地說明微碼單元156及其操作。

在一個實施例中，某些架構指令178是混合的。也就是說，快速轉譯器154提供微碼指令136的一部分並且其餘的架構指令178是微編碼的，即，快速轉譯器154在快速轉譯模式下提供微指令136的頭部，然後模式改變為微碼模式並將控制轉移至微碼單元156，以使得微碼常式能夠經由微碼單元156所提供的微指令134來進行架構指令178的其餘功能。

例如，如以下更詳細地說明那樣，指令轉譯器104每時脈週期獲取多個微碼指令，以增加提供至執行管線192的微指令138的輸送量，從而針對微編碼的架構指令178和/或微編碼的例外服務常式利用執行管線192的超標量能力並提高該超標量能力的利用率。

現在參考圖2，示出用於更詳細地示出圖1的處理器100的指令轉譯器104的方塊圖。指令轉譯器104包括位址產生器206、微碼ROM 202、分支解碼器208、微碼指令佇列212、佇列控制器214、多個微碼轉譯器216和呼叫/返回單元222 (CRU)。微碼ROM 202是包括4個可分開定址的儲存體(bank)(統稱為儲存體204以及單獨稱為儲存體204的儲存體A 204A、儲存體B 204B、儲存體C 204C和儲存體D 204D)的儲存體型記憶體。以這種方式，微碼ROM 202每時脈週期可向分支解碼器208提供4個微碼指令272。如圖所示，微碼ROM 202將4個微碼指令272分別在標記為0~3的4個通道上提供至分支解碼器208。通道0按程式順序提供第一微碼指令272，通道1按程式順序提供第二微碼指令272，通道2按程式順序提供第三微碼指令272，並且通道3按程式順序提供第四微碼指令272。根據一個實施例，各儲存體204有利地具有單個讀取埠以使得該儲存體204的大小和功耗最小化。

位址產生器206產生提供至微碼ROM 202的微碼取指位址268。第一加法器224-1使取指位址268遞增1，第二加法器224-2使取指位址268遞增2，並且第三加法器224-3使取指位址268遞增3，並且將遞增後的各位址與取指位址268一起分別提供至微碼ROM 202。將4個位址各自提供至微碼ROM 202的相應儲存體204以實現4個順次微碼指令272的獲取。微碼ROM 202包括將4個位址各自引導至4個儲存體204中的適當儲存體204的第一組多工器(未示出)以及根據取指位址268的2個最低有效位元將4個儲存體204所提供的4個微碼指令272各自引導至分支解碼器208的適當通道的第二組多工器(未示出)。如果取指位址268的最低兩位的值是0，則將取指位址268提供至儲存體A 204A，將遞增1的位址提供至儲存體B 204B，將遞增2的位址提供至儲存體C 204C，並且將遞增3的位址提供至儲存體D 204D；如果取指位址268的最低兩位的值是1，則將取指位址268提供至儲存體B 204B，將遞增1的位址提供至儲存體C 204C，將遞增2的位址提供至儲存體D 204D，並且將遞增3的位址提供至儲存體A 204A；如果取指位址268的最低兩位的值是2，則將取指位址268提供至儲存體C 204C，將遞增1的位址提供至儲存體D 204D，將遞增2的位址提供至儲存體A 204A，並且將遞增3的位址提供至儲存體B 204B；以及如果取指位址268的最低兩位的值是3，則將取指位址268提供至儲存體D 204D，將遞增1的位址提供至儲存體A 204A，將遞增2的位址提供至儲存體B 204B，將遞增3的位址提供至儲存體C 204C。類似地，將儲存體A 204A的輸出提供至分支解碼器208的與取指位址268對4取模數的最低兩位的值相對應的通道；將儲存體B 204B的輸出提供至分支解碼器208的與取指位址268加1並對4取模數的最低兩位的值相對應的通道；將儲存體C 204C的輸出提供至分支解碼器208的與取指位址268加2並對4取模數的最低兩位的值相對應的通道；並且將儲存體D 204D的輸出提供至分支解碼器208的與取指位址268加3並對4取模數的最低兩位的值相對應的通道。

取指位址268保持在微碼程式計數器(未示出)中。最初，即，在快速轉譯器154切換至微碼模式時，微碼程式計數器載入有快速轉譯器154所提供的微碼常式的位址。如上所述，局部分支指令是由指令轉譯器104、更具體地由微碼單元156而非由執行管線192進行解析的分支指令。與此相對，非局部分支指令是必須發出至執行管線192以進行解析並且不能由微碼單元156進行解析的分支指令。對分支指令進行解析意味著判斷是否採用分支指令，以及如果採用分支指令則確定分支指令的目標位址。每當從微碼ROM 202獲取到微碼指令272序列時，更新取指位址268(即，微碼程式計數器)。如果分支解碼器208判斷為微碼指令272序列中沒有任何局部分支指令，則位址產生器206使得獲取下一順次指令。更具體地，加法器226使取指位址268遞增4，即，進行增量為微碼指令272數量的遞增。然而，如果分支解碼器208在微碼指令272序列中檢測到局部分支指令，則分支解碼器208對該局部分支指令進行解析，並且如果採用了該分支指令的方向，則分支解碼器208向位址產生器206提供解析後的目標位址266以更新微碼程式計數器，從而獲取解析後的目標位址266處的下一微碼指令272序列。

在調用微碼指令的情況下，始終採用該方向，並且分支解碼器208所計算出的目標位址266是呼叫指令之後的下一順次位址，如以下更詳細說明的那樣，該下一順次位址是提供至呼叫/返回單元222並被推入當前呼叫/返回堆疊254的返回位址。調用微碼指令由微碼單元156進行解析，因而是局部分支指令。在返回微碼指令的情況下，始終採用該方向，並且如以下更詳細說明的那樣，從當前呼叫/返回堆疊254彈出返回位址298，並且將返回位址298提供至位址產生器206以更新微碼程式計數器。返回微碼指令由微碼單元156進行解析，因而是局部分支指令。始終採用無條件跳轉微碼指令，並且無條件跳轉微碼指令可以是局部分支或非局部分支。在局部無條件跳轉的情況下，在指令本身中指定目標位址266，而執行管線192計算非局部無條件跳轉的目標位址。類似地，條件跳轉微碼指令可以是局部或非局部的。在局部條件跳轉微碼指令的情況下，微碼單元156對方向進行解析並且目標位址266包括在指令本身中，而執行管線192對方向進行解析並且計算非局部條件跳轉的目標位址。優選地，微碼單元156有效地預測到不採用任何非局部分支指令，並且不基於微碼指令272序列中非局部分支指令的存在而中斷順次獲取處理。結果，如果執行管線192將非局部分支指令解析為已採用，則沖刷(flush)包括微碼指令佇列212的微碼單元156管線，並且執行管線192提供新的目標位址以更新微碼程式計數器。

分支解碼器208從微碼ROM 202接收微碼指令272序列並且使微碼指令272通過作為微碼指令274。分支解碼器208對微碼指令272序列進行解碼以查找局部分支指令和非局部分支指令這兩者。特別地，分支解碼器208在從0至3即按程式順序的通道搜索接收到的微碼指令272序列，並且檢測到具有局部分支指令的第一個通道(如果存在)，這裡將該局部分支指令稱為“程式順序首位的局部分支指令”。分支解碼器208還確定以下通道中的微碼指令272序列中的非局部分支的數量，其中該通道在具有程式順序首位的局部分支指令的通道之前，並且分支解碼器208將該數量在信號num_non-local_br 282上輸出至呼叫/返回單元222。分支解碼器208還判斷程式順序首位的局部分支指令是否為呼叫指令，並且如果是呼叫指令，則使得被提供至呼叫/返回單元222的推入信號有效。分支解碼器208還判斷程式順序首位的局部分支指令是否為返回指令，並且如果是返回指令，則使得被提供至呼叫/返回單元222的彈出信號286有效。

分支解碼器208還將信號num_valid_instrs 288提供至佇列控制器214，該信號表示微碼指令272序列中要寫入佇列212中的指令的數量。更具體地，如果num_valid_instrs 288的值是N，則將分支解碼器208所提供的前N個微碼指令274寫入佇列212。佇列控制器214對微碼指令274向佇列212中由提供至佇列212的寫入指標244所指定的位置的寫入進行控制。佇列控制器214通過使當前寫入指標244的值進行增量為num_valid_instrs 288對佇列212的大小(即，佇列212中的條目的數量)取模數的遞增，來更新寫入指標244。最後，分支解碼器208將程式順序首位的局部分支指令的目標位址266提供給位址產生器206。num_valid_instrs 288是微碼指令272序列中處於程式順序首位的局部分支指令之前但不包括程式順序首位的局部分支指令的指令的數量。因而，如果不存在局部分支指令，則num_valid_instrs 288為4；如果程式順序首位的局部分支指令處於通道3中，則num_valid_instrs 288為3；如果程式順序首位的局部分支指令處於通道2中，則num_valid_instrs 288為2；如果程式順序首位的局部分支指令處於通道1中，則num_valid_instrs 288為1；以及如果程式順序首位的局部分支指令處於通道0中，則num_valid_instrs 288為0。因而，在分支解碼器208在微碼指令272序列中檢測到局部分支指令的情況下，分支解碼器208有效地丟棄程式順序首位的局部分支指令之後且包括順序首位的局部分支指令的微碼指令274，即，分支解碼器208使得不將這些微碼指令274寫入佇列212。

在功能上將分支解碼器208放置在微碼ROM 202和佇列212之間，以使得分支解碼器208在微碼指令272序列被寫入至佇列212之前對微碼指令272序列進行解碼，這相對於在功能上將分支解碼器208放置在佇列212之後而言具有優點。首先，這使得能夠僅將微碼指令272序列中直到程式順序首位的局部分支指令但不包括程式順序首位的局部分支指令的微碼指令寫入佇列212，並且不將跟隨在程式順序首位的局部分支指令之後的微碼指令寫入佇列212。這樣可以省電。此外，在分支解碼器208對局部分支進行了解碼的情況下，這避免了對佇列212進行使性能下降的沖刷的需求。

在微碼指令274填滿佇列212的情況下，佇列212使得至位址產生器206的已滿264有效，這引起位址產生器206停止從微碼ROM 202獲取指令。然而，有利地，只要佇列212未滿，則即使在例如由於執行管線192暫停而使得執行管線192不能從指令轉譯器104接收微指令138的情況下，位址產生器206也繼續進行獲取並且用微碼指令274來填充佇列212。此外，佇列212可以減少與微碼單元156管線的長度相關聯的性能損失，其中在一個實施例中，微碼單元156管線包括4個管線級，由此引起從存取微碼ROM 202起到向執行管線192提供根據微碼ROM 202轉譯得到的微指令134的4個時脈週期。

在佇列212中沒有微碼指令274的情況下，佇列212使得至微碼轉譯器216的為空262有效，這引起微碼轉譯器216停止將微碼指令276轉譯成圖1的微指令134。然而，有利地，只要佇列212不為空，則微碼轉譯器216每時脈週期從佇列212讀取微碼指令276並將這些微碼指令276轉譯成微指令134。優選地，佇列212隨著各微碼指令276提供用以表示各微碼指令276是否有效的有效信號，以使得微碼轉譯器216不轉譯無效的微碼指令276。例如，如果佇列212僅包含兩個微碼指令276，則佇列212將這兩個微碼指令276提供在通道0和1上並且使得與通道0和1相關聯的有效信號有效，而使得與通道2和3相關聯的有效信號無效。優選地，佇列控制器214將佇列212中的微碼指令276的數量確定為寫入指標244的值減去下述的讀取指標242的值的差。

微碼轉譯器216將表示給定時脈週期內轉譯成微指令134的微碼指令276的數量的num_translated信號246提供至佇列控制器214。佇列控制器214對來自佇列中的由提供至佇列212的讀取指標242所指定的位置的微碼指令276的讀取進行控制。佇列控制器214通過使當前讀取指標242進行增量為num_traslated信號246的值對佇列212的大小(即，佇列212中的條目的數量)取模數的遞增來更新讀取指標242。

在一個實施例中，可以根據微碼指令276的複雜度將微碼指令276轉譯成1~4個微指令。優選地，存在各自能夠將微碼指令276轉譯成不同數量的微指令的4個微碼轉譯器216。優選地，通道0的轉譯器216能夠將任何類型的微碼指令276轉譯成要求數量(即，多達4個)的微指令；通道1的轉譯器216能夠對要求1~3個微指令的類型的微碼指令276進行轉譯；通道2的轉譯器216能夠對要求1~2個微指令的類型的微碼指令276進行轉譯；以及通道3的轉譯器216能夠對要求僅一個微指令的類型的微碼指令276進行轉譯。微碼轉譯器216包括接收4個微碼轉譯器216的輸出的複用矩陣(未示出)，並且選擇有效的微指令以作為微指令134提供至圖1的多工器152。因而，例如，在給定時脈週期內，通道0的微碼轉譯器216可能會遇到該轉譯器轉譯成單個微指令134的微碼指令276，通道1的微碼轉譯器216可能會遇到要求轉譯成4個微指令134的微碼指令276，在這種情況下，這些微碼轉譯器216將僅提供從通道0中的微碼指令276轉譯得到的單個微指令134，這是由於僅存在供微指令134用的3個剩餘槽，而不是4個。然而，有利地，微碼指令佇列212提供緩衝器以潛在地改善由於微碼指令流的複雜度、以及指令流內的可變複雜度微碼指令相對於彼此的位置的可變性而引起的每時脈週期所轉譯的微碼指令的數量的可變性的影響。

呼叫/返回單元222包括推測指標258、非推測指標256、多個呼叫/返回堆疊254以及與呼叫/返回堆疊254相關聯的相應多個計數器252。推測指標258指向當前呼叫/返回堆疊254，即，回應於調用/返回微碼指令而推入/彈出返回位址的呼叫/返回堆疊254。推測指標258還指向與當前呼叫/返回堆疊254相關聯的計數器252。非推測指標256指向非推測呼叫/返回堆疊254和關聯的計數器252，其中在要採用由執行管線192進行解析的非局部分支指令(即，隱含錯誤地預測為不採用微碼單元156的非局部分支指令)的情況下，微碼單元156使該計數器252恢復。也就是說，非預測呼叫/返回堆疊254保持與處理器100中不存在未解析的非局部分支指令的情況下分支解碼器208所遇到的呼叫指令相關聯的返回位址。在這種情況下，推測指標258載入有非推測指標256的值，即，更新推測指標258以指向非推測呼叫/返回堆疊254。

各計數器252對從分配到相應的呼叫/返回堆疊254起分支解碼器208所遇到的非局部分支指令的數量進行計數。在分支解碼器208從遇到了一個或多個非局部分支指令起(這是由當前計數器252的值為非零所表示的)遇到第一個呼叫/返回指令的情況下(即，在分支解碼器208使推入284/彈出286有效的情況下)，呼叫/返回單元222分配新的呼叫/返回堆疊254。在這種情況下，呼叫/返回單元222在將返回位址推入/彈出新分配的呼叫/返回堆疊254之前，將當前呼叫/返回堆疊254的內容複製到新分配的呼叫/返回堆疊254並且將推測指標258更新為指向新分配的呼叫/返回堆疊254，以使得新分配的呼叫/返回堆疊254成為當前呼叫/返回堆疊254。與新分配的呼叫/返回堆疊254相關聯的計數器252清零。注意，呼叫/返回指令之前的一個或多個非局部分支指令可以存在於同一微碼指令272序列中，在這種情況下，呼叫/返回單元222使當前計數器252遞增並且分配推入/彈出返回位址的新的呼叫/返回堆疊254。每當執行管線192解析非局部分支指令時，呼叫/返回單元222使非推測計數器252遞減。在非推測計數器252遞減至0的情況下，這表示不存在更多與非推測呼叫/返回堆疊254相關聯的未解析的非局部分支指令，因此呼叫/返回單元222使非推測指標256遞增以指向下一呼叫/返回堆疊254。

在一個實施例中，呼叫/返回單元222以與為了所有目的通過引用包含於此的美國專利號7,975,132中所述的微碼單元的快速呼叫/返回堆疊單元類似的方式運行，但呼叫/返回單元222被修改為容納每時脈週期來自微碼ROM的多個微碼指令的獲取而非每時脈週期單個微碼指令的獲取。更具體地，如上所述，分支解碼器208檢測微碼指令272序列中處於程式順序首位的局部分支指令之前的非局部分支指令的數量，並且呼叫/返回單元222使當前計數器252進行該數量而非1的遞增。

優選地，微碼單元156還包括可由系統軟體(例如，BIOS或作業系統，例如，經由x86寫入模型專用暫存器(WRMSR)架構指令)進行寫入以修補微碼的修補隨機存取記憶體(RAM)(未示出)和修補內容可定址記憶體(CAM)。修補CAM接收取指位址268及其3個遞增值。如果取指位址268或者其遞增值中的任何遞增值與修補CAM中的位址發生碰撞，則修補CAM向修補RAM提供位址。回應於此，修補RAM提供微碼指令，並且多工器(未示出)從修補RAM而非來自微碼ROM 202的微碼指令272中選擇微碼指令。

儘管描述了每時脈週期從微碼ROM 202獲取到的微碼指令272的數量是4的實施例，但考慮到該數量多於或少於4但至少為2的其它實施例。此外，儘管描述了每時脈週期微碼轉譯器216所轉譯的微碼指令276的數量多達4個的實施例，但考慮到該數量多於或少於4但至少為2的其它實施例。最後，儘管描述了每時脈週期指令轉譯器104向執行管線192提供的微指令134的數量多達4個的實施例，但考慮到該數量多於或少於4但至少為2的其它實施例。

現在參考圖3，示出用於例示圖2的微碼單元156的操作的流程圖。流程從區塊302開始。

在區塊302中，位址產生器206將取指位址268提供至微碼ROM 202，微碼ROM 202回應於此將4個微碼指令272的微碼指令272序列提供至分支解碼器208。流程進入區塊304。

在區塊304中，分支解碼器208對微碼指令272序列進行解碼以檢測局部和非局部分支指令(如果存在)。流程進入區塊306。

在區塊306中，分支解碼器208向呼叫/返回單元222提供微碼指令272序列中按程式順序出現在程式順序首位的局部分支指令之前的非局部分支指令的數量，其中該數量可以為零。回應於此，呼叫/返回單元222使當前計數器252進行該數量的遞增。流程進入決定區塊308。

在決定區塊308中，分支解碼器208判斷程式順序首位的局部分支指令是否為呼叫/返回指令。如果不是，則流程進入區塊314；否則，流程進入區塊312。

在區塊312中，如果程式順序首位的局部分支指令是呼叫指令，則分支解碼器208使得至呼叫/返回單元222的推入信號284有效，呼叫/返回單元222響應於此將目標位址266推入當前呼叫/返回堆疊254以提供至位址產生器206。然而，如果程式順序首位的局部分支指令是返回指令，則分支解碼器使得至呼叫/返回單元222的彈出信號286有效，呼叫/返回單元222回應於此將返回位址298彈出當前呼叫/返回堆疊254以提供至位址產生器206。流程進入區塊314。

在區塊314中，分支解碼器向微碼指令佇列212表示要將微碼指令272序列中的哪些微碼指令寫入佇列212。更具體地，如上所述，僅將微碼指令272序列中直到程式順序首位的局部分支指令為止但不包括程式順序首位的局部分支指令的微碼指令寫入佇列212。流程進入區塊316。

在區塊316中，分支解碼器208對程式順序首位的局部分支指令(如果存在)進行解析，並且將取指位址268更新為所解析的程式順序首位的局部分支指令的目標位址266。否則，位址產生器206使取指位址268遞增4。只要佇列212不為空，則流程返回至區塊302以將下一微碼指令272序列獲取到佇列212中。

現在參考圖4，示出用於例示圖2的微碼單元156的操作的流程圖。流程從區塊402開始。

在區塊402中，與圖3中的從微碼ROM獲取微碼指令的微碼指令272序列、由分支解碼器208對該微碼指令272序列進行解碼以及在局部分支指令的情況下對該微碼指令272序列進行解析、並且只要佇列212不為空則將該微碼指令272序列寫入佇列212的操作並行地，微碼轉譯器216從佇列212讀取微碼指令並且將這些微碼指令轉譯成微指令以提供至執行管線192。流程結束於區塊402。

儘管這裡已經說明了本發明的各種實施例，但應理解，這些實施例僅是以示例而非限制性的方式所呈現的。對於電腦相關領域的技術人員應顯而易見，在沒有背離本發明的範圍的情況下，可以對本發明進行形式和細節方面的各種修改。例如，軟體例如可以啟用這裡所述的設備和方法的功能、製造、建模、類比、說明和/或測試。這可以經由一般程式設計語言(例如，C、C++)、包括Verilog HDL、VHDL等的硬體描述語言(HDL)或其它可用程式的使用來實現。這些軟體可以放置在諸如磁帶、半導體、磁片或光碟(例如，CD-ROM、DVD-ROM等)等的任何已知的電腦可用介質、網路、配線或其它通信介質中。這裡所述的設備和方法的實施例可以包括在諸如(例如，以HDL實現或指定的)處理器核心等的半導體智慧財產權核心中並且在生產積體電路時轉換成硬體。此外，這裡所述的設備和方法可以作為硬體和軟體的組合來實現。因而，本發明不應侷限於這裡所述的任何典型實施例，而應僅根據所附申請專利範圍及其均等物來限定。具體地，本發明可以在通用電腦中能夠使用的處理器裝置中實現。最後，本領域技術人員應理解，在沒有背離由所附申請專利範圍限定的本發明的範圍的情況下，他們可以容易地使用所公開的概念和特定實施例作為用於設計或修改其它結構的基礎，以實施與本發明的目的相同的目的。

100‧‧‧處理器

102‧‧‧指令快取記憶體

104‧‧‧指令轉譯器

106‧‧‧重命名單元

108‧‧‧保留站

112‧‧‧執行單元

116‧‧‧架構暫存器

118‧‧‧重排序緩衝器

122‧‧‧記憶體子系統

134、136、138‧‧‧微指令

152‧‧‧多工器

154‧‧‧快速轉譯器

156‧‧‧微碼單元

178‧‧‧架構指令

192‧‧‧超標量非循序執行管線

202‧‧‧微碼ROM

204A‧‧‧儲存體A

204B‧‧‧儲存體B

204C‧‧‧儲存體C

204D‧‧‧儲存體D

206‧‧‧位址產生器

208‧‧‧分支解碼器

212‧‧‧微碼指令佇列

214‧‧‧佇列控制器

216‧‧‧微碼轉譯器

222‧‧‧呼叫/返回單元

224-1‧‧‧第一加法器

224-2‧‧‧第二加法器

224-3‧‧‧第三加法器

226‧‧‧加法器

242‧‧‧讀取指標

244‧‧‧寫入指標

246‧‧‧num_traslated信號

252‧‧‧計數器

254‧‧‧呼叫/返回堆疊

256‧‧‧非推測指標

258‧‧‧推測指標

262‧‧‧為空

264‧‧‧已滿

266‧‧‧目標位址

268‧‧‧取指位址

272、274、276‧‧‧微碼指令

282‧‧‧信號num_non-local_br

284‧‧‧推入

286‧‧‧彈出

288‧‧‧信號num_valid_instrs

298‧‧‧返回位址

3 圖1是示出處理器的方塊圖； 4 圖2是更詳細地示出圖1的處理器的指令轉譯器的方塊圖； 5 圖3是示出圖2的微碼單元的操作的流程圖； 6 圖4是示出圖2的微碼單元的操作的流程圖。

Claims

一種處理器，其具有指令集架構(ISA)，該處理器包括：一執行管線，其具有執行微指令的多個執行單元；以及一指令轉譯器，用於將所述ISA所定義的架構指令轉譯成所述微指令，該指令轉譯器包括：一記憶體，用於保持微碼指令並且每時脈週期回應於一位址提供多個微碼指令；一佇列，用於保持該記憶體所提供的微碼指令；一分支解碼器，其耦接在該記憶體和該佇列之間，用於對該記憶體所提供的該些微碼指令進行解碼以檢測該些微碼指令中的一個或多個局部分支指令，使得要將該些微碼指令中的直到所述一個或多個局部分支指令的程式順序首位局部分支指令為止但不包括所述程式順序首位局部分支指令的微碼指令寫入該佇列，並且防止將該些微碼指令中的所述程式順序首位局部分支指令及其後續微碼指令寫入該佇列，其中，該些局部分支指令由該指令轉譯器而非該執行管線進行解析；以及多個微碼轉譯器，用於將每時脈週期從該佇列接收到的多個微碼指令轉譯成多個微指令以提供至該執行管線。
如申請專利範圍第1項所述的處理器，其中，該記憶體每時脈週期所提供的該些微碼指令為至少4個。
如申請專利範圍第1項所述的處理器，其中，該指令轉譯器還包括一呼叫/返回單元，該呼叫/返回單元具有多個呼叫/返回堆疊，該些呼叫/返回堆疊用於保持與已經由該分支解碼器進行了解碼的呼叫指令相關聯並且相對應的返回指令尚未由該分支解碼器進行解碼的返回位址；以及其中，在所述程式順序首位局部分支指令是呼叫/返回指令的情況下，該分支解碼器指示該呼叫/返回單元將返回位址推入/彈出該些呼叫/返回堆疊中的當前呼叫/返回堆疊。
如申請專利範圍第3項所述的處理器，其中，該呼叫/返回單元還包括與該些呼叫/返回堆疊相對應的多個計數器，其中，該些計數器中的各計數器在該些呼叫/返回堆疊中的相對應的呼叫/返回堆疊是該些呼叫/返回堆疊中的當前呼叫/返回堆疊的情況下，保持尚未由該執行管線進行解析而由該分支解碼器進行了解碼的非局部分支指令的計數；以及其中，該分支解碼器對處於該些微碼指令內的所述程式順序首位局部分支指令之前的非局部分支指令的數量進行計數，並且該呼叫/返回單元將所計數的數量添加至該些計數器中與該些呼叫/返回堆疊中的當前呼叫/返回堆疊相對應的計數器，其中，所述非局部分支指令由該執行管線而非由該指令轉譯器進行解析。
如申請專利範圍第1項所述的處理器，其中，該記憶體每時脈週期回應於位址而提供的該些微碼指令是N個微碼指令；該記憶體包括N個儲存體，並且所述N個儲存體中的各儲存體具有單個讀取埠；所述N個儲存體中的第一個儲存體回應於所述位址而提供該些微碼指令中的第一個微碼指令；以及其餘N-1個儲存體中的各儲存體回應於所述位址的各遞增位址而提供該些微碼指令中的相應微碼指令；其中，N為大於1的正整數。
如申請專利範圍第1項所述的處理器，其中，還包括：一寫入指標，其指向每時脈週期寫入微碼指令的該佇列中的位置；以及一佇列控制器，用於使該寫入指標每時脈週期進行增量為寫入該佇列的微碼指令的數量的遞增。
如申請專利範圍第1項所述的處理器，其中，還包括：一讀取指標，其指向該些微碼轉譯器讀取微碼指令的該佇列中的位置；以及一佇列控制器，用於使該讀取指標每時脈週期進行增量為該些微碼轉譯器所轉譯的微碼指令的數量的遞增。
如申請專利範圍第1項所述的處理器，其中，該處理器是x86 ISA處理器。
如申請專利範圍第1項所述的處理器，其中，該指令轉譯器被配置為即使在該執行管線當前不能從該指令轉譯器接收微指令的情況下也繼續從該記憶體獲取微碼指令以提供至該佇列，直到該佇列已滿為止。
如申請專利範圍第1項所述的處理器，其中，在該些微碼指令包括局部分支指令的情況下，所述位址更新為由所述程式順序首位局部分支指令所指定的目標位址。
如申請專利範圍第1項所述的處理器，其中，在該些微碼指令中沒有局部分支指令的情況下，所述位址遞增N，其中，N是該記憶體每時脈週期所提供的該些微碼指令的數量，且N為大於1的正整數。
如申請專利範圍第1項所述的處理器，其中，該些微碼轉譯器各自被配置為將微碼指令轉譯成最大數量不同的微指令。
一種用於將架構指令轉譯成微指令以供執行管線執行的方法，所述架構指令是由處理器的指令集架構(ISA)所定義的，該執行管線具有多個執行單元，所述方法包括以下步驟：通過一記憶體來每時脈週期回應於位址而提供多個微碼指令；通過耦接在該記憶體和一佇列之間的一分支解碼器來對該記憶體所提供的該些微碼指令進行解碼，以檢測該些微碼指令中的一個或多個局部分支指令；使得要將該些微碼指令中的直到所述一個或多個局部分支指令的程式順序首位局部分支指令為止但不包括所述程式順序首位局部分支指令的微碼指令寫入該佇列，並且防止將該些微碼指令中的所述程式順序首位局部分支指令及其後續微碼指令寫入該佇列；其中，該些局部分支指令由該分支解碼器而非由該執行管線進行解析；以及通過多個微碼轉譯器將每時脈週期從該佇列接收到的多個微碼指令轉譯成多個微指令以提供至該執行管線。
如申請專利範圍第13項所述的方法，其中，該記憶體每時脈週期所提供的所述多個微碼指令為至少4個。
如申請專利範圍第13項所述的方法，其中，該處理器還包括一呼叫/返回單元，該呼叫/返回單元具有多個呼叫/返回堆疊，該些呼叫/返回堆疊用於保持與已經由該分支解碼器進行了解碼的呼叫指令相關聯並且相對應的返回指令尚未由該分支解碼器進行解碼的返回位址；以及所述方法還包括：在所述程式順序首位局部分支指令是呼叫/返回指令的情況下：通過該分支解碼器來指示該呼叫/返回單元將返回位址推入/彈出該些呼叫/返回堆疊中的當前呼叫/返回堆疊。
如申請專利範圍第15項所述的方法，其中，該呼叫/返回單元還包括與該些呼叫/返回堆疊相對應的多個計數器，其中，該些計數器中的各計數器在該些呼叫/返回堆疊中的相對應的呼叫/返回堆疊是該些呼叫/返回堆疊中的當前呼叫/返回堆疊的情況下，保持尚未由該執行管線進行解析而由該分支解碼器進行了解碼的非局部分支指令的計數；以及所述方法還包括：通過該分支解碼器來對處於該些微碼指令內的在所述程式順序首位局部分支指令之前的非局部分支指令的數量進行計數；通過該呼叫/返回單元將所計數的數量添加至該些計數器中與該些呼叫/返回堆疊中的當前呼叫/返回堆疊相對應的計數器；以及其中，所述非局部分支指令由該執行管線而非由該分支解碼器進行解析。
如申請專利範圍第13項所述的方法，其中，還包括：該記憶體每時脈週期回應於位址而提供的該些微碼指令是N個微碼指令；該記憶體包括N個儲存體，並且所述N個儲存體中的各儲存體具有單個讀取埠；通過所述N個儲存體中的第一個儲存體來回應於所述位址而提供該些微碼指令中的第一個微碼指令；以及通過其餘N-1個儲存體中的各儲存體來回應於所述位址的各遞增位址而提供該些微碼指令中的相應微碼指令；其中，N為大於1的正整數。
如申請專利範圍第13項所述的方法，其中，還包括：通過一寫入指標來指向每時脈週期寫入微碼指令的該佇列中的位置；以及使該寫入指標每時脈週期進行增量為寫入該佇列的微碼指令的數量的遞增。
如申請專利範圍第13項所述的方法，其中，還包括：通過一讀取指標來指向該些微碼轉譯器讀取微碼指令的該佇列中的位置；以及使該讀取指標每時脈週期進行增量為該些微碼轉譯器所轉譯的微碼指令的數量的遞增。
如申請專利範圍第13項所述的方法，其中，還包括：即使在該執行管線當前不能接收微指令的情況下也繼續從該記憶體獲取微碼指令以提供至該佇列，直到該佇列已滿為止。