TWI293429B

TWI293429B - Microprocessor capable of detecting a fault in an instruction, and method, apparatus and system for detecting an error associated with an instruction

Info

Publication number: TWI293429B
Application number: TW094116575A
Authority: TW
Inventors: Joel Emer; Shubhendu Mukherjee; Steven Reinhardt; Christopher Weaver
Original assignee: Intel Corp
Priority date: 2004-06-17
Filing date: 2005-05-20
Publication date: 2008-02-11
Also published as: CN1710532A; TW200604944A; EP1612676A3; US20050283685A1; CN100407135C; KR100736963B1; KR20060049614A; US7386756B2; EP1612676A2

Description

(1) 1293429 / 九、發明說明【發明所屬之技術領域】本發明有關於一種藉由追蹤對於錯誤爲中性的指令以減低微處理器中不正確偵誤的相關技術。馨【先前技術】在未來處理技術中增加處理器電晶體的總數存有一顯 ^ 著的阻礙，即爲中子與〇c粒子撞擊導致的暫態故障。雖然個別電晶體的故障率並無明顯地增加，將較多的電晶體倂入一裝置使得該裝置更爲可能地遭遇到一故障。因此，希望能夠將處理器錯誤率維持在可接受的水準上，其需要增加設計上的努力。來自暫態故障的單一位元混亂已成爲現今微處理器設計中關鍵的挑戰之一。該些故障由於活動性極強的粒子引起，例如：來自宇宙射線的中子以及來自封裝材料的α粒子。電晶體來源與擴散節點可以收集這些電荷。足夠數量的累積電荷可以將邏輯裝置的狀態反轉，該邏輯裝置例如 :SRAM單元、栓鎖器或閘極，並藉此將一邏輯故障引入該電路的操作。由於此種類型的故障並不會帶給該裝置永久的故障，一般稱爲軟錯誤或暫態錯誤。由於晶片上電晶體的數量持續快速地增加，軟錯誤對於微處理器設計者而言是增加的負擔。每一栓鎖器或 SRAM位元的原始錯誤率預計爲大體上保持定値或在接下來的數個科技世代中略爲降低。因此，除非是新增的錯誤 -5- (2) 1293429 保護機制或更爲健全技術的使用（例如：全空乏S 01技術 )，微處理器的錯誤率將與裝置數量成正比地成長，其中該裝置加上每一後續世代中的處理器。導礞【發明內容】爲了達成前述以及根據本發明的目的，提供一種藉由追蹤對於錯誤爲中性的指令以減低微處理器中不正確偵誤 ^的相關技術。本發明的其他特點、目的以及優點將詳細描述如下且伴隨著圖式而更加清楚敘述，其中在所有的圖式中，相同之參考數字係標明相同或類似的元件。【實施方式】本發明的一些較佳實施例將詳細描述如下。然而，除了如下描述外，本發明還可以廣泛地在其他的實施例施行，且本發明的範圍並不受實施例之限定，其以之後的專利範圍爲準。第1圖說明在微處理器中一單一位元故障可能導致的結果。一開始，該處理器判定一故障位元是否被讀取1 〇〇。假如一故障位元不被讀取11 〇，接著該位元被視爲良性的故障且因此沒有錯誤。假如一故障位元被讀取，接著該處理器判定該位元是否具有錯誤保護1 1 5。當一故障位元被讀取，至少有三種可能的結果。首先，假如該錯誤保護被偵測用於該位元且被修正，接著該故障被視爲已修正 -6- (3) 1293429 120° 第二’假如該位元不具有錯誤保護，接著該處理器判定該指令是否影響該程式的結果1 25。假如該指令不影響該程式的結果’接著該故障位元被視爲良性的故障丨30。由於該故障不具有影響或者是被偵測與被修正，因此故障 1 10、120與130均指明非錯誤狀態。

假如該指令影響該程式的輸出，接著它被視爲靜默的資料毀損（silent data corruption; SDC) 135。SDC 135 是一種最隱伏形式的錯誤，其中一錯誤導致該系統產生不正確的輸出。爲了避免SDC 135，設計者可使用基本的錯誤偵測機制’例如：同位（p a r i t y )。第三種可能的結果則是，當一位元具有錯誤保護應用至此種狀況，其中該錯誤被偵測1 40。具有偵測故障但不修正的能力，該系統避免產生無效輸出，但當錯誤發生時不能恢復。因此，簡單的錯誤偵測並不減少錯誤率，然而提供失效即停（fail-stop )的性能並藉此減低任何的資料毀損。這些類型的錯誤係爲已知的，稱爲已偵測的不可恢復錯誤（detected unrecoverable errors ; DUE)。 DUE事件可以根據該已偵測錯誤是否影響該執行的最後結果，而更進一步地再細分。良性的已偵測錯誤稱爲不正確的DUE事件145，其他則稱爲正確的DUE事件150。在一微處理器中，不正確的DUE事件係由在錯誤路徑的指令上（不正確斷定的指令）攻擊而引起，以及在正確路徑的指令上（其不影響最終程式狀態），其包含無操作指 (4) 1293429 令、預先擷取以及動態無效指令° 爲了追蹤不正確的DUE事件’該處理器附加一 pi位元至每一指令以及可能地附加至不同的硬體結構’其中P1 m 位元用於可能的不正確（possibly incorrect)。當一錯誤被偵測時，該硬體設定受影響指令的該Pi位元而不是用 .信號發出該錯誤。接著，藉由檢查該Pi位元以及確認該指令的本質，該硬體可以決定是否真正地發生一可見的錯 •誤。區分不正確的錯誤與正確的錯誤是非常複雜的。在偵測到該錯誤時，該處理器可能不具足夠的資訊以區分。舉例而言，當該指令佇列在一指令上偵測到一錯誤，其可能無法辨別該指令是否爲一錯誤路徑指令。因此，該處理器需要將該錯誤資訊在該管線向下地傳送，且當具有足夠的資訊區別時引發該錯誤。爲了在該微處理器硬體的不同部分之間傳送該錯誤資訊，該系統利用該p i位元。當該p i位元在該管線向下地流動時（由解碼至引退階段），該pi位元與每一指令邏輯上相結合。該pi位元機制幫助避免來自該故障偵測機制不正確的正匹配，例如：同位。尤其特別地，對於一指令而言，當一指令被解碼時，一 pi位元被附加至該指令且被初始化至0，用以表示該指令未遇到任何錯誤。當該指令在該管線之間流動’其將被多次地轉換以適應該機器以及寫入至儲存結構且從許多不同的儲存結構讀取。假設該儲存結 (5) 1293429 構具有一些類型的故障偵測，例如：同位，且該指令累積一單一位元混亂，該同位錯誤將被標記。典型地，此將引發一機器檢查錯誤，其通常會導致該機器當機。此處，該 m 處理器藉由將其値改變爲1而將此錯誤發表在該pi位元 *上。 .錯誤核對以及該pi位元的更新亦可以使用於該管線的多個階段中及/或指令執行期間的多個不同結構中。錯 ^ 誤核對邏輯可以爲同位核對器的形式或各種其他習知的錯誤偵測技術，以及其他可行的方式。再者，錯誤偵測與修正技術可以使用於這些不同的階段中或不同的結構上，對於不可恢復錯誤的例子而言具有該Pi位元被設定。在該管線的一認可階段，該認可硬體具有足夠的資訊判定該指令是否爲一錯誤路徑指令、不正確預測指令或是無操作指令。在這些例子中，該處理器將不引發一機器檢查例外，並使該機器正常地進行。然而，在其他例子中， $其可能已有正確的錯誤且必須引發一機器檢查錯誤。該pi位元可以在硬體結構之間傳送（可能的）錯誤資訊，並因此耽擱該機器檢查例外直至該機器必須完全地宣告該錯誤。然而，該pi位元自身無法辨認是否一特定結構遇到故障且該故障對於使用者而言最後是否將爲可看見的。第2圖係爲一方塊圖，用以說明根據本發明的一實施例，當使用一非pi位元’其沿著一指令流動路徑以標明對於錯誤爲中性的指令。在微處理器中有許多例子，其中 -9 - (6) 1293429 在特定指令類型上的一故障將不會導致使用者可見的錯誤，並且因此不影響一程式最後的結果。舉例來說，對於程式的正確性而言，從記億體預先擷取一組資料至該快取的一預先擷取指令並不是必須的，然而其對於程式的性能而 # 言是必須的。同樣地，藉由提供該微處理器有關於控制該 .程式流動路徑的提示，在一架構中的該分支預測提示指令使得一程式提升其性能。對於微處理器的正確性並無影響 | 的其他指令類型，例如：無操作指令（NOPs )，然而其對於在程式中塡滿空白的靜態指令位置而言是必須的。這些類型的指令係爲已知對於錯誤爲中心的指令。當與造成一位元反轉的α粒子或中子碰撞時，此種指令的大多數位兀並不會導致使用者可見的錯誤。因此，該硬體不需要在此種指令的非操作碼位元上引發一錯誤。當指令（包含對於錯誤爲中性的指令）在一管線205 之間流動，其存在於不同類型的結構、緩衝器以及栓鎖器。此種結構之一係爲指令佇列2 1 0，其中這些指令存在直至它們預備好發佈至執行單元。然而，當指令通過這些不同的結構時，可以改變它們在該結構的表示法以適合特定的結構。當該硬體存取在該指令佇列2 1 0中的一指令且偵測一同位錯誤時，其不具有非P i位元，此時將僅設定該P i位元。然而’如同上述’由於此種錯誤對於使用者而固爲非可看見的，對於錯誤爲中性的指令不需要具有其Pi位元設定。 -10- @ (7) 1293429 當一指令在該管線205的初期階段被解碼200時，另一位元（稱爲非pi位元）可以附加至該解碼指令。接著，當該指令佇列2 1 0在一中性指令的非操作碼位元上偵測一同位錯誤時，該指令佇列2 1 0首先核對該非Pi位元。假如該非pi位元被設定’意謂該指令對於錯誤爲中性的，其並不設定該pi位元。否則’其設定該Pi位元用於在該管線稍後階段的更進一步處理。

最後，該指令將認可2 1 5。在該認可階段，該認可硬體具有足夠的資訊判定該指令是否爲一錯誤路徑指令以及是否爲對於錯誤爲中性的指令。換言之，該非Pi位元中性化歸類爲中性指令類型的該Pi位元。再者，該非Pi位元結合該pi位元更進一步地減低不正確錯誤偵測的發生 >牛<:〇對於錯誤爲中性的指令之中的一些控制位元需要特別留意。舉例而言，假如對於錯誤爲中性的指令之中的該些 Ip操作碼位元遇到一攻擊時，由於其可以精確地辨認該指令類型，接著該系統可能必須引發一機器檢查例外。然而，防護該非pi位元與該資料與控制位元分隔開’使得該結構避免在對於錯誤爲中性的指令之中的控制位元內一故障上的pi位元設定。假如該非pi位元僅具有錯誤偵測（經由同位或電路技術），接著在該非pi位元上的一同位錯誤上，該硬體將必須引發一機器檢查。然而，假如該非pi 位元具有錯誤修復（經由錯誤檢錯與糾正或是電路技術），接著該硬體可以甚至由該非pi位元中的故障修復，而 -11- (8) 1293429 且在一輸入的控制與資料位元之中的故障亦能夠修復。另外可選擇的是，存在著其他以非pi位元的可行設計。在前面所述的設計中，個別的結構檢查非pi位元用以設定pi位元。反而當設定pi位元時，個別的結構可以忽略非pi位元。接著，在該認可階段2 1 5，一引退可以核對非pi位元與pi位元，用以決定是否應該引發一機器檢查例外。

非pi位元機制亦可以廣義地推展爲對於錯誤爲中性的其他硬體活動。舉例而言，藉由一硬體預先擷取所產生的一位址上的一錯誤可以是對於錯誤爲中性的，且由非pi 位元加以標示。第3圖係爲一流程圖，用以說明根據本發明一實施例偵測軟錯誤的方法。在此特定實施例中，流程圖3 00說明一種例子，其中一處理器判定一錯誤是否發生在對於錯誤爲中性的指令上。一開始，當一指令被解碼時3 05，一非 gp pi位元3 07以及一 pi位元310與該指令相結合。接著，該指令以及其非Pi位元與Pi位元在該管線中佇列3 1 5。當該指令在該管線之間流動，其將被多次地轉換以適應該機器以及寫入至儲存單元且從許多不同的儲存單元讀取。當該指令在一管線之間流動的期間，該指令可以累積一單一位元混亂，且該指令的一同位錯誤將被標記320。假如該指令一錯誤被偵測’假如該指令被判定爲對於錯誤是中性的指令時，該管線可以將受影響指令的非Pi位元設定爲一 325。該pi位元被設定，而不是引發一機器檢查 -12- @ (9) 1293429 例外。假如一錯誤不被偵測到時，該指令持續在該管線之間流動直至其認可爲止3 3 0。假如該指令被判定爲一錯誤路徑指令，接著該pi位元被忽略3 40，否則該處理器可以瓣選擇引發一錯誤345，例如：一機器檢查錯誤。第4圖說明一典型的電腦系統用以實行偵測軟錯誤。如第4圖所示的一電腦400，其中處理器405作爲單獨的或複數個處理器其中之一，其包含中央處理單元（CPU) ^ 或該電腦400的一些單元。通常，該處理器405被嵌入至單一積體電路晶片中。該處理器405可以包含一執行（處理）核心410，其具有一或多個執行單元。該處理器405 的一部分用於包含一指令處理裝置415。如第4圖所示，該指令處理裝置4 1 5耦接至該核心4 1 0。本發明根據以上所述實施，用以在該核心4 1 0中執行一指令。該記憶體可以位於晶片上（如第4圖所示的晶片上記憶體420 )或是位於晶片外（如第4圖所示的晶片外記億體42 5 )。通常，該晶片上記憶體可以爲快取記憶體或者主記憶體（RAM )的一部分。該晶片外記憶體通常包含主記憶體（亦包含晶片外快取，假如存在的話）以及其他記憶體裝置，例如：磁碟儲存媒介。晶片上記憶體420 以及晶片外記憶體425 (單獨地或個別地）可以連接至不同的裝置，例如：聲音介面裝置43 0。然而，需要加以注意的是，本發明可以其他方法裝配以藉由該核心4 1 0處理用於執行的該些指令。雖然本發明已以若干較佳實施例揭露如上，然其並非 -13- (10) 1293429 用以限定本發明’任何熟習此技藝者’在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾’因此本發明之保護範圍當視後附之申請專利範圍所界定者爲準。 I圖式簡單說明】

本發明的許多觀點可以參考以下的圖式而更加'凊楚的了解。相關圖式並未依比例繪製’其作用僅在 '凊楚表現本發明有關定理。此外’使用數字來表示圖式中相對應的部分0 第1圖係爲一方塊圖，用以說明在微處理器中故障位元可能導致的結果。第2圖係爲一方塊圖，用以說明根據本發明的一實施 :例，當使用沿著一指令流動路徑的一非pi位元，以標明對於錯誤爲中性的指令。第3圖係爲一流程圖，用以說明根據本發明一實施例的運作。第4圖係爲一方塊圖，用以說明一範例式電腦系統以實行在本發明中的偵測軟錯誤。【主要元件之符號說明】 100 :故障位元是否被讀取 1 1 0 :良性的故障 1 1 5 :該位元是否具有錯誤保護 120 :該故障已修正 (11) 1293429 1 25 :該指令是否影響程式結果 1 3 0 :良性的故障

1 3 5 :靜默的資料毀損 140 :是否影響程式結果 145 :不正確的DUE 150 :正確的DUE

2 0 0 :解碼並加入非p i位元 2 1 0 :指令佇列 2 1 5 :認可 2 0 5 :管線 3 00 :流程圖 3 05 :解碼指令 3 07 :載入與指令相結合的非pi位元 3 1 〇 :載入與指令相結合的pi位元 3 1 5 :佇列指令以及pi與非pi位元 320 :錯誤發生否？ 3 22 :判定非pi位元是否被設定 325:假設非pi位元未被設定，設定pi位元 3 3 0 :認可指令 3 3 5 :錯誤路徑指令 3 4 0 :忽略p i位元 345 :引發錯誤 4 0 0 :電腦 405 :處理器 -15- (12) (12)1293429

4 1 Ο :執行核心 4 1 5 :指令處理單元 420 :晶片上記憶體 425 :晶片外記憶體 43 0 :聲音介面裝置

Claims

J293429 十、申請專利範圍 aa 8,16 干

附件4A : 第94 1 1 65 75號專利申請案中文申請專利範圍替換本民國96年8月16日修正 1· 一種可偵測指令中的故障之微處理器，包含：一解碼模組，用以將一指令解碼； φ 與該已解碼之指令相結合的第一位元；與該已解碼之指令相結合的第二位元，其中該第二位元用以確認在該指令上的一故障；以及耦接至該解碼模組的一儲存結構，用以偵測在該指令上的故障偵測，其中該儲存結構根據該故障偵測核對該指令的該第一位元，且假如該第一位元被設定，則該第二位元不被設定。 2.如申請專利範圍第1項所述之微處理器，更包含假 # 如該第一位元不被設定，則該第二位元被設定。 3 ·如申請專利範圍第1項所述之微處理器，更包含耦接至該儲存結構的一指令處理單元，該指令處理單元包含複數個階段用以處理該解碼指令。 4.如申請專利範圍第1項所述之微處理器，其中該儲存結構偵測在該解碼指令的非操作碼位元上的故障偵測。 5 ·如申請專利範圍第1項所述之微處理器，其中該第一位元係爲一非P i位元。 6.如申請專利範圍第1項所述之微處理器，其中該第 1293429 二位元係爲一 pi位元。 7 ·如申請專利範圍第1項所述之微處理器’其中該故障偵測係爲一同位錯誤。 8·如申請專利範圍第4項所述之微處理器，其中該第一位元根據該指令的類型而被設定。 9 ·如申請專利範圍第8項所述之微處理器’其中該指令係爲無操作（NOP )指令。 1 〇 .如申請專利範圍第8項所述之微處理器’其中該指令係爲一預先擷取指令。 1 1 ·如申請專利範圍第8項所述之微處理器’其中該指令係爲一分支預測提示指令。 1 2 .如申請專利範圍第1項所述之微處理器，其中該儲存結構係爲一指令佇列。 1 3 ·如申請專利範圍第3項所述之微處理器，其中該指令發送且在該複數個階段之間流動。 14.一種用於偵測與指令相結合的錯誤之方法，該方法包含：解碼一指令；載入第一位元以及該指令；載入第二位元以及該指令；偵測一故障；核對該第一位元，用以根據偵測一故障判定該第_ β 元是否被設定；以及僅當該第一錯誤位元不被設定時，設定該第二位元。 -2 - 1293429 1 5 ·如申請專利範圍第1 4項所述之方法，其中該第一位元與一類型的指令相結合。 16.如申請專利範圍第14項所述之方法，更包含：佇列該指令；在一管線的多個階段之間傳送該指令，用以處理該指令，以及判定該指令是否爲一錯誤路徑指令。 1 7·如申請專利範圍第1 5項所述之方法，其中偵測一故障的該步驟係爲偵測在該指令的非操作碼位元上的該故障。 1 8 · —種用於偵測與指令相結合的錯誤之裝置，該裝置包含：一解碼模組，用以將一輸入解碼；以及耦接至該解碼模組的一儲存單元，用以儲存與該輸入相結合的第一偵測位元，以確認所發生的一位元狀態變化是否損壞該輸入，且用以儲存與該輸入相結合的第二偵測位元，其中僅當該第一偵測位元未被設定時，該第二偵測位元藉由該位元狀態變化而被設定。 1 9 ·如申請專利範圍第1 8項所述之裝置，更包含·· 一指令佇列，用以處理該輸入；以及一指令流動路徑，用以在多個階段之間傳送該些輸入的流動。 2 0 ·如申請專利範圍第1 9項所述之裝置，更包含一認可模組，用以判定該輸入是否在一錯誤路徑上。 -3- 1293429 2 1 ·如申請專利範圍第1 8項所述之裝置，其中該位元狀態變化發生在該輸入的非操作碼位元上。 22·如申請專利範圍第21項所述之裝置，其中該第一偵測位元針對無操作指令而被設定。 23.如申請專利範圍第21項所述之裝置，其中該第一偵測位元針對預先擷取指令而被設定。 24·如申請專利範圍第21項所述之裝置，其中該第一 φ 偵測位元針對分支預測提示指令而被設定。 25·如申請專利範圍第19項所述之裝置，其中該輸入發送且在該指令流動路徑的複數個階段之間流動。 26.如申請專利範圍第19項所述之裝置，其中該第二偵測位元係爲一 pi位元。 2 7.如申請專利範圍第19項所述之裝置，其中該第一偵測位元係爲一非P i位元。 28. 如申請專利範圍第19項所述之裝置，其中該第一 # 偵測位元針對該些對於錯誤爲中性的輸入而被設定。 29. —種用於偵測與指令相結合的錯誤之系統，該系統包含：一晶片外記憶體，用以在擷取之前儲存一輸入；耦接至該晶片外記憶體的一處理器’其中該處理器更包含：一解碼模組，用以接收一輸入；以及一儲存單元’用以儲存與該輸入相結合的第一位元與第二位元，其中該第一位元確認所發生的一位元狀態 -4- 1293429 • 變化是否損壞該輸入，且其中僅當該第一位元未被設定時，該第二位元藉由該位元狀態變化而被設定。 3 0.如申請專利範圍第29項所述之系統，更包含：一指令佇列，用以處理該輸入；一指令流動路徑，用以在多個階段之間傳送該些輸入的流動；以及一認可模組，用以判定該輸入是否在一錯誤路徑上。 φ 3 1.如申請專利範圍第29項所述之系統，更包含：一晶片上記憶體；以及耦接至該晶片上記憶體的一聲音介面裝置。 32. 如申請專利範圍第29項所述之系統，更包含耦接至該晶片外記憶體的一聲音介面裝置。 33. 如申請專利範圍第29項所述之系統，其中該第一位元係爲一非P i位元。 34. 如申請專利範圍第29項所述之系統，其中該第二 ^ 位元係爲一 pi位元。 35. 如申請專利範圍第29項所述之系統，其中該位元狀態變化發生在該輸入的非操作碼位元上。 36. 如申請專利範圍第29項所述之系統，其中該第一位元針對無操作輸入而被設定。 37. 如申請專利範圍第29項所述之系統，其中該第一位元針對預先擷取輸入而被設定。 38. 如申請專利範圍第29項所述之系統，其中該第一位元針對分支預測提示指令而被設定。 -5- .1293429 39.如申請專利範圍第29項所述之系統，其中該第一位元針對該些對於錯誤爲中性的輸入而被設定。