TW202217567A - 錯誤類型判斷系統及其方法 - Google Patents
錯誤類型判斷系統及其方法 Download PDFInfo
- Publication number
- TW202217567A TW202217567A TW109137256A TW109137256A TW202217567A TW 202217567 A TW202217567 A TW 202217567A TW 109137256 A TW109137256 A TW 109137256A TW 109137256 A TW109137256 A TW 109137256A TW 202217567 A TW202217567 A TW 202217567A
- Authority
- TW
- Taiwan
- Prior art keywords
- error type
- error
- information
- type information
- processing unit
- Prior art date
Links
Images
Landscapes
- Radio Transmission System (AREA)
- Measurement Of Radiation (AREA)
- Eye Examination Apparatus (AREA)
- Programmable Controllers (AREA)
Abstract
一種錯誤類型判斷系統及其方法,錯誤類型判斷系統包含一伺服運作單元、一基本輸入輸出系統、一邏輯處理模組以及一管理控制模組。伺服運作單元在執行一執行程式並發生錯誤時,發送出一包含一第一錯誤資訊之錯誤發生信號。基本輸入輸出系統接收到錯誤發生信號時,依據設有之一錯誤類型比對表找出所對應之錯誤類型資訊,並定義為一對應錯誤類型資訊,藉以傳送出一包含有對應錯誤類型資訊之錯誤類型信號。邏輯處理模組在接收到錯誤類型信號時,解析出對應錯誤類型資訊,將對應錯誤類型資訊儲存,並將對應錯誤類型資訊傳送至管理控制模組。
Description
本發明係有關於一種錯誤類型判斷系統及其方法,尤其是指一種用於判斷執行發生錯誤時之錯誤類型之錯誤類型判斷系統及其方法。
隨著網路科技的進步,伺服器在人們的生活中扮演著不可或缺的角色,一般而言,伺服器的系統在運作的過程中,無論是自關機狀態進入開機狀態、自休眠狀態回復至工作狀態或是正常運作的狀態下,會有一定的機率產生不可校正的錯誤(Uncorrectable Error, UCE ERROR),進而導致當機之問題。
其中,現有技術中,由於產線人員無法精準的確定此不可校正的錯誤的類型,因而無法有效了解是甚麼原因造成此不可校正的錯誤,因此時常需要請基本輸入輸出系統(Basic Input/Output System, BIOS)之負責部門人員、基板管理控制器(Baseboard Management Controller, BMC)之負責部門人員以及其他硬體之負責部門人員至產線進行除錯(debug),因而造成所有人員時間之浪費並影響到生產之效率,因此,現有技術仍具備改善之空間。
有鑒於在先前技術中,現有之伺服器在運作過程中若產生錯誤時,現場人員無法確定錯誤之類型而產生有大量人員的不方便以及生產效率降低之問題,本發明透過提供一種用於判斷執行發生錯誤時之錯誤類型之錯誤類型判斷系統及其方法,以解決先前技術中所述之問題。
本發明為解決先前技術之問題,所採用之必要技術手段為提供一種錯誤類型判斷系統,係包含一伺服運作單元、一基本輸入輸出系統(Basic Input/Output System, BIOS)、一邏輯處理模組以及一管理控制模組。伺服運作單元係用以在執行一執行程式並發生一第一錯誤資訊時,發送出一包含該第一錯誤資訊之錯誤發生信號。基本輸入輸出系統係包含一第一儲存單元以及一第一處理單元,第一儲存單元係儲存有一包含有複數個第二錯誤資訊與複數個分別對應於各第二錯誤資訊之錯誤類型資訊之對應關係之錯誤類型比對表。
第一處理單元電性連接於第一儲存單元,通信連接於伺服運作單元,用以在接收到錯誤發生信號時,依據錯誤類型比對表找出第一錯誤資訊所對應之該些第二錯誤資訊中之一者,再依據錯誤類型比對表與上述所對應之該些第二錯誤資訊中之一者找出所對應之該些錯誤類型資訊中之一者,並將上述所對應之該些錯誤類型資訊中之一者定義為一對應錯誤類型資訊,藉以透過一資訊傳輸協議傳送出一包含有對應錯誤類型資訊之錯誤類型信號。
邏輯處理模組係包含一第二儲存單元以及一第二處理單元,第二處理單元係電性連接於第二儲存單元,通信連接於第一處理單元,用以在接收到錯誤類型信號時,解析出對應錯誤類型資訊,將對應錯誤類型資訊儲存於第二儲存單元,並用以傳送出對應錯誤類型資訊。管理控制模組係通信連接於第二處理單元,用以接收對應錯誤類型資訊。
在上述必要技術手段的基礎下,本發明所衍生之一附屬技術手段為管理控制模組係更用以將一錯誤類型檢查指令傳送至第二處理單元,藉以觸發第二處理單元將對應錯誤類型資訊傳送至管理控制模組。此外,邏輯處理模組為一複雜可程式邏輯裝置(Complex Programmable Logic Device, CPLD),管理控制模組為一基板管理控制器(Baseboard Management Controller, BMC),資訊傳輸協議為一串列通用型輸入輸出(Serial General Purpose Input/Output, SGPIO)協議。
本發明為解決先前技術之問題,所採用之必要技術手段為另外提供一種錯誤類型判斷方法,係利用上述之錯誤類型判斷系統加以實施。錯誤類型判斷方法中,先利用基本輸入輸出系統之第一處理單元判斷是否接收到伺服運作單元執行上述執行程式並發生第一錯誤資訊時所發送出之包含第一錯誤資訊之錯誤發生信號。在上述步驟之判斷結果為是時,利用基本輸入輸出系統之第一處理單元依據錯誤類型比對表找出第一錯誤資訊所對應之該些第二錯誤資訊中之一者,再依據錯誤類型比對表與上述所對應之該些第二錯誤資訊中之一者找出所對應之該些錯誤類型資訊中之一者,並將上述所對應之該些錯誤類型資訊中之一者定義為對應錯誤類型資訊,藉以透過資訊傳輸協議傳送出包含有對應錯誤類型資訊之錯誤類型信號。
接著利用邏輯處理模組之第二處理單元接收錯誤類型信號,解析出對應錯誤類型資訊,將對應錯誤類型資訊儲存於第二儲存單元,並傳送出對應錯誤類型資訊。最後利用管理控制模組接收對應錯誤類型資訊,藉以顯示出對應錯誤類型資訊。其中,在上述第一個步驟之判斷結果為否時,係重複執行上述第一個步驟。
在上述必要技術手段的基礎下,本發明所衍生之一附屬技術手段為邏輯處理模組為一複雜可程式邏輯裝置(Complex Programmable Logic Device, CPLD),管理控制模組為一基板管理控制器(Baseboard Management Controller, BMC),資訊傳輸協議為一串列通用型輸入輸出(Serial General Purpose Input/Output, SGPIO)協議。
承上所述,在採用本發明所提供之錯誤類型判斷系統及其方法後,由於預先將錯誤類型比對表建立於基本輸入輸出系統,因此在伺服器運作過程中發生錯誤時,基本輸入輸出系統即可立即識別出是何種錯誤類型,並可直接傳送至邏輯處理模組而觸發邏輯處理模組儲存並傳送至管理控制模組,使得現場人員即可透過管理控制模組獲知發生錯誤時的錯誤類型,從而可快速發現發生錯誤的來源,因而可有效降低其他人員的不方便,並可有效提升在發生錯誤時的處理效率。
下面將結合示意圖對本發明的具體實施方式進行更詳細的描述。根據下列描述和申請專利範圍,本發明的優點和特徵將更清楚。需說明的是,圖式均採用非常簡化的形式且均使用非精準的比例,僅用以方便、明晰地輔助說明本發明實施例的目的。
請參閱第一圖,第一圖係顯示本發明較佳實施例所提供之錯誤類型判斷系統之方塊圖。如圖所示,本發明所提供之錯誤類型判斷系統1,係包含一伺服運作單元11、一基本輸入輸出系統(Basic Input/Output System, BIOS)12、一邏輯處理模組13以及一管理控制模組14。其中,本發明較佳實施例中,錯誤類型判斷系統1係應用於一伺服器(圖未示),而伺服運作單元11例如可為伺服器內如中央處理器(Central Processing Unit, CPU)、微控制器(Microcontroller Unit, MCU)或其他具有處理功能之處理器,也可為下述基本輸入輸出系統12內的處理模組,其係視實務上之設計而定。
基本輸入輸出系統12係包含一第一儲存單元121以及一第一處理單元122,第一儲存單元121例如可為現有之具有儲存資料功能之記憶體,第一儲存單元121係儲存有一包含有複數個第二錯誤資訊與複數個分別對應於各第二錯誤資訊之錯誤類型資訊之對應關係之錯誤類型比對表1211。
舉例來說,本發明較佳實施例之第一儲存單元121係以bit位元方式儲存第二錯誤資訊,因此第二錯誤資訊例如是0x10000000、0x20000000與0x40000000。另外,上述錯誤類型資訊例如是多位元修正錯誤記憶體錯誤(Multi Bit ECC Memory Error)、普通數據奇偶校檢錯誤(Parity Error, PERR)與系統錯誤(System Error, SERR),但其他實施例中不限於此。另外,本發明較佳實施例之錯誤類型比對表1211所儲存之對應關係例如可為下表。
錯誤類型資訊 | 第二錯誤資訊 |
多位元修正錯誤記憶體錯誤 | 0x10000000 |
普通數據奇偶校檢錯誤 | 0x20000000 |
系統錯誤 | 0x40000000 |
第一處理單元122例如可為現有具有處理功能之處理器,電性連接於第一儲存單元121,通信連接於伺服運作單元11,另外,第一處理單元122也可與伺服運作單元11整合為上述之處理模組而設置於基本輸入輸出系統12內,其係視實務上之設計而定。其中,本發明較佳實施例所述之通信連接皆為有線通信連接,在其他實施例中可為無線通信連接,其係視實務上之設計而定。
邏輯處理模組13例如可為一複雜可程式邏輯裝置(Complex Programmable Logic Device, CPLD)。邏輯處理模組13係包含一第二儲存單元131以及一第二處理單元132,第二儲存單元131例如可為現有之具有儲存資料之功能之記憶體。第二處理單元132例如可為現有具有處理功能之處理器,並電性連接於第二儲存單元131,通信連接於第一處理單元122。
管理控制模組14例如為一基板管理控制器(Baseboard Management Controller, BMC),並通信連接於第二處理單元132。
伺服運作單元11係用以在執行一執行程式並發生一第一錯誤資訊時,發送出一包含第一錯誤資訊之錯誤發生信號S1。其中,上述執行程式例如是開機程式、運作作業系統程式或是其他運作程式,而本發明較佳實施例中,第一錯誤資訊例如是0x40000000。
第一處理單元122在接收到錯誤發生信號S1時,依據錯誤類型比對表1211找出第一錯誤資訊所對應之該些第二錯誤資訊中之一者(本發明較佳實施例即找出所對應之0x40000000),再依據錯誤類型比對表1211與上述所對應之該些第二錯誤資訊中之一者找出所對應之該些錯誤類型資訊中之一者(本發明較佳實施例即找出0x40000000是對應於該些錯誤類型資訊中之系統錯誤),並將上述所對應之該些錯誤類型資訊中之一者定義為一對應錯誤類型資訊1311(即將系統錯誤定義為對應錯誤類型資訊1311),藉以透過一資訊傳輸協議傳送出一包含有對應錯誤類型資訊1311之錯誤類型信號S2。
其中,上述之資訊傳輸協議例如為一串列通用型輸入輸出(Serial General Purpose Input/Output, SGPIO)協議,即第一儲存單元以bit位元儲存方式係為了因應串列通用型輸入輸出協議的傳送方式,再具體而言,本發明較佳實施例即是基本輸入輸出系統12透過串列通用型輸入輸出的腳位連接於邏輯處理模組13,而本發明較佳實施例即採用基本輸入輸出系統12之串列通用型輸入輸出的腳位將錯誤類型信號S2傳送至邏輯處理模組13之第二處理單元132。
第二處理單元132在接收到錯誤類型信號S2時,解析出對應錯誤類型資訊1311,從而得知此次發生錯誤的錯誤類型資訊為系統錯誤,並將對應錯誤類型資訊1311儲存於第二儲存單元131。此外,第二處理單元132並以一包含有對應錯誤類型資訊1311之錯誤告知信號S3傳送至管理控制模組14的方式將對應錯誤類型資訊1311傳送至管理控制模組14。
管理控制模組14接收到錯誤告知信號S3後,即可解析出對應錯誤類型資訊1311,進而可透過顯示裝置顯示出對應錯誤類型資訊1311,也就是說,現場產線人員可即時透過管理控制模組14獲知此次發生錯誤之錯誤類型為何。
另外,本發明較佳實施例中,管理控制模組14係先將一錯誤類型檢查指令S4傳送至第二處理單元132,第二處理單元132才進一步將包含有對應錯誤類型資訊1311之錯誤告知信號S3傳送至管理控制模組14。也就是說,本發明較佳實施例中,現場產線人員可在發生錯誤之後,再觸發管理控制模組14發送錯誤類型檢查指令S4。其他實施例中,可為只要一發生錯誤,邏輯處理模組13之第二處理單元132即主動將對應錯誤類型資訊1311發送至管理控制模組14,其係視實務上之設計而定。
請參閱第二圖,第二圖係顯示本發明較佳實施例所提供之錯誤類型判斷方法之流程圖。本發明較佳實施例係還提供一種錯誤類型判斷方法,並且是利用第一圖所示之錯誤類型判斷系統加以實施,並包含以下步驟S101至步驟S104。
步驟S101:利用基本輸入輸出系統12之第一處理單元122判斷是否接收到伺服運作單元11執行執行程式並發生第一錯誤資訊時所發送出之包含第一錯誤資訊之錯誤發生信號S1。
步驟S102:利用基本輸入輸出系統12之第一處理單元122依據錯誤類型比對表1211找出第一錯誤資訊所對應之該些第二錯誤資訊中之一者,再依據錯誤類型比對表1211與上述所對應之該些第二錯誤資訊中之一者找出所對應之該些錯誤類型資訊中之一者,並將上述所對應之該些錯誤類型資訊中之一者定義為對應錯誤類型資訊1311,藉以透過資訊傳輸協議傳送出包含有對應錯誤類型資訊1311之錯誤類型信號S2。
步驟S103:利用邏輯處理模組13之第二處理單元132接收錯誤類型信號S2,解析出對應錯誤類型資訊1311,將對應錯誤類型資訊1311儲存於第二儲存單元131,並傳送出對應錯誤類型資訊1311。
步驟S104:利用管理控制模組14接收對應錯誤類型資訊1311,藉以顯示出對應錯誤類型資訊1311。
其中,各步驟其他的詳細說明皆已在上述數個段落中提及,故不多加贅述。
綜上所述,在採用本發明所提供之錯誤類型判斷系統及其方法後,由於預先將錯誤類型比對表建立於基本輸入輸出系統,因此在伺服器運作過程中發生錯誤時,基本輸入輸出系統即可立即識別出是何種錯誤類型,可直接傳送至邏輯處理模組而觸發邏輯處理模組儲存並傳送至管理控制模組,使得現場人員即可獲知發生錯誤時的錯誤類型,從而可快速發現發生錯誤的來源,因而可有效降低其他人員的不方便,並可有效提升在發生錯誤時的處理效率。
藉由以上較佳具體實施例之詳述,係希望能更加清楚描述本發明之特徵與精神,而並非以上述所揭露的較佳具體實施例來對本發明之範疇加以限制。相反地,其目的是希望能涵蓋各種改變及具相等性的安排於本發明所欲申請之專利範圍的範疇內。
1:錯誤類型判斷系統
11:伺服運作單元
12:基本輸入輸出系統
121:第一儲存單元
1211:錯誤類型比對表
122:第一處理單元
13:邏輯處理模組
131:第二儲存單元
1311:對應錯誤類型資訊
132:第二處理單元
14:管理控制模組
S1:錯誤發生信號
S2:錯誤類型信號
S3:錯誤告知信號
S4:錯誤類型檢查指令
S101-S104:步驟
第一圖係顯示本發明較佳實施例所提供之錯誤類型判斷系統之方塊圖;以及
第二圖係顯示本發明較佳實施例所提供之錯誤類型判斷方法之流程圖。
1:錯誤類型判斷系統
11:伺服運作單元
12:基本輸入輸出系統
121:第一儲存單元
1211:錯誤類型比對表
122:第一處理單元
13:邏輯處理模組
131:第二儲存單元
1311:對應錯誤類型資訊
132:第二處理單元
14:管理控制模組
S1:錯誤發生信號
S2:錯誤類型信號
S3:錯誤告知信號
S4:錯誤類型檢查指令
Claims (9)
- 一種錯誤類型判斷系統,係包含: 一伺服運作單元,係用以在執行一執行程式並發生一第一錯誤資訊時,發送出一包含該第一錯誤資訊之錯誤發生信號; 一基本輸入輸出系統(Basic Input/Output System, BIOS),係包含: 一第一儲存單元,係儲存有一包含有複數個第二錯誤資訊與複數個分別對應於各第二錯誤資訊之錯誤類型資訊之對應關係之錯誤類型比對表;以及 一第一處理單元,電性連接於該第一儲存單元,通信連接於該伺服運作單元,用以在接收到該錯誤發生信號時,依據該錯誤類型比對表找出該第一錯誤資訊所對應之該些第二錯誤資訊中之一者,再依據該錯誤類型比對表與上述所對應之該些第二錯誤資訊中之一者找出所對應之該些錯誤類型資訊中之一者,並將上述所對應之該些錯誤類型資訊中之一者定義為一對應錯誤類型資訊,藉以透過一資訊傳輸協議傳送出一包含有該對應錯誤類型資訊之錯誤類型信號; 一邏輯處理模組,係包含: 一第二儲存單元;以及 一第二處理單元,係電性連接於該第二儲存單元,通信連接於該第一處理單元,用以在接收到該錯誤類型信號時,解析出該對應錯誤類型資訊,將該對應錯誤類型資訊儲存於該第二儲存單元,並用以傳送出該對應錯誤類型資訊;以及 一管理控制模組,係通信連接於該第二處理單元,用以接收該對應錯誤類型資訊。
- 如請求項1所述之錯誤類型判斷系統,其中,該管理控制模組係更用以將一錯誤類型檢查指令傳送至該第二處理單元,藉以觸發該第二處理單元將該對應錯誤類型資訊傳送至該管理控制模組。
- 如請求項1所述之錯誤類型判斷系統,其中,該邏輯處理模組為一複雜可程式邏輯裝置(Complex Programmable Logic Device, CPLD)。
- 如請求項1所述之錯誤類型判斷系統,其中,該管理控制模組為一基板管理控制器(Baseboard Management Controller, BMC)。
- 如請求項1所述之錯誤類型判斷系統,其中,該資訊傳輸協議為一串列通用型輸入輸出(Serial General Purpose Input/Output, SGPIO)協議。
- 一種錯誤類型判斷方法,係利用如請求項1所述之錯誤類型判斷系統加以實施,並包含以下步驟: (a) 利用該基本輸入輸出系統之該第一處理單元判斷是否接收到該伺服運作單元執行該執行程式並發生該第一錯誤資訊時所發送出之包含該第一錯誤資訊之該錯誤發生信號; (b) 在該步驟(a)之判斷結果為是時,利用該基本輸入輸出系統之該第一處理單元依據該錯誤類型比對表找出該第一錯誤資訊所對應之該些第二錯誤資訊中之一者,再依據該錯誤類型比對表與上述所對應之該些第二錯誤資訊中之一者找出所對應之該些錯誤類型資訊中之一者,並將上述所對應之該些錯誤類型資訊中之一者定義為該對應錯誤類型資訊,藉以透過該資訊傳輸協議傳送出包含有該對應錯誤類型資訊之該錯誤類型信號; (c) 利用該邏輯處理模組之該第二處理單元接收該錯誤類型信號,解析出該對應錯誤類型資訊,將該對應錯誤類型資訊儲存於該第二儲存單元,並傳送出該對應錯誤類型資訊;以及 (d) 利用該管理控制模組接收該對應錯誤類型資訊,藉以顯示出該對應錯誤類型資訊; 其中,在該步驟(a)之判斷結果為否時,係重複執行該步驟(a)。
- 如請求項6所述之錯誤類型判斷方法,其中,該邏輯處理模組為一複雜可程式邏輯裝置(Complex Programmable Logic Device, CPLD)。
- 如請求項6所述之錯誤類型判斷方法,其中,該管理控制模組為一基板管理控制器(Baseboard Management Controller, BMC)。
- 如請求項6所述之錯誤類型判斷方法,其中,該資訊傳輸協議為一串列通用型輸入輸出(Serial General Purpose Input/Output, SGPIO)協議。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109137256A TWI767378B (zh) | 2020-10-27 | 2020-10-27 | 錯誤類型判斷系統及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109137256A TWI767378B (zh) | 2020-10-27 | 2020-10-27 | 錯誤類型判斷系統及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202217567A true TW202217567A (zh) | 2022-05-01 |
TWI767378B TWI767378B (zh) | 2022-06-11 |
Family
ID=82558788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109137256A TWI767378B (zh) | 2020-10-27 | 2020-10-27 | 錯誤類型判斷系統及其方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI767378B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201423390A (zh) * | 2012-12-06 | 2014-06-16 | Inventec Corp | 電腦系統及其操作方法 |
CN107357694A (zh) * | 2016-05-10 | 2017-11-17 | 佛山市顺德区顺达电脑厂有限公司 | 开机自检过程中错误事件汇报系统及其方法 |
CN107729220B (zh) * | 2017-09-27 | 2019-06-18 | 郑州云海信息技术有限公司 | 一种实现多NVMe硬盘背板点灯的设计方法 |
CN109947612A (zh) * | 2019-03-26 | 2019-06-28 | 苏州浪潮智能科技有限公司 | 一种通过设定BMC SDR读取BIOS POST code的方法及装置 |
-
2020
- 2020-10-27 TW TW109137256A patent/TWI767378B/zh active
Also Published As
Publication number | Publication date |
---|---|
TWI767378B (zh) | 2022-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI229796B (en) | Method and system to implement a system event log for system manageability | |
US9436548B2 (en) | ECC bypass using low latency CE correction with retry select signal | |
CN100440157C (zh) | 用于将可恢复的错误记入日志的系统和方法 | |
WO2022228499A1 (zh) | 一种PCIe故障自修复方法、装置、设备及可读存储介质 | |
US7774638B1 (en) | Uncorrectable data error containment systems and methods | |
US11687395B2 (en) | Detecting and recovering from fatal storage errors | |
US11853150B2 (en) | Method and device for detecting memory downgrade error | |
WO2024082844A1 (zh) | 一种内存条故障检测装置及检测方法 | |
CN116049249A (zh) | 报错信息处理方法、装置、系统、设备和存储介质 | |
TWI767378B (zh) | 錯誤類型判斷系統及其方法 | |
CN115509786A (zh) | 一种报告故障的方法、装置、设备及介质 | |
CN114003416B (zh) | 内存错误动态处理方法、系统、终端及存储介质 | |
US11762033B2 (en) | Power failure monitoring device and power failure monitoring method | |
US8108736B2 (en) | Multi-partition computer system, failure handling method and program therefor | |
US9106258B2 (en) | Early data tag to allow data CRC bypass via a speculative memory data return protocol | |
CN105912414A (zh) | 一种服务器管理的方法及系统 | |
WO2024139423A1 (zh) | 故障检测方法及计算机设备 | |
US8726102B2 (en) | System and method for handling system failure | |
CN112256467B (zh) | 错误类型判断系统及其方法 | |
WO2024124862A1 (zh) | 基于服务器的内存处理方法和装置、处理器及电子设备 | |
US10846162B2 (en) | Secure forking of error telemetry data to independent processing units | |
TWI738627B (zh) | 具有錯誤偵測功能的智能網卡系統及錯誤偵測方法 | |
JPWO2007096987A1 (ja) | エラー制御装置 | |
CN114661511B (zh) | 一种设备报错处理方法、装置、设备及存储介质 | |
CN114518972B (zh) | 内存错误处理方法、装置、内存控制器及处理器 |