TWI766590B

TWI766590B - 伺服器及相關的控制方法

Info

Publication number: TWI766590B
Application number: TW110106534A
Authority: TW
Inventors: 甘禮昇
Original assignee: 慧榮科技股份有限公司
Priority date: 2020-03-02
Filing date: 2021-02-24
Publication date: 2022-06-01
Also published as: TW202134901A; CN113345495A; US20220083438A1; US11809293B2; US11216348B2; US20210271478A1

Abstract

本發明提供一種伺服器的控制方法，其中該控制方法包含以下步驟：週期性地控制第一節點的第一暫存器和第二暫存器分別具有第一數值和第二數值；週期性地控制第二節點的第三暫存器和第四暫存器分別具有第三數值和第四數值；控制第一暫存器與第四暫存器彼此同步，其中第一數值與第四數值不同；控制第二暫存器和第三暫存器彼此同步，其中第二數值不同於第三數值；以及週期性地檢查第三暫存器是否具有第三數值以及第四暫存器是否具有第四數值，以判斷第一節點是否工作失敗。

Description

伺服器及相關的控制方法

本發明係關於記憶體控制，尤指一種用以進行全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器的資料存取管理的方法以及相關設備(apparatus)諸如AFA伺服器及其控制電路等。

資料儲存伺服器可以被設置為儲存一個或多個用戶的用戶資料，並且在現有技術中已經提出了針對資料儲存伺服器的各種控制方法，以便給用戶帶來良好的用戶體驗。由於非揮發性(Non-Volatile,NV)記憶體諸如快閃記憶體已經被廣泛應用於各種資料儲存裝置諸如固態硬碟(solid state drive,SSD)等，現有技術中提出將資料儲存伺服器用NV記憶體作為其儲存介質的非揮發性(NV)記憶體類型資料儲存伺服器來實現，例如其中安裝有多個SSD的AFA伺服器。但是，可能會出現某些問題。例如，存取該多個SSD中的任一SSD的快閃記憶體的管理會很複雜。為了確保這個SSD中的快閃記憶體的存取控制符合相關規範，這個SSD中的快閃記憶體的控制器通常配備有某些管理機制以妥善地管理其內部操作。雖然SSD製造商可能試著使SSD看起來像是替代硬式磁碟機(HDD)的不錯的解決方案，但是SSD的某些特性與HDD完全不同。如此一來，上述控制方法對於安裝有多個SSD的AFA伺服器可能變得不適合或無效，進而導致AFA伺服器的整體效能下降。因此，需要以在沒有副作用或較不會帶來副作用的情況下提供一種新穎的方法和相關的架構來解決這些問題。

因此，本發明的目的之一在於提出一種伺服器的控制方法，以解決上述的問題。

在本發明的一實施例中，揭露了一伺服器，其包含有一固態硬碟、一第一節點與一第二節點。該第一節點包含有一第一記憶體、一第一處理器及一第一通信電路，其中該第一記憶體包含了一第一暫存器及一第二暫存器；該第一處理器用來控制該第一暫存器與該第二暫存器分別具有一第一數值與一第二數值；以及該第一通信電路耦接於該第一處理器與該第一記憶體。該第二節點包含有一第二記憶體、一第二記憶體以及一第二通信電路，其中該第二記憶體包含了一第三暫存器及一第四暫存器；該第二記憶體用來控制該第三暫存器與該第四暫存器分別具有一第三數值與一第四數值；以及該第二通信電路耦接於該第二處理器、該第二記憶體與該第一通信電路。在伺服器的操作中，該第一暫存器與該第四暫存器彼此同步，該第二暫存器與該第三暫存器彼此同步，由該第一處理器控制的該第一數值不同於由該第二處理器控制的該第四數值，以及由該第一處理器控制的該第二數值不同於由該第二處理器控制的該第三數值；以及該第二處理器週期性地檢查該第三暫存器是否具有該第三數值，該第四暫存器是否具有該第四數值，以判斷該第一節點是否無法工作。

在本發明的另一實施例中，揭露了一種伺服器的控制方法，其包含有以下步驟：設定該伺服器的一第一節點作為一主裝置；週期性地控制該第一節點的一第一暫存器與一第二暫存器分別具有一第一數值與一第二數值；設定該伺服器的一第二節點作為一從裝置；週期性地控制該第二節點的一第三暫存器與一第四暫存器分別具有一第三數值與一第四數值；控制該第一暫存器與該第四暫存器彼此同步，其中由該第一節點控制的該第一數值與由該第二節點控制的該第四數值不同；控制該第二暫存器與該第三暫存器彼此同步，其中由該第一節點控制的該第二數值與由該第二節點控制的該第三數值不同；以及週期性地檢查該第三暫存器是否具有該第三數值以及該第四暫存器是否具有該第四數值，以判斷該第一節點是否無法工作。

10A,10B:機架頂(TOR)交換機

12A,12B:固態硬碟(SSD)群組

100:全快閃記憶體陣列(AFA)伺服器

100A,100B:節點

110A,110B:處理器

112A,112B:程式模組

120A,120B:動態隨機存取記憶體(DRAM)

122A,122B:複製到快閃記憶體(C2F)固態硬碟(SSD)

130A,130B:網路介面(IF)模組

132A,132B,134A,134B:網路介面(IF)電路

140A,140B:非透明網橋(NTB)通信電路

150A,150B:主機板管理控制器(BMC)

152A,152B:暫存器電路

160A,160B:儲存介面(IF)模組

162A,162B,164A,164B:儲存介面(IF)電路

170A,170B:備用電源單元

500~514:步驟

610A,610B:表

710_1,710_2,720_1,720_2:暫存器

V1_A,V2_A,V1_B,V2_B:數值

t1,t2,t3,t4,t5:時間

第1圖是依據本發明一實施例的一全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器的示意圖。

第2圖是依據本發明一實施例中如第1圖所示的該AFA伺服器的某些實施細節的示意圖。

第3圖是依據本發明一實施例所繪示的如第1圖所示的該AFA伺服器的一雙節點架構的示意圖。

第4圖是依據本發明一實施例所繪示的如第1圖所示的多個節點的任一節點中的某些程式模組的示意圖。

第5圖為根據本發明一實施例之AFA伺服器的寫入控制方法的示意圖。

第6圖為根據本發明一實施例之快取同步鏡像操作的示意圖。

第7圖為本發明一個實施例之故障檢測機制的示意圖。

第8圖為本發明一實施例之當節點100A和節點100B都正常工作時數值V1_A、V2_A、V1_B與V2_B的變化示意圖。

第9圖為本發明一實施例之當節點100A無法正常工作時數值V1_A、V2_A、 V1_B與V2_B的變化示意圖。

第1圖是依據本發明一實施例的一全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器100的示意圖。AFA伺服器100可以包含多個節點，諸如二節點，分別為節點100A和節點100B，其中該多個節點中的任一個(例如節點100A和節點100B的其中一個)可以具有與該多個節點中的另一個(例如節點100A和節點100B中的另一個)相同或相似的架構。例如，節點100A可包含可以被統稱為處理器110A的至少一處理器(例如，一個或多個處理器諸如一個或多個中央處理單元(Central Processing Units.CPU))，並包含一動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)120A、一複製到快閃記憶體(Copy-to-Flash，簡稱C2F)固態硬碟(Solid State Drive，簡稱SSD)122A、包含有一個或多個網路介面(interface,IF)電路諸如網路介面電路132A和134A(分別標示為「網路IF CKT」以求簡明)的一網路介面(IF)模組130A、一非透明網橋(Non-Transparent Bridge，簡稱NTB)模組(或NTB)諸如一NTB通信電路140A(標示為「NTB CKT」以求簡明)、一主機板管理控制器(Board Management Controller，簡稱BMC)150A、一暫存器(register)電路152A(標示為「REG CKT」以求簡明)其耦接至BMC 150A、一儲存介面(IF)模組160A其包含一個或多個儲存介面電路諸如儲存介面電路162A和164A(分別標示為「儲存IF CKT」以求簡明)以及一備用電源諸如一備用電源單元170A(例如，電池)，其中這些組件的至少一部分(例如，一部分或全部)可以藉由節點100A的總線彼此耦接，但本發明不限於此。依據某些實施例，節點100A的架構可以作不同變化。

相似地，節點100B可包含可以統稱為處理器110B的至少一處理器 (例如，一個或多個處理器諸如一個或多個CPU)，並包含一DRAM 120B、一C2F SSD 122B、包含有一個或多個網路介面(IF)電路諸如網路介面電路132B和134B(分別標示為「Network IF CKT」以求簡明)的一網路介面(IF)模組130B、一NTB模組(或NTB)諸如一NTB通信電路140B標示為「NTB CKT」以求簡明)、一BMC 150B、一暫存器電路152B(標示為「Register CKT」以求簡明)其耦接至BMC 150B、一儲存介面(IF)模組160B其包含一個或多個儲存介面電路諸如儲存介面電路162B和164B(分別標示為「Storage IF CKT」以求簡明)以及一備用電源諸如一備用電源單元170B(例如，電池)，其中這些組件的至少一部分(例如，一部分或全部)可以藉由節點100B的總線彼此耦接，但本發明不限於此。依據某些實施例，節點100B的架構可以作不同變化。

如第1圖所示，AFA伺服器100可以更包含耦接到節點100A和100B的多個SSD，諸如一SSD群組12A和一SSD群組12B，SSD群組12A和12B可以耦接到節點100A和100B，且可以預設分別連接/連線(link)到節點100A和100B，其中節點100A和100B與SSD群組12B和12A之間的虛線可指出多個可選的(optional)連線。舉例來說，節點100A可以利用儲存介面模組160A以啟動儲存介面電路164A和SSD群組12A之間的連線，以存取SSD群組12A中的資料，且節點100B可以利用儲存介面模組160B啟動儲存介面電路164B和SSD群組12B之間的連線，以進一步存取SSD群組12B中的資料。當需要時，節點100A和100B與SSD群組12A和12B之間的連線關係可以改變。例如節點100A可以利用儲存介面模組160A來啟動儲存介面電路162A和SSD群組12B之間的連線，以存取SSD群組12B中的資料，且節點100B可以利用儲存介面模組160B來啟動儲存介面電路162B和SSD群組12A之間的連線，以存取SSD群組12A中的資料。

運行著程式模組112A的處理器110A可用以控制節點100A的操作。DRAM 120A可用以緩衝資料(例如待寫入SSD群組12A的資料)，並且C2F SSD 122A可用以將DRAM 120A中的緩衝後資料(簡稱“緩衝資料”)複製到C2F SSD 122A中的快閃記憶體中，以在需要時防止緩衝資料的資料遺失(data loss)。舉例來說，C2F SSD 122A可以藉由安裝在節點100A內的主電路板(例如主機板或母板)上的一擴充卡諸如一M.2模組(例如具有符合M.2規範的連接器的電路板)來實現，其中C2F SSD 122A可以包含一儲存控制器、一個或多個快閃記憶體晶片等，但本發明不限於此。另外，包含有網路介面電路132A和134A的網路介面模組130A可用以將節點100A(例如該主電路板上的處理器110A、DRAM 120A等)藉由至少一網路交換機諸如機架頂(top-of-rack，可簡稱TOR)交換機10A和10B耦接到至少一網路(例如區域網路(Local Area Network,LAN)、廣域網路(Wide Area Network,WAN)、網際網路(Internet)等)。另外，包含儲存介面電路162A和164A的儲存介面模組160A可用以將節點100A(例如該主電路板上的處理器110A、DRAM 120A等)耦接到多個快閃儲存裝置(例如節點100A和100B共享的SSD群組12A和12B)，用以存取(例如讀取或寫入)該多個快閃儲存裝置中的資料。如此一來，AFA伺服器100可用以藉由節點100A提供用戶儲存服務。

相似地，運行著程式模組112B的處理器110B可用以控制節點100B的操作。DRAM 120B可用以緩衝資料(例如待寫入SSD群組12B的資料)，並且C2F SSD 122B可用以將DRAM 120B中的緩衝後資料(簡稱“緩衝資料”)複製到C2F SSD 122B中的快閃記憶體中，以在需要時防止緩衝資料的資料遺失。舉例來說，C2F SSD 122B可以藉由安裝在節點100B內的主電路板(例如主機板或母板)上的一擴充卡諸如一M.2模組(例如具有符合M.2規範的連接器的電路板)來實現，其中C2F SSD 122B可以包含一儲存控制器、一個或多個快閃記憶體晶片等，但本發明不限於此。另外，包含有網路電路132B和134B的網路介面模組130B可用以將節點100B(例如該主電路板上的處理器110B、DRAM 120B等)藉由至少一網路交換機諸如TOR交換機10A和10B耦接到至少一網路(例如LAN、WAN、網際網路等)。另外，包含儲存介面電路162B和164B的儲存介面模組160B可用以將節點100B(例如該主電路板上的處理器110B、DRAM 120B等)耦接到多個快閃儲存裝置(例如節點100A和100B共享的SSD群組12A和12B)，用以存取(例如讀取或寫入)該多個快閃儲存裝置中的資料。如此一來，AFA伺服器100可用以藉由節點100B提供用戶儲存服務。

關於節點100A及其對等(peer)節點(例如節點100B)之間的通信，該NTB模組(例如NTB通信電路140A)可用以藉由在節點100A和100B之間的一NTB路徑(標示為「NTB」以求簡明)與對應的NTB模組(例如NTB通信電路140B)通信，使節點100A和100B的資料和儲存狀態同步，並進一步使它們相同。相似地，關於節點100B及其對等節點(例如節點100A)之間的通信，該NTB模組(例如NTB通信電路140B)可用以藉由在節點100A和100B之間的該NTB路徑(標示為「NTB」以求簡明)與對應的NTB模組(例如NTB通信電路140A)通信，使節點100A和100B的資料和儲存狀態同步，並進一步使它們相同。尤其，諸如NTB通信電路140A和140B的NTB模組可以提供節點100A和100B之間一傳輸橋的功能以及分離節點100A和100B的各自的位址域以使節點100A和100B分別有彼此獨立的位址域，以在沒有任何位址衝突的情況下提供/加強節點100A和100B之間的通信。例如，節點100A和100B的各個總線可以符合快捷外設組件互聯(Peripheral Component Interconnect Express,PCIe)標準，並且節點100A和100B中的每一節點的NTB模組可以被認為是該節點的一端點(endpoint)，其中節點100A和100B可以透過該傳輸橋彼此通信和共享裝置，但本發明不限於此。依據某些實施例，諸如NTB通信電路140A和140B的NTB模組可以透過客制化的網路介面電路來實現，以控制節點100A和100B彼此通信，使得它們就像正在透過網路介面電路進行通信一樣。

在運行著程式模組112A的處理器110A和運行著程式模組112B的處理器110B的控制下，節點100A和100B可維持和監視NTB上的脈搏，以確定對等節點的可用性，以進行高可用性(High Availability,HA)控制。舉例來說，節點100B可用以向節點100A發送脈搏信號，且節點100A可用以檢測並監視來自節點100B的脈搏信號以確定節點100B的可用性，其中來自節點100B的脈搏信號是否存在可以指出節點100B是否可用(或健康程度)。對於另一個例子來說，節點100A可用以向節點100B發送脈搏信號，並且節點100B可用以檢測並監視來自節點100A的脈搏信號以確定節點100A的可用性，其中來自節點100A的脈搏信號是否存在可以指出節點100A是否可用(或健康程度)。依據第1圖所示的架構，如第1圖所示，當節點100A和100B其中一個不可使用時，節點100A和100B其中的另一個可以繼續為用戶提供AFA伺服器100的儲存服務。

需注意的是，AFA伺服器100配備了超過一個的節點間(inter-node)通信路徑(例如節點之間的超過一個的相互通信路徑)。除NTB路徑外，AFA伺服器100還可配置為具有一個或多個其他通信路徑，例如BMC 150A和150B之間的一BMC路徑，其中BMC 150A可用以管理節點100A的硬體層的至少一部分(例如一部分或全部)，而BMC 150B可用以管理節點100B的硬體層的至少一部分(例如一部分或全部)。關於節點100A及其對等節點(例如節點100B)之間的通信，BMC 150A可用以透過該BMC路徑與BMC 150B通信以存取(例如讀取或寫入)暫存器電路152B中的一個或多個暫存器的一個或多個暫存器值，以在節點100B上進行狀態檢查操作等。相似地，關於節點100B及其對等節點(例如節點100A)之間的通信，BMC 150B可用以透過該BMC路徑與BMC 150A通信以存取(例如讀取或寫入)暫存器電路152A中一個或多個暫存器的一個或多個暫存器值，以在節點100A上進行狀態檢查操作等。尤其，BMC 150A與BMC 150B可獨立地管理節點100A與100B的各自的硬體層，而不需要仰賴處理器110A與110B。舉例來說，當處理器110A發生故障時，BMC 150A可以處理節點100A的未完成的工作，而當處理器110B發生故障時，BMC 150B可以處理節點100B的未完成的工作，但本發明不限於此。依據某些實施例，BMC 150A和150B可用以分別接管(take over)節點100A和100B，以進行緊急處理操作來減少資料遺失的機率。

依據本實施例，AFA伺服器100可以被配置為由多種類型的電源供電。節點100A和100B的每一節點可以包括至少一主電源(例如至少一電源供應器)，用以於主電源處於正常電源狀況下提供電力給該節點的其他組件。舉例來說，節點100A的主電源可以供電給節點100A的主電路板，並且節點100B的主電源可以供電給節點100B的主電路板。當檢測到一個或多個節點(例如節點100A及/或節點100B)的異常電源狀況時，AFA伺服器100中的一個或多個相關的備用電源(例如備用電源單元170A及/或備用電源單元170B)可用以提供備用電力。舉例來說，當節點100A的主電源發生電源故障時，備用電源單元170A可以供電給節點100A的主電路板(例如處理器110A、DRAM 120A、C2F SSD 122A、NTB通信電路140A、BMC 150A、暫存器電路152A等)，當節點100B的主電源發生電源故障時，備用電源單元170B可以供電給節點100B的主電路板(例如處理器110B、DRAM 120B、C2F SSD 122B、NTB通信電路140B、BMC 150B、暫存器電路152B等)。

依據某些實施例，節點100A和100B的每一節點(例如節點100A和100B的各自的主電路板中的每一節點)可以更包含多個感測器(sensor)/檢測器(detector)用以至少對該節點的組件進行檢測以產生檢測結果(例如從這些傳感器/檢測器中的任一個所獲得的狀態信息)。舉例來說，這些檢測結果中的一功率檢測結果可以表示該節點的主電源的功率狀態，尤其，可以指出該節點是否發生異常電源狀況，以供觸發該節點啟動備用電源(例如備用電源單元170A或備用電源單元170B)以提供備用電力。

第2圖依據本發明一實施例繪示第1圖所示的AFA伺服器100的某些實施細節，其中，可以將SSD 100S作為第1圖所示實施例中提到的多個SSD的例子。除了節點100A和100B以及SSD 100S，AFA伺服器100可更包含一背板(backplane)電路100R。背板電路100R可用以將諸如SSD群組12A和12B的SSD 100S電氣連接到節點100A和100B。舉例來說，背板電路100R可以藉由具有相關連接器等的背板電路板來實現。另外，可以在背板電路100R內實現NTB通信電路140A和140B之間的該NTB路徑的局部(partial)路徑，以及BMC 150A和150B之間的該BMC路徑的局部路徑。由於該BMC路徑和該NTB路徑中的每一路徑都不通過可能易於損壞的任何電纜，所以節點100A和100B之間的通信路徑很穩健，且因此節點100A和100B可以保持有效的通信以及相關的控制，以確保AFA伺服器100的整體效能及正常運行。

依據某些實施例，SSD 100S中的每一SSD可以是一單埠(single port)SSD，尤其，可以是一單埠的基於裝置的(device-based)SSD。另外，藉助於背板電路100R，AFA伺服器100可以支援SSD 100S中的每一SSD的熱插拔。

依據某些實施例，兩個節點100A和100B中的一個可以在AFA伺服器100的高可用性(High Availability簡稱HA)架構中用來作為一現用節點(active node)，也就是扮演該現用節點的角色，並且兩個節點100A和100B中的另一個可在AFA伺服器100的該HA架構中用來作為一待命節點(standby node)，也就是扮演該待命節點的角色。諸如現用節點和待命節點的兩個節點100A和100B可以彼此互動，尤其，可以藉由至少兩條通信路徑(諸如NTB通信電路140A和140B之間的NTB路徑以及BMC 150A和150B之間的BMC路徑)來交換節點信息，並且可以藉由NTB路徑來同步資料，但本發明不限於此。依據某些實施例，AFA伺服器100可以配備有超過兩個的節點間(inter-node)通信路徑(例如節點之間的超過兩個的相互通信路徑)。

第3圖是依據本發明一實施例所繪示的如第1圖所示的AFA伺服器100的一雙節點架構的示意圖。依據本實施例，節點100A和100B可以被分別配置為該現用節點和該待命節點，但本發明不限於此。舉例來說，節點100A和100B可以在需要時交換它們所扮演的角色。如第3圖所示，除了某些硬體(hardware,HW)組件諸如第1圖或第2圖所示的架構中的部分組件外，還可繪示某些軟體(software,SW)程式/程序，例如HA框架程式、網絡(Web)伺服器程式、資料庫(database)程式、操作於一服務模式的儲存控制模組程式以及操作於一待機模式的儲存控制模組程式(分別標示為「HA框架」、「Web伺服器」、「資料庫」、「於服務模式下的儲存控制模組」以及「於待機模式下的儲存控制模組」以求簡明)以指出AFA伺服器100中的關聯互動，其中，上述程式的名稱分別代表其相關功能。

運行於節點100A上的軟體程式(例如，HA框架程式，Web伺服器程式，資料庫程式和操作於該服務模式的儲存控制模組程式)可作為程式模組112A 的例子，並且運行於節點100B上的軟體程式(例如，HA框架程式，Web伺服器程式，資料庫程式和操作於該待機模式的儲存控制模組程式)可作為程式模組112B的例子，但本發明不限於此。另外，網路介面模組130A的該一個或多個網路介面電路可更包含網路介面電路136A，並且網路介面模組130B的該一個或多個網路介面電路可更包含網路介面電路136B。因此，AFA伺服器100可以配備有至少三個節點間(inter-node)通信路徑(例如節點之間的至少三個相互通信路徑)，諸如NTB路徑、BMC路徑以及網路介面電路136A和136B之間的網路路徑。舉例來說，節點100A和100B可用以藉由NTB路徑進行快取鏡像(cache mirroring)操作，並透過BMC路徑檢查本地/遠端控制器狀態，以及藉由網路介面電路136A和136B之間的網路路徑進行額外的通信操作。

第4圖是依據本發明一實施例所繪示的如第1圖所示的多個節點100A與100B的任一(例如每一)節點中的程式模組112的示意圖。例如，程式模組112可以代表運行在節點100A的處理器110A上的程式模組112A或運行在節點100B的處理器110B上的程式模組112B。如第4圖所示，程式模組112可以包含某些主程式模組，例如儲存協定及區塊輸入/輸出(IO)介面模組、儲存快取模組、儲存池模組、儲存服務連續HA模組、儲存功能模組以及儲存管理模組(分別標示為「儲存協定及區塊IO介面」、「儲存快取」、「儲存池」、「儲存服務連續HA」、「儲存功能」以及「儲存管理」以求簡明)，其中這些主程式模組中的任一程式模組可以包括一個或多個子模組。另外，程式模組112中的某些程式模組之間的箭頭指出這些程式模組可以彼此在各自所屬的多個層的程式模組之間互動。舉例來說，儲存協定及區塊IO介面模組可以被視為儲存快取模組上方的一上層(例如一上層程式模組)，儲存池模組可以被視為儲存快取模組下方一下層(例如一下層程式模組)，儲存功能模組和儲存快取模組可被安排在一中間層以作為中間層程式模組，其中儲存協定及區塊IO介面模組以及儲存池模組可用以與客戶端裝置和SSD群組互動，但本發明不限於此。當需要時，該節點可以觸發其他程式模組與這些程式模組中的一個或多個進行互動。

儲存協定及區塊IO介面模組可以包含某些子模組諸如小型計算機系統介面(Small Computer System Interface，簡稱SCSI)模組、網際網路SCSI(Internet SCSI，簡稱iSCSI)模組和區塊裝置(Block Device)模組(分別標示為「SCSI」、「iSCSI」和「區塊裝置」以求簡明)。儲存快取模組可以包含某些子模組諸如使用軟體實現的永久記憶體(Persistent Memory using SW implementation)模組和寫入緩衝模組(Write Buffer module；也可稱為「寫入緩衝器模組」)，於圖中分別標示為「永久記憶體(軟體實現)」和「寫入緩衝」以求簡明。儲存池模組可以包含一子模組諸如快閃記憶體陣列(Flash Array)模組(為簡便起見標示為「快閃記憶體陣列」)。儲存服務連續HA模組可以包含一子模組諸如HA框架模組(標示為「HA框架」以求簡明)。儲存功能模組可以包含某些子模組諸如卷管理器(Volume Manager)模組和資料減少模組(分別標示為「卷管理器」和「資料減少」以求簡明)，其中資料減少模組可以包含某些子模組諸如壓縮引擎(Compression Engine)模組和重複資料刪除引擎(Deduplication Engine)模組，可以分別稱為「壓縮引擎」和「重複資料刪除引擎」。儲存管理模組可以包含某些子模組諸如網絡(Web)用戶界面(User Interface,UI)模組、應用程式編程介面(Application Programming Interface,API)伺服器模組、請求代理(Request Broker)模組和資料庫模組(分別標示為「網絡UI」、「API伺服器」、「請求代理」和「資料庫」以求簡明)。上列模組的名稱分別指出其相關功能。為了便於理解，對某一模組諸如卷管理器模組、壓縮引擎模組、重複資料刪除引擎模組等而言，某些實施例中所提到的諮詢(consult)該模組的操作可包含對這個模組進行呼叫、查詢等操作以從它取得對應的處理結果，但本發明不限於此。

依據某些實施例，AFA伺服器100(例如，該現用節點，諸如節點100A和100B的其中之一)可用以從AFA伺服器100外部的客戶端裝置接收請求諸如寫入請求、讀取請求等，並分別因應這些請求來操作。

第5圖為根據本發明一實施例之AFA伺服器100的寫入控制方法的示意圖。在步驟500中，AFA伺服器100上電，且AFA伺服器100能夠經由至少一個網絡(例如，LAN，WAN，網際網路等)以及TOR交換器10A和10B與其他電子裝置通信。在步驟502中，AFA伺服器100的一個節點作為主裝置(master device)，而另一節點作為從裝置(slave device)。在該實施例中，節點100A作為能夠經由TOR交換器10A和10B與其他電子裝置通信並存取SSD 100S的主裝置，而節點100B作為在節點100A正常工作時不允許存取SSD 100S的從裝置。在步驟504中，處理器110A在DRAM 120A內配置DRAM空間以供作為寫入緩衝器使用，並且處理器110A另通知節點100B的處理器110B在DRAM 120B內配置DRAM空間以供作為寫入緩衝器，其中DRAM 120A/120B內的寫入緩衝器可以具有任何合適的大小，例如16十億位元組(gigabyte，GB)或32GB。在步驟506中，節點100A從使用者裝置接收資料，亦即使用者透過網路將資料寫入至AFA伺服器100。在步驟508中，節點100A將資料寫入DRAM 120A內的DRAM空間中，並且處理器110A進一步建立如第6圖中所示的表610A。參考第6圖，其中表610A包括一獨特身分(unique ID)(即，使用者ID)、資料在使用者端的邏輯地址、資料長度以及資料在DRAM 120A中的起始位址。在步驟510中，節點100A執行快取同步鏡像(cache mirroring)機制，以透過NTB將資料和對應資訊發送至節點100B，其中，對應資訊可以是表610A的至少一部分內容，例如對應資訊可以包括使用者ID，資料在使用者端的邏輯地址和資料長度。在步驟512中，節點100B的處理器110B將資料寫入DRAM 120B內的DRAM空間，並且處理器110B進一步建立如第6圖所示的表610B。參考第6圖，其中表610B包括使用者ID、資料在使用者端的邏輯地址、資料長度以及資料在DRAM 120B中的起始位址。在資料完全寫入至DRAM 120B之後，節點100B的處理器110B向節點100A發送通知以告知快取同步鏡像操作已經完成。在步驟514中，只有在處理器110A從節點100B接收到通知之後，節點100A才透過TOR交換器10A/10B向使用者的電子裝置發送訊息，以通知資料已經成功接收，之後處理器110A才開始將儲存在DRAM 120A中的資料移動到SSD 100S中。在一實施例中，當儲存在DRAM 120中並且能夠被移動的資料的大小超過預定值時，例如超過64千為元組(kilobyte)時，處理器110A才將儲存在DRAM 120A中的資料移動到SSD 100S。

當儲存在DRAM 120A中的資料成功地被搬移至SSD 100S後，處理器110A刪除DRAM 120A中的資料，並且更新表610A以刪除資料的相關資訊。此外，處理器110A另通知節點100B資料已經儲存在SSD 100S中，以便處理器110B可以刪除DRAM 120B中的資料，並且更新表610B以刪除資料的相關資訊。

第5、6圖所示之實施例所述的快取同步鏡像機制係用於故障轉移(failover)機制以保護已經被寫入DRAM 120A中但尚未被寫入至SSD 100S的資料，亦即，一旦主裝置將接收到的資料儲存在DRAM 120A中，則主裝置立即將資料傳送至從裝置，使得主裝置和從裝置都具有該資料。因此，由於主裝置和從裝置都具有該資料，所以一旦主裝置不能正常工作，從裝置就可以立即替換主裝置以執行原本應該由主裝置執行的操作，亦即從裝置在適當的時間將儲存在DRAM 120B中的資料移動到SSD 100S。

詳細來說，假設主裝置(例如，節點100A)突然無法存取SSD 100S，例如主裝置的操作系統崩潰、主裝置內的記憶體或儲存元件損壞、下行連接埠被禁用或任何其他故障原因，則AFA伺服器100可以立即執行故障轉移機制，亦即從裝置(例如，節點100B)被設定為用來執行主裝置的操作。本發明另外提出了一種故障檢測機制，其可以有效且準確地檢測出主裝置是否無法正常工作。第7圖為本發明一個實施例之故障檢測機制的示意圖。如第7圖所示，節點100A配置兩個暫存器710_1和710_2，且節點100A的處理器110A係可控制暫存器710_1和710_2，以使得暫存器710_1具有數值V1_A且暫存器710_2具有數值V2_A。節點100B配置兩個暫存器720_1和720_2，且節點100B的處理器110B係可控制暫存器720_1和720_2，以使得暫存器720_1具有數值V1_B且暫存器720_2具有數值V2_B。在一實施例中，節點100A的暫存器710_1和節點100B的暫存器720_1由PCIe裝置分配，即暫存器710_1和暫存器720_1是PCIe基位址暫存器(Base Address Register，BAR)；此外，節點100A的暫存器710_2和節點100B的暫存器720_2由PCIe裝置分配，即暫存器710_2和暫存器720_2是PCIe基位址暫存器。

節點100A的暫存器710_1和節點100B的暫存器720_2彼此同步，但是由處理器110A控制的數值V1_A不同於由處理器110B控制的數值V2_B。另外，節點100A的暫存器710_2和節點100B的暫存器720_1彼此同步，但是由處理器110A控制的數值V2_A不同於由處理器110B控制的數值V1_B。舉例來說，假設數值V1_A和數值V2_A分別為'0'和'1'，則處理器110A可以定期檢查數值V1_A和數值V2_A是否分別等於'0'和'1'；如果數值V1_A和數值V2_A不等於'0'和'1'，則處理器110A立即改變暫存器710_1和710_2的數值，以使得數值V1_A等於'0'並且數值V2_A等於為'1'。類似地，假設數值V1_B和數值V2_B分別為'0'和'1'，則處理器 110B可以週期性地檢查數值V1_B和數值V2_B是否分別等於'0'和'1'；如果數值V1_B和數值V2_B不等於'0'和'1'，則處理器110B立即改變暫存器720_1和720_2的值，使得數值V1_B等於'0'並且數值V2_B等於為'1'。如上所述，當節點100A和節點100B兩者都工作良好時，處理器110A將會一直判斷數值V1_A和V2_A不等於預定值，因為數值V1_A和V2_A會一直被數值V2_B和V1_B同步，且處理器110A需要週期性地將數值V1_A和V2_A分別更新為'0'和'1'。因此，如果處理器110A判斷數值V1_A和V2_A始終為'0'和'1'，則代表著節點100B不更新其數值V1_B和V2_B，而此時處理器110A可以判斷節點100B無法正常工作。類似地，當節點100A和節點100B都工作良好時，處理器110B將會一直判斷數值V1_B和V2_B不等於預定值，因為數值V1_B和V2_B會一直被數值V2_A和V1_A同步，且處理器110B需要將數值V1_B和V2_B分別週期性地更新為'0'和'1'。因此，如果處理器110B判斷數值V1_B和V2_B始終為'0'和'1'，則代表著節點100A不更新其數值V1_A和V2_A，而此時處理器110B可以判斷節點100A無法正常工作。

第8圖為本發明一實施例之當節點100A和節點100B都正常工作時數值V1_A、V2_A、V1_B與V2_B的變化示意圖。在第8圖所示的實施例中，數值V1_A和V2_A的預定值分別是'0'和'1'，亦即，如果數值V1_A和V2_A不為'0'和'1'，則處理器110A會將其更新為預定值'0'和'1'；此外，數值V1_B和V2_B的預定值分別是'0'和'1'，亦即，如果數值V1_B和V2_B不為'0'和'1'，則處理器110B會將其更新為預定值'0'和'1'。如第8圖所示，在時間t1，AFA伺服器100上電，且此時數值V1_A、V2_A、V1_B和V2_B均等於'0'。在時間t2，節點100A的處理器110A檢查數值V1_A和V2_A，並將數值V1_A和V2_A分別更新為'0'和'1'；同時，節點100B的數值V1_B和V2_B分別被數值V2_A和V1_A同步，亦即數值V1_B變為'1'，且數值V2_B變為'0'。在時間t3，節點100B的處理器110B檢查數值V1_B和V2_B，並將數值V1_B和V2_B分別更新為'0'和'1'；同時，節點100A的數值V1_A和V2_A分別被數值V2_B和V1_B同步，亦即數值V1_A變為'1'，且數值V2_A變為'0'。在時間t4，節點100A的處理器110A檢查數值V1_A和V2_A，並將數值V1_A和V2_A分別更新為'0'和'1'；同時，節點100B的數值V1_B和V2_B分別被數值V2_A和V1_A同步，亦即數值V1_B變為'1'，且數值V2_B變為'0'。在時間t5，節點100B的處理器110B檢查數值V1_B和V2_B，並將數值V1_B和V2_B分別更新為'0'和'1'；同時，節點100A的數值V1_A和V2_A分別被數值V2_B和V1_B同步，亦即數值V1_A變為'1'，且數值V2_A變為'0'。如上所述，當節點100A和節點100B都工作良好時，暫存器710_1、710_2、720_1和720_2中的數值會隨著同步機制的進展而週期性地改變，而因此處理器110A/110B需要定期更新暫存器中的數值。

需注意的是，處理器110A之檢查與更新的步驟以及處理器110B之檢查與更新的步驟是以時間交錯的方式來進行，也就是說，處理器110A之檢查與更新的步驟的週期為與處理器110B之檢查與更新的步驟的週期相同。以第8圖為例來說明，時間t2與t4之間的間隔等於時間t3與t5之間的間隔(亦即，(t4-t2)=(t5-t3))。

第9圖為本發明一實施例之當節點100A無法正常工作時數值V1_A、V2_A、V1_B與V2_B的變化示意圖。在第9圖所示的實施例中，數值V1_A和V2_A的預定值分別是'0'和'1'，亦即，如果數值V1_A和V2_A不為'0'和'1'，則處理器110A會將其更新為預定值'0'和'1'；此外，數值V1_B和V2_B的預定值分別是'0'和'1'，亦即，如果數值V1_B和V2_B不為'0'和'1'，則處理器110B會將其更新為預定值'0'和'1'。如第9圖所示，在時間t1，節點100A的處理器110A檢查數值V1_A和V2_A，並將數值V1_A和V2_A分別更新為'0'和'1'；同時，節點100B的數值V1_B和V2_B 分別被數值V2_A和V1_A同步，亦即數值V1_B變為'1'，且數值V2_B變為'0'。在時間t2，節點100B的處理器110B檢查數值V1_B和V2_B，並將數值V1_B和V2_B分別更新為'0'和'1'；同時，節點100A的數值V1_A和V2_A分別被數值V2_B和V1_B同步，亦即數值V1_A變為'1'，且數值V2_A變為'0'。在時間t3，節點100A突然無法正常工作，而處理器110A因此不會更新數值V1_A和V2_A，也就是說，數值V1_A和V2_A仍分別為'1'和'0'。在時間t4，節點100B的處理器110B檢查數值V1_B和V2_B，並發現不需要更新數值V1_B和V2_B，因此處理器110B便可以判斷節點100A(主裝置)無法正常工作，並且節點100B(從裝置)可以執行故障轉移機制以執行原本應該由節點100A所執行的操作。

綜上所述，由於節點100A/100B可以僅透過檢查其自身的暫存器來判斷另一節點是否無法工作，而無需參考來自另一節點的通知，因此本實施例的故障檢測機制可以有效且準確地檢測其他節點是否無法正常工作。

在一實施例中，當執行故障轉移機制時，節點100B會由從裝置變成主裝置。因此，為了方便軟體設計，節點100A內之V1_A和V2_A的預定值會設計的與節點100B內之V1_B和V2_B的預定值相同，然而，本發明不限於此。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。