TW202134900A

TW202134900A - 伺服器及相關的控制方法

Info

Publication number: TW202134900A
Application number: TW110106587A
Authority: TW
Inventors: 陳正定
Original assignee: 慧榮科技股份有限公司
Priority date: 2020-03-02
Filing date: 2021-02-25
Publication date: 2021-09-16
Also published as: CN113342257B; TWI782429B; US11487654B2; CN113342257A; US20210271595A1

Abstract

本發明提供了一種伺服器的控制方法，其中該伺服器包含用來暫存來自一電子裝置的一寫入緩衝器，該寫入緩衝器包含了多個區段，並且該寫入緩衝器具有一寫入指標與一刷新指標。該控制方法包含了以下步驟：設置每一個區段具有多個狀態中的其一，該多個狀態包含一空白狀態、一合併狀態、一需要刷新狀態以及一刷新狀態；參考該寫入指標所指向之一特定區段的狀態，以判斷是否忽略該特定區段，並直接處理位於該特定區段之後的區段。

Description

伺服器及相關的控制方法

本發明係關於記憶體控制，尤指一種用以進行全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器的資料存取管理的方法以及相關設備(apparatus)諸如AFA伺服器及其控制電路等。

資料儲存伺服器可以被設置為儲存一個或多個用戶的用戶資料，並且在現有技術中已經提出了針對資料儲存伺服器的各種控制方法，以便給用戶帶來良好的用戶體驗。由於非揮發性(Non-Volatile, NV)記憶體諸如快閃記憶體已經被廣泛應用於各種資料儲存裝置諸如固態硬碟(solid state drive, SSD)等，現有技術中提出將資料儲存伺服器用NV記憶體作為其儲存介質的非揮發性(NV)記憶體類型資料儲存伺服器來實現，例如其中安裝有多個SSD的AFA伺服器。但是，可能會出現某些問題。例如，存取該多個SSD中的任一SSD的快閃記憶體的管理會很複雜。為了確保這個SSD中的快閃記憶體的存取控制符合相關規範，這個SSD中的快閃記憶體的控制器通常配備有某些管理機制以妥善地管理其內部操作。雖然SSD製造商可能試著使SSD看起來像是替代硬式磁碟機(HDD)的不錯的解決方案，但是SSD的某些特性與HDD完全不同。如此一來，上述控制方法對於安裝有多個SSD的AFA伺服器可能變得不適合或無效，進而導致AFA伺服器的整體效能下降。因此，需要以在沒有副作用或較不會帶來副作用的情況下提供一種新穎的方法和相關的架構來解決這些問題。

因此，本發明的目的之一在於提出一種伺服器的控制方法，以解決上述的問題。

在本發明的一實施例中，揭露了一種伺服器，其包含有一固態硬碟以及一節點，其中該節點包含了一通信模組、一處理器以及一記憶體。該記憶體包含了作為一寫入緩衝器的一環形緩衝器，其中該寫入緩衝器包含多個區段，每個區段的大小等於該電子裝置的一寫入單元；該寫入緩衝器具有用於指示最後寫入之區段的終點的一寫入指標，且該寫入緩衝器另具一刷新指標，其用來指示一區段的資料已準備好搬移至該固態硬碟；該處理器將每個區段設置為具有多個狀態中的其一，該多個狀態包含一空白狀態、一合併狀態、一需要刷新狀態以及一刷新狀態，其中針對任一區段，當該區段具有該空白狀態表示該區段中沒有儲存任何資料，當該區段具有合併狀態表示該處理器正在從該固態硬碟載入其他資料並將儲存在該區段中的資料與從該固態硬碟載入的其他資料合併，當該區段具有需要刷新狀態表示其資料已準備好被搬移至該固態硬碟，當該區段具有該刷新狀態表示該處理器正在將該區段的資料搬移至該固態硬碟；以及該處理器另外參考該寫入指標所指向之一特定區段的狀態，以判斷是否忽略該特定區段，並直接處理位於該特定區段之後的區段。

在本發明的另一實施例中，揭露了一種伺服器的控制方法，其中該伺服器包含了用來暫存來自一電子裝置的一寫入緩衝器，該寫入緩衝器包含了多個區段，每一個區段的大小相同於該電子裝置的一寫入單位；該寫入緩衝器具有用於指向最後寫入之區段的終點的一寫入指標，且該寫入緩衝器另具一刷新指標，其用來指示一區段的資料已準備好搬移至一固態硬碟；以及該控制方法包含有：設置每一個區段具有多個狀態中的其一，該多個狀態包含一空白狀態、一合併狀態、一需要刷新狀態以及一刷新狀態，其中針對任一區段，當該區段具有該空白狀態表示該區段中沒有儲存任何資料，當該區段具有合併狀態表示正在從該固態硬碟載入其他資料並將儲存在該區段中的資料與從該固態硬碟載入的其他資料合併，當該區段具有需要刷新狀態表示其資料已準備好被搬移至該固態硬碟，當該區段具有該刷新狀態表示正在將該區段的資料搬移至該固態硬碟；以及參考該寫入指標所指向之一特定區段的狀態，以判斷是否忽略該特定區段，並直接處理位於該特定區段之後的區段。

在本發明的另一實施例中，揭露了一種伺服器的控制方法，其中該伺服器包含了用來暫存來自一電子裝置的一寫入緩衝器，該寫入緩衝器包含了多個區段，每一個區段的大小相同於該電子裝置的一寫入單位；該寫入緩衝器具有用於指向最後寫入之區段的終點的一寫入指標，且該寫入緩衝器另具一刷新指標，其用來指示一區段的資料已準備好搬移至一固態硬碟；以及該控制方法包含有：自一電子裝置接收資料；判斷該寫入指標所指向的一區段是否具有一空白狀態；若是該寫入指標所指向的該區段具有該空白狀態，將該資料寫入至該區段；若是該寫入指標所指向的該區段不具有該空白狀態，判斷該寫入指標所指向的該區段是否具有一合併狀態；若是該寫入指標所指向的該區段具有該合併狀態，在該區段改變為其他狀態前都不將該資料寫入至該寫入緩衝器中；若是該寫入指標所指向的該區段不具有該合併狀態，判斷該寫入指標與該刷新指標之間是否有任何區段具有該空白狀態；以及若是該寫入指標與該刷新指標之間是否有任一區段具有該空白狀態，則將該資料寫入至該寫入指標與該刷新指標之間具有該空白狀態的區段。

第1圖是依據本發明一實施例的一全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器100的示意圖。AFA伺服器100可以包含多個節點，諸如二節點，分別為節點100A和節點100B，其中該多個節點中的任一個(例如節點100A和節點100B的其中一個)可以具有與該多個節點中的另一個(例如節點100A和節點100B中的另一個)相同或相似的架構。例如，節點100A可包含可以被統稱為處理器110A的至少一處理器（例如，一個或多個處理器諸如一個或多個中央處理單元(Central Processing Units. CPU)），並包含一動態隨機存取記憶體(Dynamic Random Access Memory, DRAM)120A、一複製到快閃記憶體(Copy-to-Flash，簡稱C2F)固態硬碟(Solid State Drive，簡稱SSD)122A、包含有一個或多個網路介面(interface, IF)電路諸如網路介面電路132A和134A (分別標示為「網路IF CKT」以求簡明) 的一網路介面(IF)模組130A、一非透明網橋(Non-Transparent Bridge，簡稱NTB)模組(或NTB)諸如一NTB通信電路140A(標示為「NTB CKT」以求簡明)、一主機板管理控制器(Board Management Controller，簡稱BMC)150A、一暫存器(register)電路152A(標示為「REG CKT」以求簡明)其耦接至BMC 150A、一儲存介面(IF)模組160A其包含一個或多個儲存介面電路諸如儲存介面電路162A和164A(分別標示為「儲存IF CKT」以求簡明)以及一備用電源諸如一備用電源單元170A(例如，電池)，其中這些組件的至少一部分(例如，一部分或全部)可以藉由節點100A的總線彼此耦接，但本發明不限於此。依據某些實施例，節點100A的架構可以作不同變化。

相似地，節點100B可包含可以統稱為處理器110B的至少一處理器（例如，一個或多個處理器諸如一個或多個CPU），並包含一DRAM 120B、一C2F SSD 122B、包含有一個或多個網路介面(IF)電路諸如網路介面電路132B和134B(分別標示為「Network IF CKT」以求簡明) 的一網路介面(IF)模組130B、一NTB模組(或NTB)諸如一NTB通信電路140B標示為「NTB CKT」以求簡明)、一BMC 150B、一暫存器電路152B(標示為「Register CKT」以求簡明)其耦接至BMC 150B、一儲存介面(IF)模組160B其包含一個或多個儲存介面電路諸如儲存介面電路162B和164B(分別標示為「Storage IF CKT」以求簡明)以及一備用電源諸如一備用電源單元170B(例如，電池)，其中這些組件的至少一部分(例如，一部分或全部)可以藉由節點100B的總線彼此耦接，但本發明不限於此。依據某些實施例，節點100B的架構可以作不同變化。

如第1圖所示，AFA伺服器100可以更包含耦接到節點100A和100B的多個SSD，諸如一SSD群組12A和一SSD群組12B，SSD群組12A和12B可以耦接到節點100A和100B，且可以預設分別連接/連線(link)到節點100A和100B，其中節點100A和100B與SSD群組12B和12A之間的虛線可指出多個可選的(optional)連線。舉例來說，節點100A可以利用儲存介面模組160A以啟動儲存介面電路164A和SSD群組12A之間的連線，以存取SSD群組12A中的資料，且節點100B可以利用儲存介面模組160B啟動儲存介面電路164B和SSD群組12B之間的連線，以進一步存取SSD群組12B中的資料。當需要時，節點100A和100B與SSD群組12A和12B之間的連線關係可以改變。例如節點100A可以利用儲存介面模組160A來啟動儲存介面電路162A和SSD群組12B之間的連線，以存取SSD群組12B中的資料，且節點100B可以利用儲存介面模組160B來啟動儲存介面電路162B和SSD群組12A之間的連線，以存取SSD群組12A中的資料。

運行著程式模組112A的處理器110A可用以控制節點100A的操作。DRAM 120A可用以緩衝資料(例如待寫入SSD群組12A的資料)，並且C2F SSD 122A可用以將DRAM 120A中的緩衝後資料(簡稱 “緩衝資料”)複製到C2F SSD 122A中的快閃記憶體中，以在需要時防止緩衝資料的資料遺失(data loss)。舉例來說，C2F SSD 122A可以藉由安裝在節點100A內的主電路板(例如主機板或母板)上的一擴充卡諸如一M.2模組(例如具有符合M.2規範的連接器的電路板) 來實現，其中C2F SSD 122A可以包含一儲存控制器、一個或多個快閃記憶體晶片等，但本發明不限於此。另外，包含有網路介面電路132A和134A的網路介面模組130A可用以將節點100A(例如該主電路板上的處理器110A、DRAM 120A等)藉由至少一網路交換機諸如機架頂(top-of-rack，可簡稱TOR)交換機10A和10B耦接到至少一網路(例如區域網路(Local Area Network, LAN)、廣域網路(Wide Area Network, WAN)、網際網路(Internet)等)。另外，包含儲存介面電路162A和164A的儲存介面模組160A可用以將節點100A(例如該主電路板上的處理器110A、DRAM 120A等)耦接到多個快閃儲存裝置(例如節點100A和100B共享的SSD群組12A和12B)，用以存取(例如讀取或寫入)該多個快閃儲存裝置中的資料。如此一來，AFA伺服器100可用以藉由節點100A提供用戶儲存服務。

相似地，運行著程式模組112B的處理器110B可用以控制節點100B的操作。DRAM 120B可用以緩衝資料(例如待寫入SSD群組12B的資料)，並且C2F SSD 122B可用以將DRAM 120B中的緩衝後資料(簡稱 “緩衝資料”)複製到C2F SSD 122B中的快閃記憶體中，以在需要時防止緩衝資料的資料遺失。舉例來說，C2F SSD 122B可以藉由安裝在節點100B內的主電路板(例如主機板或母板)上的一擴充卡諸如一M.2模組(例如具有符合M.2規範的連接器的電路板) 來實現，其中C2F SSD 122B可以包含一儲存控制器、一個或多個快閃記憶體晶片等，但本發明不限於此。另外，包含有網路電路132B和134B的網路介面模組130B可用以將節點100B(例如該主電路板上的處理器110B、DRAM 120B等)藉由至少一網路交換機諸如TOR交換機10A和10B耦接到至少一網路(例如LAN、WAN、網際網路等)。另外，包含儲存介面電路162B和164B的儲存介面模組160B可用以將節點100B(例如該主電路板上的處理器110B、DRAM 120B等)耦接到多個快閃儲存裝置(例如節點100A和100B共享的SSD群組12A和12B)，用以存取(例如讀取或寫入)該多個快閃儲存裝置中的資料。如此一來，AFA伺服器100可用以藉由節點100B提供用戶儲存服務。

關於節點100A及其對等(peer)節點(例如節點100B)之間的通信，該NTB模組(例如NTB通信電路140A)可用以藉由在節點100A和100B之間的一NTB路徑(標示為「NTB」以求簡明)與對應的NTB模組(例如NTB通信電路140B)通信，使節點100A和100B的資料和儲存狀態同步，並進一步使它們相同。相似地，關於節點100B及其對等節點(例如節點100A)之間的通信，該NTB模組(例如NTB通信電路140B)可用以藉由在節點100A和100B之間的該NTB路徑(標示為「NTB」以求簡明)與對應的NTB模組(例如NTB通信電路140A)通信，使節點100A和100B的資料和儲存狀態同步，並進一步使它們相同。尤其，諸如NTB通信電路140A和140B的NTB模組可以提供節點100A和100B之間一傳輸橋的功能以及分離節點100A和100B的各自的位址域以使節點100A和100B分別有彼此獨立的位址域，以在沒有任何位址衝突的情況下提供/加強節點100A和100B之間的通信。例如，節點100A和100B的各個總線可以符合快捷外設組件互聯(Peripheral Component Interconnect Express, PCIe)標準，並且節點100A和100B中的每一節點的NTB模組可以被認為是該節點的一端點(endpoint)，其中節點 100A和100B可以透過該傳輸橋彼此通信和共享裝置，但本發明不限於此。依據某些實施例，諸如NTB通信電路140A和140B的NTB模組可以透過客制化的網路介面電路來實現，以控制節點100A和100B彼此通信，使得它們就像正在透過網路介面電路進行通信一樣。

在運行著程式模組112A的處理器110A和運行著程式模組112B的處理器110B的控制下，節點100A和100B可維持和監視NTB上的脈搏，以確定對等節點的可用性，以進行高可用性(High Availability, HA)控制。舉例來說，節點100B可用以向節點100A發送脈搏信號，且節點100A可用以檢測並監視來自節點100B的脈搏信號以確定節點100B的可用性，其中來自節點100B的脈搏信號是否存在可以指出節點100B是否可用(或健康程度)。對於另一個例子來說，節點100A可用以向節點100B發送脈搏信號，並且節點100B可用以檢測並監視來自節點100A的脈搏信號以確定節點100A的可用性，其中來自節點100A的脈搏信號是否存在可以指出節點100A是否可用(或健康程度)。依據第1圖所示的架構，如第1圖所示，當節點100A和100B其中一個不可使用時，節點100A和100B其中的另一個可以繼續為用戶提供AFA伺服器100的儲存服務。

需注意的是，AFA伺服器100配備了超過一個的節點間(inter-node)通信路徑(例如節點之間的超過一個的相互通信路徑)。除NTB路徑外，AFA伺服器100還可配置為具有一個或多個其他通信路徑，例如BMC 150A和150B之間的一BMC路徑，其中BMC 150A可用以管理節點100A的硬體層的至少一部分(例如一部分或全部)，而BMC 150B可用以管理節點100B的硬體層的至少一部分(例如一部分或全部)。關於節點100A及其對等節點(例如節點100B)之間的通信，BMC 150A可用以透過該BMC路徑與BMC 150B通信以存取(例如讀取或寫入)暫存器電路152B中的一個或多個暫存器的一個或多個暫存器值，以在節點100B上進行狀態檢查操作等。相似地，關於節點100B及其對等節點(例如節點100A)之間的通信，BMC 150B可用以透過該BMC路徑與BMC 150A通信以存取(例如讀取或寫入)暫存器電路152A中一個或多個暫存器的一個或多個暫存器值，以在節點100A上進行狀態檢查操作等。尤其，BMC 150A與BMC 150B可獨立地管理節點100A與100B的各自的硬體層，而不需要仰賴處理器110A與110B。舉例來說，當處理器110A發生故障時，BMC 150A可以處理節點100A的未完成的工作，而當處理器110B發生故障時，BMC 150B可以處理節點100B的未完成的工作，但本發明不限於此。依據某些實施例，BMC 150A和150B可用以分別接管(take over)節點100A和100B，以進行緊急處理操作來減少資料遺失的機率。

依據本實施例，AFA伺服器100可以被配置為由多種類型的電源供電。節點100A和100B的每一節點可以包括至少一主電源(例如至少一電源供應器)，用以於主電源處於正常電源狀況下提供電力給該節點的其他組件。舉例來說，節點100A的主電源可以供電給節點100A的主電路板，並且節點100B的主電源可以供電給節點100B的主電路板。當檢測到一個或多個節點(例如節點100A及/或節點100B)的異常電源狀況時，AFA伺服器100中的一個或多個相關的備用電源(例如備用電源單元170A及/或備用電源單元170B)可用以提供備用電力。舉例來說，當節點100A的主電源發生電源故障時，備用電源單元170A可以供電給節點100A的主電路板(例如處理器110A、DRAM 120A、C2F SSD 122A、NTB通信電路140A、BMC 150A、暫存器電路152A等)，當節點100B的主電源發生電源故障時，備用電源單元170B可以供電給節點100B的主電路板(例如處理器110B、DRAM 120B、C2F SSD 122B、NTB通信電路140B、BMC 150B、暫存器電路152B等)。

依據某些實施例，節點100A和100B的每一節點(例如節點100A和100B的各自的主電路板中的每一節點)可以更包含多個感測器(sensor)/檢測器(detector)用以至少對該節點的組件進行檢測以產生檢測結果(例如從這些傳感器/檢測器中的任一個所獲得的狀態信息)。舉例來說，這些檢測結果中的一功率檢測結果可以表示該節點的主電源的功率狀態，尤其，可以指出該節點是否發生異常電源狀況，以供觸發該節點啟動備用電源(例如備用電源單元170A或備用電源單元170B)以提供備用電力。

第2圖依據本發明一實施例繪示第1圖所示的AFA伺服器100的某些實施細節，其中，可以將SSD 100S作為第1圖所示實施例中提到的多個SSD的例子。除了節點100A和100B以及SSD 100S，AFA伺服器100可更包含一背板(backplane)電路100R。背板電路100R可用以將諸如SSD群組12A和12B的SSD 100S電氣連接到節點100A和100B。舉例來說，背板電路100R可以藉由具有相關連接器等的背板電路板來實現。另外，可以在背板電路100R內實現NTB通信電路140A和140B之間的該NTB路徑的局部(partial)路徑，以及BMC 150A和150B之間的該BMC路徑的局部路徑。由於該BMC路徑和該NTB路徑中的每一路徑都不通過可能易於損壞的任何電纜，所以節點100A和100B之間的通信路徑很穩健，且因此節點100A和100B可以保持有效的通信以及相關的控制，以確保AFA伺服器100的整體效能及正常運行。

依據某些實施例，SSD 100S中的每一SSD可以是一單埠(single port) SSD，尤其，可以是一單埠的基於裝置的(device-based) SSD。另外，藉助於背板電路100R，AFA伺服器100可以支援SSD 100S中的每一SSD的熱插拔。

依據某些實施例，兩個節點100A和100B中的一個可以在AFA伺服器100的高可用性(High Availability簡稱HA)架構中用來作為一現用節點(active node)，也就是扮演該現用節點的角色，並且兩個節點100A和100B中的另一個可在AFA伺服器100的該HA架構中用來作為一待命節點(standby node)，也就是扮演該待命節點的角色。諸如現用節點和待命節點的兩個節點100A和100B可以彼此互動，尤其，可以藉由至少兩條通信路徑(諸如NTB通信電路140A和140B之間的NTB路徑以及BMC 150A和150B之間的BMC路徑)來交換節點信息，並且可以藉由NTB路徑來同步資料，但本發明不限於此。依據某些實施例，AFA伺服器100可以配備有超過兩個的節點間(inter-node)通信路徑(例如節點之間的超過兩個的相互通信路徑)。

第3圖是依據本發明一實施例所繪示的如第1圖所示的AFA伺服器100的一雙節點架構的示意圖。依據本實施例，節點100A和100B可以被分別配置為該現用節點和該待命節點，但本發明不限於此。舉例來說，節點100A和100B可以在需要時交換它們所扮演的角色。如第3圖所示，除了某些硬體(hardware, HW)組件諸如第1圖或第2圖所示的架構中的部分組件外，還可繪示某些軟體(software, SW)程式/程序，例如HA框架程式、網絡(Web)伺服器程式、資料庫(database)程式、操作於一服務模式的儲存控制模組程式以及操作於一待機模式的儲存控制模組程式(分別標示為「HA框架」、「Web伺服器」、「資料庫」、「於服務模式下的儲存控制模組」以及「於待機模式下的儲存控制模組」以求簡明)以指出AFA伺服器100中的關聯互動，其中，上述程式的名稱分別代表其相關功能。

運行於節點100A上的軟體程式(例如，HA框架程式，Web伺服器程式，資料庫程式和操作於該服務模式的儲存控制模組程式)可作為程式模組112A的例子，並且運行於節點100B上的軟體程式(例如，HA框架程式，Web伺服器程式，資料庫程式和操作於該待機模式的儲存控制模組程式)可作為程式模組112B的例子，但本發明不限於此。另外，網路介面模組130A的該一個或多個網路介面電路可更包含網路介面電路136A，並且網路介面模組130B的該一個或多個網路介面電路可更包含網路介面電路136B。因此，AFA伺服器100可以配備有至少三個節點間(inter-node)通信路徑(例如節點之間的至少三個相互通信路徑)，諸如NTB路徑、BMC路徑以及網路介面電路136A和136B之間的網路路徑。舉例來說，節點100A和100B可用以藉由NTB路徑進行快取鏡像(cache mirroring)操作，並透過BMC路徑檢查本地/遠端控制器狀態，以及藉由網路介面電路136A和136B之間的網路路徑進行額外的通信操作。

第4圖是依據本發明一實施例所繪示的如第1圖所示的多個節點100A與100B的任一(例如每一)節點中的程式模組112的示意圖。例如，程式模組112可以代表運行在節點100A的處理器110A上的程式模組112A或運行在節點100B的處理器110B上的程式模組112B。如第4圖所示，程式模組112可以包含某些主程式模組，例如儲存協定及區塊輸入/輸出(IO)介面模組、儲存快取模組、儲存池模組、儲存服務連續HA模組、儲存功能模組以及儲存管理模組(分別標示為「儲存協定及區塊IO介面」、「儲存快取」、「儲存池」、「儲存服務連續HA」、「儲存功能」以及「儲存管理」以求簡明)，其中這些主程式模組中的任一程式模組可以包括一個或多個子模組。另外，程式模組112中的某些程式模組之間的箭頭指出這些程式模組可以彼此在各自所屬的多個層的程式模組之間互動。舉例來說，儲存協定及區塊IO介面模組可以被視為儲存快取模組上方的一上層(例如一上層程式模組)，儲存池模組可以被視為儲存快取模組下方一下層(例如一下層程式模組)，儲存功能模組和儲存快取模組可被安排在一中間層以作為中間層程式模組，其中儲存協定及區塊IO介面模組以及儲存池模組可用以與客戶端裝置和 SSD群組互動，但本發明不限於此。當需要時，該節點可以觸發其他程式模組與這些程式模組中的一個或多個進行互動。

儲存協定及區塊IO介面模組可以包含某些子模組諸如小型計算機系統介面(Small Computer System Interface，簡稱SCSI)模組、網際網路SCSI（Internet SCSI，簡稱iSCSI）模組和區塊裝置(Block Device)模組(分別標示為「SCSI」、「iSCSI」和「區塊裝置」以求簡明)。儲存快取模組可以包含某些子模組諸如使用軟體實現的永久記憶體(Persistent Memory using SW implementation)模組和寫入緩衝模組（Write Buffer module；也可稱為「寫入緩衝器模組」），於圖中分別標示為「永久記憶體(軟體實現)」和「寫入緩衝」以求簡明。儲存池模組可以包含一子模組諸如快閃記憶體陣列(Flash Array)模組(為簡便起見標示為「快閃記憶體陣列」)。儲存服務連續HA模組可以包含一子模組諸如HA框架模組(標示為「HA框架」以求簡明)。儲存功能模組可以包含某些子模組諸如卷管理器(Volume Manager)模組和資料減少模組(分別標示為「卷管理器」和「資料減少」以求簡明)，其中資料減少模組可以包含某些子模組諸如壓縮引擎(Compression Engine)模組和重複資料刪除引擎(Deduplication Engine)模組，可以分別稱為「壓縮引擎」和「重複資料刪除引擎」。儲存管理模組可以包含某些子模組諸如網絡(Web)用戶界面(User Interface, UI)模組、應用程式編程介面(Application Programming Interface, API)伺服器模組、請求代理(Request Broker)模組和資料庫模組(分別標示為「網絡UI」、「API伺服器」、「請求代理」和「資料庫」以求簡明)。上列模組的名稱分別指出其相關功能。為了便於理解，對某一模組諸如卷管理器模組、壓縮引擎模組、重複資料刪除引擎模組等而言，某些實施例中所提到的諮詢(consult)該模組的操作可包含對這個模組進行呼叫、查詢等操作以從它取得對應的處理結果，但本發明不限於此。

依據某些實施例，AFA伺服器100(例如，該現用節點，諸如節點100A和100B的其中之一)可用以從AFA伺服器100外部的客戶端裝置接收請求諸如寫入請求、讀取請求等，並分別因應這些請求來操作。

對於來自AFA伺服器100外部的客戶端裝置的寫入請求，處理器110A可以在DRAM 120A內分配寫入緩衝區，其用來暫時儲存來自客戶端裝置的資料。第5圖為根據本發明一個實施例之寫入緩衝器500的示意圖。如第5圖所示，寫入緩衝器500包含N個區段(sector)，其中寫入緩衝器500為一環形緩衝器(ring buffer)，其第N個區段連接到第一區段，亦即寫入緩衝器500沒有實際上的終點。寫入緩衝器500具有寫入指標，用於指示最後寫入之區段的終點或是空白區段的起始點。具體來說，寫入緩衝器500經由TOR交換機10A / 10B以依序地儲存來自客戶端裝置的資料，而假設目前寫入指標指示第五區段的終點，則若是第六區段為空白區段，處理器110A可以將資料寫入至第六區段。在處理器110A將資料寫入至第六區段之後，寫入指標移動到第六區段的終點。需注意的是，如果寫入緩衝器內的所有區段都是空白的，則寫入指標僅用於指示空白區段的起始點(亦即，用來儲存下一筆資料的區段)；如果寫入緩衝區中的所有區段都寫入了資料，則寫入指標僅用於指示最後寫入之區段的終點。另外，寫入緩衝器500另包含了刷新(flush)指標，該刷新指標指示其區段內的資料已經準備好被搬移至SSD100S。舉例來說，如果刷新指標指示第八區段並且在第八區段中儲存了資料，則表示處理器110A可以在適當的時間將儲存在第八區段中的資料移動到SSD 100S中。在第八區段的資料移動到SSD 100S之後，刷新指標移動到第九區段。需注意，刷新指標係逐步移動(step by step)。

在本實施例中，寫入緩衝器500之每個區段的大小等於寫入單位，例如每個區段的大小可以是4 kB。另外，儲存在相同區段中的資料係對應到客戶端裝置的同一個邏輯位址，亦即，儲存在同一個區段中的資料僅會對應到一個邏輯位址。

傳統上寫入指標與刷新指標係逐步移動，而本發明之實施例提供了一種寫入機制，以改善資料寫入的效率。

在本實施例中，每個區段被分配為具有多個狀態中的其一。第6圖是根據本發明的一個實施例之狀態機的示意圖。如第6圖所示，一區段可以具有空白狀態(empty state)，分配狀態(allocation state)，部分狀態(partial state)，合併狀態(merging state)，需要刷新狀態(need-flush state)，刷新狀態(flush state)，覆寫狀態(overwritten state)和刷新結束狀態(flush-done state)。空白狀態指示該區段中沒有儲存任何資料，亦即，該區段允許儲存來自客戶端裝置的資料。分配狀態指示該區段正在儲存來自客戶端裝置的資料。部分狀態指示儲存在區段中的有效資料小於寫入單位(例如4 KB)，具體來說，假設節點100A從客戶端裝置接收到512位元的資料，則處理器110A參考寫入指標以將512位元的資料和虛擬資料(dummy data)寫入到區段中，而此時該區段便具有部分狀態。合併狀態指示儲存在區段中的資料與從SSD 100S所載入的資料進行組合，具體來說，假設節點100A從客戶端裝置接收到512位元的資料，並且區段正在從客戶端裝置儲存512位元的資料，則處理器110A檢查SSD 100S中是否有資料的邏輯位址相同於從客戶端裝置所接收的512位元資料的邏輯位址。如果SSD 100S具有邏輯位址與客戶端裝置的512位元資料的邏輯位址相同的資料，則處理器110A從SSD 100S載入此資料，並且處理器110A進一步地將所載入的資料寫入至具有上述512位元資料的區段，亦即，來自客戶端裝置的資料和從SSD 100S所載入的資料被合併並儲存在一個區段中。如果客戶端裝置的512位元資料的邏輯位址未出現在SSD 100S中，則該區段直接進入需要刷新狀態。需要刷新狀態指示可以將儲存在區段中的資料移動到SSD 100S。刷新狀態指示處理器110A正在將資料從區段搬移至SSD 100S。覆寫狀態指示在將資料寫入SSD 100S的過程中，節點100A剛從客戶端接收更新後的資料，其中更新後的資料的邏輯位址與正在寫入至SSD 100S的資料的邏輯位址相同。刷新結束狀態指示該區段的刷新操作已經完成。

透過將區段設計為具有前述狀態，處理器100A可以參考區段的狀態以決定寫入指標的移動，以使用寫入緩衝器來有效率地存取SSD 100S。

第7圖為根據本發明一實施例之刷新指標的移動示意圖。如第7圖所示，第k個區段、第(k+1)個區段、第(k+2)個區段具有需要刷新狀態，並且刷新指標位於第k個區段的起始點。接著，處理器110A將第k個區段和第(k+1)個區段的資料依序移動到SSD，並且將第k個區段和第(k+1)個區段更改為刷新狀態。需注意的是，第k個區段的資料和第(k+1)個區段的資料可以儲存到不同的SSD中，因此資料寫入的速度可以不同，故第(k+1)個區段可以比第k個區段更早進入刷新結束狀態。

第8圖為根據本發明一實施例之寫入指標的移動示意圖。如第8圖所示，第m個區段、第(m+1)個區段、第(m+2)個區段具有刷新狀態，且寫入指標位於第m個區段的起始點。接著，如果第(m+1)個區段的資料和第(m+2)個區段的資料已經完全移動到SSD 100S，且第(m+1)個區段和第(m+2)個區段已經改變為空白狀態，但是第m個區段仍然處於刷新狀態，則寫入指標可以忽略具有刷新狀態的第m個區段而直接移動到下一個區段，並且處理器110A可以準備將第(m+1)個區段的資料搬移至SSD 100S，而使得第(m+1)個區段變為需要刷新狀態。

在第8圖所示的實施例中，如果處理器110A判斷寫入指標在具有刷新狀態的區段處，則處理器110A將檢查下一個區段是否具有空白狀態。如果下一區段具有空白狀態，則處理器110A可以直接處理下一區段以將下一區段的資料移動到SSD 100S，而無需等待目前區段的操作完成，因此，寫入緩衝器500在使用上將更加有效率。在另一實施例中，如果處理器110A判斷寫入指標處於具有刷新狀態的區段，則處理器110A將檢查寫入指標和刷新指標之間的任何區段是否具有空白狀態，如果是，則處理器110A可以忽略目前區段，並且直接處理具有空白狀態的區段以將資料移動到SSD 100S。舉例來說，如果第(m+2)個區段變為空白狀態，但是第m個區段和第(m+1)個區段仍然處於刷新狀態，則處理器110A可以忽略第m個區段和第(m+1)個區段並直接處理第(m+2)個區段。

在一實施例中，處理器110A可以忽略不具有合併狀態的任何區段。亦即，如果第8圖所示的第m個區段具有合併狀態，則即使第(m+1)個區段和第(m+2)個區段具有空白狀態，處理器110A也不能忽略第m個區段。具體來說，如果第8圖所示的第m個區段處於合併狀態，則寫入指標必須停留在第m個區段，直到第m個區段進入需要刷新狀態為止。

第9圖為根據本發明的一實施例之寫入緩衝器500的控制機制的流程圖。參考本發明的上述實施例，流程描述如下。

步驟900：流程開始。

步驟902：自客戶端裝置接收資料。

步驟904：檢查寫入指標是否處於具有空白狀態的區段，若是，則流程進入步驟906；若否，流程進入步驟908。

步驟906：將資料寫入由寫入指標所指示的區段。

步驟908：檢查寫入指標是否在具有合併狀態的區段，若是，則流程停留在步驟908，直到寫入指標指示的區段具有需要刷新狀態為止；若否，則流程進入步驟910。

步驟910：檢查寫入指標和刷新指標之間的是否有任何區段具有空白狀態，若是，則流程進入步驟912；若否，流程返回到步驟904。

步驟912：忽略目前區段並將資料寫入狀態為空白的下一個區段。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

10A,10B:機架頂(TOR)交換機 12A,12B:固態硬碟(SSD)群組 100:全快閃記憶體陣列(AFA)伺服器 100A,100B:節點 110A,110B:處理器 112A,112B:程式模組 120A,120B:動態隨機存取記憶體(DRAM) 122A,122B:複製到快閃記憶體(C2F)固態硬碟(SSD) 130A,130B:網路介面(IF)模組 132A,132B,134A,134B:網路介面(IF)電路 140A,140B:非透明網橋(NTB)通信電路 150A,150B:主機板管理控制器(BMC) 152A,152B:暫存器電路 160A,160B:儲存介面(IF)模組 162A,162B,164A,164B:儲存介面(IF)電路 170A,170B:備用電源單元 500:寫入緩衝器 900~912:步驟

第1圖是依據本發明一實施例的一全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器的示意圖。第2圖是依據本發明一實施例中如第1圖所示的該AFA伺服器的某些實施細節的示意圖。第3圖是依據本發明一實施例所繪示的如第1圖所示的該AFA伺服器的一雙節點架構的示意圖。第4圖是依據本發明一實施例所繪示的如第1圖所示的多個節點的任一節點中的某些程式模組的示意圖。第5圖為根據本發明一個實施例之寫入緩衝器的示意圖。第6圖是根據本發明的一個實施例之狀態機的示意圖。第7圖為根據本發明一實施例之刷新指標的移動示意圖。第8圖為根據本發明一實施例之寫入指標的移動示意圖。第9圖為根據本發明的一實施例之寫入緩衝器的控制機制的流程圖。

10A,10B:機架頂(TOR)交換機

12A,12B:固態硬碟(SSD)群組

100:全快閃記憶體陣列(AFA)伺服器

100A,100B:節點

110A,110B:處理器

112A,112B:程式模組

120A,120B:動態隨機存取記憶體(DRAM)

122A,122B:複製到快閃記憶體(C2F)固態硬碟(SSD)

130A,130B:網路介面(IF)模組

132A,132B,134A,134B:網路介面(IF)電路

140A,140B:非透明網橋(NTB)通信電路

150A,150B:主機板管理控制器(BMC)

152A,152B:暫存器電路

160A,160B:儲存介面(IF)模組

162A,162B,164A,164B:儲存介面(IF)電路

170A,170B:備用電源單元

Claims

一種伺服器，包含有：一固態硬碟；一節點，包含有：一通信模組，用以透過網路與一電子裝置進行通信；一處理器；以及一記憶體，其包含了作為一寫入緩衝器的一環形緩衝器，其中該寫入緩衝器包含多個區段，每個區段的大小等於該電子裝置的一寫入單元；該寫入緩衝器具有用於指示最後寫入之區段的終點的一寫入指標，且該寫入緩衝器另具一刷新指標，其用來指示一區段的資料已準備好搬移至該固態硬碟；其中該處理器將每個區段設置為具有多個狀態中的其一，該多個狀態包含一空白狀態、一合併狀態、一需要刷新狀態以及一刷新狀態，其中針對任一區段，當該區段具有該空白狀態表示該區段中沒有儲存任何資料，當該區段具有合併狀態表示該處理器正在從該固態硬碟載入其他資料並將儲存在該區段中的資料與從該固態硬碟載入的其他資料合併，當該區段具有需要刷新狀態表示其資料已準備好被搬移至該固態硬碟，當該區段具有該刷新狀態表示該處理器正在將該區段的資料搬移至該固態硬碟；以及該處理器另外參考該寫入指標所指向之一特定區段的狀態，以判斷是否忽略該特定區段，並直接處理位於該特定區段之後的區段。
如申請專利範圍第1項所述之伺服器，其中若是該寫入指標所指向的該特定區段具有該刷新狀態，且在該寫入指標與該刷新指標之間存在具有該空白狀態的區段，則該處理器將從該電子裝置來的資料直接寫入具有該空白狀態的區段。
如申請專利範圍第1項所述之伺服器，其中若是該寫入指標所指向的該特定區段具有除了該合併狀態以外的狀態，且在該寫入指標與該刷新指標之間存在具有該空白狀態的區段，則該處理器將從該電子裝置來的資料直接寫入具有該空白狀態的區段。
如申請專利範圍第1項所述之伺服器，其中該伺服器為一全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器，且該記憶體為一動態隨機存取記憶體(dynamic random access memory (DRAM))。
一種伺服器的控制方法，其中該伺服器包含了用來暫存來自一電子裝置的一寫入緩衝器，該寫入緩衝器包含了多個區段，每一個區段的大小相同於該電子裝置的一寫入單位；該寫入緩衝器具有用於指向最後寫入之區段的終點的一寫入指標，且該寫入緩衝器另具一刷新指標，其用來指示一區段的資料已準備好搬移至一固態硬碟；以及該控制方法包含有：設置每一個區段具有多個狀態中的其一，該多個狀態包含一空白狀態、一合併狀態、一需要刷新狀態以及一刷新狀態，其中針對任一區段，當該區段具有該空白狀態表示該區段中沒有儲存任何資料，當該區段具有合併狀態表示正在從該固態硬碟載入其他資料並將儲存在該區段中的資料與從該固態硬碟載入的其他資料合併，當該區段具有需要刷新狀態表示其資料已準備好被搬移至該固態硬碟，當該區段具有該刷新狀態表示正在將該區段的資料搬移至該固態硬碟；以及參考該寫入指標所指向之一特定區段的狀態，以判斷是否忽略該特定區段，並直接處理位於該特定區段之後的區段。
如申請專利範圍第5項所述之控制方法，其中參考該寫入指標所指向之一特定區段的狀態以判斷是否忽略該特定區段的步驟包含有：若是該寫入指標所指向的該特定區段具有該刷新狀態，且在該寫入指標與該刷新指標之間存在具有該空白狀態的區段，則將從該電子裝置來的資料直接寫入具有該空白狀態的區段。
如申請專利範圍第5項所述之控制方法，其中參考該寫入指標所指向之一特定區段的狀態以判斷是否忽略該特定區段的步驟包含有：若是該寫入指標所指向的該特定區段具有除了該合併狀態以外的狀態，且在該寫入指標與該刷新指標之間存在具有該空白狀態的區段，則將從該電子裝置來的資料直接寫入具有該空白狀態的區段。
如申請專利範圍第5項所述之控制方法，其中該伺服器為一全快閃記憶體陣列(All Flash Array，簡稱AFA)伺服器，且該寫入緩衝器為一動態隨機存取記憶體(dynamic random access memory (DRAM))。
一種伺服器的控制方法，其中該伺服器包含了用來暫存來自一電子裝置的一寫入緩衝器，該寫入緩衝器包含了多個區段，每一個區段的大小相同於該電子裝置的一寫入單位；該寫入緩衝器具有用於指向最後寫入之區段的終點的一寫入指標，且該寫入緩衝器另具一刷新指標，其用來指示一區段的資料已準備好搬移至一固態硬碟；以及該控制方法包含有：自一電子裝置接收資料；判斷該寫入指標所指向的一區段是否具有一空白狀態；若是該寫入指標所指向的該區段具有該空白狀態，將該資料寫入至該區段；若是該寫入指標所指向的該區段不具有該空白狀態，判斷該寫入指標所指向的該區段是否具有一合併狀態；若是該寫入指標所指向的該區段具有該合併狀態，在該區段改變為其他狀態前都不將該資料寫入至該寫入緩衝器中；若是該寫入指標所指向的該區段不具有該合併狀態，判斷該寫入指標與該刷新指標之間是否有任何區段具有該空白狀態；以及若是該寫入指標與該刷新指標之間是否有任一區段具有該空白狀態，則將該資料寫入至該寫入指標與該刷新指標之間具有該空白狀態的區段。
如申請專利範圍第9項所述之控制方法，其中該區段具有該空白狀態表示該區段中沒有儲存任何資料，以及當該區段具有合併狀態表示該處理器正在從該固態硬碟載入其他資料並將儲存在該區段中的資料與從該固態硬碟載入的其他資料合併。