TW201411348A - 智慧型主動-主動高可取得性直連式儲存系統 - Google Patents

智慧型主動-主動高可取得性直連式儲存系統 Download PDF

Info

Publication number
TW201411348A
TW201411348A TW102117497A TW102117497A TW201411348A TW 201411348 A TW201411348 A TW 201411348A TW 102117497 A TW102117497 A TW 102117497A TW 102117497 A TW102117497 A TW 102117497A TW 201411348 A TW201411348 A TW 201411348A
Authority
TW
Taiwan
Prior art keywords
data
server
peer
host
hot
Prior art date
Application number
TW102117497A
Other languages
English (en)
Inventor
Sumanesh Sumanta
Sjuan Biswas
Horia Christian Simeonescu
Original Assignee
Lsi Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lsi Corp filed Critical Lsi Corp
Publication of TW201411348A publication Critical patent/TW201411348A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1666Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明係提供一種利用一固態快取之高可取得性DAS系統,以在一DAS叢集中提供接近主動-主動的效能,同時維持主動-被動式或雙主動式系統的實施單純性。在該叢集中的每個節點可包含一固態快取,該固態快取係以一種主動-主動的模式來儲存熱I/O,此係容許只有在對於該“熱區域”的存取冷卻下來或是在快取未命中的情形中,該資料才能夠從基礎的雙主動式或主動/被動式DAS RAID系統讀取或是寫入至其。該熱I/O資料係包含動態累積的熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的該些磁碟機的所有權為何。該熱I/O資料亦包含橫跨該些固態快取記憶體鏡射之熱寫入的資料,以避免潛在的髒寫入資料衝突並且亦在伺服器失效的情形中提供高可取得性。本發明可以實施在一種雙主動式或是主動/被動式RAID系統中的一DAS叢集上,但並不必要如此。

Description

智慧型主動-主動高可取得性直連式儲存系統
本發明係有關用於電腦網路之高可取得性的叢集系統,並且更具體而言係有關於一種利用一固態快取之高可取得性DAS系統,以在一種雙主動式或是主動/被動式DAS RAID系統中提供接近主動-主動的效能。
獨立磁碟冗餘陣列(RAID)系統已經被開發以提供對抗磁碟失效的保護。然而,直連式儲存(DAS)RAID控制器對抗伺服器失效是毫無防護的,因為該資料儲存系統就定義而言是被嵌入在一伺服器內。若該伺服器停擺,則該RAID控制器停擺,並且所儲存的資料暫時無法利用,直到該伺服器及RAID控制器被恢復上線為止。為了對抗此問題,具有重要資料的企業消費者經常利用包含兩個或多個伺服器節點的高可取得性DAS叢集,每個伺服器節點係具有一帶有一RAID控制器之內嵌的DAS系統,該DAS系統於是連接至在一殼體內之同一組的磁碟。該些磁碟是個別被供電,並且即使一伺服器停擺,另一伺服器的RAID系統仍然以一種非中斷的模式拾訊該些磁碟以供應IO。
這些多伺服器的DAS叢集已經知道會發展出在超過一個伺服器同時嘗試存取儲存於相同磁碟機上的資料時發生的多重起始者問題。習知對此問題的解決方案係包含雙主動式配置,其中每個磁碟機只被一伺 服器所“擁有”,其係對於其本身的磁碟機之存取提供唯一的控制。儘管此種方法避免多重起始者衝突,但是其可能產生在伺服器之間搬運高的資料(IO)量。或者是,該些磁碟機可以用一種主動-被動式配置來加以配置,其中一次只有一伺服器是主動的,並且該第二伺服器只有在該第一伺服器失效時才變成主動的。當較高層傳送IO至兩個伺服器時,兩種方式都有缺點,因為對於非所擁有的磁碟之IO需要被搬運至另一伺服器。
因此,對於改良的高可取得性DAS系統有持續的需求。更具體而言,對於克服習知的主動-被動式及雙主動式DAS叢集的缺點之改良的DAS叢集有所需求。
一種高可取得性DAS系統係使用一固態快取以在一DAS叢集中提供智慧型主動-主動功能。在該叢集中的每個節點可包含一固態快取,該固態快取係以一種主動-主動模式儲存(高速暫存(cached))“熱I/O”(磁碟之最頻繁被存取的位置),其係容許僅在有一快取未命中,亦即所尋求的資料不在該SSD快取中並且需要從該基礎的硬式磁碟機帶入時,該資料才從該基礎的雙主動式或主動/被動式DAS RAID系統加以讀取、或是寫入至其。該熱I/O資料係包含動態地累積之熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的直連式磁碟機的所有權為何。該熱I/O資料亦包含鏡射橫跨在兩個伺服器上的固態快取記憶體之熱寫入的資料,因而在一伺服器失效的髒資料的事件中可以從該存活的伺服器加以供應,並且亦避免潛在的髒寫入資料衝突。
更明確地說,“熱讀取的”資料係被儲存在每個節點上的該 固態快取記憶體中,此僅根據該讀取IO的出處而定,而不論該基礎的VD的所有權為何。例如,假設伺服器A擁有該VD,但是大多數的IO係來到伺服器B。在該情形中,讀取快取將會累積在伺服器B中,而不是在伺服器A中。對於一快取命中而言,此高速暫存的讀取資料將會直接從伺服器B的快取來加以供應,而不需要IO搬運至伺服器A。該系統係容許該熱讀取的資料根據該使用模式來動態地累積,而不論該熱讀取的資料是永久儲存其中的實體連接的磁碟機的所有權為何。此係消除用於該熱讀取的資料之多個搬運交易,而不論是哪個節點擁有該熱讀取的資料是永久儲存於其中的該些磁碟機。
有關熱寫入的資料,在每個節點上的固態記憶體係包含任何髒寫入資料的一鏡射複製。此係維持該髒寫入資料橫跨該些伺服器的完整性,直到其被寫入永久的儲存為止,同時容許該每個節點能夠儲存該寫入資料在其本身的固態快取中,而不論哪個伺服器擁有該資料是永久儲存於其中的實體磁碟機。儘管該固態快取技術只能應用到熱讀取的資料或是熱寫入的資料,但最大的益處係從根據本發明之熱讀取及熱寫入的資料的主動-主動快取衍生出。
本發明亦可被實施在一種其中單一伺服器包含多個I/O控制器之DAS系統中,該些I/O控制器係分別具有一組專用的連接的資料磁碟機。此系統係包含一專用於每個I/O控制器之個別的快取記憶體,此於是中介(mediating)對於其專用的資料磁碟機組的存取。該些快取記憶體係被配置以實施本發明的智慧型主動-主動快取記憶體系統,其中熱讀取的資料係動態地累積在每個快取中而不論所有權為何,並且髒寫入資料係鏡射橫跨該 些快取記憶體。該單一伺服器、多個控制器的DAS系統係類似於該多個伺服器的DAS系統,除了實施在單一伺服器上的多個控制器係取代實施在不同的伺服器上的多個控制器以外。在其它方面,該DAS系統係以一種類似的方式運作。以此種方式,本發明可被實施在具有專用的磁碟機之任意的I/O控制器組,而不論實施在任何特定的伺服器上之I/O控制器的數目為何。
將瞭解到的是,先前一般性的說明以及以下的詳細說明只是範例及解釋性質的,並且不一定是限制如同所主張的本發明。被納入在說明書中並且構成說明書的一部分之所附的圖式係描繪本發明的實施例,並且和該一般性的說明一起作用以解說本發明的原理。
10‧‧‧多伺服器的系統
11‧‧‧伺服器
12a‧‧‧主機伺服器
12b‧‧‧對等伺服器
13‧‧‧CPU複合體
14a-b‧‧‧CPU複合體
15a-b‧‧‧系統記憶體
16a-b‧‧‧RAID控制器
17‧‧‧系統記憶體
18a-b‧‧‧快取記憶體或SSD
19a-n‧‧‧控制器
21a-n‧‧‧快取記憶體
24a‧‧‧第一組資料磁碟機
24b‧‧‧第二組資料磁碟機
25a-n‧‧‧磁碟機
27a-n‧‧‧磁碟機
29a-n‧‧‧磁碟機
30‧‧‧DAS叢集或DAS系統
32‧‧‧智慧型主動-主動快取記憶體系統
40‧‧‧資料流圖
42a-b‧‧‧CacheCade
44‧‧‧SAS連結
50-70‧‧‧資料流圖
71‧‧‧替代的DAS系統
72‧‧‧主動-主動快取記憶體系統
80‧‧‧邏輯流程圖
82-106‧‧‧步驟
本發明的許多優點可參考該所附的圖式而更佳的予以理解,其中:圖1是一種具有主動-主動固態快取的DAS叢集的功能方塊圖。
圖2是在利用主動-主動固態快取的系統之DAS叢集中,一對於儲存在擁有的節點上的資料之讀取請求的資料流圖。
圖3是在利用主動-主動固態快取的系統之DAS叢集中,一對於儲存在一對等(peer)節點上的資料之讀取請求的資料流圖。
圖4是在利用主動-主動固態快取的系統之DAS叢集中,一對於儲存在擁有的節點上的資料之寫入請求的資料流圖。
圖5是在利用主動-主動固態快取的系統之DAS叢集中,一對於儲存在一對等節點上的資料之寫入請求的資料流圖。
圖6是用於操作該主動-主動快取記憶體系統的邏輯流程圖。
圖7是一具有多個I/O控制器之伺服器的功能方塊圖,其係形成一具有主動-主動固態快取之DAS叢集。
本發明可被體現在一種被動-主動式或是雙主動式DAS叢集中,其中主動-主動固態快取記憶體(SSD)係位在該叢集的每個節點中。儘管為了描述的便利性,一種兩個伺服器的DAS叢集係被展示在圖式中並且在以下論述之,但將會體認到的是本發明可被擴充至一種具有任意數目的節點之DAS系統。此外,該“主機”通常是指接收一I/O請求的伺服器,該“擁有者”通常是指擁有該I/O實際儲存於其中的實體磁碟機之伺服器,並且該“對等”通常是指在該叢集中的任何其它的伺服器。儘管該些DAS節點對於一特定的I/O交易而言通常被稱為該主機、擁有者或是對等節點,但是此種指定是相對的,並且任何節點對於一特定的I/O交易而言都可以是該主機、擁有者或是對等節點,此係根據該主題節點是接收該I/O請求或是擁有所請求的I/O是永久位在其中的實體磁碟機而定。同樣將會理解到的是,該舉例說明的實施例係包含獨立磁碟冗餘陣列(RAID)系統作為中介該DAS系統的範例應用,但是將會瞭解到的是,發明可被應用至任意類型的利用受到該DAS叢集的多個伺服器控制的磁碟記憶體之系統或應用。
在此種類型的多伺服器的高可取得性DAS資料儲存系統中,該些直連式磁碟機通常是光學儲存碟機(有時被稱為JBODS“只是基本的舊式磁碟機”),其可被兩個控制器(經常被稱為“CPU”、“伺服器”、“起始者”或是“節點”)存取。然而,若兩個控制器同時嘗試組態設定、旋轉、或是傳送I/O至相同的儲存裝置,則以多重起始者問題著稱的存取衝 突可能出現。例如,一起始者可能開始一工作管理,在逾時之後重置,而另一起始者並不知道。另一節點可能接著開始另一重置,此係導致一“重置爆發(storm)”。此外,有效的儲存管理需要針對於例如是重建、重構、一致化等等的各種背景操作,在該些控制器之間協調頻寬的協商。
儘管這些問題可能潛在地藉由在伺服器之間的協調及通訊來加以解決,但是通訊負擔會快速地變得過重,並且程式碼是過度複雜的。因此,DAS叢集通常已經選擇一種主動-被動式或是一雙主動式配置以避免多重起始者衝突的發生。在該主動-被動式配置中,兩個起始者都連接至全部的磁碟機,但是只有第一起始者是在一主動模式中,而第二起始者係維持在一被動模式中。該第二起始者只有在該第一起始者為了某種原因而離線時才變成主動。因此,在該主動-被動式配置中一次只有一個起始者是主動的。儘管此方法係避免多重起始者的問題發生,但是其亦使得在任何時間在其中之一伺服器中的DAS控制器是非主動的。
或者是,在該雙主動式配置中,兩個起始者是同時主動的。為了避免多重起始者的問題,每個磁碟機是唯一受到僅有一個潛在的起始者節點(例如,伺服器)所控制的(亦被稱為“所擁有的”)。在此例中,落在非擁有的節點上之I/O必須被搬運至擁有的節點。儘管此方法在消除多重起始者的問題上也是有效的,但是在節點之間搬運I/O請求係使得該系統效能劣化,並且在有系統地使用由兩個控制器所擁有的磁碟機空間之配置中可能變成嚴重的。例如,當在每個實體磁碟機上有多個虛擬的磁碟機,並且在一特定的實體磁碟機上之虛擬的磁碟機被指定到不同的節點時,嚴重的負擔資料搬運可能會發生。作為另一例子的是,當在作業系統中的一較高 層被組態設定以刻意用一種主動-主動模式傳送I/O來故意散佈該資料在該些節點間時,搬運的請求可能會變成嚴重的。例如,某些RAID控制器可被組態設定以在一種主動-主動配置中故意散佈該所儲存的資料,以作為該RAID資料安全性協定的部分。容許訪客存取至該些磁碟機亦可能會增加搬運,因為該訪客的作業系統可能未被組態設定以在考量該主機的節點系統下運作。
本發明可被應用在任何DAS叢集中,其中在每個伺服器中有一本地的SSD快取加速器。例如,此SSD可以是只有一伺服器可見的一本地磁碟、或是在該控制器上的一板上SSD。熱I/O(亦即,I/O頻繁發生在相同的本地區塊位址[LBA]範圍中)係根據I/O模式來加以高速暫存在擁有者及對等者中之本地的SSD中,而不論所有權為何。
因為對於高速暫存而言,所有權並未被列入考慮,因此熱讀取的資料只有動態地根據I/O模式來累積在本地的快取上,而不論所有權為何。對於快取命中(大多數的I/O,因為SSD快取在尺寸上通常是非常大的)而言,資料將會只有從本地的控制器加以供應,同樣地,其不論所有權為何。所有緩慢的往旋轉磁碟的I/O仍然會依照I/O搬運的機制。區域鎖將只會維持在擁有者側,因而對於可以從對等側的SSD快取完成的I/O,將會在從該擁有者獲得該鎖之後如此加以完成。
所有旋轉的磁碟仍然有單一擁有者的控制器。因此,該熱讀取的資料係維持在兩個控制器中而不論所有權為何,然而冷資料係根據基礎的多伺服器的DAS協定而儲存在擁有的磁碟機中。因此,熱讀取I/O係高速暫存在接收該I/O的控制器中,而非根據所有權而動態地根據I/O模式 改變。對於任何從一對等節點搬運的I/O而言,擁有者的節點通常不會執行熱邏輯,但是將會能夠執行其它運算,例如在SSD中搜尋、DDR、取得區域鎖、等等。熱寫入的資料係鏡射在橫跨該些伺服器的快取中,以避免潛在的髒寫入資料衝突。
因此,本發明係針對於雙主動式DAS系統產生一主要的效能改良,因為對於大多數的I/O係省去I/O搬運,該些I/O係從該SSD快取加以存取。對於一在一節點上接收到的針對儲存在該節點的SSD中之熱讀取的資料之讀取請求而言,該節點係在無任何橫跨該SAS連結的搬運下,透過直接的記憶體存取來供應該資料。對於一在一主機節點上接收到的針對儲存在另一節點(SSD擁有者節點)上的SSD中之熱讀取的資料之讀取請求而言,該對等節點從該SSD擁有者節點取得一鎖,並且DMA資料係從該擁有者SSD接收到主機(對等)系統的記憶體。因此,熱讀取的資料係根據使用而動態地累積,而不論所有權為何,並且在最多一橫跨該SAS連結的傳送下從SSD加以供應。對於任何儲存在該SSD快取中之熱讀取的資料而言,不發生從該基礎的磁碟機之搬運。
對於一針對該主機節點所擁有之熱寫入的資料之寫入請求而言,該資料係在該SAS連結之上只有移動一次,以將該熱寫入的資料鏡射在該對等節點上的SSD快取中。對於一針對該對等節點所擁有之熱寫入的資料之寫入請求而言,該資料係在該SAS連結之上移動一次,以將該熱寫入的資料鏡射在該對等節點上的SSD快取中。因此熱寫入係鏡射橫跨在該些伺服器上的SSD快取,並且在橫跨該SAS連結的單一傳送下從SSD加以供應。同樣地,對於任何儲存在該SSD快取中之熱寫入的資料而言,不 發生從該基礎的磁碟機之搬運。一旦該資料冷卻下來(例如,對該資料的存取已經慢到低於一臨界值),該髒寫入資料最終是儲存至正確擁有者的磁碟機上之永久儲存處。
現在參照到該些圖,圖1是一種多伺服器的系統10的功能方塊圖,其係包含一被配置以實施本發明的智慧型主動-主動快取記憶體系統之DAS叢集30。如同舉例的例子,該DAS叢集30係包含一主機伺服器12a以及一對等伺服器12b。該主機伺服器12a係包含一CPU複合體14a以及一通常是DDR、DDR3或是其它適當的SDRAM之系統記憶體15a。該主機伺服器12a亦包含一DAS高可取得性的記憶體系統,在此例子中是藉由一RAID控制器16a加以中介。此外,該主機伺服器12a係包含一快取記憶體18a,在此例子中是一例如快閃記憶體的固態裝置(SSD)。類似地,該對等伺服器12b係包含一CPU複合體14b、一系統記憶體15b、一RAID控制器16b以及一快取記憶體SSD 18b。應該體認到的是,儘管該快取記憶體18a-b在這些特定的實施例中被展示為一位在其個別的伺服器上之固態裝置(SSD),但該快取可透過一專用連接的磁碟機、一連接的磁碟機之專用的部分或是任何其它配置給本發明的快取記憶體功能之適當的電腦記憶體來加以實施。
該DAS高可取得性的記憶體系統係依賴在該主機及對等伺服器12a-b以及一和該主機伺服器12a相關的第一組資料磁碟機24a以及一和該對等伺服器12b相關的第二組資料磁碟機24b之間的功能連接。兩個伺服器12a-b係為了在一伺服器或磁碟機失效模式中的備份目的而連接至兩組磁碟機24a-b,但是在正常的動作期間同時的存取是被限制的,以避免多重 起始者的問題。例如,該些磁碟機24a-b可以用一種雙主動式配置來加以操作,其中該主機伺服器12a“擁有”該第一組資料磁碟機24a,並且該對等伺服器12b“擁有”該第二組資料磁碟機24b。在此例中,落在非擁有的伺服器上之I/O請求必須被搬運至擁有的伺服器,該擁有的伺服器係維持對於其“擁有的”磁碟機之唯一的控制。或者是,該些資料磁碟機24a-b可以用一種主動-被動式配置來加以操作,其中一次只有一組資料磁碟機是主動的。在兩種配置中,該DAS叢集30係欠缺對於兩組資料磁碟機24a-b之真正的同時主動-主動存取,以避免多重起始者的問題。
在此範例配置中,該些RAID控制器16a-b係中介對於該些基礎的DAS資料磁碟機24a-b以及該些快取記憶體18a-b的存取,以實施本發明的智慧型主動-主動快取記憶體系統32。儘管該些伺服器(亦被稱為控制器或節點)可具有和該些舉例說明的實施例不同的配置,除了RAID控制器之外的DAS控制器亦可控制該快取記憶體,除了SSD之外的快取記憶體亦可被使用,並且在該叢集中可以有超過兩個節點,但是在圖1中所示的基本元件是充分的並且提供本發明可被實施於其中的環境之一適當可行的例子。同樣將會理解到的是,系統30可包含廣範圍的其它構件,並且訪客控制器可被容許存取該DAS系統。為了方便起見,只有一最小組的在實施本發明中所牽涉到的伺服器及構件被展示在圖式中。
該主動-主動快取32係提供該DAS叢集30對於暫時儲存在標示為SSD 18a-b的快取記憶體中的“熱I/O”之智慧型主動-主動存取。位在該主機伺服器12a上的SSD 18a係提供一用於“熱I/O”的快取記憶體,該熱I/O係包含“熱讀取”及“熱寫入”I/O。類似地,位在該對等伺服器 12b上的SSD 18b係提供一用於“熱I/O”的快取記憶體,該熱I/O係包含“熱讀取”及“熱寫入”I/O。該熱I/O資料係包含經常發生在相同的本地區塊位址(LBA)範圍中的讀取及寫入資料(亦即,經常被存取的I/O資料)。定義熱I/O資料之存取的頻率可根據該SSD 18a-b的記憶體容量以及其它因素而被設定為一設計參數。
該快取記憶體相較於預期的I/O流量應該是足夠大的,以容許絕大多數的I/O是從快取來發生,其中髒寫入係在背景或是在低使用或閒置的期間被清除到永久的記憶體。熱讀取的資料可以根據使用模式來動態地累積在每個快取中,而不論該讀取資料是永久儲存於其中的該些磁碟機的擁有者為何。該熱讀取的資料可以用一種視需要的方式來加以清除以維持快取儲存容量,例如其中在時間上最遠被存取之讀取的資料視需要地被清除,以讓出空間給新的熱讀取的資料。
該熱寫入的資料可被稱為“髒寫入”資料,因為其可能包含使用者對於在永久記憶體中具有相同日期的一備份的改變。該熱寫入的資料係鏡射在兩個伺服器上之本地的快取中,以避免在髒寫入資料上的潛在衝突。
圖2是在利用主動-主動固態快取的系統之DAS叢集中,一對於儲存在擁有的節點上的資料之讀取請求的資料流圖40。該些SSD 18a-b係根據動態使用模式來分別儲存熱讀取的資料,而不論該資料是永久儲存於其中的該些磁碟機的所有權為何。因此,該SSD 18a係儲存透過該伺服器12a所請求之熱讀取的資料,而不論是哪個伺服器擁有該資料是永久儲存於其中的該些磁碟機。類似地,該SSD 18b係儲存透過該伺服器12b所請求之 熱讀取的資料,而不論是哪個伺服器擁有該資料是永久儲存於其中的該些磁碟機。因此,由該伺服器12a所接收到的一熱讀取I/O請求可能落在儲存於任一快取記憶體SSD 18a或SSD 18b中之熱讀取的資料上。圖2係描繪其中該伺服器12a接收到一落在其本身的SSD 18a上之熱讀取I/O請求的情況。在此例中,該熱讀取I/O請求係被當作為一DMA請求,其係直接從該SSD 18a經由在該伺服器12a上的CacheCade 42a而被供應至該系統記憶體15a。類似地,圖2係描繪其中該伺服器12b接收到一落在其本身的SSD 18b上之熱讀取I/O請求的情況,其中該熱讀取I/O請求係被當作為一DMA請求,其係直接從該SSD 18b經由在該伺服器12b上的CacheCade 42b而被供應至該系統記憶體15b。
圖3是對於其中一伺服器接收到一針對儲存在該對等SSD上的資料之熱讀取I/O請求之互補的情況之資料流圖50。在所展示的例子中,該伺服器12a係接收到一針對儲存在該對等伺服器12b上的SSD 18b快取記憶體中的資料之熱讀取I/O請求。在此情況中,該請求的I/O係被當作為一DMA請求,其係直接從該SSD 18b被供應至該對等CacheCade 42b。該請求的資料接著經由該SAS連結44而被傳輸至該主機CacheCade 42a而且到該系統記憶體15a上。因此,該I/O請求看起來像是一對於該主機伺服器之習知的DMA請求,並且該請求的熱讀取I/O係被搬運在該CacheCade模組42a-b之間,而不需要由該伺服器18a-b的任一個控制之額外負擔的資料搬運。此係利用本發明的快取資料讀取以及RAID中介的SAS連結傳輸之主動-主動資料存取程序來取代習知的磁碟資料讀取以及CPU中介的資料搬運過程。
圖4是在該DAS叢集中,對於一針對儲存在擁有的節點上的資料之寫入請求的資料流圖60。在所展示的例子中,該主機伺服器12a係接收到一對於永久儲存在該主機伺服器上的資料之寫入請求。該寫入資料係被寫入至該SSD 18a之熱寫入的資料區段,並且橫跨該SAS連結44而被傳輸至該對等伺服器12b,其係在該處被鏡射在該SSD 18b之熱寫入的資料區段中。此係確保任何髒寫入資料都被鏡射在兩個快取記憶體18a-b中,以避免任何潛在的髒寫入資料衝突。
圖5是對於其中一伺服器接收到一針對永久儲存在該對等伺服器所擁有的一磁碟機上的資料之熱寫入I/O請求之互補的情況的資料流圖70。在所展示的例子中,該伺服器12a係接收到一針對永久儲存在該對等伺服器12b所擁有的一磁碟機中的資料之熱寫入I/O請求。該寫入資料最初是儲存在該主機SSD 18a中。該寫入資料係接著從該主機伺服器12a上的CacheCade 42a經由該SAS連結44而傳送至該對等伺服器12b上的CacheCade 4ab。該熱寫入的資料係接著寫入至該對等SSD 18b之熱寫入的資料區段,以鏡射該熱寫入的資料在兩個快取記憶體18a-b中,以避免任何潛在的髒寫入資料衝突。
圖6是用於操作該主動-主動快取記憶體系統的邏輯流程圖80。在步驟8a中,該系統係判斷在一主機伺服器上接收到的一熱讀取I/O請求是否落在該主機伺服器的固態快取記憶體上。若一熱讀取I/O請求已經在該主機伺服器上接收到並且其係落在該主機伺服器的固態快取記憶體上,則從步驟82依循“是”的分支到步驟84,其中該I/O請求係直接從在該主機伺服器上的固態快取記憶體加以讀取。此情況係對應於圖2的資料 流圖。
若尚未在該主機伺服器上接收到一落在該主機伺服器的固態快取記憶體上之熱讀取I/O請求,則從步驟82依循“否”的分支到步驟86,其中該系統係判斷在一主機伺服器上接收到的一熱讀取I/O請求是否落在一對等伺服器的固態快取記憶體上。若一落在該對等伺服器的固態快取記憶體上之熱讀取I/O請求已經在該主機伺服器上接收到,則從步驟86依循“是”的分支到步驟88,其中該I/O請求係直接從在該對等伺服器上的固態快取記憶體加以讀取。步驟88接著是步驟90,其中該熱讀取的資料係經由該SAS連結而被傳輸至該主機伺服器的固態快取記憶體,其中該主機伺服器係透過直接的記憶體存取來從該主機固態快取存取該資料。此情況係對應於圖3的資料流圖。
若在該主機伺服器上尚未接收到一落在該對等伺服器的固態快取記憶體上之熱讀取I/O請求,則從步驟86依循“否”的分支到步驟92,其中該系統係判斷是否已經在一主機伺服器上接收到一落在由該主機伺服器所擁有之永久記憶體上的熱寫入I/O請求。若已經在一主機伺服器上接收到一落在該主機伺服器所擁有的永久記憶體上之熱寫入I/O請求,則從步驟92依循“是”的分支到步驟94,其中該寫入資料係被寫入至該主機伺服器上的固態快取記憶體。步驟84接著是步驟99,其中該熱寫入的資料係經由該SAS連結而被傳輸至該對等伺服器的固態快取記憶體,以鏡射該寫入資料橫跨該些伺服器來避免在儲存於不同的伺服器上的髒寫入資料之潛在的衝突。此情況係對應於圖4的資料流圖。
若在該主機伺服器上尚未接收到一落在由該主機伺服器所 擁有的永久記憶體上之熱寫入I/O請求,則從步驟92依循“否”的分支到步驟98,其中該系統係判斷是否已經在一主機伺服器上接收到一落在由一對等伺服器所擁有的永久記憶體上之熱寫入I/O請求。若在一主機伺服器上已經接收到一落在由一對等伺服器所擁有的永久記憶體上之熱寫入I/O請求,則從步驟98依循“是”的分支到步驟102,其中該寫入資料係被儲存在該主機伺服器上的快取記憶體中。步驟102接著是步驟104,其中該熱寫入的資料係經由該SAS連結而被傳輸至該對等伺服器的固態快取記憶體。步驟104接著是步驟106,其中該熱寫入的資料係被儲存在該對等伺服器的快取記憶體中以鏡射該寫入資料橫跨該些伺服器,以避免在儲存於不同的伺服器上的髒寫入資料之潛在的衝突。此情況係對應於圖5的資料流圖。
圖7是一種替代的DAS系統71的功能方塊圖,其中單一伺服器係包含被組態設定以實施本發明的智慧型主動-主動快取記憶體系統之多個I/O控制器。除了實施在單一伺服器上的多個控制器已經取代實施在不同的伺服器上的多個控制器之外,圖7的DAS系統71係類似於圖1的DAS系統30。否則,圖7的DAS係以一種類似於圖1的DAS的方式來操作。將會體認到的是,此系統係包含一專用於每個I/O控制器之個別的快取記憶體,該個別的快取記憶體於是中介對於其專用的資料磁碟機組的存取。該些快取記憶體係被組態設定以實施本發明的智慧型主動-主動快取記憶體系統,其中熱讀取的資料係動態地累積在每個快取中,而不論所有權為何,並且髒寫入資料係鏡射橫跨該些快取記憶體。除了實施在單一伺服器上的多個控制器取代實施在不同的伺服器上的多個控制器之外,該單一伺服器的多個控制器的DAS系統係類似於該多個伺服器的DAS系統。否則,該 DAS系統係以一種類似的方式來運作。以此種方式,本發明可被實施在具有專用的磁碟機之任意組的I/O控制器之間,而不論實施在任何特定的伺服器上的I/O控制器數目為何。
更明確地說,該DAS高可取得性的記憶體71係包含一伺服器11,該伺服器11係具有一CPU複合體13以及一通常是DDR或DDR3或是其它適當的SDRAM的系統記憶體17。在此例子中的DAS高可取得性的記憶體系統71係藉由複數個RAID控制器19a-n加以中介。該主機伺服器11係包含一主動-主動快取記憶體系統72,該主動-主動快取記憶體系統72係包含複數個例如是快閃記憶體的固態裝置(SSD)之快取記憶體21a。每個快取記憶體係專用於一相關的I/O控制器,快取21a係專用於I/O控制器19a,快取21b係專用於I/O控制器19b,依此類推。此外,每個I/O控制器係“擁有”一組相關的專用的資料磁碟機,I/O控制器19a係擁有磁碟機25a-n,I/O控制器19b係擁有磁碟機27a-n,依此類推。
該DAS系統71係依賴在該伺服器11以及該些組的資料磁碟機25a-n、27a-n、等等之間的功能性連接。該伺服器係為了在一伺服器或磁碟機失效模式中之備份目的而連接至所有的磁碟機組,但是在正常的動作期間同時的存取係被限制而且是藉由該些控制器加以中介,以避免多重起始者的問題。例如,該控制器19a所擁有的該些磁碟機25a-n只可以透過該控制器19a來加以存取,該控制器19b所擁有的該些磁碟機27a-n只可以透過該控制器19b來加以存取,依此類推。根據需要,每一組磁碟機可以用一種雙主動式或是主動-被動式配置來加以操作。例如,該控制器19a所擁有的該些磁碟機25a-n可以用一種主動-被動式模式來加以操作,而該控 制器19b所擁有的該些磁碟機27a-n可以用一種主動-被動式模式來加以操作。更一般而言,磁碟機控制模式的任意組合都可根據需要而被用在該些I/O控制器中的任一個。
為了實施該智慧型主動-主動快取記憶體系統,該快取記憶體21a是專用於該I/O控制器19a,該I/O控制器19a係擁有該些磁碟機25a-n;該快取記憶體21b是專用於該I/O控制器19b,該I/O控制器19b係擁有該些磁碟機27a-n;依此類推。一旦每一組磁碟機具有一專用的I/O控制器及快取記憶體,該快取記憶體系統係以和先前參考在圖1中所示的DAS系統30所敘述相同的方式來加以操作,其中在該DAS 71(圖7)的單一伺服器中的I/O控制器19a-b係取代在該雙伺服器的DAS系統30(圖1)中的I/O控制器16a-b。對於該單一伺服器、多控制器的配置而言,橫跨該SAS的資料傳輸亦被消除。每個DAS系統30及71都可根據需要而被擴充至包含較大數目的“n”個I/O控制器。此外,假設每個控制器都具有其本身專用的磁碟機組及快取記憶體,則多控制器的伺服器可以和單一控制器的伺服器組合。換言之,本發明可被實施在具有專用的磁碟機之任意的I/O控制器組,而不論實施在任何特定的伺服器上的I/O控制器數目為何。
本發明可以包括(但不必要包括)調適或重新組態設定目前現有的系統。或者是,原來的設備可被提供以體現本發明。
所有在此敘述的方法都可包含儲存該些方法實施例的一或多個步驟的結果在一儲存媒體中。該些結果可包含在此敘述的該些結果中的任一個,並且可用任何此項技術中已知的方式加以儲存。該儲存媒體可包含任何在此敘述的儲存媒體、或是任何其它在此項技術中已知的適當的 儲存媒體。在該些結果已經儲存之後,該些結果可在該儲存媒體中加以存取,並且藉由在此敘述的方法或系統實施例中的任一個加以使用、被格式化以用於顯示給一使用者、藉由另一軟體模組、方法或系統等等加以使用。再者,該些結果可以“永久”、“半永久”、暫時、或是某段時間期間來加以儲存。例如,該儲存媒體可以是隨機存取記憶體(RAM),並且該些結果可不一定無限地存留在該儲存媒體中。
進一步被思及的是,上述的方法的實施例的每一個都可包含在此敘述的任何其它方法的任何其它步驟。此外,上述的方法的實施例的每一個都可藉由在此敘述的系統中的任一個來加以執行。
具有此項技術的技能者將會體認到在此敘述的方法及/或系統及/或其它技術有各種可藉以達成的運載工具(例如,硬體、軟體及/或韌體),並且較佳的運載工具將會隨著其中該些方法及/或系統及/或其它技術被配置的背景而變化。例如,若一實施者決定速度及正確性是最重要的,則該實施者可選擇一主要是硬體及/或韌體的運載工具;或者是,若彈性是最重要的,則該實施者可選擇一主要是軟體的實施;或是、或同樣替代的是該實施者可選擇硬體、軟體及/或韌體的某種組合。因此,在此敘述的該些方法及/或裝置及/或其它技術有數種可藉以達成之可能的運載工具,沒有一種運載工具是固有比其它運載工具優異,其中任何被利用的運載工具都是一項依據該運載工具將會被配置於其中的背景以及該實施者的特定考量(例如,速度、彈性或是可預測性)而定之選擇,該等中的任一者都可能變化。熟習此項技術者將會體認到實施方式的光學特點通常將會利用到光學導向的硬體、軟體及/或韌體。
熟習此項技術者將會體認到在此技術中用在此闡述的方式來描述裝置及/或方法,並且之後使用工程實務來整合如此敘述的裝置及/或方法成為資料處理系統是普遍的。換言之,在此敘述的裝置及/或方法的至少一部分可以經由合理的實驗量而整合到一資料處理系統中。具有此項技術的技能者將會體認到一典型的資料處理系統一般包含一系統單元殼體、一視訊顯示裝置、一例如是揮發性及非揮發性記憶體的記憶體、例如是微處理器及數位信號處理器的處理器、例如是作業系統之計算的實體、驅動程式、圖形使用者介面、以及應用程式、一或多個例如是觸控墊或螢幕的互動裝置、及/或包含回授迴路及控制馬達(例如,用於感測位置及/或速度的回授;用於移動及/或調整構件及/或量的控制馬達)的控制系統中的一或多個。一典型的資料處理系統可以利用任何適當的市售構件,例如那些常見於資料計算/通訊及/或網路計算/通訊系統者來加以實施。
在此敘述之標的有時描繪不同的構件內含在不同的其它構件內、或是與不同的其它構件連接。將瞭解到的是,如此描繪的架構僅僅是範例的,並且事實上許多其它達成相同功能的架構都可被實施。在概念上的意思,任何達成相同功能的構件配置都是有效“關聯的”,使得該所要的功能被達成。因此,任何兩個在此組合以達成一特定功能的構件都可以被看作為和彼此“相關聯的”,使得該所要的功能被達成,而不論架構或是中間的構件為何。同樣地,任何兩個如此相關的構件亦可被視為彼此“連接”或是“耦接”,以達成該所要的功能,並且任何兩個能夠如此相關的構件亦可被視為彼此“可耦接”,以達成該所要的功能。可耦接的特定例子係包含但不限於實際可配接及/或實際互動的構件及/或無線可互動 及/或無線互動的構件及/或邏輯上互動及/或邏輯上可互動的構件。
儘管在此敘述的本標的之特定特點已被展示及描述,但對於熟習此項技術者將會明顯的是,根據在此的教示,改變及修改可以在不脫離在此敘述之標的以及其較廣的特點下加以完成,並且因此所附的申請專利範圍是要涵蓋所有此種落於在此敘述之標的之真正精神及範疇內的改變及修改於其範疇內。
再者,將瞭解到的是,本發明係藉由所附的申請專利範圍所界定的。
儘管本發明的特定實施例已經加以描繪,但明顯的是本發明的各種修改及實施例都可被熟習此項技術者在不脫離先前的揭露內容之範疇及精神下加以完成。於是,本發明的範疇應該僅受限於至此所附的申請專利範圍。
相信本揭露內容以及許多其伴隨的優點都將會藉由先前的說明而被理解,並且將會明顯的是各種的改變可以在該些構件的形式、結構及配置上做成,而不脫離所揭露之標的或是犧牲其所有內容的優點。所敘述的形式僅僅是解釋性的,並且以下的申請專利範圍的意圖是涵蓋且包含此種改變。
10‧‧‧多伺服器的系統
12a‧‧‧主機伺服器
12b‧‧‧對等伺服器
14a-b‧‧‧CPU複合體
15a-b‧‧‧系統記憶體
16a-b‧‧‧RAID控制器
18a-b‧‧‧快取記憶體或SSD
24a‧‧‧第一組資料磁碟機
24b‧‧‧第二組資料磁碟機
30‧‧‧DAS叢集或DAS系統
32‧‧‧智慧型主動-主動快取記憶體系統

Claims (26)

  1. 一種多控制器的電腦系統,其係包括一主機伺服器、一對等伺服器以及一高可取得性直連式儲存系統,該高可取得性直連式儲存系統係包括:一由該主機伺服器所擁有的第一組直接連接的資料磁碟機;一由該對等伺服器所擁有的第二組直接連接的資料磁碟機;一快取記憶體系統,其係包括一位在該主機伺服器上或是連接至該主機伺服器的主機快取記憶體以及一位在該對等伺服器上或是連接至該對等伺服器的對等快取記憶體;其中該快取記憶體系統係提供對於儲存在該快取記憶體系統中的熱I/O資料之主動-主動存取,同時避免在該第一及第二組直接連接的資料磁碟機之間有關於該熱I/O資料之多重起始者的衝突;其中該主機快取記憶體係被配置以儲存從動態的系統使用所產生之熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的該些連接的資料磁碟機的所有權為何;其中該對等快取記憶體係被配置以儲存從動態的系統使用所產生之熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的該些連接的資料磁碟機的所有權為何;以及其中該主機及對等快取記憶體係進一步被配置以儲存橫跨該主機及對等快取記憶體鏡射之熱寫入的資料,以避免資料衝突發生在儲存於該主機及對等快取記憶體中的髒寫入資料上,並且在伺服器或控制器失效的情形中提供未提交資料的可取得性。
  2. 如申請專利範圍第1項之多伺服器的電腦系統,其中該第一及第二 組直接連接的資料磁碟機係包括一種雙主動式配置。
  3. 如申請專利範圍第1項之多伺服器的電腦系統,其中該第一及第二組直接連接的資料磁碟機係包括一種主動-被動式配置。
  4. 如申請專利範圍第1項之多伺服器的電腦系統,其中多個伺服器係以主動-被動式以及雙主動式模式的一組合來作用。
  5. 如申請專利範圍第1項之多伺服器的電腦系統,其進一步包括一位在該主機伺服器上的第一RAID控制器以及一位在該對等伺服器上的第二RAID控制器,其中該些RAID控制器係中介對於該高可取得性直連式儲存系統的伺服器存取。
  6. 如申請專利範圍第1項之多伺服器的電腦系統,其中由該主機伺服器接收到之一落在儲存於位在該主機伺服器上的該快取記憶體中之熱讀取I/O資料上的熱I/O讀取請求係經由對於位在該主機伺服器上的該快取記憶體之直接記憶體存取而被提供至該主機伺服器的系統記憶體。
  7. 如申請專利範圍第1項之多伺服器的電腦系統,其中由該主機伺服器接收到之一落在儲存於位在該對等伺服器的該快取記憶體中之熱讀取I/O資料上之熱I/O讀取請求係經由對於位在該對等伺服器上的該快取記憶體之直接記憶體存取而被提供至該主機伺服器的系統記憶體。
  8. 如申請專利範圍第1項之多伺服器的電腦系統,其中由該主機伺服器接收到之一落在由該主機伺服器所擁有的該些直接存取的資料磁碟機上之熱I/O寫入請求係被儲存在位於該主機伺服器上的該快取記憶體中,並且鏡射在位於該對等伺服器上的該快取記憶體中,以避免在儲存於該主機及對等固態快取記憶體中的髒寫入資料上之潛在的資料衝突。
  9. 如申請專利範圍第8項之多伺服器的電腦系統,其中由該主機伺服器接收到之落在由該主機伺服器所擁有的該些直接存取的資料磁碟機上之該熱I/O寫入的高速暫存係包含該熱寫入的資料橫跨一在該主機及對等伺服器之間的SAS連結之一單一傳輸。
  10. 如申請專利範圍第1項之多伺服器的電腦系統,其中由該主機伺服器接收到之一落在由該對等伺服器所擁有的該些直接存取的資料磁碟機上之熱I/O寫入請求係被儲存在位於該主機伺服器上的該快取記憶體中,並且鏡射在位於該對等伺服器上的該快取記憶體中,以避免在儲存於該主機及對等固態快取記憶體中的髒寫入資料上之潛在的資料衝突。
  11. 如申請專利範圍第10項之多伺服器的電腦系統,其中由該主機伺服器接收到之落在由該對等伺服器所擁有的該些直接存取的資料磁碟機上之該熱I/O寫入資料的高速暫存係包含該熱寫入的資料橫跨一在該主機及對等伺服器之間的SAS連結之一單一傳輸。
  12. 如申請專利範圍第1項之多伺服器的電腦系統,其中該主機快取記憶體係包括一位在該主機伺服器上的固態快取記憶體。
  13. 如申請專利範圍第12項之多伺服器的電腦系統,其中該對等快取記憶體係包括一位在該對等伺服器上的固態快取記憶體。
  14. 一種用於設置一多伺服器的電腦系統之方法,該多伺服器的電腦系統係包括一主機伺服器、一對等伺服器以及一高可取得性直連式儲存系統,該方法係包括以下步驟:設置由該主機伺服器所擁有的一第一組直接連接的資料磁碟機;設置由該對等伺服器所擁有的一第二組直接連接的資料磁碟機; 設置一包括一位在該主機伺服器上的主機快取記憶體以及一位在該對等伺服器上的對等快取記憶體的快取記憶體系統;其中該快取記憶體系統係提供對於儲存在該快取記憶體系統中的熱I/O資料之主動-主動存取,同時避免在該第一及第二組直接連接的資料磁碟機之間有關於該熱I/O資料之多重起始者的衝突;其中該主機快取記憶體係被配置以儲存從動態的系統使用所產生之熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的該些連接的資料磁碟機的所有權為何;其中該對等快取記憶體係被配置以儲存從動態的系統使用所產生之熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的該些連接的資料磁碟機的所有權為何;以及其中該主機及對等固態快取記憶體係進一步被配置以儲存橫跨該主機及對等固態快取記憶體鏡射之熱寫入的資料,以避免資料衝突發生在儲存於該主機及對等固態快取記憶體中的髒寫入資料上。
  15. 如申請專利範圍第14項之方法,其進一步包括以一種雙主動式配置來配置該第一及第二組直接連接的資料磁碟機的步驟。
  16. 如申請專利範圍第14項之方法,其進一步包括以一種主動-被動式配置來配置該第一及第二組直接連接的資料磁碟機的步驟。
  17. 如申請專利範圍第14項之方法,其進一步包括提供一位在該主機伺服器上的第一RAID控制器以及一位在該對等伺服器上的第二RAID控制器的步驟,其中該RAID控制器係中介對於該高可取得性直連式儲存系統的伺服器存取。
  18. 如申請專利範圍第14項之方法,其進一步包括在該主機伺服器上接收一落在儲存於位在該主機伺服器上的該快取記憶體中的熱讀取I/O資料上之熱I/O讀取請求,並且經由對於位在該主機伺服器上的該快取記憶體之直接記憶體存取以提供該請求的資料至該主機伺服器的系統記憶體的步驟。
  19. 如申請專利範圍第14項之方法,其進一步包括在該主機伺服器上接收一落在儲存於位在該對等伺服器上的該快取記憶體中的熱讀取I/O資料上之熱I/O讀取請求,並且經由對於位在該對等伺服器上的該快取記憶體之直接記憶體存取以提供該請求的資料至該主機伺服器的系統記憶體的步驟。
  20. 如申請專利範圍第14項之方法,其進一步包括在該主機伺服器上接收一落在由該主機伺服器所擁有的該些直接存取的資料磁碟機上之熱I/O寫入請求,儲存該熱寫入的資料在位於該主機伺服器上的該快取記憶體中,以及鏡射該熱寫入的資料在位於該對等伺服器上的該快取記憶體中以避免在儲存於該主機及對等固態快取記憶體中的髒寫入資料上之潛在的資料衝突的步驟。
  21. 如申請專利範圍第20項之方法,其中由該主機伺服器接收到之落在由該主機伺服器所擁有的該些直接存取的資料磁碟機上之該熱I/O寫入的高速暫存係包含該熱寫入的資料橫跨一在該主機及對等伺服器之間的SAS連結之一單一傳輸。
  22. 如申請專利範圍第14項之方法,其進一步包括在該主機伺服器上接收一落在由該對等伺服器所擁有的該些直接存取的資料磁碟機上之熱I/O 寫入請求,儲存該熱讀取的資料在位於該對等伺服器上的該快取記憶體中,以及鏡射該熱寫入的資料在位於該主機伺服器上的該快取記憶體中以避免在儲存於該主機及對等固態快取記憶體中的髒寫入資料上之潛在的資料衝突的步驟。
  23. 如申請專利範圍第22項之方法,其中由該主機伺服器接收到之落在由該對等伺服器所擁有的該些直接存取的資料磁碟機上之該熱I/O寫入資料的高速暫存係包含該熱寫入的資料橫跨一在該主機及對等伺服器之間的SAS連結之一單一傳輸。
  24. 如申請專利範圍第14項之方法,其中該主機快取記憶體係包括一位在該主機伺服器上的固態快取記憶體。
  25. 如申請專利範圍第14項之方法,其中該對等快取記憶體係包括一位在該對等伺服器上的固態快取記憶體。
  26. 一種多控制器的電腦系統,其係包括一伺服器、操作在該伺服器上的第一及第二I/O控制器以及一高可取得性直連式儲存系統,該高可取得性直連式儲存系統係包括:一由該第一I/O控制器所擁有的第一組直接連接的資料磁碟機;一由該第二I/O控制器所擁有的第二組直接連接的資料磁碟機;一位在該伺服器上的快取記憶體系統,其係包括一專用於該第一I/O控制器的第一快取記憶體以及一專用於該第二I/O控制器的第二快取記憶體;其中該快取記憶體系統係提供對於儲存在該第一及第二快取記憶體中的熱I/O資料之主動-主動存取,同時避免在該第一及第二組直接連接的資料磁碟機之間有關於該熱I/O資料之多重起始者的衝突; 其中該第一快取記憶體係被配置以儲存從動態的系統使用所產生之熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的該些連接的資料磁碟機的所有權為何;其中該第二快取記憶體係被配置以儲存從動態的系統使用所產生之熱讀取的資料,而不論該熱讀取的資料是永久儲存於其中的該些連接的資料磁碟機的所有權為何;以及其中該主機及對等快取記憶體係進一步被配置以儲存橫跨該第一及第二快取記憶體鏡射之熱寫入的資料,以避免資料衝突發生在儲存於該第一及第二快取記憶體中的髒寫入資料上,並且在伺服器或控制器失效的情形中提供未提交資料的可取得性。
TW102117497A 2012-06-19 2013-05-17 智慧型主動-主動高可取得性直連式儲存系統 TW201411348A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/526,881 US9015525B2 (en) 2012-06-19 2012-06-19 Smart active-active high availability DAS systems

Publications (1)

Publication Number Publication Date
TW201411348A true TW201411348A (zh) 2014-03-16

Family

ID=48625745

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102117497A TW201411348A (zh) 2012-06-19 2013-05-17 智慧型主動-主動高可取得性直連式儲存系統

Country Status (6)

Country Link
US (1) US9015525B2 (zh)
EP (1) EP2698703B1 (zh)
JP (1) JP2014002743A (zh)
KR (1) KR20130142965A (zh)
CN (1) CN103514108B (zh)
TW (1) TW201411348A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI613543B (zh) * 2014-04-30 2018-02-01 Huawei Tech Co Ltd 硬碟之間的交互方法、硬碟及集群系統

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014084836A1 (en) * 2012-11-29 2014-06-05 Hewlett-Packard Development Company, L.P. Fault tolerance in a multi-core circuit
US9037799B2 (en) * 2013-02-11 2015-05-19 Avago Technologies General Ip (Singapore) Pte Ltd Rebuild of redundant secondary storage cache
JP6146087B2 (ja) * 2013-03-28 2017-06-14 富士通株式会社 ストレージ制御プログラム,ストレージ制御方法,ストレージシステム及びその階層制御装置
GB201315435D0 (en) * 2013-08-30 2013-10-16 Ibm Cache management in a computerized system
US9785499B2 (en) * 2014-02-12 2017-10-10 Seagate Technology Llc Hot-read data aggregation and code selection
TW201614412A (en) * 2014-10-02 2016-04-16 Wistron Corp Server system and controlling method thereof
KR20160058458A (ko) 2014-11-17 2016-05-25 에스케이하이닉스 주식회사 메모리 시스템 및 메모리 시스템의 동작 방법
US9891849B2 (en) 2016-04-14 2018-02-13 International Business Machines Corporation Accelerated recovery in data replication environments
US10437730B2 (en) * 2016-08-22 2019-10-08 International Business Machines Corporation Read cache synchronization in data replication environments
CN106407409A (zh) * 2016-09-22 2017-02-15 Tcl集团股份有限公司 基于das架构存储服务器的虚拟文件系统及其文件管理方法
US10359953B2 (en) * 2016-12-16 2019-07-23 Western Digital Technologies, Inc. Method and apparatus for offloading data processing to hybrid storage devices
CN106681665B (zh) * 2016-12-29 2020-04-24 北京奇虎科技有限公司 缓存数据的持久化存储方法及装置
US10691368B2 (en) 2017-03-31 2020-06-23 Samsung Electronics Co., Ltd. System and method for providing data replication in NVMe-oF ethernet SSD
CN107301021B (zh) * 2017-06-22 2021-03-09 苏州浪潮智能科技有限公司 一种利用ssd缓存对lun进行加速的方法和装置
US10795913B2 (en) 2018-10-11 2020-10-06 Capital One Services, Llc Synching and reading arrangements for multi-regional active/active databases
US10606497B1 (en) 2018-10-24 2020-03-31 International Business Machines Corporation Systems and methods for managing replication path direction in storage networks
KR102084650B1 (ko) 2019-12-23 2020-03-04 (주)백산에스엔케이 작업장의 hse 관리를 위한 라우터 기능을 구비한 스마트 das
US11144252B2 (en) * 2020-01-09 2021-10-12 EMC IP Holding Company LLC Optimizing write IO bandwidth and latency in an active-active clustered system based on a single storage node having ownership of a storage object
US20230112764A1 (en) * 2020-02-28 2023-04-13 Nebulon, Inc. Cloud defined storage

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6412045B1 (en) * 1995-05-23 2002-06-25 Lsi Logic Corporation Method for transferring data from a host computer to a storage media using selectable caching strategies
US6567889B1 (en) * 1997-12-19 2003-05-20 Lsi Logic Corporation Apparatus and method to provide virtual solid state disk in cache memory in a storage controller
US6321298B1 (en) * 1999-01-25 2001-11-20 International Business Machines Corporation Full cache coherency across multiple raid controllers
US6681339B2 (en) * 2001-01-16 2004-01-20 International Business Machines Corporation System and method for efficient failover/failback techniques for fault-tolerant data storage system
US7752173B1 (en) * 2005-12-16 2010-07-06 Network Appliance, Inc. Method and apparatus for improving data processing system performance by reducing wasted disk writes
US7444541B2 (en) * 2006-06-30 2008-10-28 Seagate Technology Llc Failover and failback of write cache data in dual active controllers
US7395390B2 (en) * 2006-07-12 2008-07-01 Inventec Corporation System for backing up cache memory in a double backup server structure
US10572188B2 (en) 2008-01-12 2020-02-25 Hewlett Packard Enterprise Development Lp Server-embedded distributed storage system
US7921328B1 (en) * 2008-04-18 2011-04-05 Network Appliance, Inc. Checkpoint consolidation for multiple data streams
JP5187017B2 (ja) * 2008-06-18 2013-04-24 富士通株式会社 分散ディスクキャッシュシステム及び分散ディスクキャッシュ方法
US8627015B2 (en) * 2009-07-31 2014-01-07 Emc Corporation Data processing system using cache-aware multipath distribution of storage commands among caching storage controllers
US8458239B2 (en) 2009-12-16 2013-06-04 International Business Machines Corporation Directory traversal in a scalable multi-node file system cache for a remote cluster file system
CN102122235B (zh) * 2011-01-24 2012-07-25 武汉固捷联讯科技有限公司 一种raid4系统及其数据读写方法
US9037799B2 (en) * 2013-02-11 2015-05-19 Avago Technologies General Ip (Singapore) Pte Ltd Rebuild of redundant secondary storage cache

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI613543B (zh) * 2014-04-30 2018-02-01 Huawei Tech Co Ltd 硬碟之間的交互方法、硬碟及集群系統

Also Published As

Publication number Publication date
KR20130142965A (ko) 2013-12-30
CN103514108B (zh) 2018-03-27
JP2014002743A (ja) 2014-01-09
CN103514108A (zh) 2014-01-15
US20130339786A1 (en) 2013-12-19
US9015525B2 (en) 2015-04-21
EP2698703A1 (en) 2014-02-19
EP2698703B1 (en) 2019-12-11

Similar Documents

Publication Publication Date Title
TW201411348A (zh) 智慧型主動-主動高可取得性直連式儲存系統
US10664366B2 (en) Third vote consensus in a cluster using shared storage devices
US6754785B2 (en) Switched multi-channel network interfaces and real-time streaming backup
US8156195B2 (en) Systems and methods for obtaining ultra-high data availability and geographic disaster tolerance
US20140325157A1 (en) Data access request monitoring to reduce system resource use for background operations
US8407437B1 (en) Scalable metadata acceleration with datapath metadata backup
WO2011114384A1 (en) Storage system and method for changing configuration of cache memory for storage system
US10735500B2 (en) Application server to NVRAM path
JP2013156977A (ja) 冗長キャッシュデータのエラスティックキャッシュ
KR102199424B1 (ko) 솔리드 스테이트 드라이브 및 그것을 포함하는 스토리지 시스템
JP2012517628A (ja) 電力損失事象時にnvsデータを迅速に保護する方法、システム、及びコンピュータ・プログラム
US20140040549A1 (en) Storage array assist architecture
JP2010049502A (ja) ストレージサブシステム、及びこれを有するストレージシステム
KR20200041815A (ko) FPGA+SSD 내부의 임베디드 PCIe 스위치로 이레이저 코드 데이터 보호 기능을 지원하는 시스템
US20170220249A1 (en) Systems and Methods to Maintain Consistent High Availability and Performance in Storage Area Networks
US20170220476A1 (en) Systems and Methods for Data Caching in Storage Array Systems
US20180307427A1 (en) Storage control apparatus and storage control method
US11893260B2 (en) Snapshot-based remote replication
US11315028B2 (en) Method and apparatus for increasing the accuracy of predicting future IO operations on a storage system
US11513900B2 (en) Remote replication of snapshots taken while replication was inactive
US11392311B2 (en) Overlapping replication cycles for asynchronous replication
US12008018B2 (en) Synchronous remote replication of snapshots
US11755230B2 (en) Asynchronous remote replication of snapshots
US20210373771A1 (en) Remotely replicating duplicated data
WO2015011749A1 (ja) ストレージシステムおよびストレージシステムの障害管理方法