TWI534614B - 資料重複刪除技術 - Google Patents

資料重複刪除技術 Download PDF

Info

Publication number
TWI534614B
TWI534614B TW100131092A TW100131092A TWI534614B TW I534614 B TWI534614 B TW I534614B TW 100131092 A TW100131092 A TW 100131092A TW 100131092 A TW100131092 A TW 100131092A TW I534614 B TWI534614 B TW I534614B
Authority
TW
Taiwan
Prior art keywords
data
storage device
client
network
deduplication
Prior art date
Application number
TW100131092A
Other languages
English (en)
Other versions
TW201227291A (en
Inventor
威尼 林
Original Assignee
飛康國際網路科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 飛康國際網路科技股份有限公司 filed Critical 飛康國際網路科技股份有限公司
Publication of TW201227291A publication Critical patent/TW201227291A/zh
Application granted granted Critical
Publication of TWI534614B publication Critical patent/TWI534614B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Description

資料重複刪除技術 [相關申請案]
本申請案主張於2010年8月31日申請之美國臨時專利申請案61/402,535號的優先權,其之專利權屬於本申請案之專利權人,並在此以引用方式併於此。
本發明係有關資料重複刪除技術。
資料重複刪除(deduplication)藉由移除冗餘資料來減少系統的儲存需求,同時保留原始資料的外觀及呈現。例如,相同文件之兩或更多一樣的複本可能會出現在電腦中的貯存中並且由不相關的名稱加以識別。正常上,每一份文件都需要貯存。透過資料重複刪除,識別並移除貯存中之冗餘資料,釋放貯存空間給其他資料。當儲存相同資料的複數複本時,已使用之貯存的減少可能變得很顯著。亦可重複刪除與其他文件或檔案之部分一樣的文件或檔案之部分,導致額外的貯存減少。
欲實行資料重複刪除,在一範例中,散列(hash)資料區塊,導致比資料的原始區塊更小的散列值並且其獨特代表個別的資料區塊。可使用例如20位元組的SHA-1散列或MD5散列。識別出具有相同散列值之區塊並且僅儲存那資料區塊的一複本。將指向具有相同資料的區塊之位置的指標儲存在表中,與區塊的散列值關聯。
可提供遠端重複刪除設備來執行其他機器的重複刪除,如儲存待重複刪除之客戶機。重複刪除設備可提供標準網路檔案介面,如網路檔案系統(「NSF」)或通用網際網路檔案系統(「CIFS」),至其他機器。將由機器輸入至設備的資料作資料區塊冗餘性之分析。接著由重複刪除設備僅分配重複刪除設備上或與其關聯之貯存空間至尚未儲存於設備上或由設備儲存之獨特資料區塊。廢除冗餘資料區塊(具有例如,與已經儲存的資料區塊相同之散列值的那些)。可在存根(stub)檔案中提供指標以將已儲存的資料區塊與被廢除之資料區塊或諸資料區塊的位置或諸位置關聯。不會發生重複刪除直到客戶端發送待重複刪除之資料。
此程序可為動態的,其中在資料到達重複刪除設備的同時進行該程序,或予以延遲,其中由重複刪除設備暫時儲存到達的資料並接著加以分析。無論在哪種情況中,必須由儲存待重複刪除之資料的客戶機傳送資料集至重複刪除設備後才可移除冗餘性。重複刪除程序對把資料放入儲存系統中的客戶機而言為透明的。客戶機的使用因此不需關於重複刪除設備之工作的特殊或特別知識。客戶機可裝配重複刪除設備之網路共享貯存(「網路共享」)以傳送資料。經由NFS、CIFS、或提供輸送及介面之其他協定來傳送資料至重複刪除設備。
當客戶機上之使用者從客戶機存取文件或其他資料時,根據索引資訊在重複刪除設備中查詢該資料,且經由NFS、CIFS、或其他網路協定透明地返還給使用者。若使用者決定從第一位置複製文件至第二位置,針對資料管理操作,例如,必須從重複刪除設備擷取整個資料集並發送回客戶機。若目的地位置正好為重複刪除設備,則會再次重複刪除第二位置中之資料的複製,作為備份新資料。這很繁複,且可能會在客戶機及重複刪除設備中使用很多網路頻寬及CPU使用。
根據本發明之第一實施例,提供方法及系統以藉由重複刪除設備透過網路主動存取本地儲存於客戶電腦上之資料來重複刪除及儲存而不需客戶端發送資料至重複刪除設備,藉此減少重複刪除設備之實行及管理的複雜度。在一範例中,重複刪除設備裝配客戶電腦之一或更多本地儲存裝置(其被指定為可由重複刪除設備透過網路存取之網路共享儲存裝置);從本地儲存裝置存取資料;重複刪除該資料;並將獨特的資料儲存在由重複刪除設備所控制的貯存中。重複刪除設備可根據由客戶機所建立之規則(如重複刪除時程)從在客戶系統上之網路共享啟動檔案之存取及重複刪除。因此,待重複刪除之所有資料無需跨網路被移動至重複刪除設備,節省網路頻寬。重複刪除設備以指示器來取代客戶端上之資料,如指標或符號鏈結,指向重複刪除設備之貯存中之相應已儲存的資料,改變檔案成存根檔案。亦可由含有指示器之一或更多存根檔案取代含有資料之檔案。客戶端可藉由透明地存取由存根檔案所指之重複刪除設備上之資料位置來存取經重複刪除之資料檔案,藉此減少客戶端之儲存需求。
在第一實施例的一範例中,揭露一種將資料重複刪除的方法,藉由重複刪除設備經由網路裝配客戶機之網路共享儲存裝置;藉由該重複刪除設備存取在該網路共享儲存裝置上待重複刪除之資料;藉由該重複刪除設備將該資料重複刪除;藉由該重複刪除設備將該經重複刪除之資料儲存在第二儲存裝置上;以及以該第二儲存裝置中的該經重複刪除之資料的位置之至少一指示器取代在該網路共享儲存裝置中的該資料。該資料可在資料檔案中並且可由含有該至少一指示器的至少一存根檔案取代該資料檔案。可根據由該客戶機建立之至少一規則裝配該第一儲存裝置。該指示器可包含指標。
在第一實施例的另一範例中,揭露一種將資料重複刪除之系統,包含:第一儲存裝置及包含處理器之重複刪除設備。該處理器係組態成經由網路裝配客戶機之網路共享儲存裝置;存取在該網路共享儲存裝置上待重複刪除之資料;將該資料重複刪除;將該經重複刪除之資料儲存在第一儲存裝置上;以及以該第一儲存裝置中的該經重複刪除之資料的位置之至少一指示器取代在該網路共享儲存裝置中的該資料。該指示器可為指標。該資料可在資料檔案中,其可由含有該至少一指示器的一存根檔案加以取代。重複刪除設備可組態成根據由該客戶機建立之至少一規則裝配該第一儲存裝置。
該重複刪除設備可進一步組態成提供一程式至一客戶機,該程式係組態成,回應於來自客戶端之將資料從第一位置複製到該客戶機器上的第二位置之請求,判斷待複製的該資料之來源及目的地是否在該重複刪除設備上;以及若該資料的該來源及目的地在該重複刪除設備上,在該第二位置提供指向該第二儲存裝置中之該經重複刪除資料的該位置之至少一第二指示器。該至少一第二指示器可包含在至少一存根檔案中,且程式可組態成在含有至少一第二指示器的該第二位置中創造至少一第二存根檔案。該程式可包含在該客戶機上的代理程式、插件模組、或核心。
根據本發明之第二實施例,在客戶系統上實行一功能以管理複製儲存在重複刪除設備上之經重複刪除資料的檔案之請求,其中目的地位置亦在重複刪除設備上,而不移動或複製實際的資料。這種複製常用於例如資料管理操作中。在一範例中,當希望複製已經重複刪除且現由第一位置中之存根檔案代表之資料檔案,可實行在此稱為「dcopy」的命令以在客戶端上於希望的第二位置創造含有指示器之一額外的存根檔案,該指示器指向在重複刪除設備之貯存上的資料之位置。這免除實際複製資料並提供資料至客戶端的需要。藉此節省在客戶端及重複刪除設備兩者中之時間、網路頻寬、及CPU使用率。
根據本發明之第二實施例的一範例,揭露一種複製由重複刪除設備所儲存的經重複刪除資料的方法,包含由客戶機接收將資料從第一位置複製至第二位置的請求;藉由判斷該第一位置是否包括指向其中儲存該資料的該重複刪除設備上之第三位置的一指示器來判斷在該第一位置中的該資料是否具有在該重複刪除設備上的來源。該方法進一步包含判斷該第二位置是否具有在該重複刪除設備上之目的地;以及若該來源及該目的地在該重複刪除設備上,則在該第二位置提供指向該重複刪除設備上之該第三位置的至少一第二指示器。複製資料的該請求可包含複製資料檔案之請求,且該方法可進一步包含,若該來源及該目的地在該重複刪除設備上,則提供含有至少一第二指示器的至少一第二存根檔案至該第二位置,例如,複製該至少一第一存根檔案至該第二位置。
可由該客戶機經由網路提供該資料至該重複刪除設備。該第一位置及該第二位置可在該重複刪除設備之網路共享儲存裝置上。替代地,該客戶機可包括可經由網路由該重複刪除設備存取的網路共享儲存裝置,且該第一及該第二位置可在該網路共享儲存裝置中。可由在該客戶機上的代理程式、插件模組、或核心實行該方法。
根據本發明之第二實施例的另一範例,揭露一種複製由重複刪除設備所重複刪除的資料之系統,包含至少一第一儲存裝置,以及組態成在該至少第一儲存裝置上接收將資料從第一位置複製至第二位置的請求之處理器。該處理器進一步組態成藉由判斷該第一位置是否包括指向其中儲存該資料的該重複刪除設備上之第三位置的一指示器來判斷在該第一位置的該資料是否具有在該重複刪除設備上的來源。該處理器進一步組態成判斷該第二位置是否具有在該重複刪除設備上之目的地;以及若該來源及該目的地在該重複刪除設備上,提供指向該第三位置的至少一第二指示器。該資料的該請求可包含資料檔案之請求,且該處理器可組態成,若該來源及該目的地在該重複刪除設備上,則複製該至少一第一存根檔案至該第二位置。
該處理器可組態成經由網路提供待重複刪除之資料至該重複刪除設備,且該第一位置及該第二位置可在該重複刪除設備之網路共享儲存裝置中。替代地,該客戶機可包括可經由網路由該重複刪除設備存取的網路共享儲存裝置,且該第一及該第二位置可在該網路共享儲存裝置中。可由代理程式、插件模組、或核心控制該處理器。
根據本發明之第二實施例的另一範例,揭露一種重複刪除設備,包含儲存經重複刪除之資料的儲存裝置;以及組態成提供客戶機軟體之處理器,客戶機軟體組態成在該客戶機上監視將資料從第一位置複製至第二位置的請求。該軟體進一步組態成藉由判斷該第一位置是否包括指向其中儲存該資料的該重複刪除設備上之第三位置的一指示器來判斷該第一位置是否具有在該重複刪除設備上的來源。該軟體進一步組態成判斷該第二位置是否具有在該重複刪除設備上之目的地;以及若該來源及該目的地在該重複刪除設備上,則提供指向該第三位置的至少一第二指示器。
第1圖為根據本發明之一實施例的其中可由重複刪除設備140進行重複刪除的系統100之一範例的區塊圖。系統100包含一或更多客戶端110-A、110-B、及110-C、網路120、及重新傳輸設備140。雖然在第1圖中所示之範例中系統100包含三個客戶端110-A、110-B、及110-C,可包括更多或更少客戶端。
每一客戶端110-A、110-B、及110-C可包含硬體、軟體、或硬體及軟體之組合。在一範例中,每一客戶端110-A、110-B、及110-C包含一或更多電腦或其他裝置,諸如一或更多個人電腦(PC)伺服器或工作站。替代地,客戶端110-A、110-B、及110-C之一或更多者可包含存在於電腦或其他裝置上的軟體應用。
欲本地儲存資料,客戶機110-A、110-B、及110-C亦可分別包括本地儲存裝置111、121、131。儲存裝置111、121、及131,或那些儲存裝置之任何者或全部之部分,係被個別客戶裝置110-A、110-B、及110-C指定成網路共享儲存裝置,容後詳述。儲存裝置111、121、及131可包含能夠儲存資料的任何裝置,如碟驅動機、帶驅動機、快閃驅動機、及/或光學裝置等等。替代地,每一客戶端110-A、110-B、及110-C可存取一個別外部儲存裝置以儲存資料並且亦可被指定成網路共享儲存裝置。每一客戶機110-A、110-B、及110-C管理本地產生及/或儲存之資料。
網路120可包含任何一或更多的若干不同類型之網路。在一範例中,藉由IP協定的機制透過網路120進行通訊。在另一範例中,可藉由纖維通道協定的機制透過網路120進行通訊。因此,網路120可例如為內部網路、區域網路(LAN)、廣域網路(WAN)、纖維通道儲存域網路(SAN)、乙太網路、或網際網路。
在第1圖中,重複刪除設備140包含處理器402、記憶體150、及儲存裝置142。儲存裝置142可包含能夠儲存資料的任何裝置,如碟驅動機、帶驅動機、快閃驅動機、及/或光碟等等。替代地,重複刪除設備140可使用外部儲存裝置或可透過網路120存取之儲存裝置。處理器402可包含硬體、軟體、或硬體及軟體之組合。處理器402可為例如經適當編程之電腦處理器。本地儲存裝置111-A,顯示在陰影中,代表對上述之客戶端110-A中之網路共享本地儲存裝置111-A的存取。在第4圖中更詳細顯示重複刪除設備之一範例。
根據本發明之第一實施例,重複刪除設備140經由網路120存取位在本地儲存裝置111、121、及131上之資料,重複刪除該資料、並儲存經重複刪除之資料於儲存裝置142中。欲致能對本地儲存裝置111、121、及131上之資料的存取,重複刪除設備140裝配網路共享本地儲存裝置111、121、及131或其之部分。裝配網路共享本地儲存裝置111、121、及131提供對本地儲存裝置上之資料的存取,就如同本地儲存裝置存在於重新傳輸設備之中或直接連接至其。這示意性顯示在第1圖中,其中相應於客戶機110-A之本地儲存裝置111的儲存裝置111-A顯示在重複刪除設備140中之陰影中。雖第1圖顯示整個本地儲存裝置111作為網路共享,僅本地儲存裝置之一部分可指定為網路共享並可由重複刪除設備140裝配。從客戶端110-A經過網路120至重複刪除設備140之虛線NS示意性代表重複刪除設備對本地儲存裝置111上之資料的存取。
由重複刪除設備140經由網路共享以指向儲存裝置142上之經重複刪除之資料檔案的位置之指示器來取代客戶機110-A、110-B、及110-C上之檔案中的資料,將資料檔案改變成存根檔案(stub file)。藉此保留客戶機110-A、110-B、及110-C上之資料的原始外觀(目錄及檔案結構)。在客戶機110-A、110-B、及110-C之本地儲存裝置111上減少儲存需求並增加可用儲存空間。指示器可為例如指標。若客戶機110-A、110-B、及110-C使用Unix操作系統,指標可為符號檔案鏈結。
可藉由此技藝中已知的任何技術來執行重複刪除功能。在一範例中,藉由將資料分成資料區塊或資料段並處理資料區塊來重複刪除資料。重複刪除設備140讀取每一資料區塊,並計算每一資料區塊之訊息文摘或數位指紋,如散列值,而不傳送資料區塊至重複刪除設備。訊息文摘小於原始個別的資料區塊並獨特地代表每一資料區塊。在美國專利號7,055,008、美國專利申請案公開號2007/0198659、及美國專利號7,962,499中討論資料區塊之散列值的計算,其之專利權屬於本發明之專利權人並且其全部內容以引用方式併於此。將所得之散列值與已儲存在儲存裝置142上之資料區塊的散列值。
可藉由重複刪除設備140將散列值儲存在散列值之資料庫中。資料庫可例如在儲存裝置142、記憶體150、或其他記憶體中,以表的形式呈現。該表可關聯散列值、其中相應的資料區塊所來自之客戶機110-A上的位置、以及其中儲存該資料區塊之重複刪除設備140上的位置,如儲存裝置142上的位置。若發現資料區塊為獨特的(散列值尚未儲存於表中),則例如從客戶機110-A上之儲存位置複製該資料區塊並且儲存於儲存裝置142上。將資料區塊之散列值添加至表,連同如指標之指示器,指向在重複刪除設備140之貯存中的實際資料區塊之位置。亦可將在客戶機110-A上之資料區塊的先前位置包括在表中。
若資料區塊或資料區塊部分之散列值匹配表中之散列值,則一樣的資料區塊或資料區塊部分非獨特且已經被重複刪除設備140儲存。不需將資料區塊的另一複本傳送至重複刪除設備140並儲存,節省網路頻寬。在此情況中,可更新表以例如包括客戶機110-A上之位置,其中為重複的資料區塊/資料區塊部分所在,並且以指向重複刪除設備140上之已儲存的重複資料區塊之指標來取代客戶端上之資料。
每一資料區塊的尺寸可為固定或可變,取決於操作系統或系統管理員的偏好。固定區塊較容易管理,但會浪費空間。可變區塊能較佳利用可用的備用空間,但卻有些難以追蹤。另外,區塊的尺寸可隨不同檔案而變。例如,一選項可為讓每一檔案含有固定數量的區塊N-來自尺寸S1之較大檔案的每一區塊的尺寸可為S1/N且來自尺寸S2之較小檔案的每一區塊的尺寸可為S2/N,其中S1/N>S2/N。可變尺寸之區塊的一特別情況為整個檔案本身(其中例如N=1),然而,具有較小尺寸之區塊比較可能有利,以避免需要儲存僅於備份之間稍微改變之大檔案。另外,區塊的尺寸可能限於用來創造訊息文摘之特定演算法的需求。
藉由實質上無衝突演算法來產生散列值,其依據所輸入的資料來產生概率獨特的散列值。實質上無衝突演算法之範例為SHA-1演算法及MD5(訊息文摘5)演算法。可使用兩者的任一者,例如,如美國專利號7,055,008及美國專利申請案公開號2006/0218638中所述,其之專利權屬於本發明之專利權人並且其全部內容以引用方式併於此。美國專利申請案公開號2006/0218638,其之專利權屬於本發明之專利權人並且其全部內容以引用方式併於此,描述亦可使用之其他技術。
第2圖為客戶機110-A之一範例的區塊圖。在此範例中之客戶機110-A包含處理器232、介面234、記憶體238、及本地儲存裝置111。處理器232控制客戶電腦110-A之操作,包括當使用者請求時擷取位在重複刪除設備140之儲存裝置142上之資料。記憶體238可包含隨機存取記憶體(RAM)。在一範例中,記憶體238由處理器232用來短期地儲存資料,如此技藝中已知。介面234提供通訊閘道,透過其可在處理器232與網路120之間傳送資料。介面234可包含若干不同機制之任一或更多者,諸如一或更多SCSI卡、企業系統連結卡、纖維通道介面、數據機、或網路介面。
客戶端110-A可例如本地儲存資料於本地儲存裝置111中。處理器232及本地儲存裝置111可透過一或更多額外介面裝置(未圖示)耦合。可將資料以資料檔案的形式儲存在本地儲存裝置111中,可將資料檔案轉而組織及群集在文件庫中。有時可把文件庫稱為「目錄」,並且在另一目錄內之目錄有時稱為「子目錄」。替代地,可使用其他資料結構來儲存資料。
以資料檔案或文件庫的形式儲存資料,並且維持目錄以促進對這種檔案及文件庫的存取為眾所週知的技術。在第3圖中,由目錄路徑「/X」界定文件庫315,並包含檔案1、檔案2、及檔案3。文件庫315本身亦含有另一的文件庫或子文件庫,其係由目錄路徑「/X.1」(329)所界定,其則含有檔案4及檔案5。據此,每一檔案與一獨特的儲存位址關聯,其部分由其之目錄路徑所指定。應注意到可將文件庫中所儲存之各個資料檔案(如檔案1、2、3等等)集體儲存在單一儲存裝置上,如單一碟驅動機,或替代地可集體儲存在多個儲存裝置上,如第一碟驅動機上之檔案1、第二碟驅動機上之檔案2、等等。
第4圖為可實行本發明之實施例的示範重複刪除設備140之更詳細的區塊圖。重複刪除設備140包含處理器402、介面404、記憶體150、儲存裝置142、及控制模組435。處理器402控制重複刪除設備140之操作,包括從儲存裝置142儲存並存取經重複刪除之資料;儲存資料至記憶體150並從記憶體150存取資料;以及在請求時存取並傳送資料至客戶機110-A、110-B、及110-C。控制模組435指揮來自客戶機110-A、110-B、及110-C之資料的存取及重複刪除。記憶體150可例如包含隨機存取記憶體(RAM)。記憶體150可被處理器402用來短期地儲存資料。介面404提供通訊閘道,透過其可在處理器402與網路120之間傳送資料。介面404可包含若干不同機制之任一或更多者,諸如一或更多SCSI卡、企業系統連結卡、纖維通道介面、數據機、或網路介面。在此範例中,重複刪除設備140包含電腦,如以Intel處理器為基礎之個人電腦。
儲存裝置142可包含一或更多碟驅動機,或能夠儲存資料之任何適當裝置,如帶驅動機、快閃驅動機、光碟、等等。儲存裝置142可執行在區塊級或檔案級之資料儲存操作。可由一或更多額外介面裝置連接處理器402及儲存裝置142。在一替代範例中,儲存裝置142可包含與重複刪除設備140分開之儲存系統。在此情況中,儲存裝置142可包含碟驅動機、帶驅動機、快閃驅動機、光碟、等等,並亦可包含智慧型組件,包括例如,處理器、儲存管理軟體應用、等等。
控制模組435可根據由個別客戶機110-A、110-B、及110-C建立之時程及/或其他規則,指揮從本地儲存裝置111(在客戶機110-A中)之資料的存取並將資料重複刪除並儲存於儲存裝置142中。欲促進經重複刪除之資料區塊的儲存,控制模組435可在儲存裝置142中維持一或更多資料庫。例如,控制模組435可在儲存裝置142中創造並維持檔案物件資料庫481。可以含有檔案及文件庫之檔案目錄結構的形式維持檔案物件資料庫481,其在散列表中含有指向每一檔案中之資料區塊的位置。另外,檔案物件資料庫481可包含關係資料庫或任何其他適當的資料結構。目錄、檔案、及文件庫可依據含有在客戶機110-A上之經重複刪除資料的目錄、檔案、及文件庫。控制模組435可包含運作於處理器402上之軟體、硬體、或軟體及硬體之組合。
經由網路由遠端處理器裝配儲存裝置為此技藝中已知。例如運作Windows操作系統軟體之重複刪除設備140可裝配儲存裝置111的全部或一部分以取得對客戶端之網路共享的存取,這是藉由使用內建於Windows中之「映射一驅動機」功能。若重複刪除設備使用Linux操作系統,則可使用「裝配」命令。重複刪除設備140接著能夠觀看並橫越本地儲存裝置111的需要部分之目錄結構,如第3圖中所示之目錄結構,並存取包含在儲存裝置111上之檔案,就如同檔案是本地儲存在重複刪除設備140上般。客戶端110-A可使用能夠允許透過網路存取其之檔案之任何操作系統(檔案共享)。重複刪除設備140可接著存取位在本地儲存裝置111上之包含單一檔案、多個檔案、整個文件庫、或多個文件庫之資料集。不一定非得藉由外部資料移動器來實際移動資料,如在先前技術重複刪除系統中般。網路協定包括例如NSF及CIFS。
重複刪除設備140可例如根據由個別客戶機110-A、110-B、及110-C所建立之一或更多備份策略來使資料被備份。備份策略可指定參數,包括儲存裝置、目錄、或待備份之檔案;備份時間;及/或備份頻率等等。欲讓使用者得以建立這種備份策略,可例如由重複刪除設備140提供代理器以供在客戶端上之操作。代理器可產生圖形使用者介面(「GUI」)以供每一客戶端110-A、110-B、及110-C使用來促進初始設定及備份策略之參數的選擇,並傳送策略至重複刪除設備140。重複刪除設備140可進一步協調優先、排程、及一或更多客戶端之個別備份策略的其他態樣。這致能重複刪除設備140之資源的有效率使用。
舉例而言,使用者可引動Windows Explorer以檢查儲存在客戶端110-A上之儲存裝置111中的各個文件庫以及檔案。欲備份例如文件庫315中之檔案1的內容,使用者使用電腦滑鼠選擇螢幕上的檔案1,並接著「右點擊」電腦滑鼠以選擇想要的選項。作為回應,重複刪除設備140令GUI出現在螢幕上並讓使用者指定或編輯備用策略。
在使用者選擇待備份之資料集(檔案、文件庫、等等)並建立備份選定資料集之一或更多策略之後,重複刪除設備140根據指定的策略備份資料集。例如,客戶端110-A的使用者可指定每日在10:00 AM備份檔案1。重複刪除設備140的控制模組435可監視內部時鐘(未圖示)並且,並且依據使用者指定的參數,當時鐘指示時間為10:00 AM時導致檔案1中之資料的重複刪除。參照第3圖,在其他範例中,客戶機110-A可建立將重複刪除整個目錄/X或僅重複刪除目錄/X.1之規則。在另一範例中,客戶機110-A可建立一天一次在午夜重複刪除整個目錄,同時亦在6:00 AM重複刪除目錄/X.1的規則。一旦設定備份策略,重複刪除設備140實行重複刪除策略則無需客戶端110-A的進一步干涉,除非客戶端想要改變策略。
第5圖為根據本發明之一實施例的重複刪除資料集之常式的一範例之流程圖500,其中至少部分使用重複刪除設備140為備份貯存並且其中已經如上述般建立備份/重複刪除策略。在由重複刪除策略建立之時間,由控制模組435觸發重複刪除設備140之處理器402以在步驟510中,使用本地儲存裝置111作為網路共享,將資料集安裝到本地儲存裝置111-A以待重複刪除。在步驟520中,處理器402存取在本地儲存裝置111上將受到重複刪除之檔案或諸檔案中資料。在步驟530中,處理器402例如藉由控制模組435使用記憶體150來將每一檔案中的資料分成預定尺寸之區塊。在步驟540中,例如,處理器402藉由使用適合的散列函數產生每一資料區塊的訊息文摘。在步驟550中,例如,將每一訊息文摘匹配已經儲存在重複刪除設備140之儲存裝置142中之散列表中的訊息文摘集。替代地,可連同如上所述的本發明之實施例應用此技藝中已知達成任何重複刪除技術之其他步驟。
若沒有發現資料區塊的匹配訊息文摘,處理器402複製資料區塊至儲存裝置142,並且於訊息文摘表中儲存那個資料區塊之訊息文摘,還有指向儲存裝置142中之資料區塊的位置之指標。在步驟560中,處理器402亦藉由例如指向儲存裝置142上之位置的指標來取代客戶機110-A上之檔案中的資料區塊,改變原始資料檔案成為存根檔案。在本地儲存裝置111上之資料區塊的原始位置亦可儲存在訊息文摘表或其他位置中。
若訊息文摘已經存在於儲存裝置142中,則已經備份了資料區塊的複製。在步驟570中,可從客戶端上之本地儲存裝置111移除資料區塊並由處理器402以指向已儲存之資料區塊的位置之指標加以取代。亦可更新訊息文摘表以參照至本地儲存裝置111中之資料區塊的第二複製位置。
若在客戶機110-A的網路共享貯存中有額外待重複刪除之資料,則程序可從步驟520重複。根據備份策略,下次開始重複刪除時,程序亦可從步驟510重複。
Dcopy功能
如上述,根據本發明之另一實施例,在客戶機上從第一位置複製資料至第二位置時,若資料的來源在重複刪除設備上且複製的目的地亦在重複刪除設備上時,可促進其。若已經重複刪除待複製之資料並且在客戶機上之第一位置中之資料處出現存根檔案/指示器,則資料的來源在重複刪除設備上。若第二位置受到重複刪除,則資料的目的地亦在重複刪除設備上。若根據先前技藝技術重複刪除資料,其中由客戶機發送資料至重複刪除設備以作重複刪除,第二位置為驅動機、儲存裝置、或目錄,將從其發送資料至重複刪除設備。若重複刪除設備根據本發明之第一實施例重複刪除,第二位置是在一儲存位置中,其為受到重複刪除設備140的重複刪除之網路共享貯存的一部分,如上所述。
根據本發明之此實施例,當資料的來源及目的地都在重複刪除設備上時,取代發送請求資料之複本至客戶機(其需從重複刪除設備跨過網路發送資料的複本至客戶機),在客戶機上創造一額外的指標或存根檔案,指示在重複刪除設備上之資料的位置。可將相應於待複製之檔案的指標或存根檔案複製到想要的第二位置中。這節省網路頻寬及客戶機上之貯存。可實行一命令,在此稱為「dcopy」以藉由創造含有指向重複刪除設備上之資料的符號鏈結或指標的額外存根檔案來複製資料檔案。
可藉由判斷指示器或含有指示器之存根檔案是否存在於第一位置中來判斷第一位置中之資料的來源是否在重複刪除設備上。若是,則已重複刪除資料/資料檔案並且來自第一位置之資料儲存於重複刪除設備140上。若資料或資料檔之位置為受到重複刪除之位置,則可判斷資料之目的地是否在重複刪除設備上。
此功能可由重複刪除設備140所下載之軟體來實行。軟體可為設計成監視客戶系統上之複製請求的代理程式、由重複刪除設備提供以例如與Windows Explorer接介的插件模組、或由重複刪除設備140併於客戶端的操作系統中之核心。
dcopy請求可由客戶機(例如客戶機110-A)上之使用者直接引動。在運作Windows之客戶端上之使用者可藉由於檔案或檔案集上「右點擊」(其會呈現出引動複製之選項)來請求複製。應用軟體,如執行檔案操縱或資料操作的軟體,亦可引動dcopy。若客戶機需要實際資料的複本,也可提供其。應注意到「dcopy」僅為命令之一範例。可使用其他命令名稱及格式。
第6圖為在dcopy軟體580的控制下由客戶機110-A之處理器232所實行之dcopy功能的示意表示,dcopy軟體580在此範例中為重複刪除設備140所下載之代理程式。同樣在此範例中,本地儲存裝置111為網路共享貯存且由本發明之第一實施例的重複刪除程序重複刪除資料,其中重複刪除設備140裝配客戶機110-A的網路共享,如上所述。第6圖顯示在儲存位置1中之第一存根檔案1。存根檔案1包括指向重複刪除設備之儲存裝置142上的一位置(如在位置1001)之指標582。顯示將存根檔案1在dcopy程序中被複製到儲存位置2。存根檔案2亦包含指向儲存裝置142上之位置1001的指標582’。
注意到雖然在此範例中本地貯存111亦為網路共享貯存,其非必須,且可已經由其他技術重複刪除在儲存位置1中之資料,如上述。第7圖為先前技術重複刪除裝置10之一範例,包括為網路共享裝置之本地儲存裝置12、處理器14、記憶體16、及儲存裝置18。客戶機20具有本地儲存裝置22。客戶機20可藉由裝配網路共享儲存裝置12跨網路120存取重複刪除裝置10之網路共享儲存裝置12。因此在客戶機20中以虛線指示網路共享儲存裝置12並識別成本地儲存裝置12-A。客戶機20例如從本地儲存裝置22傳送待重複刪除之資料/資料檔案至重複刪除設備。重複刪除裝置10之處理器14如上述般重複刪除資料,例如,儲存獨特資料區塊及相應的訊息文摘於儲存裝置18上的表中,並且以指向表中之資料區塊的位置之指示器或含有指示器的存根檔取代資料或資料檔案。可在網路共享儲存裝置12中儲存存根檔案,所以客戶機藉由裝配網路共享儲存裝置而存取它們。第8圖顯示在網路共享儲存裝置12中在位置1中之存根檔案1。如在第1圖中般,重複刪除裝置10還可從額外客戶機(未圖示)重複刪除資料。
在此範例中還可由客戶機20實行Dcopy功能。第8圖為重複刪除裝置10之示意表示,包括本地儲存裝置12,其為網路共享。在本地儲存裝置12之位置1提供存根檔案1,包括指向儲存在儲存裝置18(在此圖中未顯示)中之資料區塊的指標1。客戶機20,包括處理器24、實行dcopy功能之代理程式26、及虛線中之本地儲存裝置12-A。位置1中之存根檔案1亦顯示於本地儲存裝置12-A中的虛線中。由於本地儲存裝置12為網路共享,當客戶機20裝配該本地儲存裝置時,其可存取存根檔案1就如同該檔案儲存在客戶機本身上一般。
若客戶機20從使用者或從軟體應用接收複製在位置1的相應於存根檔案1之檔案至第二位置(位置2)之請求,在代理程式26的控制下,處理器24引動dcopy以判斷待複製之資料檔案的來源及目的地是否在重複刪除設備上,如上述,且若是,將重複刪除設備之本地儲存裝置12中的存根檔案1複製到重複刪除設備10之網路共享12中的第二位置(位置2)中,包括指標1。客戶機20可存取存根檔案2就如同其存在於客戶端本身上般,如在本地儲存裝置12-A中的虛線中之存根檔案2所示。重複刪除裝置10可下載代理程式、插件模組、或核心至客戶機20,以也實行在此範例中之dcopy功能。
第9圖為實行本發明之第二實施例的常式600之一範例。在步驟610中,由客戶機110-A之處理器232接收來自使用者的複製一檔案至一位置之命令。由處理器232經由例如代理器、插件模組、或核心判斷待複製的該檔案是否具有來源及目的地於重複刪除設備140中。
若判斷檔案具有來源及位置在重複刪除設備140上,則引動dcopy以藉由代理器、插件模組、或核心將在第一位置中包含指向重複刪除設備140上之待複製的檔案之位置的指示器或諸指示器的存根檔案複製到第二位置。
若檔案來源及位置不在重複刪除設備140上,則由處理器232執行標準複製。
此技藝中具有通常知識者將理解到可對上述之實施例做出其他改變而不背離本發明之精神及範疇,其是由下列之申請專利範圍所界定。
100...系統
110-A、110-B、110-C...客戶端
111-A...本地儲存裝置
112、121、131...本地儲存裝置
120...網路
140...重複刪除設備
142...儲存裝置
150...記憶體
232...處理器
234...介面
238...記憶體
315...文件庫
402...處理器
404...介面
435...控制模組
481...檔案物件資料庫
580...dcopy軟體
582...指標
582’...指標
1001...位置
10...重複刪除裝置
12...本地儲存裝置
12-A...本地儲存裝置
14...處理器
16...記憶體
18...儲存裝置
20...客戶機
22...本地儲存裝置
24...處理器
26...代理程式
第1圖為根據本發明之一實施例的由重複刪除設備進行之重複刪除的系統之一範例的區塊圖;
第2圖為在第1圖之系統中的客戶機之一範例的區塊圖;
第3圖為包括文件庫及檔案之目錄的階層結構之一範例;
第4圖為可實行本發明之實施例的示範重複刪除設備之更詳細的區塊圖;
第5圖為根據本發明之一實施例的重複刪除備份資料集之常式的一範例之流程圖;
第6圖為當用於第1圖之系統中時本發明之第二實施例的一範例之示意表示;
第7圖為由重複刪除設備進行重複刪除的先前技術系統之一範例的區塊圖;
第8圖為當用於第7圖之系統中時本發明之第二實施例的一範例之示意表示;
第9圖為根據本發明之第二實施例的複製經重複刪除資料之常式的一範例之流程圖。
100...系統
110-A、110-B、110-C...客戶端
111-A...本地儲存裝置
111、121、131...本地儲存裝置
120...網路
140...重複刪除設備
142...儲存裝置
150...記憶體
402...處理器

Claims (20)

  1. 一種將包括專屬本地儲存之客戶機的資料重複刪除之方法,包含:藉由經網路之重複刪除裝置,裝配該客戶機之該專屬本地儲存的至少一部分,該專屬本地儲存的該至少一部分由該客戶機指定為網路共享儲存裝置,該本地儲存係與該重複刪除裝置分開;藉由該重複刪除裝置存取在該網路共享儲存裝置上待重複刪除之資料;藉由該重複刪除裝置將該資料重複刪除,而無須將該待重複刪除之資料轉移至該重複刪除裝置;藉由該重複刪除設備將該經重複刪除之資料儲存在第二儲存裝置上;以及以該第二儲存裝置中的該經重複刪除之資料的位置之至少一指示器取代在該網路共享儲存裝置中的該資料。
  2. 如申請專利範圍第1項所述之方法,其中存取資料包含:藉由該重複刪除裝置存取在該網路共享儲存裝置中的待重複刪除之資料檔案;以及取代該資料包含:以含有該至少一指示器之至少一存根檔案取代該資料檔案。
  3. 如申請專利範圍第1項所述之方法,包含:根據由該客戶機建立之至少一規則裝配該第一儲存裝 置。
  4. 如申請專利範圍第3項所述之方法,其中從由下列之一或更多組成之群組選擇該規則:該客戶機之該網路共享儲存裝置的識別、在該網路共享儲存裝置上之待重複刪除的目錄之識別、在該網路共享儲存裝置上之待重複刪除的檔案之識別、重複刪除時間、及重複刪除頻率。
  5. 如申請專利範圍第1項所述之方法,其中該至少一指示器包含至少一指標。
  6. 如申請專利範圍第1項所述之方法,進一步包含:由該客戶機從使用者接收將資料檔案從該網路共享儲存裝置上的第一位置複製到該網路共享儲存裝置上的第二位置之請求,其中該資料檔案包含由該重複刪除設備儲存的該經重複刪除資料;以及回應於該請求,若待複製之該資料的來源及目的地為該重複刪除設備,提供含有指向在該第二儲存裝置中之該經重複刪除資料的該位置之至少一指示器的至少一第二存根檔案。
  7. 如申請專利範圍第6項所述之方法,包含:由該客戶機上的代理程式、插件模組、或核心提供該至少一第二存根檔案。
  8. 如申請專利範圍第6項所述之方法,其中該至少一指示器包含至少一指標;及提供在該第二位置的至少一第二存根檔案,包含:複製該至少一第一存根檔案至該第二位置,該至少一 第一存根檔案包括該至少一指示器以形成該至少一第二存根檔案。
  9. 如申請專利範圍第1項所述之方法,其中該網路包含內部網路、區域網路、廣域網路、纖維通道儲存域網路、乙太網路、或網際網路。
  10. 如申請專利範圍第1項所述之方法,其中該網路共享儲存裝置包含一本地儲存裝置的至少一部分。
  11. 一種將資料重複刪除之系統,包含:儲存裝置;以及包含至少一處理器之重複刪除裝置,其係組態成:經由網路裝配客戶機之專屬本地儲存的至少一部分於該儲存裝置上,該專屬本地儲存的該至少一部分由該客戶機指定為網路共享儲存裝置,該本地儲存係與該重複刪除裝置分開;存取在該客戶機之該網路共享儲存裝置上待重複刪除之資料;將該資料重複刪除,而無須將該待重複刪除之資料轉移至該重複刪除裝置;將該經重複刪除之資料儲存在儲存裝置上;以及以該儲存裝置中的該經重複刪除之資料的位置之至少一指示器取代在該網路共享儲存裝置中的該資料。
  12. 如申請專利範圍第11項所述之系統,其中該重複刪除裝置係組態成:存取在該客戶機之該網路共享儲存裝置中的待重複刪 除之資料檔案;將該資料檔案中之該資料重複刪除;以及以含有該至少一指示器之存根檔案取代該資料檔案。
  13. 如申請專利範圍第12項所述之系統,其中該重複刪除設備係組態成:根據由該客戶機建立之至少一規則裝配該第一儲存裝置。
  14. 如申請專利範圍第13項所述之系統,其中從由下列之一或更多組成之群組選擇該至少一規則:該客戶機之該網路共享儲存裝置的識別、在該網路共享儲存裝置上之待重複刪除的目錄之識別、在該網路共享儲存裝置上之待重複刪除的檔案之識別、重複刪除時間、及重複刪除頻率。
  15. 如申請專利範圍第11項所述之系統,其中該至少一指示器包含至少一指標。
  16. 如申請專利範圍第11項所述之系統,其中該重複刪除裝置係進一步組態成使該客戶機之處理器:提供一程式至一客戶機,該程式係組態成:回應於來自客戶端之將資料從第一位置複製到該客戶機上的第二位置之請求,判斷待複製的該資料之來源及目的地是否在該重複刪除設備上;以及若該資料的該來源及目的地在該重複刪除設備上,在該第二位置提供指向該第二儲存裝置中之該經重複刪除資料的該位置之至少一第二指示器。
  17. 如申請專利範圍第16項所述之系統,其中該至少一第二指示器係包含在至少一存根檔案中,且該程式係組態成:在含有至少一第二指示器的該第二位置中創造至少一第二存根檔案。
  18. 如申請專利範圍第16項所述之系統,其中該程式包含在該客戶機上的代理程式、插件模組、或核心。
  19. 如申請專利範圍第11項所述之系統,其中該網路包含內部網路、區域網路、廣域網路、纖維通道儲存域網路、乙太網路、或網際網路。
  20. 如申請專利範圍第11項所述之系統,其中該網路共享儲存裝置包含該儲存裝置的至少一部分。
TW100131092A 2010-08-31 2011-08-30 資料重複刪除技術 TWI534614B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US40253510P 2010-08-31 2010-08-31

Publications (2)

Publication Number Publication Date
TW201227291A TW201227291A (en) 2012-07-01
TWI534614B true TWI534614B (zh) 2016-05-21

Family

ID=45773187

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100131092A TWI534614B (zh) 2010-08-31 2011-08-30 資料重複刪除技術

Country Status (3)

Country Link
US (1) US9785644B2 (zh)
TW (1) TWI534614B (zh)
WO (1) WO2012030383A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386494B2 (en) * 2008-08-07 2013-02-26 Hewlett-Packard Development Company, L.P. Providing data structures for determining whether keys of an index are present in a storage system
US8886901B1 (en) 2010-12-31 2014-11-11 Emc Corporation Policy based storage tiering
US9280550B1 (en) 2010-12-31 2016-03-08 Emc Corporation Efficient storage tiering
US20130013880A1 (en) * 2011-07-08 2013-01-10 Hitachi Computer Peripherals Co., Ltd. Storage system and its data processing method
US8825626B1 (en) 2011-08-23 2014-09-02 Emc Corporation Method and system for detecting unwanted content of files
US8756249B1 (en) * 2011-08-23 2014-06-17 Emc Corporation Method and apparatus for efficiently searching data in a storage system
ES2777928T3 (es) 2011-10-18 2020-08-06 Institut National De Rech Pour L'agriculture L'alimentation Et L'environnement Uso de derivado de avermectina para aumentar la biodisponibilidad y eficacia de lactonas macrocíclicas
TWI610166B (zh) 2012-06-04 2018-01-01 飛康國際網路科技股份有限公司 自動災難復原和資料遷移系統及方法
US9014540B1 (en) * 2012-07-17 2015-04-21 Time Warner Cable Enterprises Llc Techniques for provisioning local media players with content
US9086819B2 (en) * 2012-07-25 2015-07-21 Anoosmar Technologies Private Limited System and method for combining deduplication and encryption of data
GB2509504A (en) 2013-01-04 2014-07-09 Ibm Accessing de-duplicated data files stored across networked servers
US9678971B2 (en) * 2013-01-10 2017-06-13 International Business Machines Corporation Packing deduplicated data in a self-contained deduplicated repository
TW201437940A (zh) * 2013-03-30 2014-10-01 Ibm 提供一交易處理伺服器有效率之資料複製的方法、支援伺服器與電腦程式產品
US9298561B1 (en) * 2013-09-10 2016-03-29 Symantec Corporation Systems and methods for prioritizing restoration speed with deduplicated backups
US10380073B2 (en) 2013-11-04 2019-08-13 Falconstor, Inc. Use of solid state storage devices and the like in data deduplication
WO2015066698A1 (en) 2013-11-04 2015-05-07 Falconstor, Inc. Snapshots using copy on predicted write
US9514000B2 (en) 2014-01-31 2016-12-06 Western Digital Technologies, Inc. Backup of baseline installation
US9843536B2 (en) * 2015-02-27 2017-12-12 Netapp, Inc. Techniques for dynamically allocating resources in a storage cluster system
TW201734750A (zh) 2016-01-15 2017-10-01 飛康國際股份有限公司 包含固態硬碟儲存裝置及類似物的重複資料刪除快取記憶體
US9992283B2 (en) * 2016-02-09 2018-06-05 Quest Software Inc. Providing a single interface for accessing resources that are distributed among multiple platforms
US10255208B2 (en) * 2016-03-04 2019-04-09 Toshiba Memory Corporation Data transfer apparatus and data transfer system
US11182344B2 (en) * 2016-03-14 2021-11-23 Vmware, Inc. File granular data de-duplication effectiveness metric for data de-duplication
US9983821B2 (en) * 2016-03-29 2018-05-29 Samsung Electronics Co., Ltd. Optimized hopscotch multiple hash tables for efficient memory in-line deduplication application
FR3050555B1 (fr) * 2016-04-21 2019-09-27 Thales Procede de traitement d'un fichier de mise a jour d'un equipement avionique d'un aeronef, produit programme d'ordinateur, dispositif electronique de traitement et systeme de traitement associes
US10666513B2 (en) * 2017-05-03 2020-05-26 International Business Machines Corporation Filesystem share auto-detect
US11221778B1 (en) 2019-04-02 2022-01-11 Pure Storage, Inc. Preparing data for deduplication
US11314433B1 (en) 2020-11-20 2022-04-26 Seagate Technology Llc Remote deduplication of data in a storage system

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6513051B1 (en) * 1999-07-16 2003-01-28 Microsoft Corporation Method and system for backing up and restoring files stored in a single instance store
US7092956B2 (en) 2001-11-02 2006-08-15 General Electric Capital Corporation Deduplication system
US7055008B2 (en) 2003-01-22 2006-05-30 Falconstor Software, Inc. System and method for backing up data
US20050108486A1 (en) 2003-08-05 2005-05-19 Miklos Sandorfi Emulated storage system supporting instant volume restore
US8280926B2 (en) 2003-08-05 2012-10-02 Sepaton, Inc. Scalable de-duplication mechanism
US7756833B2 (en) 2004-09-22 2010-07-13 Microsoft Corporation Method and system for synthetic backup and restore
US7610285B1 (en) 2005-09-21 2009-10-27 Stored IQ System and method for classifying objects
US7865873B1 (en) 2005-09-21 2011-01-04 Stored IQ Browser-based system and method for defining and manipulating expressions
US20070198659A1 (en) 2006-01-25 2007-08-23 Lam Wai T Method and system for storing data
US7603529B1 (en) * 2006-03-22 2009-10-13 Emc Corporation Methods, systems, and computer program products for mapped logical unit (MLU) replications, storage, and retrieval in a redundant array of inexpensive disks (RAID) environment
US8433732B2 (en) 2006-08-18 2013-04-30 Falconstor, Inc. System and method for storing data and accessing stored data
US7962499B2 (en) 2006-08-18 2011-06-14 Falconstor, Inc. System and method for identifying and mitigating redundancies in stored data
US8209506B2 (en) * 2007-09-05 2012-06-26 Emc Corporation De-duplication in a virtualized storage environment
US7870105B2 (en) * 2007-11-20 2011-01-11 Hitachi, Ltd. Methods and apparatus for deduplication in storage system
US8214376B1 (en) * 2007-12-31 2012-07-03 Symantec Corporation Techniques for global single instance segment-based indexing for backup data
US8219524B2 (en) * 2008-06-24 2012-07-10 Commvault Systems, Inc. Application-aware and remote single instance data management
US8307177B2 (en) * 2008-09-05 2012-11-06 Commvault Systems, Inc. Systems and methods for management of virtualization data
US7992037B2 (en) * 2008-09-11 2011-08-02 Nec Laboratories America, Inc. Scalable secondary storage systems and methods
US20110093439A1 (en) * 2009-10-16 2011-04-21 Fanglu Guo De-duplication Storage System with Multiple Indices for Efficient File Storage
US8554743B2 (en) * 2009-12-08 2013-10-08 International Business Machines Corporation Optimization of a computing environment in which data management operations are performed
US8352422B2 (en) * 2010-03-30 2013-01-08 Commvault Systems, Inc. Data restore systems and methods in a replication environment

Also Published As

Publication number Publication date
TW201227291A (en) 2012-07-01
US9785644B2 (en) 2017-10-10
US20120089578A1 (en) 2012-04-12
WO2012030383A1 (en) 2012-03-08

Similar Documents

Publication Publication Date Title
TWI534614B (zh) 資料重複刪除技術
US11422976B2 (en) Distributed deduplicated storage system
US20200250201A1 (en) Data syncing in a distributed system
US20210373775A1 (en) Data deduplication cache comprising solid state drive storage and the like
US8200638B1 (en) Individual file restore from block-level incremental backups by using client-server backup protocol
US9182921B2 (en) Method and system for providing substantially constant-time execution of a copy operation
US9454532B2 (en) Method and apparatus for migration of a virtualized file system, data storage system for migration of a virtualized file system, and file server for use in a data storage system
US9613046B1 (en) Parallel optimized remote synchronization of active block storage
US7672981B1 (en) Object classification and indexing of very large name spaces using grid technology
US8548953B2 (en) File deduplication using storage tiers
JP4336129B2 (ja) 複数のスナップショットを管理するシステム及び方法
US8126847B1 (en) Single file restore from image backup by using an independent block list for each file
JP5608811B2 (ja) 情報処理システムの管理方法、及びデータ管理計算機システム
US8504529B1 (en) System and method for restoring data to a storage device based on a backup image
US20230376387A1 (en) Data connector component for implementing data requests
WO2013121456A1 (en) Management apparatus and management method for hierarchical storage system
US9824131B2 (en) Regulating a replication operation
US20160088080A1 (en) Data migration preserving storage efficiency
US20180107404A1 (en) Garbage collection system and process
US20200218615A1 (en) Methods for managing snapshots in a distributed de-duplication system and devices thereof
US10592527B1 (en) Techniques for duplicating deduplicated data
US11907116B2 (en) Volume group garbage collection
US20230350573A1 (en) Volume group backup to remote object store
EP3532939A1 (en) Garbage collection system and process
Fegade et al. Survey on Data Deduplication for Cloud Storage to Reduce Fragmentation