TWI694332B

TWI694332B - 資料備份系統以及資料備份方法

Info

Publication number: TWI694332B
Application number: TW107136082A
Authority: TW
Inventors: 呂世祐; 梁芷瑄; 楊朝欽
Original assignee: 財團法人資訊工業策進會
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2020-05-21
Also published as: TW202014900A; US20200117544A1; CN111046006A

Abstract

本揭示文件提供一種資料備份系統，包含電子裝置以及伺服器。電子裝置之儲存媒體用以儲存原始資料。伺服器預估原始資料各自透過複數個壓縮演算法之壓縮，而產生一預測壓縮資料之資料量以及對應預測壓縮資料之一第一預測壓縮時間。伺服器擷取電子裝置之運算資源資料，並根據運算資源資料與該等第一預測壓縮時間，分別預測電子裝置壓縮原始資料所需之複數個第二預測壓縮時間。伺服器計算複數個參考值，並根據該等參考值中最小者所對應之該等壓縮演算法中的預設壓縮演算法，以產生推薦指令，以供電子裝置進行資料備份。

Description

資料備份系統以及資料備份方法

本揭示文件係有關於一種資料系統及方法，且特別是有關於一種資料備份系統及方法。

隨著物聯網技術的發展，在網路中的終端裝置數量急遽上升，造成傳輸資料量變得十分龐大。為節省網路成本，在終端裝置傳送資料之前，往往需要使用資料壓縮技術來降低傳送的資料量，以節省網路傳輸頻寬。

然而，資料壓縮運算通常在遠端裝置執行，終端設備需要壓縮的資料量越大，遠端裝置的負擔越高。因此，如何降低遠端裝置的服務負擔係為亟需解決之問題。

鑒於此，本揭示文件提供一種壓縮方式推薦系統，根據遠端裝置的系統狀態及檔案類型，不需分析檔案本身及檔案分類，採用實際壓縮取樣資料，獲得壓縮時間與資料大小等相關資訊後，產出預測壓縮備份時間，推薦其最適合之壓縮方式。

根據本揭示文件之一實施例，揭示一種資料備份系統。資料備份系統包含電子裝置以及伺服器。電子裝置包含儲存媒體。儲存媒體用以儲存原始資料。伺服器通訊連接電子裝置。伺服器預估各自透過複數個壓縮演算法之其中一者之對原始資料壓縮時的預測壓縮資料之資料量以及對應該預測壓縮資料之第一預測壓縮時間。伺服器擷取電子裝置之運算資源資料，並根據運算資源資料與該等第一預測壓縮時間，分別預測電子裝置壓縮原始資料所需之複數個第二預測壓縮時間。伺服器預測在各第二預測壓縮時間中產生的第一新增資料，以及分別加總各預測壓縮資料之資料量與第一新增資料之資料量，以獲得複數個參考值。伺服器根據該等參考值中最小者所對應之該等壓縮演算法中的預設壓縮演算法，以產生推薦指令，以供電子裝置根據推薦指令而以該預設壓縮演算法進行資料備份。

根據另一實施例，揭示一種資料備份方法。資料備份方法包含以下步驟：藉由伺服器預估各自透過複數個壓縮演算法其中一者壓縮原始資料時的預測壓縮資料之資料量以及對應預測壓縮資料之第一預測壓縮時間。原始資料儲存於與伺服器通訊連接之電子裝置。藉由伺服器來根據電子裝置之運算資源資料與該等第一預測壓縮時間，分別預測電子裝置壓縮原始資料所需之複數個第二預測壓縮時間。預測在各第二預測壓縮時間中產生的第一新增資料。分別加總各該預測壓縮資料之資料量與第一新增資料之資料量，以獲得複數個參考值。決定該等參考值中最小者所對應之該等壓縮演算法中的預設壓縮演算法，以產生推薦指令。以及，藉由電子裝置根據推薦指令而以該預設壓縮演算法進行資料備份。

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附符號之說明如下：

110‧‧‧伺服器

111‧‧‧處理器

113‧‧‧通訊介面

115‧‧‧儲存媒體

120‧‧‧電子裝置

121‧‧‧處理器

123‧‧‧通訊介面

125‧‧‧儲存媒體

S210~S290‧‧‧步驟

c1、c2、c1’、c2’、t1、t2‧‧‧點

C(x)‧‧‧資料成長曲線

T(x)‧‧‧時間成長曲線

CU(x)‧‧‧運算效能曲線

以下詳細描述結合隨附圖式閱讀時，將有利於理解本揭示文件之態樣。應注意，根據說明上實務的需求，圖式中各特徵並不一定按比例繪製。實際上，出於論述清晰之目的，可能任意增加或減小各特徵之尺寸。

第1圖繪示根據本揭示文件一實施例中之資料備份系統之功能方塊示意圖。

第2圖繪示根據本揭示文件一實施例中之資料備份方法之步驟流程圖。

第3圖繪示根據本揭示文件一實施例中之資料成長曲線之示意圖。

第4圖繪示根據本揭示文件一實施例中之時間成長曲線之示意圖。

第5圖繪示根據本揭示文件一實施例中之運算效能之曲線示意圖。

以下揭示內容提供許多不同實施例或實例，以便實施本發明之不同特徵。下文描述元件及排列之特定實例以簡化本發明。當然，該等實例僅為示例性且並不欲為限制性。舉例而言，以下描述中在第二特徵上方或第二特徵上形成第一特徵可包括以直接接觸形成第一特徵及第二特徵的實施例，且亦可包括可在第一特徵與第二特徵之間形成額外特徵使得第一特徵及特徵可不處於直接接觸的實施例。另外，本發明可在各實例中重複元件符號及/或字母。此重複係出於簡明性及清晰之目的，且本身並不指示所論述之各實施例及/或配置之間的關係。

請參照第1圖，其繪示根據本揭示文件一實施例中之資料備份系統之功能方塊示意圖。資料備份系統包含伺服器110以及電子裝置120。在一實施例中，資料備份系統可包含至少一個電子裝置120。資料備份系統中，伺服器110可與至少一個電子裝置120進行通訊。

伺服器110包含處理器111、通訊介面113以及儲存媒體115。處理器111耦接於通訊介面113以及儲存媒體115。電子裝置120包含處理器121、通訊介面113以及儲存媒體115。處理器121耦接於通訊介面123以及儲存媒體125。

當電子裝置120中的資料需要備份時，電子裝置120將資料傳送至伺服器110。伺服器110儲存資料後，回傳已完成備份程序之訊息至電子裝置120。在一實施例中，在電子裝置120執行備份程序之前，伺服器110會根據電子裝置120目前的狀態，來提供適合的壓縮演算法至電子裝置120。電子裝置120可以為行動裝置、物聯網(Internet of Things，IoT)設備、霧運算(Fog Computing)設備等。

請參照第2圖，其繪示根據本揭示文件一實施例中之資料備份方法之步驟流程圖。請一併參閱第1圖及第2圖，在資料備份系統中，電子裝置120的處理器121會控制儲存媒體125所儲存的資料量。一般而言，電子裝置120之元件所產生之資料(例如感測器(未繪示)的資料等)，或者是電子裝置120接收自其他終端設備之資料(例如音頻資料、視頻資料等)，此些資料以各自原始的資料格式被儲存在電子裝置120的儲存媒體。為了控管電子裝置120之儲存空間，電子裝置120會判斷原始資料之資料量是否大於門檻值(例如儲存媒體125的70%儲存空間)。若原始資料之資料量大於門檻值，則處理器121會於原始資料中擷取一段取樣資料，取樣資料的資料量為小於原始資料的資料量。舉例來說，原始資料的資料量為5GB(Gigabytes)，取樣資料的資料量為2MB(Megabytes)。取樣資料透過通訊介面123被傳送至伺服器110。在一實施例中，取樣資料會先被轉換為位元串流(Bit Stream)，再進行後續資料傳輸。

伺服器110之處理器111可以使用不同的壓縮演算法來壓縮資料。壓縮演算法可以為無失真資料壓縮(Lempel-Ziv-Storer-Szymanski，LZSS)、ZIP資料壓縮、TGZ資料壓縮、藍波-立夫-衛曲編碼資料壓縮(Lempel-Ziv-Welch，LZW)等。伺服器110於接收到原始資料後，在步驟S220中，處理器111根據複數個壓縮演算法分別壓縮取樣資料，以獲得複數個取樣壓縮資料與複數個取樣壓縮時間。以LZSS壓縮演算法為例，處理器111對資料量為2MB之取樣資料進行壓縮，花費了2秒時間來產生300KB的取樣壓縮資料。處理器111記錄300KB之資料量與2秒之取樣壓縮時間。以此類推，處理器111使用ZIP壓縮演算法來壓縮資料量為2MB之取樣資料，花費了2.2秒的時間來產生320KB的壓縮資料。因此，伺服器110可以獲得複數個對應至各壓縮演算法的取樣壓縮資料之資料量與取樣壓縮時間。

伺服器110取得取樣資料的相關壓縮資訊後，可以估算對原始資料進行壓縮所需的壓縮時間以及壓縮後的檔案大小。在步驟S230中，伺服器110之處理器111預估當分別根據複數個壓縮演算法來壓縮原始資料時，所產生的複數個預測壓縮資料之資料量與複數個第一壓縮時間。伺服器110是根據預先建立的資料壓縮預估模型來求得預測壓縮資料之資料量與第一壓縮時間。舉例來說，建立資料壓縮預估模型的方法包含蒐集多個不同的資料，取該些資料中的不同資料大小的片段，使用各種資料壓縮演算法對各片段壓縮。壓縮完成後，分別記錄各片段壓縮後資料大小以及所需的壓縮時間。接著，根據片段的資料量與對應的壓縮後資料大小，計算線性回歸而獲得資料成長曲線。

請參照第3圖，其繪示根據本揭示文件一實施例中之資料成長曲線之示意圖。如第3圖所示，座標水平軸為資料量，座標垂直軸為壓縮後的資料大小。資料成長曲線C(x)為前述線性回歸計算後所獲得的曲線。各種資料壓縮演算法會有對應的資料成長曲線C(x)，第3圖係以LZSS演算法作為說明。下表一為本方法中執行各資料壓縮演算法後，使用線性回歸計算前述壓縮資料大小所得到的值。本方法可運用其他的資料壓縮演算法來獲得值，下表一僅以LZSS演算法與ZIP演算法作例示性說明。

伺服器110使用資料成長曲線C(x)來預估原始資料被壓縮之後的壓縮資料之大小。在一實施例中，資料成長曲線C(x)上的c1’點座標為(2MB,100KB)，c2’點座標為(5GB,250MB)。伺服器110對2MB的取樣資料進行壓縮後，獲得之壓縮後資料大小為200KB，即第3圖之c1點，其座標為(2MB,200KB)。由於在相同壓縮率下，壓縮的資料量越大，產生的壓縮資料之大小也會隨著增加。因此，資料成長曲線C(x)的曲線斜率會接近於實際上取樣點的曲線斜率。伺服器110在取得c1點後，可以依據資料成長曲線C(x)的斜率以及c1點座標，來計算c2點的y值。計算公式如下：

如此，計算出的y值即為原始資料經過壓縮之後的預估資料大小。

相似地，根據前述片段的資料量與對應的所需壓縮時間，計算線性回歸而獲得時間成長曲線。請參照第4圖，繪示根據本揭示文件一實施例中之時間成長曲線T(x)之示意圖。同樣地，時間成長曲線T(x)的曲線斜率會接近於實際上取樣點的曲線斜率。伺服器110在取得t1點後，可以依據時間成長曲線T(x)的斜率以及t1點座標，來計算出t2點的y值，而獲得對原始資料進行壓縮所需要的預估壓縮時間。下表二為本方法中執行各壓縮演算法所需的壓縮時間，將此些壓縮時間進行線性回歸計算後所得到的值。本方法可運用其他的資料壓縮演算法來獲得值，下表二僅以LZSS演算法與ZIP演算法作例示性說明。

值得一提的是，前述原始資料的預估壓縮時間，為伺服器110對原始資料進行資料壓縮所作的預估時間。由於電子裝置120的運算能力不一定與伺服器110的運算能力相同(通常電子裝置120的運算能力略差)，電子裝置120的運算能力也無法保持在可使用百分之百的狀態，因此需要再對此預估壓縮時間進行調整。

請復參照第2圖，在步驟S240中，伺服器110根據電子裝置120的運算資源資料與該等第一預測壓縮時間，分別預估電子裝置120壓縮原始資料所需的複數個第二預測壓縮時間。請一併參照第5圖，其繪示根據本揭示文件一實施例中之運算效能曲線CU(x)之示意圖。伺服器110定期接收電子裝置120的客戶端狀態(client state)資料，並根據客戶端狀態資料(例如處理器效能資料)來訓練運算資源模型。在一實施例中，運算效能曲線CU(x)為經過訓練運算後所獲得的曲線，指示未來某個時間點，電子裝置120的運算效能百分比。由於運算效能曲線CU(x)以下的面積為預測電子裝置120忙碌於其他任務所使用的效能。因此，本方法計算運算效能曲線CU(x)至100%運算效能之間的面積，作為電子裝置120可用於資料壓縮的可用運算資源，如第5圖所示之灰色面積。在一實施例中，訓練運算資源模型之方法可以為使用支援向量回歸(Support Vector Regression，SVR)演算法來建立的模型。

在一實施例中，若伺服器110的處理器111以 100%的運算資源來壓縮原始資料，並預估所需的壓縮時間為3分鐘，代表壓縮原始資料總共需要的資源為100×3。接著，本方法根據此總運算資源來換算電子裝置120所需要的壓縮時間，計算公式舉例如下：100×3

[(100-80)×1]+[(100-70)×1]+[(100-50)×1]+[(100-50)×1]+[(100-40)×1]+[(100-30)×1]+[(100-30)×1]=350

由上述公式中，第1分鐘可用20運算資源、第2分鐘可用30運算資源且累計總共可用50運算資源，以此類推，計算至第7分鐘時，累計總共可用運算資源為350。由於需要大於前述的運算資源300，因此換算結果可得到電子裝置120需要7分鐘才能完成原始資料的壓縮。值得一提的是，伺服器110會根據所有壓縮演算法，將伺服器110壓縮所需的第一預測壓縮時間換算為電子裝置120的第二預測壓縮時間。上述公式係以LSZZ壓縮演算法為例。伺服器110以不同的資料壓縮演算法可以獲得不同的第一預測壓縮時間，因此在換算為電子裝置120所需的第二預測壓縮時間時，其時間長度也會因演算法而異。

接著，在步驟S250中，伺服器110預測在各第二壓縮時間中將產生的第一新增資料。舉例來說，由於電子裝置120在執行資料壓縮時需要耗費時間，因此在壓縮的過程中可能還會收到新的資料，例如電子裝置 120的感測器持續產生資料。由於電子裝置120的儲存媒體125已經高於門檻值，因此亦需要評估在電子裝置120壓縮資料的過程中，其整體的儲存資料量是否高於儲存媒體125的儲存空間。

在步驟S260中，伺服器110分別根據各個資料壓縮演算法，加總該等預測壓縮資料之資料量與第一新增資料之資料量，以獲得複數個參考值。舉例來說，在7分鐘內，電子裝置120的儲存媒體125除了儲存有經壓縮的原始資料，還儲存有7分鐘內新增加的資料。接著，在步驟S270中，藉由決定最小之參考值，以產生推薦指令。由於本方法可以計算出整體而言最適合電子裝置120使用的資料壓縮演算法。推薦指令為用以指示電子裝置120應使用的資料壓縮演算法。另一方面，若最後算出的參考值(即總資料量)超過儲存媒體125的儲存空間，代表電子裝置120若使用該資料壓縮演算法將導致空間不足，則可先行過濾該資料壓縮演算法。

在步驟S280，伺服器110傳送推薦指令至電子裝置120。在步驟S290，電子裝置120根據推薦指令進行資料備份。舉例來說，電子裝置120以推薦指令指示的資料壓縮演算法開始對原始資料進行壓縮，以產生壓縮資料，並將壓縮資料儲存於儲存媒體125。接著，壓縮資料透過通訊介面123被傳送至伺服器110之儲存媒體115。在確認完成資料傳送之後，在電子裝置120的儲存媒體125所儲存的原始資料將被刪除。如此，完成資料備份程序。

在另一些實施例中，本方法考慮到在電子裝置120進行資料備份程序中，即壓縮資料被傳送到伺服器110的過程中，電子裝置120可能會收到或產生第二新增資料。因此，本方法還包含根據電子裝置120的資料傳輸速率來預估資料傳輸時間。舉例來說，以第二新增資料除以資料傳輸速率，可以得到預估的資料傳輸時間。

在此實施例中，伺服器110根據各個資料壓縮演算法，分別加總原始資料之資料量、經壓縮的原始資料之資料量、第一新增資料之資料量、以及第二新增資料之資料量，以獲得複數個參考值。藉由決定最小之參考值來產生推薦指令，以提供電子裝置120進行資料備份程序。另一方面，若最後算出的參考值(即總資料量)超過儲存媒體125的儲存空間，代表電子裝置120若使用該資料壓縮演算法將導致空間不足，則可先行過濾該資料壓縮演算法。

在一實施例中，電子裝置120會檢查是否能執行推薦指令所指示的資料壓縮演算法。若電子裝置120判斷無法執行該資料壓縮演算法，則向伺服器110請求提供資料壓縮演算法之執行程式。

綜上所述，本揭示文件的資料備份系統以及資料備份方法，可以在不需分析檔案類型的情況下，提供最適合電子裝置120當下進行的資料壓縮演算法。另一方面，由於電子裝置120的儲存空間有限，無法花費太多的資源在儲存經壓縮資料上。因此，本揭示文件的資料備份系統以及資料備份方法可以讓電子裝置120使用當下最適合的資料壓縮演算法進行備份，避免備份過程中造成儲存空間不足，而使得備份程序被迫中斷或失敗的問題。

上文概述若干實施例之特徵，使得熟習此項技術者可更好地理解本發明之態樣。熟習此項技術者應瞭解，可輕易使用本發明作為設計或修改其他製程及結構的基礎，以便實施本文所介紹之實施例的相同目的及/或實現相同優勢。熟習此項技術者亦應認識到，此類等效結構並未脫離本發明之精神及範疇，且可在不脫離本發明之精神及範疇的情況下產生本文的各種變化、替代及更改。