TWI740899B - 資料遷移的最佳化方法、評估方法及處理方法及裝置 - Google Patents

資料遷移的最佳化方法、評估方法及處理方法及裝置 Download PDF

Info

Publication number
TWI740899B
TWI740899B TW106104944A TW106104944A TWI740899B TW I740899 B TWI740899 B TW I740899B TW 106104944 A TW106104944 A TW 106104944A TW 106104944 A TW106104944 A TW 106104944A TW I740899 B TWI740899 B TW I740899B
Authority
TW
Taiwan
Prior art keywords
data
bandwidth
units
migrated
bandwidth usage
Prior art date
Application number
TW106104944A
Other languages
English (en)
Other versions
TW201734752A (zh
Inventor
黃儼
何樂
史英傑
張傑
張辰
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201734752A publication Critical patent/TW201734752A/zh
Application granted granted Critical
Publication of TWI740899B publication Critical patent/TWI740899B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0605Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本發明實施例提供了一種資料遷移的最佳化方法、評估方法及處理方法及裝置,其中,最佳化方法包括按照將第一被依賴資料量較多的一個或多個待遷移資料單元優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案;計算切換計算集群後集群間的帶寬狀態資料;根據帶寬狀態資料對各個資料遷移方案進行最佳化選擇。本發明實施例的資料遷移的最佳化方法,透過按照優先複製被依賴資料量較多的熱資料單元然後切換計算集群的原則,並對各個方案進行基於帶寬狀態資料的預測評估,然後在進行最佳化選擇,從而能够獲得較為優選的資料遷移方案,提高資料遷移的效率,降低資料遷移失敗的風險。

Description

資料遷移的最佳化方法、評估方法及處理方法及裝置
本發明實施例涉及一種資料遷移的最佳化方法、評估方法及處理方法及裝置,屬於電腦技術領域。
現有技術的資料遷移方式是先將待遷移的項目單元的全部資料單元從源集群複製到目標集群,在此期間與遷移資料相關的一切計算任務仍然運行在源集群,直至完全複製完成後,再將計算任務從源集群切換到目標集群。對於大規模的資料遷移(例如包含資料量比較大的項目單元)來說,整個過程會耗時很長。並且,現有資料在遷移執行之前,並未進行基於資料依賴關係的評估,即沒有考慮資料依賴關係在遷移後對於集群件帶寬的影響。
發明人的實現本發明的過程中,發現現有技術存在如下缺陷:
1)新資料產生所帶來的缺陷:一些大型業務的新資料產生非常頻繁,新資料的產生速度非常快,而現有技術是等待全部資料複製完後再進行計算任務的切換,這樣會導致遷移的時間會非常長,遷移效率極低,而在此期間, 計算任務仍然運行在源集群中,會持續產生新資料。如果新資料產生的速度大於遷移複製資料的速度(這種情況也是經常發生),在這種情況下,如果不停止業務產生新資料,那麽遷移任務將永遠不能結束。
2)缺少基於資料依賴關係的評估所帶來的缺陷:在資料遷移前缺少基於資料依賴關係的評估,往往是在遷移之後才發現重大問題。由於資料單元之間存在複雜的依賴關係,遷移之後會導致集群間資料存取量發生變化。如果未做充分評估而貿然遷移,遷移後可能導致集群間的網路帶寬惡化。
本發明實施例提供了一種資料遷移的最佳化方法、評估方法及處理方法及裝置,以解決現有技術中新業務產生所帶來的缺陷以及缺少資料依賴關係的評估所帶來的缺陷。
本發明實施例提供了一種資料遷移的最佳化方法,包括:按照將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案,其中,所述第一被依賴資料量為所述待遷移資料單元的所有被依賴資料量;針對所述各個資料遷移方案,計算切換計算集群後集 群間的帶寬狀態資料;根據所述帶寬狀態資料對各個所述資料遷移方案進行最佳化選擇。
本發明實施例還提供了一種資料遷移的評估方法,包括:獲取在切換計算集群前,源集群中要複製到目標集群中的一個或多個待複製資料單元的第二被依賴資料量,所述第二被依賴資料量為所述待複製資料單元與所述目標集群之外的其他資料單元之間的被依賴資料量;計算切換計算集群後集群間的帶寬狀態資料;根據所述帶寬狀態資料是否滿足預設帶寬可行性條件來確定資料遷移方案是否可行。
本發明實施例還提供了一種資料遷移的處理方法,包括:將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,其中,所述第一被依賴資料量為所述待遷移資料單元的所有被依賴資料量;切換計算集群;遷移剩餘的一個或多個待遷移資料單元至目標集群。
本發明實施例還提供了一種資料遷移的最佳化裝置,包括:資料遷移方案產生模組,用於按照將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元 優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案,並觸發帶寬狀態資料計算模組對各個資料遷移方案進行計算處理,其中,所述第一被依賴資料量為所述待遷移資料單元的所有被依賴資料量;所述帶寬狀態資料計算模組,用於計算切換計算集群後集群間的帶寬狀態資料;最佳化選擇模組,用於根據所述帶寬狀態資料對各個所述資料遷移方案進行最佳化選擇。
本發明實施例還提供了一種資料遷移的評估裝置,包括:第四獲取模組,用於獲取在切換計算集群前,源集群中要複製到目標集群中的一個或多個待複製資料單元的第二被依賴資料量,所述第二被依賴資料量為所述待複製資料單元與所述目標集群之外的其他資料單元之間的被依賴資料量;帶寬狀態資料計算模組,用於計算切換計算集群後集群間的帶寬狀態資料;判定模組,用於根據所述帶寬狀態資料是否滿足預設帶寬可行性條件來確定資料遷移方案是否可行。
本發明實施例還提供了一種資料遷移的處理裝置,包括:複製模組,用於將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,其中,所述第一被依賴資料量為所述待遷移資料單元 的所有被依賴資料量;切換模組,用於切換計算集群;剩餘資料遷移模組,用於遷移剩餘的一個或多個待遷移資料單元至目標集群。
本發明實施例的資料遷移的最佳化方法及裝置,透過按照優先複製被依賴資料量較多的熱資料單元然後切換計算集群的原則產生多個遷移方案,並對各個方案進行基於帶寬狀態資料的預測評估,然後再進行最佳化選擇,從而能够獲得較為優選的資料遷移方案,提高資料遷移的效率,降低資料遷移失敗的風險。
本發明實施例的資料遷移的評估方法及裝置,應用於實際進行資料遷移操作之前,基於對待複製資料單元的被依賴資料量對網路帶寬狀態進行模擬評估,並根據帶寬狀態資料來最終確定是否可行,從而降低了資料遷移失敗的風險。
本發明實施例的資料遷移的處理方法及裝置,透過採用先複製被依賴資料量較多的熱資料單元然後進行計算集群的切換,最後再遷移冷資料的方式,能够儘早完成計算集群的切換,從而提高了資料遷移的效率,並且由於在計算集群切換後,產生的新資料會存放在目標集群,因此,也解決了新資料持續產生所帶來了影響。
上述說明僅是本發明技術方案的概述,為了能够更清楚瞭解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能 够更明顯易懂,以下特舉本發明的具體實施方式。
10‧‧‧排序模組
11‧‧‧資料遷移方案產生模組
12‧‧‧帶寬狀態資料計算模組
13‧‧‧最佳化選擇模組
14‧‧‧第三獲取模組
15‧‧‧複製時間計算模組
21‧‧‧第四獲取模組
22‧‧‧判定模組
31‧‧‧複製模組
32‧‧‧切換模組
33‧‧‧剩餘資料遷移模組
121‧‧‧第一獲取模組
122‧‧‧第二獲取模組
123‧‧‧疊加模組
124‧‧‧產生模組
圖1為發明實施例的用於說明資料遷移原理的示意圖之一。
圖2為發明實施例的用於說明資料遷移原理的示意圖之二。
圖3為本發明實施例一的資料遷移的最佳化方法的流程示意圖之一。
圖4為本發明實施例一的資料遷移的最佳化方法的流程示意圖之二。
圖5為本發明實施例一的帶寬監控設備採集的當前帶寬使用量的曲線示意圖。
圖6為疊加後的帶寬使用量的曲線示意圖。
圖7為根據各個資料遷移方案對應的複製時間和帶寬打滿的概率產生的曲線示意圖。
圖8為本發明實施例二的資料遷移的評估方法的流程示意圖。
圖9為本發明實施例三的資料遷移的處理方法的流程示意圖。
圖10為本發明實施例四的資料遷移的最佳化裝置的結構示意圖。
圖11為本發明實施例五的資料遷移的評估裝置的結構示意圖。
圖12為本發明實施例六的資料遷移的處理裝置的結構示意圖。
下面將參照圖式更詳細地描述本公開的示例性實施例。雖然圖式中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這裏闡述的實施例所限制。相反,提供這些實施例是為了能够更透徹地理解本公開,並且能够將本公開的範圍完整的傳達給本領域的技術人員。
本發明實施例涉及的主要技術內容為資料遷移,資料遷移是指將一個或多個項目單元從源集群遷移到目標集群,其中,項目單元包含至少一個資料單元和至少一個計算任務,而資料單元可以是一張資料表也可以是多張資料表構成的集合單元。從另一個角度來說,資料遷移也可以認為是將一個或多個資料單元以及與這些資料單元對應的一個或多個計算任務遷移從源集群遷移至目標集群。此外,集群可以認為是一組協同工作的計算機組系統,對外提供統一的服務。
資料遷移需要完成如下兩部分工作:
1)資料單元的轉移:將源集群中各個項目單元中的資料單元轉移到目標集群中。一般是採用複製的方式從源集群複製到的目標集群,在此期間,計算任務仍然工作在源集群中。
2)計算集群切換:將各個項目單元的全部或部分計算任務從源集群切換到目標集群(該過程不涉及資料傳輸),切換後,整個計算任務將運行在目標集群中,產生的新資料也將儲存在目標集群中。
資料遷移還會涉及到資料單元間的依賴關係,由於依賴關係的存在,在完成資料遷移後,會導致目標集群與其他集群間的網路帶寬受到影響。其中,網路帶寬是指在單位時間內從一端流到另一端的信息量,即資料傳輸率,是衡量網路使用情況的一個重要指標。
資料間的依賴關係是由計算任務的輸入輸出關係而產生的。例如,資料單元a是某個計算任務的輸入,而資料單元b是給計算任務的輸出,則定義為資料單元a被資料單元b所依賴,即依賴關係是有計算任務的資料輸入輸出關係而確定的。對於資料單元a而言,被依賴關係主要是體現在計算任務為了輸出資料到資料單元b,而需要讀取資料單元a中的資料。
下面透過圖1和圖2來進一步說明一下,資料間的依賴關係對於資料遷移的影響。如下圖1和圖2所示,圖中的圓點代表項目單元中的各個資料單元,圖中的連線代表資料單元之間的依賴關係。
從圖中可以看出,項目單元B和項目單元C中的資料單元之間的依賴關係較多,而項目單元B與項目單元A中的資料單元之間的依賴關係較少。由此,項目單元B中的計算任務會較多地存取項目單元C中的資料單元,從而 產生較多的資料存取量。在圖1中,由於項目單元B和項目單元C都處於同一集群中,因此,項目單元B與項目單元C之間的資料存取量不會占用集群間的帶寬。並且,在圖1和圖2中,項目單元B中,內部的資料單元之間的依賴關係也不會對帶寬造成影響。
如果將項目單元B從集群2遷移到集群1中,則遷移後的結果如圖2所示,從圖中可以看出發生如下變化:項目單元B和項目單元C之間的資料存取量將占用集群1和集群2之間的帶寬,項目單元A與項目單元B之間的資料存取量將不再占用集群間帶寬。由於項目單元B與項目單元C之間的資料存取量明顯大於項目單元B與項目單元A之間的資料存取量,從而導致了集群1和集群2之間的資料存取量增加,較圖1中的情形占用了更多的帶寬。如果貿然將項目單元B從集群2遷移到集群1中,可能會導致集群1和集群2之間的帶寬被打滿,導致網路環境惡化。
由此可見,由於依賴關係的存在,資料遷移會對集群間的網路環境尤其是帶寬產生較大影響。
實施例一
如圖3所示,其為本發明實施例一的資料遷移的最佳化方法的流程示意圖之一,該最佳化方法包括如下步驟101至步驟103的處理。
步驟101:按照將第一被依賴資料量較多的一個或多 個待遷移資料單元作為待複製資料單元優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案。其中,第一被依賴資料量為所述待遷移資料單元的所有被依賴資料量。第一被依賴資料量可能包括同一個項目單元內部的被依賴資料量,也可能包括了資料單元所在的項目單元之外的其他項目單元的被依賴資料量,實際上還會存在跨集群的被依賴資料量等。另外,這裏所說的切換計算集群是指將待遷移資料單元相關的計算任務切換到目標集群的動作,可以是將全部關聯的計算任務進行切換的行為,也可以是切換一部分計算任務的行為。需要說明的是,計算任務與資料單元之間僅僅是資料存取的關係,這種資料存取關係並一定要求計算任務與資料單元必然存在與同一個計算集群中。
在上述原則中,實際上將全部的待遷移資料單元劃分為了兩部分,一部分資料單元(可以視作熱資料單元)優先複製,另一部分資料單元(可以視作冷資料單元)待切換計算集群後,再逐步複製到目標集群。冷資料的遷移可以不透過集中複製的方式來完成,因此,可以認為很少占用集群件帶寬。例如,透過集群間的底層資料傳輸機制,或者可以在集群系統相對空閒時間段進行複製等等。
這裏的熱資料單元和冷資料單元完全是相對概念,可以人為設定標準。在該步驟中,也會存在一種特殊情況,就是待複製資料單元的數量等於待遷移資料單元的數量,即該資料遷移方案為全量遷移方案。
此外,在實際進行選擇複製哪些資料單元時,還可以考慮資料單元的生命周期,生命周期是指資料單元的有效存在時間。例如,很多資料只是需要被暫時存取的,而過了預定時間後,就沒有存在的價值,可以被刪除。因此,在進行複製的過程中,也可以對資料的生命周期進行判斷,在要複製的資料單元列表中,提出掉那些已經超過生命周期的,或者生命周期快要結束的資料單元,從而進一步提高資料遷移的效率,避免複製無用的資料單元。
步驟102:針對各個資料遷移方案,計算切換計算集群後集群間的帶寬狀態資料。其中,切換計算集群後集群間的帶寬狀態資料至少包括兩部分因素的疊加:當前的帶寬使用資料和被優先遷移的資料單元而導致的變動的帶寬使用資料。具體地,如圖4所示,其為本發明實施例一的資料遷移的最佳化方法的流程示意圖之二,在步驟103中,計算切換計算集群後集群間的帶寬狀態資料的處理可以進一步包括:
步驟1021:獲取當前的帶寬使用資料,這裏所說的當前的帶寬使用資料是指未進行計算集群切換前的帶寬使用資料。
步驟1022:根據一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料。其中,第二被依賴資料量為一個或多個待複製資料單元與目標集群之外的其他資料單元之間的被依賴資料量。這裏的第二被依賴資料量是僅對集群間帶寬造成 影響的被依賴資料量。
步驟1023:將當前的帶寬使用資料與變動的帶寬使用資料進行疊加,基於疊加後的帶寬使用資料,產生帶寬狀態資料。
步驟103:根據帶寬狀態資料對各個資料遷移方案進行最佳化選擇。
上述的多個待遷移資料單元一般會屬於一個或多個待遷移項目單元,而如前所說的,資料遷移一般是以項目單元為單位進行遷移的。而上述的切換計算集群的操作具體為將一個或多個待遷移項目單元中的全部計算任務切換至目標集群。
在上述資料遷移的最佳化方法中,透過按照優先複製被依賴資料量較多的熱資料單元然後切換計算集群的原則產生多個資料遷移方案,並對各個方案進行基於帶寬狀態資料的預測評估,然後在進行最佳化選擇,從而能够獲得較為優選的資料遷移方案,提高資料遷移的效率,降低資料遷移失敗的風險。
此外,在上述的步驟101之前,還可以包括:
步驟100:對源集群中多個待遷移資料單元按照第一被依賴資料量的大小進行排序。各個待遷移資料單元的第一被依賴資料量可以從各個待遷移資料單元對應的歷史資料中獲取,在系統日誌中,會存在資料的存取記錄信息,根據這些存取記錄信息即可獲取到上述的第一被依賴資料量。
例如,欲將項目單元1(下表中的P1)和項目單元2(下表中的P2)從源集群遷移至目標集群,獲取到了項目單元1和項目單元2中的各個資料表(T1至T8)的第一被依賴資料量和各個資料表自身的大小,並且按照第一被依賴資料量進行了排序,如下表:
Figure 106104944-A0202-12-0013-1
需要說明的是,在上述流程中,在上述步驟101中產生多個遷移方案之後再執行步驟102,但是本領域技術人員能够理解,也可以在步驟102中產生一個資料遷移方案後,就執行步驟102的計算帶寬狀態資料的操作,而無需等待多個資料遷移方案全部產生,或者也可以採用循環遍歷的方式,按照步驟101中的原則,根據步驟100中的待遷移資料單元的排序,以從一次性複製全部待遷移資料單元開始逐個資料單元遞減直至僅複製第一被依賴資料量最 多個的待遷移資料單元為止(也可以反向遞增),產生多個資料遷移方案。
下面再對如何計算切換計算集群後集群間的帶寬狀態資料以及如何對方案進行優選評估這兩個方面進行更加詳細的說明。
(一)帶寬狀態資料的計算
在上述步驟中,帶寬使用資料可以為預定時間段內的與時間點對應的帶寬使用量的採樣資料,帶寬狀態資料可以為帶寬打滿的概率。
進一步地,上述步驟1021可以具體包括:獲取當前帶寬使用量,並對預定時間段內的當前帶寬使用量進行採樣,產生第一採樣資料。當前帶寬使用量的獲取方式可以透過帶寬監控設備進行實時監控記錄而獲得。如圖5所示,其為帶寬監控設備採集的當前帶寬使用量的曲線示意圖,橫軸為時間,單位為小時,縱軸為帶寬使用量,單位為TB(兆位元組)。對該圖形進行採樣即可獲得上述第一採樣資料,從圖上部的橫線為帶寬上限,帶寬使用量超過該上限值,認為帶寬被打滿。
上述步驟1022可以具體包括:根據與第二依賴資料量相關的歷史資料,產生預定時間段內的與時間點對應的歷史帶寬使用量的第二採樣資料。資料單元的被存取的記錄都會記錄在歷史日誌中,可以透過查詢歷史日誌中的記錄,篩選出符合與第二依賴資料量相關的信息,然後進行 統計和採樣,產生上述第二採樣資料。
上述步驟1023可以具體包括:將第一採樣資料和第二採樣資料進行疊加,基於疊加後的第三採樣資料計算帶寬打滿的概率。如圖6所示,其為疊加後的帶寬使用量的曲線示意圖,其中,可以看出存在部分時間段內,帶寬使用量超過了帶寬上限,即出現了帶寬打滿的情況。
帶寬打滿的概率的計算公式可以具體為:P=TM1/TM2……公式(1)
其中,P為帶寬打滿的概率,TM1為在第三採用資料中,帶寬超過帶寬上限的時長,TM2為預定時間段的時長。在實際應用中,TM1和TM2可以以分鐘為單位進行統計。
上述的步驟1021和步驟1022中的預定時間段可以是每天的一個固定時間段,例如,根據最近N天內(例如使用30天)每天0點到9點的的歷史資料或者帶寬監控資料進行統計和採樣,分別產生第一採樣資料和第二採樣資料,然後根據疊加後的第三採樣資料,計算該時間段內的帶寬打滿的概率。
(二)如何對方案進行優選評估
如上面計算出帶寬狀態資料後,可以直接根據帶寬狀態資料的優劣來進行方案的篩選。例如,直接選擇對帶寬打滿的概率較低的方案。此外,在針對資料遷移方案預測出帶寬打滿率後,還可以根據預設的條件對打滿率進行判 斷,如果該帶寬打滿率過高,則認為該資料遷移方案根本不可行,則直接放弃該資料遷移方案。例如,將帶寬打滿的概率閾值設為95%,如果預測的帶寬打滿的概率超過95%,則直接放弃該資料遷移方案。
另外,在開始上述資料遷移的最佳化方法之前,可以先對全量遷移的方案進行帶寬狀態資料的預測評估,即計算全量資料遷移的情況下的集群間的帶寬狀態資料,如果帶寬狀態資料不滿足預設的帶寬可行性條件(例如帶寬打滿概率過高),則認為全部的遷移方案均不可行(因為無論任何一種遷移方案,只是優先複製的資料單元不同,而最終都會完成全量遷移),因此,直接終止最佳化方法的流程。
此外,在實際應用中,會結合在進行計算集群切換前,複製上述待複製的資料單元所耗費的複製時間對方案進行最佳化選擇,即綜合考慮帶寬打滿的概率和複製時間來確定優選方案。
複製時間可以根據給定複製傳輸帶寬的條件和待複製資料單元的自身資料量來計算。例如,會預先給定用於資料遷移的帶寬,然後根據複製單元的大小和給定的帶寬就可以計算出複製時間。如果以天數作為計算單位,則產生如下公式:複製天數=待複製的資料單元的資料量/預先給定用於資料遷移的帶寬/3600/24。由於帶寬一般是以“資料量/秒”為單位,因此,在該公式中除以3600得到所用的小 時數,然後再除以24轉換為天數。
如圖7所示,其為根據各個資料遷移方案對應的複製時間和帶寬打滿的概率產生的曲線示意圖。基於圖7的曲線,根據實際的需求來進行綜合選擇。例如,綜合考慮複製時間和帶寬打滿的概率,認為複製時間為d天時,帶寬打滿的概率為10%,相對較低,因此,該點對應的資料遷移方案較為優選。當然,也可以以儘早完成計算集群的切換為首要條件進行考慮的,則可能會選擇複製時間較短但是帶寬打滿的概率相對較高的資料遷移方案。
本實施例的資料遷移的最佳化方法,能够基於優先複製熱資料然後進行計算集群的切換的原則,產生多個資料遷移方案,然後基於帶寬打滿的概率和複製時間這兩個因素進行綜合判斷,從而選擇出優選的資料遷移方案,從而極大的提高了資料遷移的效率,並且降低了資料遷移失敗的風險。
實施例二
本實施例涉及資料遷移的評估方法,該方法用於在實際進行資料遷移操作之前,對資料遷移方案進行模擬評估,以確定其可行性。如圖8所示,其為本發明實施例二的資料遷移的評估方法的流程示意圖,該評估方法包括:
步驟201:獲取在切換計算集群前,源集群中要複製到目標集群中的一個或多個待複製資料單元的第二被依賴資料量,這裏的第二被依賴資料量與上述實施例中的含義 一致,即待複製資料單元與目標集群之外的其他資料單元之間的被依賴資料量。在本步驟中,待複製資料單元可以是全部需要遷移的待遷移資料單元,也可以是部分需要遷移的待遷移資料單元,即本實施例的評估裝置可以針對全量遷移方案進行評估,也可以針對先遷移部分熱資料,然後執行計算集群切換後,再遷移冷資料的方案進行評估。
步驟202:計算切換計算集群後集群間的帶寬狀態資料。其中,該步驟可以具體為上述實施例一中的步驟1021至步驟1023。進一步地,帶寬使用資料可以為預定時間段內的與時間點對應的帶寬使用量的採樣資料,帶寬狀態資料可以包括帶寬打滿的概率。對於帶寬狀態資料的具體計算方法可以採用上述實施例一中第(一)點中所描述的具體方案,在此不再贅述。
步驟203:根據帶寬狀態資料是否滿足預設帶寬可行性條件來確定資料遷移方案是否可行。具體地,可以根據預設的帶寬打滿的概率閾值,對資料遷移方案的帶寬打滿的概率進行判斷,如果超過概率閾值,則確定該資料遷移方案不可行,否則確定為可行。
本發明實施例的資料遷移的評估方法,應用於實際進行資料遷移操作之前,基於對待複製資料單元的被依賴資料量對網路帶寬狀態進行了模擬評估,並根據帶寬狀態資料來最終確定是否可行,從而降低了資料遷移失敗的風險。
實施例三
本實施例涉及一種資料遷移的處理方法,如圖9所示,其為本發明實施例三的資料遷移的處理方法的流程示意圖,包括:
步驟301:將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,其中,第一被依賴資料量為所述待遷移資料單元的所有被依賴資料量。。
步驟302:切換計算集群。這裏的切換計算集群可以具體為將一個或多個待遷移項目單元中的全部計算任務切換至目標集群。在切換完計算集群之後,計算任務產生的新資料會預設儲存在目標集群中。
步驟303:遷移剩餘的一個或多個待遷移資料單元至目標集群。
在上述的步驟301之前,還可以包括:步驟300:對源集群中多個待遷移資料單元按照第一被依賴資料量的大小進行排序。其中,多個待遷移資料單元可以屬於一個或多個待遷移項目單元。具體地,在執行步驟300之前,第一被依賴資料量可以根據待遷移資料單元的歷史資料進行統計而獲得。
此外,在執行本實施例的資料遷移的處理方法之前,可以應用實施例二的評估方法,以確定遷移方案的可行性,也可以應用實施例一的資料遷移的最佳化方法,選擇較為合理的資料遷移方案來進行資料遷移。
本發明實施例的資料遷移的處理方法,透過採用先複製被依賴資料量較多的熱資料單元然後進行計算集群的切換,最後再遷移冷資料的方式,能够儘早完成計算集群的切換,從而提高了資料遷移的效率,並且由於在計算集群切換後,產生的新資料會存放在目標集群,因此,也解決了新資料持續產生所帶來了影響。
實施例四
如圖10所示,其為本發明實施例四的資料遷移的最佳化裝置的結構示意圖,該最佳化裝置包括資料遷移方案產生模組11、帶寬狀態資料計算模組12以及最佳化選擇模組13。
資料遷移方案產生模組11,用於按照將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案,並觸發帶寬狀態資料計算模組對各個資料遷移方案進行計算處理,其中,第一被依賴資料量為所述待遷移資料單元的所有被依賴資料量。
帶寬狀態資料計算模組12,用於計算切換計算集群後集群間的帶寬狀態資料。
最佳化選擇模組13,用於根據帶寬狀態資料對各個資料遷移方案進行最佳化選擇。
其中,該最佳化裝置還可以包括:排序模組10,用於對源集群中多個待遷移資料單元按照第一被依賴資料量 的大小進行排序。其中,多個待遷移資料單元可以屬於一個或多個待遷移項目單元,相應地,切換計算集群可以具體為將一個或多個待遷移項目單元中的全部計算任務切換至目標集群。此外,本實施例的資料遷移的最佳化裝置還可以包括:第三獲取模組14,用於根據待遷移資料單元的歷史資料,獲取第一被依賴資料量。
上述帶寬狀態資料計算模組12可以進一步包括:
第一獲取模組121,用於獲取當前的帶寬使用資料,當前的帶寬使用資料為未進行計算集群切換前的帶寬使用資料。
第二獲取模組122,根據一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料,其中,第二被依賴資料量為一個或多個待複製資料單元與目標集群之外的其他資料單元之間的被依賴資料量;
疊加模組123,用於將當前的帶寬使用資料與變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料;
產生模組124,用於基於疊加後的帶寬使用資料,產生帶寬狀態資料。
其中,上述的帶寬使用資料可以為預定時間段內的與時間點對應的帶寬使用量的採樣資料,帶寬狀態資料可以包括帶寬打滿的概率。
在上述第一獲取模組121中,獲取當前的帶寬使用資料可以包括:獲取當前帶寬使用量,並對預定時間段內的 當前帶寬使用量進行採樣,產生第一採樣資料。
在上述第二獲取模組122中,根據一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料可以包括:根據待複製資料單元的歷史資料,產生預定時間段內的與時間點對應的歷史帶寬使用量的第二採樣資料。
在上述疊加模組123中,將當前的帶寬使用資料與變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料可以包括:將第一採樣資料和第二採樣資料進行疊加,產生疊加後的第三採樣資料。
在上述產生模組124中,基於疊加後的帶寬使用資料,產生帶寬狀態資料可以包括:基於疊加後的第三採樣資料計算帶寬打滿的概率。其中,帶寬打滿的概率可以採用上述公式(1)計算。
此外,本實施例的資料遷移的最佳化裝置還可以包括:複製時間計算模組15,用於根據一個或多個待複製資料單元的自身資料量計算在給定複製傳輸帶寬的條件下,複製一個或多個待複製資料單元的複製時間。相應地,在最佳化選擇模組中,根據帶寬狀態資料對各個資料遷移方案進行最佳化選擇包括:根據帶寬狀態資料和複製時間綜合確定優選的資料遷移方案。
進一步地,本實施例的資料遷移的最佳化裝置還可以包括: 資料遷移方案篩選模組,用於根據預設的帶寬打滿的概率閾值,對資料遷移方案的帶寬打滿的概率進行判斷,如果超過概率閾值,則剔除該資料遷移方案。
此外,本實施例的資料遷移的最佳化裝置還可以包括:全量遷移評估模組,用於在進行最佳化處理前,計算全量資料遷移的情況下的集群間的帶寬狀態資料,如果帶寬狀態資料不滿足預設的帶寬可行性條件,則停止對資料遷移方案的最佳化處理。
本發明實施例的資料遷移的最佳化裝置,透過按照優先複製被依賴資料量較多的熱資料單元然後切換計算集群的原則產生多個遷移方案,並對各個方案進行基於帶寬狀態資料的預測評估,然後在進行最佳化選擇,從而能够獲得較為優選的資料遷移方案,提高資料遷移的效率,降低資料遷移失敗的風險。
實施例五
如圖11所示,其為本發明實施例五的資料遷移的評估裝置的結構示意圖,該評估裝置包括第四獲取模組21、帶寬狀態資料計算模組12以及判定模組22。
其中,第四獲取模組21,用於獲取在切換計算集群前,源集群中要複製到目標集群中的一個或多個待複製資料單元的第二被依賴資料量。具體地,可以根據待複製資料單元的歷史資料,獲取第二被依賴資料量。其中,第二 被依賴資料量為待複製資料單元與目標集群之外的其他資料單元之間的被依賴資料量。待複製資料單元可以是全部需要遷移的待遷移資料單元,也可以是部分需要遷移的待遷移資料單元,即本實施例的評估裝置可以針對全量遷移方案進行評估,也可以針對先遷移部分熱資料,然後執行計算集群切換後,再遷移冷資料的方案進行評估。
帶寬狀態資料計算模組12,用於計算切換計算集群後集群間的帶寬狀態資料。
判定模組22,用於根據帶寬狀態資料是否滿足預設帶寬可行性條件來確定資料遷移方案是否可行。
上述帶寬狀態資料計算模組12可以進一步包括:
第一獲取模組121,用於獲取當前的帶寬使用資料。
第二獲取模組122,用於根據一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料。
疊加模組123,用於將當前的帶寬使用資料與變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料。
產生模組124,用於基於疊加後的帶寬使用資料,產生帶寬狀態資料。
其中,上述的帶寬使用資料為預定時間段內的與時間點對應的帶寬使用量的採樣資料,帶寬狀態資料可以包括帶寬打滿的概率。
在上述第一獲取模組121中,獲取當前的帶寬使用資料可以包括:獲取當前帶寬使用量,並對預定時間段內的 當前帶寬使用量進行採樣,產生第一採樣資料。
在上述第二獲取模組122中,根據一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料可以包括:根據待複製資料單元的歷史資料,產生預定時間段內的與時間點對應的歷史帶寬使用量的第二採樣資料。
在上述疊加模組123中,將當前的帶寬使用資料與變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料可以包括:將第一採樣資料和第二採樣資料進行疊加,產生疊加後的第三採樣資料。
在上述產生模組124中,基於疊加後的帶寬使用資料,產生帶寬狀態資料可以包括:基於疊加後的第三採樣資料計算帶寬打滿的概率。其中,帶寬打滿的概率可以採用上述公式(1)計算。
進一步地,在上述判定模組22中,根據帶寬狀態資料是否滿足預設帶寬條件來確定資料遷移方案是否可行可以包括:根據預設的帶寬打滿的概率閾值,對資料遷移方案的帶寬打滿的概率進行判斷,如果超過概率閾值,則確定該資料遷移方案不可行,否則確定為可行。
本發明實施例的資料遷移的評估裝置,可以應用於實際進行資料遷移操作之前,基於對待複製資料單元的被依賴資料量對網路帶寬狀態進行了模擬評估,並根據帶寬狀態資料來最終確定是否可行,從而降低了資料遷移失敗的風險。
實施例六
如圖12所示,其為本發明實施例六的資料遷移的處理裝置的結構示意圖,該處理裝置包括複製模組31、切換模組32以及剩餘資料遷移模組33。
複製模組31,用於將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,其中,第一被依賴資料量為所述待遷移資料單元的所有被依賴資料量。
切換模組32,用於切換計算集群。
剩餘資料遷移模組33,用於遷移剩餘的一個或多個待遷移資料單元至目標集群。
其中,本實施例的處理裝置還可以包括:排序模組10,用於對源集群中多個待遷移資料單元按照第一被依賴資料量的大小進行排序。其中,多個待遷移資料單元可以屬於一個或多個待遷移項目單元,相應地,切換計算集群可以具體為將一個或多個待遷移項目單元中的全部計算任務切換至目標集群。
進一步地,該處理裝置還可以包括:第三獲取模組14,用於根據待遷移資料單元的歷史資料,獲取第一被依賴資料量。
本發明實施例的資料遷移的處理裝置,透過採用先複製被依賴資料量較多的熱資料單元然後進行計算集群的切換,最後再遷移冷資料的方式,能够儘早完成計算集群的 切換,從而提高了資料遷移的效率,並且由於在計算集群切換後,產生的新資料會存放在目標集群,因此,也解決了新資料持續產生所帶來了影響。
本領域普通技術人員可以理解:實現上述各方法實施例的全部或部分步驟可以透過程式指令相關的硬件來完成。前述的程式可以儲存於一電腦可讀取儲存媒體中。該程式在執行時,執行包括上述各方法實施例的步驟;而前述的儲存媒體包括:ROM、RAM、磁碟或者光碟等各種可以儲存程式碼的媒體。
最後應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述各實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。

Claims (43)

  1. 一種資料遷移的最佳化方法,其特徵在於,包括:按照將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案,其中,該第一被依賴資料量為該待遷移資料單元的所有被依賴資料量;針對該各個資料遷移方案,計算切換計算集群後集群間的帶寬狀態資料;根據該帶寬狀態資料對各個該資料遷移方案進行最佳化選擇;其中,該帶寬狀態資料包括帶寬打滿的概率;其中,該帶寬打滿的概率等於預定時間段內的與時間點對應的帶寬使用量的採樣資料中帶寬超過帶寬上限的時長除以該預定時間段的時長。
  2. 根據申請專利範圍第1項的最佳化方法,其中,該多個待遷移資料單元屬於一個或多個待遷移項目單元,該切換計算集群包括:將該一個或多個待遷移項目單元中的全部計算任務切換至該目標集群。
  3. 根據申請專利範圍第1項的最佳化方法,其中,該計算切換計算集群後集群間的帶寬狀態資料包括:獲取當前的帶寬使用資料,該當前的帶寬使用資料為未進行計算集群切換前的帶寬使用資料; 根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料,其中,該第二被依賴資料量為該一個或多個待複製資料單元與該目標集群之外的其他資料單元之間的被依賴資料量;將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,基於疊加後的帶寬使用資料,產生該帶寬狀態資料。
  4. 根據申請專利範圍第3項的最佳化方法,其中,該獲取當前的帶寬使用資料包括:獲取當前帶寬使用量,並對預定時間段內的當前帶寬使用量進行採樣,產生第一採樣資料,該根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料包括:根據該待複製資料單元的歷史資料,產生該預定時間段內的與時間點對應的歷史帶寬使用量的第二採樣資料,該將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,基於疊加後的帶寬使用資料,產生該帶寬狀態資料包括:將該第一採樣資料和該第二採樣資料進行疊加,基於疊加後的該採樣資料計算該帶寬打滿的概率。
  5. 根據申請專利範圍第3項的最佳化方法,其中,還包括:根據預設的帶寬打滿的概率閾值,對該資料遷移 方案的帶寬打滿的概率進行判斷,如果超過該概率閾值,則剔除該資料遷移方案。
  6. 根據申請專利範圍第1項的最佳化方法,其中,在該產生多個資料遷移方案之前還包括:對源集群中多個待遷移資料單元按照該第一被依賴資料量的大小進行排序。
  7. 根據申請專利範圍第6項的最佳化方法,其中,在對源集群中多個待遷移資料單元按照第一被依賴資料量的大小進行排序之前還包括:根據待遷移資料單元的歷史資料,獲取該第一被依賴資料量。
  8. 根據申請專利範圍第6項的最佳化方法,其中,在對源集群中多個待遷移資料單元按照第一被依賴資料量的大小進行排序之前,還包括:計算全量資料遷移的情況下的集群間的帶寬狀態資料;如果該帶寬狀態資料不滿足預設的帶寬可行性條件,則結束該最佳化方法。
  9. 根據申請專利範圍第1項的最佳化方法,其中,該按照將該第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案包括:按照將該第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,然後 切換計算集群的原則,根據該待遷移資料單元的排序,以從一次性複製全部待遷移資料單元開始逐個資料單元遞減直至僅複製該第一被依賴資料量最多個的待遷移資料單元為止,產生多個資料遷移方案。
  10. 根據申請專利範圍第1至9項中任一項的最佳化方法,其中,還包括:根據該一個或多個待複製資料單元的自身資料量計算在給定複製傳輸帶寬的條件下,複製該一個或多個待複製資料單元的複製時間;該根據該帶寬狀態資料對各個該資料遷移方案進行最佳化選擇包括:根據該帶寬狀態資料和該複製時間綜合確定優選的資料遷移方案。
  11. 一種資料遷移的評估方法,其特徵在於,包括:獲取在切換計算集群前,源集群中要複製到目標集群的一個或多個待複製資料單元的第二被依賴資料量,該第二被依賴資料量為該待複製資料單元與該目標集群之外的其他資料單元之間的被依賴資料量;計算切換計算集群後集群間的帶寬狀態資料;根據該帶寬狀態資料是否滿足預設帶寬可行性條件來確定資料遷移方案是否可行。
  12. 根據申請專利範圍第11項的評估方法,其中,該多個待複製資料單元屬於一個或多個待遷移項目單元,該切換計算集群包括:將該一個或多個待遷移項目單元中的全部計算任務切換至該目標集群。
  13. 根據申請專利範圍第11項的評估方法,其中, 該計算切換計算集群後集群間的帶寬狀態資料包括:獲取當前的帶寬使用資料,該當前的帶寬使用資料為未進行計算集群切換前的帶寬使用資料;根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料;將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,基於疊加後的帶寬使用資料,產生該帶寬狀態資料。
  14. 根據申請專利範圍第13項的評估方法,其中,該帶寬使用資料為預定時間段內的與時間點對應的帶寬使用量的採樣資料,該帶寬狀態資料包括帶寬打滿的概率。
  15. 根據申請專利範圍第14項的評估方法,其中,該獲取當前的帶寬使用資料包括:獲取當前帶寬使用量,並對預定時間段內的當前帶寬使用量進行採樣,產生第一採樣資料,該根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料包括:根據與該第二依賴資料量相關的歷史資料,產生該預定時間段內的與時間點對應的歷史帶寬使用量的第二採樣資料,該將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,基於疊加後的帶寬使用資料,產生該帶寬狀態 資料包括:將該第一採樣資料和該第二採樣資料進行疊加,基於疊加後的第三採樣資料計算該帶寬打滿的概率。
  16. 根據申請專利範圍第15項的評估方法,其中,該帶寬打滿的概率等於該第三採用資料中超過帶寬上限的時長除以該預定時間段的時長。
  17. 根據申請專利範圍第14項的評估方法,其中,該根據該帶寬狀態資料是否滿足預設帶寬條件來確定資料遷移方案是否可行包括:根據預設的帶寬打滿的概率閾值,對該資料遷移方案的帶寬打滿的概率進行判斷,如果超過該概率閾值,則確定該資料遷移方案不可行,否則確定為可行。
  18. 根據申請專利範圍第11項的評估方法,其中,獲取源集群中要複製到目標集群中的一個或多個待複製資料單元的第二被依賴資料量包括:根據該待複製資料單元的歷史資料,獲取該第二被依賴資料量。
  19. 一種資料遷移的處理方法,其特徵在於,包括:將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,其中,該第一被依賴資料量為該待遷移資料單元的所有被依賴資料量;切換計算集群;遷移剩餘的一個或多個待遷移資料單元至目標集群。
  20. 根據申請專利範圍第19項的處理方法,其中,該多個待遷移資料單元屬於一個或多個待遷移項目單元,該切換計算集群包括:將該一個或多個待遷移項目單元中的全部計算任務切換至該目標集群。
  21. 根據申請專利範圍第19項的處理方法,其中,在將該第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群之前還包括:對源集群中多個待遷移資料單元按照該第一被依賴資料量的大小進行排序。
  22. 根據申請專利範圍第21項的處理方法,其中,在對源集群中多個待遷移資料單元按照第一被依賴資料量的大小進行排序之前還包括:根據待遷移資料單元的歷史資料,獲取該第一被依賴資料量。
  23. 一種資料遷移的最佳化裝置,其特徵在於,包括:資料遷移方案產生模組,用於按照將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,然後切換計算集群的原則,產生多個資料遷移方案,並觸發帶寬狀態資料計算模組對各個資料遷移方案進行計算處理;該帶寬狀態資料計算模組,用於計算切換計算集群後集群間的帶寬狀態資料;最佳化選擇模組,用於根據該帶寬狀態資料對各個該 資料遷移方案進行最佳化選擇;其中,該帶寬狀態資料包括帶寬打滿的概率;其中,該帶寬打滿的概率等於預定時間段內的與時間點對應的帶寬使用量的採樣資料中帶寬超過帶寬上限的時長除以該預定時間段的時長。
  24. 根據申請專利範圍第23項的最佳化裝置,其中,該多個待遷移資料單元屬於一個或多個待遷移項目單元,該切換計算集群包括:將該一個或多個待遷移項目單元中的全部計算任務切換至該目標集群。
  25. 根據申請專利範圍第23項的最佳化裝置,其中,該帶寬狀態資料計算模組包括:第一獲取模組,用於獲取當前的帶寬使用資料,該當前的帶寬使用資料為未進行計算集群切換前的帶寬使用資料;第二獲取模組,根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料,其中,該第二被依賴資料量為該一個或多個待複製資料單元與該目標集群之外的其他資料單元之間的被依賴資料量;疊加模組,用於將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料;產生模組,用於基於疊加後的帶寬使用資料,產生該帶寬狀態資料。
  26. 根據申請專利範圍第25項的最佳化裝置,其 中,該獲取當前的帶寬使用資料包括:獲取當前帶寬使用量,並對預定時間段內的當前帶寬使用量進行採樣,產生第一採樣資料,該根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料包括:根據該待複製資料單元的歷史資料,產生該預定時間段內的與時間點對應的歷史帶寬使用量的第二採樣資料,該將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料包括:將該第一採樣資料和該第二採樣資料進行疊加,產生疊加後的該採樣資料;該基於疊加後的帶寬使用資料,產生該帶寬狀態資料包括:基於疊加後的該採樣資料計算該帶寬打滿的概率。
  27. 根據申請專利範圍第25項的最佳化裝置,其中,還包括:資料遷移方案篩選模組,用於根據預設的帶寬打滿的概率閾值,對該資料遷移方案的帶寬打滿的概率進行判斷,如果超過該概率閾值,則剔除該資料遷移方案。
  28. 根據申請專利範圍第23項的最佳化裝置,其中,還包括:全量遷移評估模組,用於在進行最佳化處理前,計算全量資料遷移的情況下的集群間的帶寬狀態資料,如果該 帶寬狀態資料不滿足預設的帶寬可行性條件,則結束對資料遷移方案的最佳化處理。
  29. 根據申請專利範圍第23至28項中任一項的最佳化裝置,其中,還包括:複製時間計算模組,用於根據該一個或多個待複製資料單元的自身資料量計算在給定複製傳輸帶寬的條件下,複製該一個或多個待複製資料單元的複製時間;在該最佳化選擇模組中,該根據該帶寬狀態資料對各個該資料遷移方案進行最佳化選擇包括:根據該帶寬狀態資料和該複製時間綜合確定優選的資料遷移方案。
  30. 根據申請專利範圍第23項的最佳化裝置,其中,還包括:排序模組,用於對源集群中多個該待遷移資料單元按照該第一被依賴資料量的大小進行排序。
  31. 根據申請專利範圍第30項的最佳化裝置,其中,還包括:第三獲取模組,用於根據待遷移資料單元的歷史資料,獲取該第一被依賴資料量。
  32. 一種資料遷移的評估裝置,其特徵在於,包括:第四獲取模組,用於獲取在切換計算集群前,源集群中要複製到目標集群中的一個或多個待複製資料單元的第二被依賴資料量,該第二被依賴資料量為該待複製資料單元與該目標集群之外的其他資料單元之間的被依賴資料量; 帶寬狀態資料計算模組,用於計算切換計算集群後集群間的帶寬狀態資料;判定模組,用於根據該帶寬狀態資料是否滿足預設帶寬可行性條件來確定資料遷移方案是否可行。
  33. 根據申請專利範圍第32項的評估裝置,其中,該多個待複製資料單元屬於一個或多個待遷移項目單元,該切換計算集群包括:將該一個或多個待遷移項目單元中的全部計算任務切換至該目標集群。
  34. 根據申請專利範圍第32項的評估裝置,其中,該帶寬狀態資料計算模組包括:第一獲取模組,用於獲取當前的帶寬使用資料,該當前的帶寬使用資料為未進行計算集群切換前的帶寬使用資料;第二獲取模組,用於根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料;疊加模組,用於將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料;產生模組,用於基於疊加後的帶寬使用資料,產生該帶寬狀態資料。
  35. 根據申請專利範圍第34項的評估裝置,其中,該帶寬使用資料為預定時間段內的與時間點對應的帶寬使用量的採樣資料,該帶寬狀態資料包括帶寬打滿的概率。
  36. 根據申請專利範圍第35項的評估裝置,其中, 該獲取當前的帶寬使用資料包括:獲取當前帶寬使用量,並對預定時間段內的當前帶寬使用量進行採樣,產生第一採樣資料,該根據該一個或多個待複製資料單元的第二被依賴資料量,獲取在切換計算集群後而導致的變動的帶寬使用資料包括:根據與該第二依賴資料量相關的歷史資料,產生該預定時間段內的與時間點對應的歷史帶寬使用量的第二採樣資料,該將該當前的帶寬使用資料與該變動的帶寬使用資料進行疊加,產生疊加後的帶寬使用資料包括:將該第一採樣資料和該第二採樣資料進行疊加,產生疊加後的第三採樣資料;該基於疊加後的帶寬使用資料,產生該帶寬狀態資料包括:基於疊加後的第三採樣資料計算該帶寬打滿的概率。
  37. 根據申請專利範圍第36項的評估裝置,其中,該帶寬打滿的概率等於該第三採用資料中超過帶寬上限的時長除以該預定時間段的時長。
  38. 根據申請專利範圍第35項的評估裝置,其中,該根據該帶寬狀態資料是否滿足預設帶寬條件來確定資料遷移方案是否可行包括:根據預設的帶寬打滿的概率閾值,對該資料遷移方案的帶寬打滿的概率進行判斷,如果超過該概率閾值,則確定該資料遷移方案不可行,否則確定為可行。
  39. 根據申請專利範圍第32項的評估裝置,其中,獲取源集群中要複製到目標集群中的一個或多個待複製資料單元的第二被依賴資料量包括:根據該待複製資料單元的歷史資料,獲取該第二被依賴資料量。
  40. 一種資料遷移的處理裝置,其特徵在於,包括:複製模組,用於將第一被依賴資料量較多的一個或多個待遷移資料單元作為待複製資料單元優先複製到目標集群,其中,該第一被依賴資料量為該待遷移資料單元的所有被依賴資料量;切換模組,用於切換計算集群;剩餘資料遷移模組,用於遷移剩餘的一個或多個待遷移資料單元至目標集群。
  41. 根據申請專利範圍第40項的處理裝置,其中,該多個待遷移資料單元屬於一個或多個待遷移項目單元,該切換計算集群包括:將該一個或多個待遷移項目單元中的全部計算任務切換至該目標集群。
  42. 根據申請專利範圍第40項的處理裝置,其中,還包括:排序模組,用於對源集群中多個該待遷移資料單元按照該第一被依賴資料量的大小進行排序。
  43. 根據申請專利範圍第42項的處理裝置,其中,還包括:第三獲取模組,用於根據待遷移資料單元的歷史資 料,獲取該第一被依賴資料量。
TW106104944A 2016-03-22 2017-02-15 資料遷移的最佳化方法、評估方法及處理方法及裝置 TWI740899B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610166580.0A CN107220263B (zh) 2016-03-22 2016-03-22 数据迁移的优化方法、评估方法及处理方法及装置
CN201610166580.0 2016-03-22

Publications (2)

Publication Number Publication Date
TW201734752A TW201734752A (zh) 2017-10-01
TWI740899B true TWI740899B (zh) 2021-10-01

Family

ID=59899363

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106104944A TWI740899B (zh) 2016-03-22 2017-02-15 資料遷移的最佳化方法、評估方法及處理方法及裝置

Country Status (6)

Country Link
US (1) US20190026290A1 (zh)
EP (1) EP3435252A4 (zh)
CN (1) CN107220263B (zh)
SG (1) SG11201807494UA (zh)
TW (1) TWI740899B (zh)
WO (1) WO2017162033A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509556B (zh) * 2018-03-22 2021-03-23 上海达梦数据库有限公司 数据迁移方法和装置、服务器、存储介质
CN108989127B (zh) * 2018-08-15 2020-10-27 中科边缘智慧信息科技(苏州)有限公司 多数据中心间用户漫游与随遇接入方法
CN109144791B (zh) * 2018-09-30 2020-12-22 北京金山云网络技术有限公司 数据转存方法、装置和数据管理服务器
US10915455B2 (en) 2018-12-04 2021-02-09 Netflix, Inc. Cache warming: agility for a stateful service
CN110045924B (zh) * 2019-03-01 2022-02-11 平安科技(深圳)有限公司 分级存储方法、装置、电子设备及计算机可读存储介质
US11797729B2 (en) * 2019-06-19 2023-10-24 Vmware, Inc. Hyper-converged infrastructure (HCI) operation predictor
CN110569233A (zh) * 2019-06-30 2019-12-13 华为技术有限公司 一种热点数据的管理方法、装置及系统
CN110597609A (zh) * 2019-09-17 2019-12-20 深圳市及响科技有限公司 一种集群迁移与自动恢复方法及系统
TWI753329B (zh) 2019-12-06 2022-01-21 財團法人工業技術研究院 具風險評估之最佳取樣參數搜尋系統、方法與圖案化使用者介面
CN111258755A (zh) * 2020-01-09 2020-06-09 阿里巴巴集团控股有限公司 数据迁移及信息确定方法、数据处理系统、电子设备
CN111274230B (zh) * 2020-03-26 2024-03-08 北京奇艺世纪科技有限公司 数据迁移的管理方法、装置、设备及存储介质
CN116107993B (zh) * 2022-12-26 2023-08-29 北京万里开源软件有限公司 一种MySQL协议数据库中数据迁移评估方法及系统
KR102543749B1 (ko) * 2023-02-17 2023-06-14 주식회사 헤카톤에이아이 데이터 레이크 이관을 위한 인공지능 기반 자동화 시스템
CN116614379B (zh) * 2023-07-18 2023-10-10 中移(苏州)软件技术有限公司 迁移服务的带宽调整方法、装置及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7080221B1 (en) * 2003-04-23 2006-07-18 Emc Corporation Method and apparatus for managing migration of data in a clustered computer system environment
US20080222644A1 (en) * 2007-03-05 2008-09-11 International Business Machines Corporation Risk-modulated proactive data migration for maximizing utility in storage systems
WO2012083679A1 (zh) * 2011-07-13 2012-06-28 华为技术有限公司 一种数据迁移方法、数据迁移装置及数据迁移系统
US20120246659A1 (en) * 2011-03-25 2012-09-27 Microsoft Corporation Techniques to optimize upgrade tasks
US20130086272A1 (en) * 2011-09-29 2013-04-04 Nec Laboratories America, Inc. Network-aware coordination of virtual machine migrations in enterprise data centers and clouds

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613738B2 (en) * 2007-01-16 2009-11-03 Microsoft Corporation FAT directory structure for use in transaction safe file system
US8812799B2 (en) * 2009-12-11 2014-08-19 International Business Machines Corporation Cluster families for cluster selection and cooperative replication
US9141919B2 (en) * 2010-02-26 2015-09-22 International Business Machines Corporation System and method for object migration using waves
CN103856548B (zh) * 2012-12-07 2017-11-03 华为技术有限公司 动态资源调度方法和动态资源调度器
US9747311B2 (en) * 2013-07-09 2017-08-29 Oracle International Corporation Solution to generate a scriptset for an automated database migration
US9207873B2 (en) * 2013-12-19 2015-12-08 Netapp, Inc. Parallel migration of data objects to clustered storage
CN104869140B (zh) * 2014-02-25 2018-05-22 阿里巴巴集团控股有限公司 多集群系统和控制多集群系统的数据存储的方法
CN103957261A (zh) * 2014-05-06 2014-07-30 湖南体运通信息技术有限公司 一种基于能耗优化的云计算资源分配的方法
CN105227374B (zh) * 2015-10-23 2018-05-29 浪潮(北京)电子信息产业有限公司 一种集群应用的故障迁移方法和系统
CN105245405B (zh) * 2015-10-27 2018-02-23 浙江大学软件学院(宁波)管理中心(宁波软件教育中心) 一种面向数据交换的云迁移优化评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7080221B1 (en) * 2003-04-23 2006-07-18 Emc Corporation Method and apparatus for managing migration of data in a clustered computer system environment
US20080222644A1 (en) * 2007-03-05 2008-09-11 International Business Machines Corporation Risk-modulated proactive data migration for maximizing utility in storage systems
US20120246659A1 (en) * 2011-03-25 2012-09-27 Microsoft Corporation Techniques to optimize upgrade tasks
WO2012083679A1 (zh) * 2011-07-13 2012-06-28 华为技术有限公司 一种数据迁移方法、数据迁移装置及数据迁移系统
US20130086272A1 (en) * 2011-09-29 2013-04-04 Nec Laboratories America, Inc. Network-aware coordination of virtual machine migrations in enterprise data centers and clouds

Also Published As

Publication number Publication date
EP3435252A1 (en) 2019-01-30
WO2017162033A1 (zh) 2017-09-28
US20190026290A1 (en) 2019-01-24
CN107220263A (zh) 2017-09-29
SG11201807494UA (en) 2018-10-30
CN107220263B (zh) 2021-09-03
EP3435252A4 (en) 2019-01-30
TW201734752A (zh) 2017-10-01

Similar Documents

Publication Publication Date Title
TWI740899B (zh) 資料遷移的最佳化方法、評估方法及處理方法及裝置
US20230376506A1 (en) System and Method for Analysis and Management of Data Distribution in a Distributed Database Environment
Herodotou et al. Profiling, what-if analysis, and cost-based optimization of mapreduce programs
US10599648B2 (en) Optimized storage solution for real-time queries and data modeling
CN107122126B (zh) 数据的迁移方法、装置和系统
CN103139302A (zh) 考虑负载均衡的实时副本调度方法
CN105653591A (zh) 一种工业实时数据分级存储及迁移方法
CN108683560A (zh) 一种大数据流处理框架的性能基准测试系统及方法
CN106126334A (zh) 概率性重复数据删除感知的工作负载迁移
CN103631894A (zh) 一种基于hdfs的动态副本管理方法
JP2016100006A (ja) パフォーマンス試験のためのベンチマーク・アプリケーションを生成する方法および装置
CN107665219A (zh) 一种日志管理方法及装置
CN110457626A (zh) 一种异常访问请求筛选方法及装置
Li et al. Improving the shuffle of hadoop MapReduce
CN113391913A (zh) 一种基于预测的分布式调度方法和装置
CN105095255A (zh) 一种数据索引创建方法及装置
CN102546235A (zh) 云计算环境下面向web应用的性能诊断方法和系统
CN112000703A (zh) 数据入库处理方法、装置、计算机设备和存储介质
CN111177191A (zh) 一种基于碳排放交易的关键指标计算分析方法
Huang et al. A novel compression algorithm decision method for spark shuffle process
CN107018163B (zh) 一种资源配置方法和装置
KR101792189B1 (ko) 빅 데이터 처리 장치 및 방법
CN109828718B (zh) 一种磁盘存储负载均衡方法及装置
Li et al. Global reliability evaluation for cloud storage systems with proactive fault tolerance
Zhang et al. Getting more for less in optimized mapreduce workflows