WO2014094421A1

WO2014094421A1 - 数据处理方法和虚拟机管理平台

Info

Publication number: WO2014094421A1
Application number: PCT/CN2013/079573
Authority: WO
Inventors: 任努努
Original assignee: 华为技术有限公司
Priority date: 2012-12-21
Filing date: 2013-07-18
Publication date: 2014-06-26
Also published as: CN103064797A; CN103064797B

Abstract

本发明提供一种数据处理方法和虚拟机管理平台，通过扫描物理硬盘上存储的、与各个虚拟硬盘对应的数据块，获取各个虚拟硬盘之间数据内容出现重复的重复数据块，并在重复数据记录表中存储所有重复数据块的标识信息和存储信息的对应关系，当任一重复数据块从物理硬盘中存储到内存中时，根据内存地址更新重复数据记录表中与重复数据块的所有标识信息对应的存储信息，以便在读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据存储信息从内存中读取数据块。实现了多台虚拟机在访问位于物理硬盘不同位置的相同数据内容时，减少了对物理硬盘的反复访问，提高了对虚拟机的读请求响应速度，并且延长了硬盘的使用寿命。

Description

数据处理方法和虚拟机管理平台技术领域本发明实施例涉及通信技术领域，尤其涉及一种数据处理方法和虚拟机管理平台。背景技术

虚拟化技术是云计算领域的关键技术之一，其主要原理是将一台物理机的物理资源虚拟化为多个可以独立运行操作系统的虚拟机，每个虚拟机都可以独立实现物理机的功能，互不干 ·ί尤，虚拟机使用过程与物理机一致，可以认为虚拟机是物理机的一种抽象化形式。

图 1是现有虚拟化技术的结构示意图，如图 1所示，硬件平台 101上的各种物理资源（包括中央处理器 102、内存 103、硬盘 104、网卡 105 )被虚拟机管理平台 1 10抽象为多个虚拟机（Virtual Machine, VM ) 130 , 其中硬盘 104可以位于本地或远端。虚拟资源的功能与真实物理资源的作用完全一致，用户在虚拟机中对虚拟资源的操作与物理机完全一致。在不同的虚拟机中可以安装独立的操作系统 132 , 以及一个或多个应用程序 131。虚拟机管理平台 1 10负责将物理硬盘 104抽象为各个独立的虚拟硬盘 124 , 供不同的虚拟机 130使用，所有虚拟机 130表面上使用的是各个独立的虚拟硬盘 124 , 实际上则是使用的一个或多个物理硬盘 104中的不同空间。当某个虚拟机 104访问其对应的虚拟硬盘 124时，虚拟机管理平台 1 10将对虚拟机硬盘 124的请求映射为对物理硬盘 104不同空间的请求，从而实现不同虚拟机 130拥有各自独立的虚拟硬盘 124 , 互不干扰。

在虚拟化技术中由于多个虚拟机共享同一个物理硬盘，这就意味着在同一时间可能有一个或几个，甚至几十个虚拟机在访问各自的虚拟机硬盘，对应到物理硬盘上，则是在访问同一个物理硬盘。物理硬盘有多项技术指标，其中最重要的一项指标是（Input/Output Operations Per Second , I0PS) , 即每秒进行读写（I/O )操作的次数，该值越大，表示硬盘响应请求的速度越快、延迟越小。在这项指标中，读操作相比于写操作，更影响虚拟机性能。在硬盘发展的当前阶段，其所能提供的 IOPS数值是有限的。当物理硬盘被一个或几个虚拟机同时访问时，不会有太大的性能瓶颈，用户感受不到明显的延迟。但是，当物理硬盘被几十个用户在同时访问时，则会有明显的延迟产生，这极大影响了虚拟机性能。例如，当早上大量用户同时进行开机操作时，需要同时访问硬盘获取系统数据，这时就会发现开机速度有明显的降低，这种现象称为 "启动风暴" ；又如，当大量用户进行杀毒操作时，也会出现明显的延迟，可以称之为 "杀毒风暴" 。发明内容针对现有技术的上述缺陷，本发明实施例提供一种数据处理方法和虚拟机管理平台。

第一方面，本发明一方面提供一种数据处理方法，包括：

扫描物理硬盘上存储的、与各个虚拟硬盘对应的数据块，获取各个虚拟硬盘之间数据块内容相同的各重复数据块组，并在重复数据记录表中存储各重复数据块组中各数据块的标识信息和存储信息的对应关系；

当各重复数据块组中任一数据块从所述物理硬盘中存储到内存中时，根据内存地址更新所述重复数据记录表中所述数据块所在的重复数据块组中的所有存储信息，以便在读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块。

在第一种可能的实现方式中，所述获取各个虚拟硬盘之间数据块内容相同的各重复数据块组包括：

釆用哈希算法对每个数据块的数据内容进行计算获取哈希值；

比较每个数据块的哈希值，获取各个虚拟硬盘之间哈希值相同的各重复数据块组。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，还包括：

接收携带标识信息的数据块写入请求；

根据所述标识信息查询所述重复数据记录表，若判断获知所述重复数据记录表中存储有与所述标识信息对应的存储信息，则根据所述标识信息将所述数据块写入所述物理硬盘中，并删除所述重复数据记录表中与所述数据块对应的存储信息。

结合第一方面或第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块包括：

接收携带标识信息的数据块读取请求；

根据所述标识信息查询所述重复数据记录表，若判断获知所述重复数据记录表中存储有与所述标识信息对应的存储信息 ,且所述存储信息标识所述数据块存储在所述内存中，则根据所述存储信息从所述内存中读取所述数据块。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，还包括：

若所述存储信息标识所述数据块存储在所述物理硬盘中，则根据所述标识信息从所述物理硬盘存储中读取所述数据块，并将所述数据块存储到所述内存中，并更新所述重复数据记录表中与所述数据块对应的存储信息。

第二方面，本发明一方面提供一种虚拟机管理平台，包括：

获取模块，用于扫描物理硬盘上存储的、与各个虚拟硬盘对应的数据块，获取各个虚拟硬盘之间数据块内容相同的各重复数据块组，并在重复数据记录表中存储各重复数据块组中各数据块的标识信息和存储信息的对应关系；处理模块，用于当各重复数据块组中任一数据块从所述物理硬盘中存储到内存中时，根据内存地址更新所述重复数据记录表中所述数据块所在的重复数据块组中的所有存储信息；

读取模块，用于在读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块。

在第一种可能的实现方式中，所述获取模块具体用于：

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，还包括：写入模块，用于接收携带标识信息的数据块写入请求；

结合第二方面或第二方面的第一种可能的实现方式，在第三种可能的实现方式中，所述读取模块具体用于：

接收携带标识信息的数据块读取请求；

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述读取模块还用于：

本发明实施例提供的数据处理方法和虚拟机管理平台，通过扫描物理硬盘上存储的、与各个虚拟硬盘对应的数据块，获取各个虚拟硬盘之间数据内容出现重复的重复数据块，并在重复数据记录表中存储所有重复数据块的标识信息和存储信息的对应关系，当任一重复数据块从物理硬盘中存储到内存中时，根据内存地址更新重复数据记录表中与重复数据块相关的所有标识信息对应的存储信息，以便在读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据存储信息从内存中读取数据块。实现了多台虚拟机在访问位于物理硬盘不同位置的相同数据内容时，减少了对物理硬盘的反复访问，提高了对虚拟机的读请求响应速度，并且延长了硬盘的使用寿命。附图说明图 1是现有虚拟化技术的结构示意图；

图 2为本发明实施例提供的一个数据处理方法的流程图；图 3为针对图 2的数据处理方法进行的数据读取的流程图；

图 4为本发明实施例提供的一个虚拟机管理平台的结构示意图；

图 5为本发明实施例提供的另一个虚拟机管理平台的结构示意图；

具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 2为本发明实施例提供的一个数据处理方法的流程图，如图 2所示，该方法包括：

步骤 100, 扫描物理硬盘上存储的、与各个虚拟硬盘对应的数据块，获取各个虚拟硬盘之间数据块内容相同的各重复数据块组，并在重复数据记录表中存储各重复数据块组中各数据块的标识信息和存储信息的对应关系；根据具体部署的软硬件资源和用户需求进行选择，例如：虚拟机管理平台、硬件平台上的处理器、位于物理机上的数据处理装置等，本发明对此不作限定。为了更清楚的描述具体的实施过程 ,下面所示实施例均以虚拟机管理平台为例进行具体说明，其余执行主体的具体执行过程参考虚拟机管理平台。当物理机启动后，虚拟机管理平台对物理硬盘上存储的、与各个虚拟硬盘对应的数据块进行扫描，根据所扫描的每个数据块的数据内容获取各个虚拟硬盘之间数据块内容相同的各重复数据块组，其中，每个重复数据块组中包括至少两个数据内容相同的数据块。需要说明的是，通过一一比较每个数据块内容是否相同来获取各个虚拟硬盘之间数据块内容相同的各重复数据块组的方式效率较低，因此可以釆用哈希算法对每个数据块的数据内容进行计算获取哈希值，然后比较每个数据块的哈希值，获取各个虚拟硬盘之间哈希值相同的各重复数据块组。

虚拟机管理平台根据各重复数据块组中的各数据块在虚拟硬盘中的位置 , 在重复数据记录表中存储各重复数据块组中各数据块的标识信息和存储信息的对应关系，其中，标识信息用于标识数据块在虚拟硬盘中的存储位置，标识信息具体包括虚拟硬盘编号和虚拟硬盘数据块偏移号，按照预设的逻辑算法对虚拟硬盘编号和虚拟硬盘数据块偏移号进行运算可以获取数据块在物理硬盘中的存储位置，例如：若一个数据块所在的虚拟硬盘编号为 2 , 虚拟硬盘数据块偏移号为 0005 , 将虚拟硬盘编号与虚拟硬盘数据块偏移号顺序组合即为该数据块所在的物理硬盘的存储位置为 20005 , 该例子中的组合算法只是为了举例说明，具体的逻辑算法由技术人员根据实际应用需要进行调整。存储信息用于表示数据块是否从物理硬盘中存储到内存中以及在内存中的具体位置，存储信息可以有多种表现形式，举例说明：若存储信息用内存地址进行表示，当内存地址为 OxFFFFFFFF时，表示该数据块还没有从物理硬盘中存储到内存中，当内存地址不为 OxFFFFFFFF时而是具体的内存地址比如 0X1 1 1 10000 , 表示该数据块已经从物理硬盘中存储到内存中，且内存地址为 0X1 1 1 10000。值得注意的是，虚拟机管理平台对物理硬盘进行初始化扫描获取各重复数据块组时，所有数据块都还没有存储到内存中即内存地址均为 OxFFFFFFFF。

需要说明的是，虚拟机管理平台对物理硬盘进行初始化扫描获取各重复数据块组时，所有数据块都还没有存储到内存中，此时，在重复数据记录表中存储各重复数据块组中各数据块的标识信息和存储信息的对应关系的具体形式有很多，本领域技术人员可以根据具体的应用需要进行选择，具体说明如下：方式一，重复数据记录表中按组进行存储，包括分组标识、各重复数据块组中各数据块的标识信息和存储信息的对应关系，其中，表 1中的存储信息用内存地址进行表示， ^口表 1所示，

N 1 0032 OxFFFFFFFF

5 0003 OxFFFFFFFF 方式二，重复数据记录表中按虚拟硬盘顺序进行存储，包括各重复数据块组中各数据块的标识信息、存储信息和数据块内容标识的对应关系，其中，数据块内容标识的表现形式很多，如与每个数据块内容对应的字符、哈希值等，其中，表 2中的数据块内容标识用哈希值表示，以及存储信息用内存地址表示进行说明， ^表 2所示，

步骤 101 , 当各重复数据块组中任一数据块从所述物理硬盘中存储到内存中时，根据内存地址更新所述重复数据记录表中所述数据块所在的重复数据块组中的所有存储信息，以便在读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块。

当虚拟机管理平台获知各重复数据块组中任一数据块从物理硬盘中存储到内存中时，根据内存地址更新重复数据记录表中该数据块所在的重复数据块组中的所有存储信息。具体地，各重复数据块组中任一数据块从物理硬盘中存储到内存中的情况有很多，以两种具体应用场景举例说明：

第一种应用场景，虚拟机管理平台将每个重复数据块组中的数据块数量与预设的门限进行比较，若判断获知重复数据块组中的数据块数量大于等于预设的门限，则说明该重复数据块组的数据块的重复频率较高，会被大量虚拟机访问，因此预先将该重复数据块组中的任一数据块从物理硬盘中存储到内存中，根据内存地址更新重复数据记录表中该数据块所在的重复数据块组中的所有存储信息，以表 1的存储形式为例具体说明：表 1中分组标识为 2的重复数据块组中的数据块的数量为 3, 虚拟机管理平台将该重复数据块组中的数据块的数量与预设的门限 3比较后，将该重复数据块组中的任一个数据块从物理硬盘中存储到内存中，内存地址为 0X00001 1 1 1 , 然后根据存放的内存地址更新重复数据记录表中与该重复数据块组中的所有存储信息 ,即将重复数据记录表中该重复数据块组中的所有内存地址从 OxFFFFFFFF修改为 0X00001 1 1 1 , 根据该方式对所有的重复数据块组中的数据块处理后建立的重复数据记录表如表 3所

第二种应用场景，虚拟机管理平台接收到虚拟机发送的携带标识信息的数据块读取请求，根据该数据块的标识信息查询重复数据记录表，若重复数据记录表中存储有该数据块的标识信息 ,则确定该数据块为重复数据块组中的数据块，则根据标识信息将该数据块从物理硬盘中存储到内存中，并将数据块发送给对应的虚拟机，根据内存地址更新重复数据记录表中该数据块所在的重复数据块组中的所有存储信息。以表 2的存储形式为例具体说明：虚拟机管理平台接收到虚拟机发送的标识信息为虚拟硬盘编号为 1 , 虚拟硬盘数据块偏移号为 0000的数据块读取请求，根据标识信息查询重复数据记录表确定该数据块属于重复数据块组中的数据块，因此，根据虚拟硬盘编号 1和虚拟硬盘数据块偏移号 0000从物理硬盘上读取该数据块并存储到内存地址为 0X0000AAAA的位置上，再从内存的 0X0000AAAA位置读取发送给对应的虚拟机，然后根据存放的内存地址更新重复数据记录表中与该数据块所在的重复数据块组中的所有存储信息，由于该数据块的哈希值为 ABC123, 则重复数据记录表中具有相同哈希值的数据块的标识信息为虚拟硬盘编号为 2 , 虚拟硬盘数据块偏移号为 0005 , 因此，这两个数据块为一个重复数据块组，从而根据内存地址 0X0000AAAA将重复数据记录表中标识信息为虚拟硬盘编号为 1 , 虚拟硬盘数据块偏移号为 0000的数据块所对应的内存地址，以及标识信息为虚拟硬盘编号为 2 , 虚拟硬盘数据块偏移号为 0005的数据块所对应的内存地址从 OxFFFFFFFF修改为 0X0000AAAA。根据数据块读取请求逐渐对数据块处理后建立的重复数据记录表如表 4所示，

综上所述，当各重复数据块组中任一数据块从物理硬盘中存储到内存中时，根据内存地址更新重复数据记录表中该数据块所在的重复数据块组中的所有存储信息 ,存储信息直接标识了重复数据块组中的数据块在内存中的存储位置，（如表 3或表 4所示的重复数据记录表），从而当虚拟机需要读取数据块时，虚拟机管理平台根据所需读取数据块的标识信息查看重复数据记录表获取对应的存储信息 ,并根据存储信息直接从内存中读取所需数据块的数据内容返回给对应的虚拟机，不再需要从物理硬盘中读取所需数据块的数据内容。

本实施例提供的数据处理方法，通过扫描物理硬盘上存储的、与各个虚拟硬盘对应的数据块，获取各个虚拟硬盘之间数据内容出现重复的重复数据块，并在重复数据记录表中存储所有重复数据块的标识信息和存储信息的对应关系，当任一重复数据块从物理硬盘中存储到内存中时，根据内存地址更新重复数据记录表中与重复数据块的所有标识信息对应的存储信息 ,以便在读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据存储信息从内存中读取数据块。实现了多台虚拟机在访问位于物理硬盘不同位置的相同数据内容时，减少了对物理硬盘的反复访问，提高了对虚拟机的读请求响应速度，并且延长了硬盘的使用寿命。

进一步地，当虚拟机管理平台接收虚拟机发送的携带标识信息的数据块写入请求时，根据标识信息查询重复数据记录表，若判断获知重复数据记录表中存储有与标识信息对应的存储信息，则根据标识信息将数据块写入物理硬盘中，并删除重复数据记录表中与该数据块对应的存储信息，该删除记录即为修改记录，说明该标识信息对应的数据块已经被新写入的数据块覆盖了，不再是原数据块的内容。

虚拟机管理平台根据预设的触发条件对重复数据记录表进行更新操作 ,其中，触发条件包括当物理硬盘的写数据块数量大于等于预设第一阔值时，或者，物理机处于空闲状态时（指物理机的 CPU使用率及内存使用量在一段时间范围内小于等于预设的第二阔值时），或者，每次重复数据记录表上的存储信息被删除时。具体更新过程为：虚拟机管理平台获取上一次更新到此次更新时间范围之间所有新写入的数据块，然后计算每个数据块的哈希值，将新的哈希值与已有哈希值进行对比，若判断获知新的数据块归属于重复数据记录表中已有的重复数据块组时，则在该重复数据块组中添加新数据块的标识信息和存储信息的对应关系；若判断获知具有新的数据内容相同的重复数据块组，则在重复数据记录表中添加新的重复数据块组中各数据块的标识信息和存储信息的对应关系；若判断获知重复数据记录表中已有的重复数据块组中的数据块数量为一个，则在重复数据记录表中删除该数据块的标识信息和存储信息的对应关系。基于上述实施例，为了更清楚的说明根据重复数据记录表读取数据过程，下面通过图 3进行具体说明，图 3为针对图 2的数据处理方法进行的数据读取的流程图，如图 3所示，该方法包括：

步骤 200, 接收携带标识信息的数据块读取请求，根据所述标识信息查询所述重复数据记录表；

虚拟机管理平台接收到虚拟机发送的携带标识信息的数据块读取请求，根据所需读取的数据块的标识信息查询重复数据记录表。

步骤 201 , 判断重复数据记录表中是否存储有与所述标识信息对应的存储信息，若是，执行步骤 203 , 否则，执行步骤 202;

虚拟机管理平台判断重复数据记录表中是否存储有与所需读取的标识信息对应的存储信息，若判断获知重复数据记录表中存储有所需读取的标识信息对应的存储信息，则确定该数据块为重复数据块组中的数据块，执行步骤 203 ; 若判断获知重复数据记录表中没有存储所需读取的标识信息对应的存储信息，则确定该数据块不为重复数据块组中的数据块，执行步骤 202。

步骤 202, 根据所述标识信息从物理硬盘中读取所述数据块。

虚拟机管理平台确定所需读取的数据块不为重复数据块组中的数据块时，根据标识信息中的虚拟硬盘编号和虚拟硬盘数据块偏移号获取该数据块的在物理硬盘上的存储位置，并根据该存储位置从物理硬盘中读取数据块并发送给对应的虚拟机。

步骤 203 , 根据存储信息判断所述数据块是否存储在内存中，若是，执行步骤 204, 否则，执行步骤 205;

虚拟机管理平台确定所需读取的数据块为重复数据块组中的数据块时 ,根据重复数据记录表中存储的与所需读取的数据块的标识信息对应的存储信息判断该数据块是否存储在内存中，若判断获知该数据块已经从物理硬盘中存储到内存中，执行步骤 204 , 若判断获知该数据块没有从物理硬盘中存储到内存中，执行步骤 205。

步骤 204, 根据所述存储信息从所述内存中读取所述数据块。

虚拟机管理平台根据存储信息获知该数据块在内存中存储的内存地址，并根据该内存地址直接从内存中读取数据块并发送给对应的虚拟机。步骤 205, 根据所述标识信息从所述物理硬盘存储中读取所述数据块，并将所述数据块存储到所述内存中，再从所述内存中读取所述数据块，并更新所述重复数据记录表中与所述数据块对应的存储信息。

虚拟机管理平台根据标识信息中的虚拟硬盘编号和虚拟硬盘数据块偏移号获取该数据块的在物理硬盘上的存储位置，并根据该存储位置从物理硬盘中读取数据块到内存中，并将数据块发送给对应的虚拟机，然后根据该数据块所存储的内存地址更新重复数据记录表中与该数据块的标识信息对应的存储信息。

因此，与现有技术相比，当虚拟机读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据存储信息从内存中直接读取数据块，不再从物理硬盘中读取，从而实现了多台虚拟机在访问位于物理硬盘不同位置的相同数据内容时，减少了对物理硬盘的反复访问，提高了对虚拟机的读请求响应速度，并且延长了硬盘的使用寿命。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

图 4 为本发明实施例提供的一个虚拟机管理平台的结构示意图，如图 4 所示，该虚拟机管理平台包括：获取模块 11、处理模块 12和读取模块 13 , 其中，获取模块 11用于扫描物理硬盘上存储的、与各个虚拟硬盘对应的数据块，获取各个虚拟硬盘之间数据块内容相同的各重复数据块组，并在重复数据记录表中存储各重复数据块组中各数据块的标识信息和存储信息的对应关系；处理模块 12用于当各重复数据块组中任一数据块从所述物理硬盘中存储到内存中时，根据内存地址更新所述重复数据记录表中所述数据块所在的重复数据块组中的所有存储信息；读取模块 13用于在读取数据块时，根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块。

其中，获取模块 11具体用于：釆用哈希算法对每个数据块的数据内容进行计算获取哈希值，比较每个数据块的哈希值，获取各个虚拟硬盘之间哈希值相同的各重复数据块组。

本实施例提供的虚拟机管理平台中各模块的功能和处理流程，可以参见上述所示的方法实施例，其实现原理和技术效果类似，此处不再赘述。

图 5为本发明实施例提供的另一个虚拟机管理平台的结构示意图，如图 5 所示，基于图 4所示实施例，该虚拟机管理平台还包括：写入模块 14, 用于接收携带标识信息的数据块写入请求 ,根据所述标识信息查询所述重复数据记录表 ,若判断获知所述重复数据记录表中存储有与所述标识信息对应的存储信息，则根据所述标识信息将所述数据块写入所述物理硬盘中，并删除所述重复数据记录表中与所述数据块对应的存储信息。

进一步地，处理模块 12还用于：根据预设的触发条件对重复数据记录表进行更新操作，其中，触发条件包括当物理硬盘的写数据块数量大于等于预设第一阔值时，或者，物理机处于空闲状态时（指物理机的 CPU使用率及内存使用量在一段时间范围内小于等于预设的第二阔值时），或者，每次重复数据记录表上的存储信息被删除时。具体更新过程为：虚拟机管理平台获取上一次更新到此次更新时间范围之间所有新写入的数据块，然后计算每个数据块的哈希值，将新的哈希值与已有哈希值进行对比，若判断获知新的数据块归属于重复数据记录表中已有的重复数据块组时，则在该重复数据块组中添加新数据块的标识信息和存储信息的对应关系；若判断获知具有新的数据内容相同的重复数据块组，则在重复数据记录表中添加新的重复数据块组中各数据块的标识信息和存储信息的对应关系；若判断获知重复数据记录表中已有的重复数据块组中的数据块数量为一个，则在重复数据记录表中删除该数据块的标识信息和存储信息的对应关系。

基于上述实施例，读取模块 13具体用于：接收携带标识信息的数据块读取请求，根据所述标识信息查询所述重复数据记录表，若判断获知所述重复数据记录表中存储有与所述标识信息对应的存储信息，且所述存储信息标识所述数据块存储在所述内存中，则根据所述存储信息从所述内存中读取所述数据块。

进一步地，读取模块 13还用于：若所述存储信息标识所述数据块存储在所述物理硬盘中，则根据所述标识信息从所述物理硬盘存储中读取所述数据块，并将所述数据块存储到所述内存中，并更新所述重复数据记录表中与所述数据块对应的存储信息。

本实施例提供的虚拟机管理平台中各模块的功能和处理流程，可以参见上述所示的方法实施例，其实现原理和技术效果类似，此处不再赘述。示，所述虚拟机管理平台 300包括：处理器 301、存储器 302、通信接口 303和总线 304。其中，所述处理器 301、存储器 302和通信接口 303之间通过总线 304 连接。总线 304可以是 ISA总线、 PCI总线或曰 SA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图 6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器 302用于存放程序代码，所述程序代码中包括计算机操作指令。存储器 302 可以是高速随机存储器，也可以是非易失性存储器（non-volatile memory ), 例 ^口至少一个磁盘存者器。

处理器 301执行所述程序代码，用于：

所述处理器 301 获取各个虚拟硬盘之间数据块内容相同的各重复数据块组的过程具体包括：

进一步地，所述处理器 301还用于：

接收携带标识信息的数据块写入请求；根据所述标识信息查询所述重复数据记录表，若判断获知所述重复数据记录表中存储有与所述标识信息对应的存储信息，则根据所述标识信息将所述数据块写入所述物理硬盘中，并删除所述重复数据记录表中与所述数据块对应的存储信息。

所述处理器 301根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块的过程具体包括：

接收携带标识信息的数据块读取请求；

所述处理器 301根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块的过程还包括：

本实施例提供的虚拟机管理平台中处理器执行存储器中的程序代码的处理流程，可以参见上述所示的方法实施例，其实现原理和技术效果类似，此处不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

WO 2014/094421 4-τ-τ Cii τττί - - -Ν· PCT/CN2013/079573 权利要求书

1、一种数据处理方法，其特征在于，包括：

2、根据权利要求 1所述的数据处理方法，其特征在于，所述获取各个虚拟硬盘之间数据块内容相同的各重复数据块组包括：

3、根据权利要求 1或 2所述的数据处理方法，其特征在于，还包括：接收携带标识信息的数据块写入请求；

4、根据权利要求 1或 2所述的数据处理方法，其特征在于，所述根据所需读取数据块的标识信息获取对应的存储信息，并根据所述存储信息从所述内存中读取所述数据块包括：

接收携带标识信息的数据块读取请求；

5、根据权利要求 4所述的数据处理方法，其特征在于，还包括：若所述存储信息标识所述数据块存储在所述物理硬盘中，则根据所述标识信息从所述物理硬盘存储中读取所述数据块，并将所述数据块存储到所述内存中，并更新所述重复数据记录表中与所述数据块对应的存储信息。

6、一种虚拟机管理平台，其特征在于，包括：

7、根据权利要求 6所述的虚拟机管理平台，其特征在于，所述获取模块具体用于：

8、根据权利要求 6或 7所述的虚拟机管理平台，其特征在于，还包括：写入模块，用于

接收携带标识信息的数据块写入请求；

9、根据权利要求 6或 7所述的虚拟机管理平台，其特征在于，所述读取模块具体用于：

接收携带标识信息的数据块读取请求；

10、根据权利要求 9所述的虚拟机管理平台，其特征在于，所述读取模块还用于：