WO2023173961A1

WO2023173961A1 - 一种内存分配方法及相关产品

Info

Publication number: WO2023173961A1
Application number: PCT/CN2023/074930
Authority: WO
Inventors: 黄朝意
Original assignee: 华为云计算技术有限公司
Priority date: 2022-03-15
Filing date: 2023-02-08
Publication date: 2023-09-21
Also published as: CN116820732A

Abstract

本申请公开了一种内存分配方法及相关产品，其中，该方法包括：在第一计算节点不能够满足第一VM所需要的内存时，迁移第一计算节点上的一个或多个第二VM到第二计算节点，以及在第一计算节点为第一VM分配内存。利用上述方法能够避免第一VM因无法获得内存资源而无法正常运行的情况。进一步地，当第一计算节点使用内存超分的方式处理第一计算节点上的内存资源时，利用上述方法可以保证第一计算节点上的VM不会因无法获得内存资源而无法正常运行，从而提高第一计算节点上资源的利用率。

Description

一种内存分配方法及相关产品

本申请要求于2022年03月15日提交中国专利局、申请号为202210253470.3、申请名称为“一种内存分配方法及相关产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及虚拟化技术领域，尤其涉及一种内存分配方法及相关产品。

背景技术

在虚拟化场景下，一台物理主机可以虚拟成多台虚拟机(virtual machine,VM)。而且，为了保证VM能够正常运行，物理主机需要给VM分配相应的内存资源。但是，不同VM对内存资源的需求可能不同，这就可能出现内存超分的问题，从而导致部分VM因无法获得内存资源而无法正常运行。

因此，如何给VM分配内存资源仍然是当前急需解决的问题。

发明内容

本申请提供了一种内存分配方法及相关产品，能够避免物理主机上的VM因无法获得内存资源而无法正常运行的情况。

第一方面，本申请提供了一种内存分配方法，该方法包括：在第一计算节点不能够满足第一VM所需要的内存时，迁移第一计算节点上的一个或多个第二VM到第二计算节点，并在第一计算节点为第一VM分配内存。如此，可以避免第一VM因无法获得内存资源而无法正常运行的情况。进一步地，基于上述方法，第一计算节点可用使用内存超分的方式处理第一计算节点上的内存资源，而且通过实施上述方法，即使第一计算节点处于内存超分模式，第一计算节点上的VM依然能够正常运行，从而提高了第一计算节点上资源的利用率。

在第一方面的一种可能的实现方式中，上述第一计算节点为第一VM分配内存，包括：在第一计算节点为第一VM增加分配内存。应理解，在实际应用中，第一VM运行过程中可能被配置为需要使用内存时才会申请内存，而且需要使用多少内存才会申请多少内存，基于上述实现方式可以给被配置为上述类型的第一VM分配内存。

在第一方面的一种可能的实现方式中，上述第一计算节点为第一VM分配内存，包括：在迁移一个或多个第二VM时，延迟在第一计算节点为第一VM增加分配内存。应理解，迁移VM需要时间，相较于上述一个或多个第二VM迁移完成之后再为第一VM增加分配内存，通过上述实现方式，可以减少因迁移上述一个或多个第二VM而给第一VM的运行带来的影响，从而保障了部署在第一VM上的业务。

在第一方面的一种可能的实现方式中，上述第一计算节点为第一VM分配内存，包括：在第一计算节点为第一VM增加分配第一VM请求的内存容量。

在第一方面的一种可能的实现方式中，如果第一计算节点上的可用内存容量与第一VM请求的内存容量的差值小于阈值，则第一计算节点不能够满足第一VM所需要的内存。

在第一方面的一种可能的实现方式中，在迁移第一计算节点上的一个或多个第二VM到第二计算节点之前，上述方法还包括：暂停上述一个或多个第二VM。如此，可以控制上述一个或多个第二VM的迁移时间。

在第一方面的一种可能的实现方式中，上述一个或多个第二VM满足以下一个或多个条件：一个或多个第二VM占用的总内存容量大于上述阈值，迁移一个或多个第二VM所用的时间小于耗尽第一计算节点上的可用内存容量所用的时间。如此，可以保证第一计算节点上可用的内存资源不被耗尽，从而保证第一计算节点上的VM可以正常运行。

在第一方面的一种可能的实现方式中，上述第二计算节点能够满足上述一个或多个第二VM所需的总内存容量的要求，其中，上述一个或多个第二VM所需的总内存容量包括上述一个或多个第二VM占用的总内存容量。在上述一个或多个第二VM中的所有VM在迁移到第二计算节点之前，均未向第一计算节点申请了内存的情况下，上述一个或多个第二VM所需的总内存容量即为上述一个或多个第二VM占用的总内存容量。在上述一个或多个第二VM中的任意一个或多个VM(如目标第二VM)在迁移到第二计算节点之前，还向第一计算节点申请了内存的情况下，上述一个或多个第二VM所需的总内存容量除了包括上述一个或多个第二VM占用的总内存容量，还包括上述任意一个或多个VM在迁移到第二计算节点前向第一计算节点申请的总内存容量。如此，可以保证上述一个或多个第二VM在第二计算节点上正常运行。

在第一方面的一种可能的实现方式中，上述迁移第一计算节点上的一个或多个第二VM到第二计算节点，包括：将一个或多个第二VM中的目标第二VM的迁移状态信息发送到第二计算节点，其中，目标第二VM的迁移状态信息包括目标第二VM的物理地址偏移、以及目标第二VM在迁移到第二计算节点之前向第一计算节点请求的内存容量。

在第一方面的一种可能的实现方式中，上述方法还包括：在第二计算节点基于目标第二VM的物理地址偏移、以及目标第二VM在迁移到第二计算节点之前向第一计算节点请求的内存容量，为目标第二VM分配内存。如此，第二VM便可以通过上述分配的内存在第二计算节点上继续运行。

第二方面，本申请提供了一种内存分配方法，该方法包括：在第一计算节点不能够满足第一VM所需要的内存时，暂停第一VM，然后将第一VM从第一计算节点迁移到第二计算节点，并在第一计算节点为第一计算节点上的第二VM分配内存。如此，不仅可以避免第一VM因无法获得内存资源而无法正常运行，还可以增加第一计算节点上可用的内存资源，从而为第一计算节点上的第二VM分配内存。

在第二方面的一种可能的实现方式中，如果第一计算节点上的可用内存容量与第一VM请求的内存容量的差值小于阈值，则第一计算节点不能够满足第一VM所需要的内存。

在第二方面的一种可能的实现方式中，上述第二计算节点能够满足第一VM占用的内存容量和第一VM请求的内存容量的要求。如此，可以保证第一VM在第二计算节点上能够正常运行，从而不会影响到部署在第一VM上的业务。

在第二方面的一种可能的实现方式中，上述方法还包括：在第二计算节点为第一VM分配内存，以使得第一VM在第二计算节点上恢复运行。

在第二方面的一种可能的实现方式中，上述将第一VM从第一计算节点迁移到第二计算节点，包括：将第一VM的迁移状态信息发送到第二计算节点，其中，第一VM的迁移状态信息包括第一VM请求的内存容量和第一VM的物理地址偏移。

在第二方面的一种可能的实现方式中，上述在第二计算节点为第一VM分配内存，包括：在第二计算节点基于第一VM请求的内存容量和第一VM的物理地址偏移为第一VM分配内存。

第三方面，本申请提供了一种内存分配装置，该装置包括调度模块和内存管理模块。其中，调度模块用于在第一计算节点不能够满足第一VM所需要的内存时，迁移第一计算节点上的一个或多个第二VM到第二计算节点；内存管理模块用于在第一计算节点为第一VM分配内存。

在第三方面的一种可能的实现方式中，上述内存管理模块用于在第一计算节点为第一VM增加分配内存。

在第三方面的一种可能的实现方式中，上述内存管理模块用于在迁移一个或多个第二VM时，延迟在第一计算节点为第一VM增加分配内存。

在第三方面的一种可能的实现方式中，上述内存管理模块用于在第一计算节点为第一VM增加分配第一VM请求的内存容量。

在第三方面的一种可能的实现方式中，如果第一计算节点上的可用内存容量与第一VM请求的内存容量的差值小于阈值，则第一计算节点不能够满足第一VM所需要的内存。

在第三方面的一种可能的实现方式中，上述装置还包括策略控制模块，该模块用于在迁移第一计算节点上的一个或多个第二VM到第二计算节点之前，暂停上述一个或多个第二VM。

在第三方面的一种可能的实现方式中，上述一个或多个第二VM满足以下一个或多个条件：一个或多个第二VM占用的总内存容量大于上述阈值，迁移一个或多个第二VM所用的时间小于耗尽第一计算节点上的可用内存容量所用的时间。

在第三方面的一种可能的实现方式中，上述第二计算节点能够满足上述一个或多个第二VM所需的总内存容量的要求，其中，上述一个或多个第二VM所需的总内存容量包括上述一个或多个第二VM占用的总内存容量。在上述一个或多个第二VM中的所有VM在迁移到第二计算节点之前，均未向第一计算节点申请了内存的情况下，上述一个或多个第二VM所需的总内存容量即为上述一个或多个第二VM占用的总内存容量。在上述一个或多个第二VM中的任意一个或多个VM(如目标第二VM)在迁移到第二计算节点之前，还向第一计算节点申请了内存的情况下，上述一个或多个第二VM所需的总内存容量除了包括上述一个或多个第二VM占用的总内存容量，还包括上述任意一个或多个VM在迁移到第二计算节点前向第一计算节点申请的总内存容量。

在第三方面的一种可能的实现方式中，上述调度模块用于将一个或多个第二VM中的目标第二VM的迁移状态信息发送到第二计算节点，其中，目标第二VM的迁移状态信息包括目标第二VM的物理地址偏移、以及目标第二VM在迁移到第二计算节点之前向第一计算节点请求的内存容量。

在第三方面的一种可能的实现方式中，上述内存管理模块还用于在第二计算节点目标第二VM的物理地址偏移、以及目标第二VM在迁移到第二计算节点之前向第一计算节点请求的内存容量，为目标第二VM分配内存。

第四方面，本申请提供了一种内存分配装置，该装置包括策略控制模块、调度模块以及内存管理模块。其中，策略控制模块用于在第一计算节点不能够满足第一VM所需要的内存时，暂停第一VM；调度模块用于将第一VM从第一计算节点迁移到第二计算节点；内存管理模块用于在第一计算节点为第一计算节点上的第二VM分配内存。

在第四方面的一种可能的实现方式中，如果第一计算节点上的可用内存容量与第一VM请求的内存容量的差值小于阈值，则第一计算节点不能够满足第一VM所需要的内存。

在第四方面的一种可能的实现方式中，上述第二计算节点能够满足第一VM占用的内存容量和第一VM请求的内存容量的要求。

在第四方面的一种可能的实现方式中，上述内存管理模块还用于在第二计算节点为第一VM分配内存，其中，第一VM通过上述分配的内存在第二计算节点上恢复运行。

在第四方面的一种可能的实现方式中，上述调度模块用于将第一VM的迁移状态信息发送到第二计算节点，其中，第一VM的迁移状态信息包括第一VM请求的内存容量和第一VM的物理地址偏移。

在第四方面的一种可能的实现方式中，上述内存管理模块用于在第二计算节点基于第一VM请求的内存容量和第一VM的物理地址偏移为第一VM分配内存。

第五方面，本申请提供了一种计算系统，该系统包括如前述第三方面或第三方面的任一种实现方式中所描述的内存分配装置、第一计算节点以及第二计算节点。其中，第一计算节点上运行有第一VM、以及一个或多个第二VM；内存分配装置用于在第一计算节点不能够满足第一VM所需要的内存时，迁移上述一个或多个第二VM到第二计算节点，以及在第一计算节点为第一VM分配内存。

第六方面，本申请提供了一种计算系统，该系统包括如前述第四方面或第四方面的任一种实现方式中所描述的内存分配装置、第一计算节点以及第二计算节点。其中，第一计算节点上运行有第一VM和第二VM；内存分配装置用于在第一计算节点不能够满足第一VM所需要的内存时，暂停第一VM，然后将第一VM从第一计算节点迁移到第二计算节点，并在第一计算节点为第二VM分配内存。

第七方面，本申请提供一种计算设备系统，该计算设备系统包括处理器和存储器，存储器存储有计算机程序代码，处理器执行存储器中的计算机程序代码以实现前述第一方面或第一方面的任一种实现方式中所描述的方法，或者实现前述第二方面或第二方面的任一种实现方式中所描述的方法。

第八方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序代码，当计算机程序代码被计算设备执行时，计算设备执行前述第一方面或第一方面的任一种实现方式中所描述的方法，或者执行前述第二方面或第二方面的任一种实现方式中所描述的方法。该计算机可读存储介质包括但不限于易失性存储器(如随机访问存储器)、非易失性存储器(如快闪存储器、硬盘(hard disk drive,HDD)、固态硬盘(solid state drive,SSD))。

第九方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机程序代码，在计算机程序代码被计算设备执行时，计算设备执行前述第一方面或第一方面的任一种实现方式中所描述的方法，或者执行前述第二方面或第二方面的任一种实现方式中所描述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任一种实现方式中所描述的方法，或者需要使用前述第二方面或第二方面的任一种实现方式中所描述的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

附图说明

图1是本申请实施例提供的一种计算系统的结构示意图；

图2是本申请实施例提供的一种计算节点的结构示意图；

图3是本申请实施例提供的一种计算系统的应用场景示意图；

图4是本申请实施例提供的另一种计算系统的应用场景示意图；

图5是本申请实施例提供的一种内存分配方法的流程示意图；

图6是本申请实施例提供的一种采用NUMA架构的计算节点的结构示意图；

图7是本申请实施例提供的一种内存分配的示意图；

图8是本申请实施例提供的一种内存分配装置的结构示意图；

图9是本申请实施例提供的一种内存分配装置的部署示意图；

图10是本申请实施例提供的一种计算设备的结构示意图；

图11是本申请实施例提供的一种计算设备系统的结构示意图。

具体实施方式

为了使本申请提供的技术方案更加清晰，在具体描述该技术方案之前，首先进行相关技术术语的解释。

虚拟化技术(virtualization)是一种有效管理和充分共享物理资源的重要技术手段，能够在计算机的软、硬件之间引入抽象层，给上层应用提供独立的运行环境，还能够屏蔽底层硬件的动态性、异构性，实现硬件资源的共享复用。鉴于上述优点，虚拟化技术被广泛应用在云计算和高性能计算等领域。

使用虚拟化技术可以将一台物理主机虚拟成一台或多台VM，也就是说，物理主机(也被称为宿主机)上可以运行一台或多台VM。为保证VM的正常运行，物理主机需要给VM分配相应的内存资源。具体实现中，物理主机采用内存虚拟化的方式来给VM提供一个从零开始的连续的内存空间，即VM的物理地址(guest physical address,GPA)空间，这个地址空间并不是真正的物理地址空间，它只是物理主机的虚拟地址(host virtual address,HVA)空间在VM地址空间的一个映射。对于VM来说，GPA空间是从零开始的连续地址空间，但对于物理主机来说，GPA空间并不一定是连续的，GPA空间可能映射到物理主机上的多个不连续的HVA空间。由于GPA空间的存在，VM的内存访问过程涉及到三次地址转换，即：VM的虚拟地址(guest virtual address,GVA)→GPA→HVA→物理主机的物理地址(host virtual address,HPA)。其中，GVA是VM访问的地址，HPA是物理主机中存放程序和数据的实际地址；GVA与GPA之间的映射关系记录在VM的页表中，由VM的操作系统维护；GPA与HVA之间的映射关系记录在影子页表中，由虚拟机管理软件(virtual machine monitor,VMM)维护；HVA与HPA之间的映射关系记录在物理主机的页表中，由物理主机的操作系统维护。

在实际应用中，物理主机中的内存资源往往会进行超量分配(内存超分)，即：分配给VM和其他进程(如开放虚拟交换标准(open vswitch,OVS)进程)的内存的容量(以下简称为内存容量)大于物理主机的内存容量。其中，上述“分配给VM和其他进程的内存容量”是VM和其他进程允许占用的最大的内存容量，也被称为VM和其他进程的内存规格。应理解，由于VM和其他进程实际占用的内存容量小于或等于分配给VM和其他进程的内存容量，因此对物理主机进行内存超分会使得物理主机能够运行更多的VM或应用，从而极大地提高物理主机中资源(如计算资源、内存资源)的利用率。

在内存超分模式下，VM和其他进程实际占用的内存容量可能会小于物理主机的内存容量，也可能会大于或等于物理主机的内存容量。当VM和其他进程实际占用的内存容量大于或等于物理主机的内存容量时，说明物理主机上的内存已被VM和其他进程使用完毕，此时物理主机上的可用内存容量为零，在这种情况下，如果有VM或进程向物理主机申请内存资源，该VM或进程会因为无法获得内存资源而进入锁死(soft lockup)状态，这将影响到运行在上述VM或进程上的业务。

针对上述问题，本申请提供了一种内存分配装置，为了更加清楚的理解本申请提供的内存分配装置，下面结合图1示出的计算系统，对上述内存分配装置进行描述。

图1是本申请实施例提供的一种计算系统的结构示意图，如图1所示，计算系统100包括内存分配装置200和多个计算节点300。

内存分配装置200：用于给多个计算节点300上的VM 310分配内存资源，而且在计算节点300因内存超分而使得其上可用的内存资源不能够满足VM所需要的内存时，内存分配装置200还用于将计算节点300中的某个或某些VM迁移至其他计算节点，然后释放上述迁移后的VM占用的内存资源，以增加计算节点300上可用的内存资源。如此，不仅能够避免VM310因无法获得内存资源而被锁死的情况，还能够提高计算节点300上资源(包括内存资源、计算资源等)的利用率。

计算节点300：可以是公有云、私有云或混合云上的计算设备(如服务器、物理主机)，也可以是终端计算设备(如终端服务器、笔记本电脑、个人台式电脑、智能摄像机等)。图2示例性的展示了一种计算节点300的结构示意图，如图2所示，除了至少一个VM 310之外，计算节点300还包括硬件320和宿主机操作系统(host operating system,host OS)330。其中，VM 310上安装有客户操作系统(guest operating system,guest OS)311，客户操作系统311上运行有应用程序312，除此之外，VM 310还包括硬件320提供的多种硬件资源，例如，虚拟处理器(如虚拟中央处理器(virtual central processing unit,vCPU))313、虚拟内存314、虚拟网卡315等。硬件320包括存储器321(如随机存取存储器(random access memory,RAM)、硬盘)、处理器322(如中央处理器(central processing unit,CPU)和通信接口323(如物理网卡)。宿主机操作系统330中部署有虚拟机监控装置331(如VMM、hypervisor)，宿主机操作系统330用于将硬件320提供的各种硬件资源分配给VM 310，以及实现VM 310的调度、隔离和管理。应理解，图2仅仅示出了计算节点300的一种示例性的结构，在实际应用中，计算节点300还可能具有其他的结构，例如，虚拟机监控装置331还可以部署在宿主机操作系统330之外；又例如，计算节点300还可以包括其他部件(如总线)，对此本申请实施例不作限定。

本申请实施例中，考虑到计算节点300的多样性，例如，前文所述的计算节点300可以是公有云、私有云或混合云上的计算设备，也可以是终端计算设备，因此，计算系统100适用于多种场景。下面结合图3-图4对计算系统100的应用场景进行描述。

示例场景1：计算系统100由云服务提供商以云服务(即计算服务)的形式提供给租户。

计算系统100部署在云环境中，其中，云环境是云计算模式下利用基础资源向租户提供云服务的实体，云环境包括云数据中心和云服务平台，云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(如服务器、物理主机)。那么，计算系统100在云环境中的部署方式灵活，例如，计算系统100中的内存分配装置200部署在云数据中心上的至少一个计算设备或至少一个虚拟机上，多个计算节点300分别是云数据中心上的多个计算设备；又例如，计算系统100中的内存分配装置200分布式地部署在云数据中心上的多个计算设备和虚拟机上，多个计算节点300分别是云数据中心上的多个计算设备。

如图3所示，计算系统100由云服务提供商在云服务平台抽象成一种计算服务提供给租户，租户通过云服务平台购买上述计算服务后(可预充值再根据最终资源的使用情况进行结算)，云环境利用部署在云数据中心的计算系统100向租户提供计算服务。在使用计算服务时，租户将业务以VM 310的形式部署在计算系统100中的多个计算节点300上，VM 310使用计算节点300上的硬件资源(包括计算资源、内存资源和网络资源)来执行租户的业务。其中，对于计算节点300中的内存资源，由内存分配装置200按需分配给计算节点300上的VM 310，如此，不仅可以将计算节点300中的内存资源超量分配，还可以保证计算节点300上的VM 310的业务不受影响，从而提高了计算节点300中资源的利用率，给租户提供质量更高的服务。

示例场景2：计算系统100中的内存分配装置200由云服务提供商以云服务(即内存分配服务)的形式提供给租户。

计算系统100中的内存分配装置200部署在云数据中心上的一个计算设备或一个VM上，或者分布式地部署在云数据中心上的多个计算设备或多个VM上，又或者分布式地部署在云数据中心上的多个计算设备和VM上。计算系统100中的多个计算节点300可以是云数据中心上的多个计算设备，或者是边缘环境中的多个计算设备，又或者是多个终端计算设备，还可以是不同环境中多个计算设备，例如，一部分计算节点300是云数据中心上的计算设备，一部分计算节点300是边缘环境上的边缘计算设备，一部分计算节点300是终端计算设备。其中，边缘环境包括距离终端计算设备较近的边缘计算设备的集合，边缘计算设备包括边缘服务器、拥有计算力的边缘小站等。

如图4所示，计算系统100中的内存分配装置200由云服务提供商在云服务平台抽象成一种内存分配服务提供给租户，租户通过云服务平台购买上述内存分配服务后(可预充值再根据最终资源的使用情况进行结算)，云环境利用部署在云数据中心的内存分配装置200向多个计算节点300提供内存分配服务，基于内存分配装置200具有的功能，多个计算节点300上的内存资源能够得到充分的利用。

示例场景3：计算系统100中的内存分配装置200具有的功能可以由软件装置实现，也可以由硬件设备实现，还可以由软件装置和硬件设备结合实现，因此，内存分配装置200可以是一个边缘计算设备或终端计算设备，也可以是运行在上述边缘计算设备或终端计算设备上的软件装置，还可以分布式地部署在多个边缘计算设备或多个终端计算设备上，又或者分布式地部署在边缘计算设备和终端计算设备上。计算系统100中的多个计算节点300可以是云环境、边缘环境以及终端计算设备中的任意一个或多个环境中的计算设备。

应理解，本申请实施例不对计算系统100的各个部分具体部署在什么环境进行限制性的划分，实际应用格式可根据云环境和边缘环境的资源占有情况、终端计算设备的计算能力或具体应用需求进行适应性的部署。

下面结合图5描述的内存分配方法，对内存分配装置200展开进一步地描述。需要说明的是，为了简便，下面将以内存分配装置200给多个计算节点300中的第一计算节点分配内存资源为例进行说明。

S101：内存分配装置200判断第一计算节点是否能够满足第一VM所需要的内存，如果第一计算节点能够满足第一VM所需要的内存，则执行S102，如果第一计算节点不能够满足第一VM所需要的内存，则执行S103-S108。

其中，第一VM是运行在第一计算节点上的VM。在一些实施例中，第一VM向内存分配装置200发送内存申请请求，或者内存分配装置200定期或在预设时间给第一VM自动分配内存，上述任一条件均可以触发内存分配装置200执行S101。

在一些实施例中，内存分配装置200判断第一计算节点是否能够满足第一VM所需要的的内存，包括：内存分配装置200确定第一计算节点上的可用内存容量与第一内存容量的差值是否小于第一阈值。如果第一计算节点上的可用内存容量与第一内存容量的差值小于第一阈值，则确定第一计算节点不能够满足第一VM所需要的内存；如果第一计算节点上的可用内存容量与第一内存容量的差值大于或等于第一阈值，则确定第一计算节点能够满足第一VM所需要的内存。下面分别对第一计算节点上的可用内存容量、第一内存容量以及第一阈值进行描述。

(1)第一计算节点上的可用内存容量是指第一计算节点上可用的内存的容量。在一些实施例中，内存分配装置200具有监控第一计算节点上的可用内存容量的功能，因此内存分配装置200可以获得第一计算节点上的可用内存容量。在另一些实施例中，第一VM向内存分配装置200发送内存申请请求后，第一计算节点将本地的可用内存容量发送至内存分配装置200，通过这种方式内存分配装置200也可以获得第一计算节点上的可用内存容量。

(2)在第一VM向内存分配装置200发送内存申请请求的情况下，第一内存容量可以是第一VM请求的内存容量，例如，上述内存申请请求包括第一内存容量，那么当内存分配装置200接收到上述内存申请请求后便会获得第一内存容量；在内存分配装置200定期或在预设时间给第一VM自动分配内存的情况下，第一内存容量可以是内存分配装置200自动预分配给第一VM的内存容量。考虑到内存的分配通常以页(包括大页(huge page)和小页)为单位进行，因此第一内存容量可以是大页内存容量，也可以是小页内存容量。其中，大页是指大的内存页，每个页帧的大小可以是2兆(MB)或1吉字节(GB)，小页也称为标准的内存页，每个页帧的大小是4千字节(KB)，相较于小页，使用大页可以提高内存访问效率。

(3)第一阈值可以是用户预设的，也可以是内存分配装置200根据第一计算节点拥有的内存容量、第一计算节点上VM的数量、或具体应用需求进行适应性调节得到的。

S102：内存分配装置200在第一计算节点为第一VM分配内存。

具体地，内存分配装置200基于第一内存容量从第一计算节点上的可用内存中选取一部分分配给第一VM，以便于第一VM的运行。

在一些实施例中，内存分配装置200在第一计算节点为第一VM分配内存，包括：内存分配装置200在第一计算节点为第一VM增加分配内存。应理解，第一VM运行过程中，需要使用内存时才会申请内存，而且需要使用多少内存便会申请多少内存。因此，“内存分配装置200在第一计算节点为第一VM增加分配内存”可以理解为：在第一VM已经占用的内存的基础上，又给第一VM分配一部分内存。

在另一些实施例中，考虑到实际应用还可能存在以下情况：第一VM在运行前，内存分配装置200便给第一VM分配好所需的所有内存。因此，内存分配装置200在第一计算节点为第一VM分配的内存还可以是第一VM运行所需的所有内存。

S103：内存分配装置200确定第一计算节点上的一个或多个目标VM。

其中，上述一个或多个目标VM可以包括第一VM，也可以不包括第一VM。在上述一个或多个目标VM不包括第一VM时，为了便于区别，以下将这种情况下的一个或多个目标VM称为一个或多个第二VM。上述一个或多个第二VM满足以下一个或多个条件：上述一个或多个第二VM占用的总内存容量大于第一阈值，迁移上述一个或多个第二VM所用的时间小于耗尽第一计算节点上的可用内存容量所用的时间。需要说明的是，上述一个或多个第二VM占用的总内存容量是指当前时刻上述一个或多个第二VM实际占用的内存容量之和。

在一些实施例中，内存分配装置200确定第一计算节点上的一个或多个目标VM，包括：内存分配装置200基于第一策略从运行在第一计算节点上的VM中确定一个或多个第二VM。其中，第一策略包括以下至少一个条件：①一个或多个第二VM占用的总内存容量大于第一阈值；②迁移一个或多个第二VM所用的时间小于第二阈值，其中，第二阈值是小于或等于上述耗尽第一计算节点上的可用内存容量所用的时间的数值，第二阈值可以是用户预设的，也可以是内存分配装置200根据实际情况进行适应性调节得到的；③当存在至少两个结果(每个结果包括一个或多个第二VM)满足条件①和条件②时，选择迁移所用时间更少的，例如，确定每个结果中所有VM的读写访问次数，并选择读写访问次数最少的；④当存在至少两个结果满足条件①和条件②时，选择占用的总内存容量更大的。

S104：内存分配装置200暂停上述一个或多个目标VM的运行。

具体地，内存分配装置200向第一计算节点300发送暂停上述一个或多个目标VM的命令，第一计算节点300接收到上述命令后，对上述一个或多个目标VM执行暂停操作(如suspend指令)，以暂停正在运行的一个或多个目标VM。如此，可以令内存分配装置200控制上述一个或多个目标VM的迁移时间。而且，VM暂停运行后，其实际占用的内存容量就不会发生变化，因此通过上述操作还能够保证迁移操作完成后(即S106和S107)，第一计算节点上的可用内存容量大于第一阈值。

S105：内存分配装置200确定第二计算节点。

其中，第二计算节点满足以下条件：第二计算节点与第一计算节点不是同一个计算节点、第二计算节点能够满足上述一个或多个目标VM所需的总内存容量的要求。需要说明的是，上述一个或多个目标VM所需的总内存容量包括上述一个或多个目标VM占用的总内存容量。考虑到实际应用中可能出现以下情况：上述一个或多个目标VM中的任意一个或多个目标VM在迁移到第二计算节点之前，向第一计算节点申请了内存，例如第一VM。在这种情况下，上述任意一个或多个目标VM中的每个目标VM所需的内存容量包括该VM占用的内存容量(即当前时刻该VM实际占用的内存容量)，以及该VM在迁移到第二计算节点之前向第一计算节点请求的内存容量。那么，上述一个或多个目标VM所需的总内存容量除了包括上述一个或多个目标VM占用的总内存容量，还包括上述任意一个或多个目标VM在迁移到第二计算节点前向第一计算节点申请的总内存容量。在一些实施例中，由于上述一个或多个目标VM可以包括第一VM，在这种情况下，上述一个或多个目标VM所需的总内存容量包括第一VM占用的内存容量和第一VM正在请求的内存容量(即第一内存容量)。在另一些实施例中，由于上述一个或多个目标VM还可以不包括第一VM，在这种情况下，如果上述一个或多个目标VM中的所有VM在迁移到第二计算节点之前，均未向第一计算节点申请内存，那么上述一个或多个目标VM所需的总内存容量即为上述一个或多个第二VM占用的总内存容量；如果上述一个或多个目标VM中的任意一个或多个VM在迁移到第二计算节点之前，向第一计算节点申请内存，那么上述一个或多个目标VM所需的总内存容量包括上述一个或多个第二VM占用的总内存容量，以及上述任意一个或多个VM在迁移到第二计算节点前向第一计算节点申请的总内存容量。

在一些实施例中，内存分配装置200确定第二计算节点，包括：内存分配装置200基于第二策略从多个计算节点300中确定第二计算节点。其中，第二策略包括以下至少一个条件：①非第一计算节点；②第二计算节点上的可用内存容量与上述一个或多个目标VM所需的总内存容量的差值大于第三阈值，与上述第一阈值类似，第三阈值可以是用户预设的，也可以是内存分配装置200根据第二计算节点拥有的内存容量、第二计算节点上VM的数量、或具体应用需求进行适应性调节得到的，第三阈值用于帮助内存分配装置200确定将上述一个或多个目标VM迁移至第二计算节点后，该计算节点上可用的内存资源是否充足；③当存在至少两个第二计算节点满足条件①和条件②时，选择可用内存容量更大的；④当存在至少两个第二计算节点满足条件①和条件②时，选择可用内存容量变化最慢的。其中，可用内存容量变化最慢这一条件能够保证在VM在迁移到第二计算节点，以及在第二计算节点上恢复运行期间，第二计算节点上可用的内存资源足够，也就是说，将上述一个或多个目标VM迁移到第二计算节点后不会影响该计算节点上其他VM或应用的运行。

可选的，S105可以在S104之后执行，也可以与S104同步进行，本申请实施例并不限定。

S106：内存分配装置200将上述一个或多个目标VM从第一计算节点迁移到第二计算节点。

具体地，内存分配装置200向第一计算节点发送迁移指令，其中，迁移指令用于指示第一计算节点将上述一个或多个目标VM迁移到第二计算节点。第一计算节点接收到上述迁移指令后，将上述一个或多个目标VM的迁移状态信息发送到第二计算节点，从而完成上述第一或多个目标VM的迁移。其中，上述一个或多个目标VM的迁移状态信息包括每个目标VM的配置信息(如操作系统)、每个目标VM的设备信息(如内存规格)以及每个目标VM的内存(如目标VM的初始内存、内存变更分片)。

由上述S105可知，上述一个或多个目标VM中的任意一个或多个目标VM在迁移到第二计算节点之前，可能还向第一计算节点申请了内存。可选的，上述任意一个或多个目标VM中的每个目标VM的迁移状态信息还包括该VM的GPA偏移，以及该VM迁移到第二计算节点之前向第一计算节点请求的内存容量。由上述技术术语的解释可知，VM的GPA空间是一段从零开始的连续的地址空间，因此上述任意一个或多个目标VM中的每个目标VM的GPA空间的基地址为零，那么，上述任意一个或多个目标VM中的每个目标VM的GPA在迁移前和迁移后保持不变，上述任意一个或多个目标VM中的每个目标VM的GPA偏移在迁移前和迁移后也保持不变。

本申请实施例中，第二计算节点接收到上述一个或多个目标VM的迁移状态信息之后，为了保证部署在这些目标VM上的业务不受影响，还需要在第二计算节点上恢复(resume)这些目标VM的运行。以这些目标VM中的一个为例，对其恢复运行的过程进行描述：

(1)对于在迁移到第二计算节点之前，未向第一计算节点申请内存的目标VM而言，目标VM通过以下步骤恢复运行：内存分配装置200在第二计算节点基于目标VM的迁移状态信息中的内存信息(如目标VM的初始内存、内存变更分片)为目标VM分配内存。之后，目标VM通过上述分配的内存在第二计算节点上恢复运行。

(2)对于在迁移到第二计算节点之前，向第一计算节点申请内存的目标VM而言，目标VM通过以下任一种方式步骤恢复运行，以下任一种方式适用于第一VM、或者在迁移到第二计算节点之前，向第一计算节点申请内存的第二VM。

方式1、目标VM的迁移状态信息不包括目标VM的GPA偏移，以及目标VM在迁移到第二计算节点之前向第一计算节点申请的内存容量。那么，内存分配装置200在第二计算节点基于目标VM迁移状态信息中的内存信息(如目标VM的初始内存、内存变更分片)为目标VM分配内存，这部分内存是目标VM在迁移到第二计算节点前实际占用的第一计算节点上的那一部分内存，即目标VM实际占用的内存容量对应的那一部分内存。这时，目标VM在第二计算节点上恢复了暂停前的运行状态，暂停前的运行状态包括向第一计算节点请求内存。然后，内存分配装置200在第二计算节点为目标VM分配该VM在迁移到第二计算节点之前向第一计算节点请求的内存容量。之后，目标VM便可以通过上述分配的内存在第二计算节点上恢复运行。

方式2、目标VM的迁移状态信息包括目标VM的GPA偏移，以及目标VM在迁移到第二计算节点之前向第一计算节点申请的内存容量。那么，内存分配装置200在第二计算节点基于目标VM的迁移状态信息中的目标VM的GPA偏移和上述请求的内存容量为目标VM分配内存。应理解，通过执行上述步骤，内存分配装置200在第二计算节点为目标VM分配的是目标VM想要申请的内存，即在迁移到第二计算节点前向第一计算节点申请，但第一计算节点未分配给目标VM的内存，在迁移到第二计算节点后由第二计算节点分配给目标VM。关于目标VM占用的内存容量，即在迁移到第二计算节点前已经占用的第一计算节点上的内存容量，可参见方式1的相关叙述。之后，目标VM便可以通过上述分配好的内存在第二计算节点上恢复运行。

更具体地，目标VM基于目标VM的迁移状态信息获取目标VM的GPA偏移和目标VM在迁移到第二计算节点前向第一计算节点请求的内存容量，然后基于目标VM的GPA偏移和上述请求的内存容量向内存分配装置200发送内存申请请求。内存分配装置200接收到上述内存申请请求之后，在第二计算节点为目标VM分配该VM请求的内存。

在一些实施例中，目标VM中设置有触发条件，该触发条件是当目标VM读取了第二计算节点HVA指示的内存空间中的一个或多个字节时，目标VM向内存分配装置200发送内存申请请求。那么，目标VM基于目标VM的GPA偏移和目标VM在迁移到第二计算节点前向第一计算节点请求的内存容量向内存分配装置200发送内存申请请求，包括：目标VM基于目标VM的GPA偏移得到第二计算节点的HVA，再从上述HVA指示的内存空间中读取一个或多个字节，如此，便会触发目标VM向内存分配装置200发送内存申请请求。

需要说明的是，上述方式1和方式2中关于内存分配装置200在第二计算节点为目标VM分配内存的过程与上述内存分配装置200在第一计算节点为第一VM分配内存的过程类似，但值得注意的是，由上述S105可知，第二计算节点能够满足目标VM所需要的内存(即目标VM占用的内存容量)，这说明第二计算节点上可用的内存资源足够，那么，内存分配装置200在第二计算节点为目标VM分配内存的过程具体可参见上述S102。

S107：内存分配装置200释放上述一个或多个目标VM占用的第一计算节点上的内存。

应理解，上述一个或多个目标VM迁移完成之后，内存分配装置200通过释放这些VM占用的内存可以增加第一计算节点上的可用内存容量。

S108：内存分配装置200为第一VM分配内存。

(1)当上述一个或多个目标VM包括第一VM时，说明第一VM已经迁移至第二计算节点，在这种情况下，内存分配装置200为第一VM分配内存是指内存分配装置200在第二计算节点为第一VM分配内存，其具体过程请参见上述S106中关于目标VM的恢复运行的过程。

应理解，在内存分配装置200将第一VM迁移到第二计算节点的情况下，当第一VM迁移到第二计算节点的过程中，内存分配装置200可以利用第一计算节点上剩余的可用内存资源，在第一计算节点为其上运行的其他VM分配内存。除此之外，当第一VM迁移到第二计算节点，且内存分配装置200将第一VM占用的第一计算节点上的内存释放之后，内存分配装置200还可以将这部分释放的内存分配给第一计算节点上的其他VM。

(2)当上述一个或多个目标VM不包括第一VM时，内存分配装置200为第一VM分配内存是指内存分配装置200在第一计算节点为第一VM分配内存。

与上述S102类似的，在一些实施例中，内存分配装置200在第一计算节点为第一VM分配内存，包括：内存分配装置200在第一计算节点为第一VM增加分配内存。在另一些实施例中，内存分配装置200在第一计算节点为第一VM分配内存，包括：内存分配装置200在第一计算节点为第一VM分配第一VM运行所需的所有内存。

进一步地，当第一VM向内存分配装置200发送内存申请请求时，内存分配装置200在第一计算节点为第一VM增加分配内存，包括：内存分配装置200在第一计算节点为第一VM增加分配第一VM请求的内存容量。

更进一步地，考虑到VM的迁移需要时间，当上述一个或多个目标VM不包括第一VM时，为了尽可能不影响第一VM在第一计算节点上的运行，本申请实施例提出：内存分配装置200在第一计算节点为第一VM增加分配内存，包括：内存分配装置200在迁移上述一个或多个第二VM时，延迟在第一计算节点为第一VM增加分配内存。即，迁移上述一个或多个第二VM的相关步骤(S103-S107)与给第一VM分配内存的相关步骤并行执行。下面具体描述内存分配装置200如何延迟在第一计算节点为第一VM增加分配内存：

由前文可知，内存分配装置200在第一计算节点为第一VM分配内存之前，第一计算节点上的可用容量大于第一内存容量，以下将第一计算节点上的这部分可用内存容量对应的内存资源简称作内存资源Q。因此，内存分配装置200可以从内存资源Q中选择一部分分配给第一VM。但值得注意的一点是：在实际应用中，第一VM向内存分配装置200发送第一请求之后，还可能继续向内存分配装置200发送内存申请请求，或者第一计算节点中的其他VM继续向内存分配装置200发送内存申请请求。假设，上述内存资源Q仅支持给r个内存申请请求(包括第一VM发送的内存申请请求)分配内存，其中，r是大于或等于1的正整数。为了确保第r+1个内存申请请求也能够分配到相应的内存，需要在耗尽内存资源Q之前，保证上述一个或多个目标VM的迁移完成。为实现这一目的，内存分配装置200可能需要延迟给上述发送r个内存申请请求的VM(包括第一VM)分配内存。因此，可选的，内存分配装置200还执行以下步骤：

S109：内存分配装置200判断自身是否处于限速状态。如果内存分配装置200处于限速状态，则执行S110-S111，如果内存分配装置200未处于限速状态，则先将其设置为限速状态，再执行S110-S111。

其中，当内存分配装置200处于限速状态时，内存分配装置200将会延迟在第一计算节点给第一计算节点上的VM分配内存；当内存分配装置200未处于限速状态时，内存分配装置200不会延迟在第一计算节点给第一计算节点上的VM分配内存。

应理解，内存分配装置200处于限速状态的前提条件是第一计算节点上可用的内存资源不能够满足VM所需要的内存，因此，在第一计算节点上可用的内存资源能够满足VM所需要的内存时，内存分配装置200可以无需处于限速状态，也就是说，当内存分配装置200在执行S101时，如果确定第一计算节点能够满足第一VM所需要的内存，那么内存分配装置200在执行S102之前，还执行清除限速状态的步骤。如此，内存分配装置200将不会延迟在第一计算节点上为第一VM分配内存。

S110：内存分配装置200基于第二阈值计算延迟时间。

具体地，内存分配装置200确定目标内存容量，然后基于计算系统100的网络条件(包括计算节点300间通信时的带宽)和目标内存容量计算得到第二阈值，再基于目标内存容量和第二阈值计算得到延迟时间。

考虑到在迁移上述一个或多个第二VM的相关步骤与在第一计算节点为第一VM分配内存的相关步骤并行执行的情况下，内存分配装置200计算延迟时间时可能还未确定上述一个或多个第二VM。因此，目标内存容量可以是上述一个或多个第二VM的总内存容量，也可以不是上述一个或多个第二VM的总内存容量，内存分配装置200可以通过以下方式确定目标内存容量：基于第一阈值确定目标内存容量，例如，目标内存容量可以是大于第一阈值的、VM实际占用的内存容量中的任意一个，或者是所有大于第一阈值的、VM实际占用的内存容量的平均值。

假设，内存资源Q的内存容量是N，上述r个内存申请请求用于申请的内存容量分别是M₁、M₂、…、M_r，其中，M₁+M₂+…+M_r≤N，目标内存容量是V，第二阈值是T₁，延迟时间是D。那么，迁移内存资源Q所耗费的时间T₂＝(N/V)*T₁，每个内存申请请求对应的延迟时间满足以下一个或多个条件：D≥T₁/r，以及D≥T₂/r。

在一些实施例中，当N与第一内存容量的差值小于第一阈值时，N与第一阈值接近，因此，上述延迟时间还可以满足以下条件：D≥(H/V)*T₁/r，其中，H表示第一阈值。

需要说明的是，上述关于延迟时间的推导过程是以第一计算节点上的VM通过向内存分配装置200发送内存申请请求为例展开描述的，应理解，在实际应用中，在内存分配装置200定期或在预设时间为第一计算节点上的VM分配内存的情况下，延迟时间的推导过程与上述过程是类似的，为了简便，此处不再重复描述。

S111：内存分配装置200在到达延迟时间后在第一计算节点为第一VM分配内存。

具体地，内存分配装置200在到达延迟时间之后，基于第一内存容量从第一计算节点上的可用内存中选取一部分分配给第一VM。类似的，对于上述一个或多个第二VM迁移完成之前也向第一计算节点申请内存其他VM，内存分配装置200也是在到达相应的延迟时间之后再为这些VM分配相应的内存。如此，可以保证上述一个或多个第二VM迁移完成之前，第一计算节点上还拥有可用的内存资源。而且，在上述一个或多个第二VM迁移完成并释放了占用的内存之后，由于上述一个或多个第二VM占用的总内存容量大于第一阈值，因此释放上述一个或多个第二VM占用的内存之后，第一计算节点上的可用内存容量会大于第一阈值，从而保证第一计算节点上始终有内存分配给VM。

下面通过一个具体的实施例进一步描述上述内存分配方法。

本实施例基于非一致性内存访问(non-uniform memory access,NUMA)架构提出，NUMA架构是云计算模式下的计算节点通常采用的一种架构，这种架构的特点是系统中的相关硬件资源(如CPU、内存)被划分为多个节点，从而可以实现高性能计算。图6示出了一种采用NUMA架构的计算节点的结构示意图，该节点可以是多个计算节点300中的任意一个，如图6所示，计算节点400包括多个NUMA节点410，每个NUMA节点410包括处理器411和内存412，每个NUMA节点410上可以运行一个或多个VM。对于采用NUMA架构的计算节点400来说，在运行过程中是以NUMA节点作为内存容量的单位进行内存分配的，换句话说，运行在NUMA节点上的VM是由本地NUMA节点分配内存资源，因此NUMA节点上的内存资源也可以基于上述内存分配方法分配给运行在该节点上的VM。

以计算节点400上的一个NUMA节点410为例：如图7所示，NUMA节点410上运行有VM₁、VM₂、VM₃和VM₄，VM₁向内存分配装置200发送内存申请请求，内存分配装置200接收到VM₁发送的请求后，确定当前NUMA节点410上的可用内存容量与VM₁申请的内存容量的差值大于阈值，此处的阈值与上述第一阈值的作用类似，因此，内存分配装置200直接给VM₁分配内存。接下来，VM₂向内存分配装置200发送内存申请请求，内存分配装置200接收到VM₂发送的请求后，确定当前NUMA节点410上的可用内存容量与VM₂申请的内存容量的差值小于阈值，此时，内存分配装置200执行迁移VM的相关步骤，例如，确定迁移的VM是VM₄。与此同时，内存分配装置200延迟给VM₂分配内存。在VM₄迁移过程中，内存分配装置200还依次接收到VM₃、VM₁、VM₂发送的内存申请请求后，对此内存分配装置200还继续使用NUMA节点410上可用的内存资源依次给VM₃、VM₁、VM₂分配内存。之后，VM₄迁移完成，并在释放VM₄占用的内存后，NUMA节点410上可用的内存资源又重新恢复到大于阈值的状态。

前文中结合图5-图7，详细描述了内存分配装置200的功能，下面结合图8-图11，从内存分配装置200的结构方面，更详细地描述内存分配装置200。

内存分配装置200可以在逻辑上分成多个部分，每个部分具有不同的功能，每个部分可以是软件模块、也可以硬件模块、还可以是软件模块和硬件模块的结合。图8示例性地展示了内存分配装置200的结构示意图。如图8所示，内存分配装置200包括内存管理模块210、策略控制模块220以及调度模块230，其中，内存管理模块210、策略控制模块220以及调度模块230协同工作，以实现上述方法实施例中内存分配装置200执行的步骤。具体地，内存管理模块210用于执行上述S101中判断第一计算节点是否能够满足第一VM所需要的内存的相关步骤，以及上述S102、S107-S108；策略控制模块220用于执行上述S103-S104，以及S109中将内存分配装置200设置为限速状态的相关步骤；调度模块230用于执行上述S105-S106，S109中判断内存分配装置200是否处于限速状态，以及S110-S111。

除此之外，由于本申请实施例中还涉及到迁移一个或多个第二VM到第二计算节点的过程，因此，内存管理模块210还用于在上述一个或多个第二VM迁移到第二计算节点后，在第二计算节点为第二VM分配内存的相关步骤。

应理解，图8所示的结构示意图仅仅是根据功能对上述内存分配装置200进行划分的一种示例性的结构划分方式，本申请并不对内存分配装置200的结构的具体划分方式进行限定。

本申请实施例中，由于内存分配装置200在逻辑上分成多个部分，因此它的部署灵活，可以单独部署在一个计算设备上，也可以分布式部署在多个计算设备上。示例性的，如图9所示，内存分配装置200中的内存管理模块210和策略控制模块220分别部署第一计算节点和第二计算节点上，内存分配装置200中的调度模块230部署其他计算节点上，例如，计算系统100包括管理节点，管理节点与各个计算节点300之间可以相互通信，用于管理上述各个计算节点300，调度模块230可以部署在管理节点上。应理解，本申请实施例不对内存分配装置200的哪些部分具体部署在哪个计算设备进行限制性的划分，实际应用格式可根据具体应用需求进行适应性的部署。

当内存分配装置200单独部署在一个计算设备上时，该计算设备可以是图10示出的计算设备500。如图10所示，计算设备500包括存储器510、处理器520、通信接口530以及总线540，其中，存储器510、处理器520、通信接口530通过总线540实现彼此间的通信连接。

存储器510可以包括只读存储器(read only memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(random access memory,RAM)等。存储器510可以存储程序代码，例如，内存管理模块210中的计算机程序代码、策略控制模块220中的计算机程序代码以及调度模块230中的计算机程序代码等。当存储器510中存储的程序代码被处理器520执行时，处理器520和通信接口530用于执行内存分配装置200所执行的部分或全部方法(包括上述S101-S111)。存储器510还可以存储数据，存储器510存储的数据包括处理器520在执行过程中产生的中间数据或结果数据，例如，第一内存容量、延迟时间等。

处理器520可以采用CPU、专用集成电路(application specificintegrated circuit,ASIC)、图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。

处理器520也可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，内存分配装置200的部分功能可以通过处理器520中的硬件的集成逻辑电路或者软件形式的指令完成。处理器520还可以是通用处理器、数据信号处理器(digital signal process,DSP)、现场可编程逻辑门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件，分立门或者晶体管逻辑器件，分立硬件组件，可以实现或者执行本申请实施例中公开的方法、步骤及逻辑框图。处理器520还可以是任何常规的处理器，结合本申请公开的方法可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器510，处理器520读取存储器510中的信息，结合其硬件完成内存分配装置200的部分或全部功能。

通信接口530使用例如但不限于收发器一类的收发模块，来实现计算设备500与其他设备或通信网络之间的通信。例如，可以通过通信接口730向第一计算设备发送迁移一个或多个目标VM的指令。

总线540可以包括在计算设备500中的各个部件(例如，存储器510、处理器520以及通信接口530)之间传送信息的通路。

当内存分配装置200分布式地部署在多个计算设备上时，内存分配装置200可以部署在如图11所示的计算设备系统600上。如图11所示，计算设备系统600包括多个计算设备700，每个计算设备700包括存储器710、处理器720、通信接口730以及总线740，其中，存储器710、处理器720、通信接口730通过总线740实现彼此之间的通信连接。

存储器710可以是ROM、RAM、静态存储设备或者动态存储设备。存储器710可以存储计算机程序代码，例如，内存管理模块210中的计算机程序代码、策略控制模块220中的计算机程序代码或者调度模块230中的计算机程序代码。当存储器710中存储的计算机程序代码被处理器720执行时，处理器720和通信接口730用于执行内存分配装置200所执行的部分方法(包括上述S101-S111所描述的任意一个或多个步骤)。存储器710还可以存储数据，存储器710中存储的数据包括处理器720在执行过程中产生的中间数据或结果数据，例如，第一内存容量、延迟时间等。

处理器720可以采用CPU、GPU、ASIC、微处理器或者一个或多个集成电路。处理器720也可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，内存分配装置200的部分功能可用通过处理器720中的硬件的集成逻辑电路或者软件形式的指令完成。处理器720还可以是DSP、FPGA、通用处理器、或者其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件等，可以实现或者执行本申请实施例中公开的方法、步骤及逻辑框图。处理器720还可以是任何常规的处理器，结合本申请公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器710，处理器720读取存储器710中的信息，结合其硬件完成内存分配装置200的部分功能。

通信接口730使用例如但不限于收发器一类的收发模块，来实现计算设备700与其他设备或通信网络之间的通信。例如，可以通过通信接口730向第一计算设备发送迁移一个或多个目标VM的指令。

总线740可以包括在计算设备700中的各个部件(例如，存储器710、处理器720、通信接口730)之间传送信息的通路。

上述多个计算设备700之间通过通信网络建立通信通路，以实现内存分配装置200的功能。上述多个计算设备700可以包括第一计算节点和第二计算节点。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详细描述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件或者其组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。提供内存分配装置200的计算机程序产品包括一个或多个内存分配装置200执行的计算程序代码，在计算设备上加载和执行这些计算机程序代码时，全部或部分地产生按照本申请实施例所述的流程或功能。

上述计算设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机程序代码可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机程序代码可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、双绞线或无线(例如，红外、无线、微波)等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质存储有提供内存分配装置200的计算机程序程序代码。所述计算机可读存储介质可以是计算设备能够存取的任何可用介质或者是包含一个或多个介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如，SSD)。

Claims

一种内存分配方法，其特征在于，包括：

在第一计算节点不能够满足第一虚拟机VM所需要的内存时，迁移所述第一计算节点上的一个或多个第二VM到第二计算节点；

在所述第一计算节点为所述第一VM分配内存。
根据权利要求1所述的方法，其特征在于，所述在所述第一计算节点为所述第一VM分配内存，包括：

在所述第一计算节点为所述第一VM增加分配内存。
根据权利要求1所述的方法，其特征在于，所述在所述第一计算节点为所述第一VM分配内存，包括：

在迁移所述一个或多个第二VM时，延迟在所述第一计算节点为所述第一VM增加分配内存。
根据权利要求1所述的方法，其特征在于，所述在所述第一计算节点为所述第一VM分配内存，包括：

在所述第一计算节点为所述第一VM增加分配所述第一VM请求的内存容量。
根据权利要求1-4任一项所述的方法，其特征在于，如果所述第一计算节点上的可用内存容量与所述第一VM请求的内存容量的差值小于阈值，则所述第一计算节点不能够满足所述第一VM所需要的内存。
根据权利要求1-5任一项所述的方法，其特征在于，在所述迁移所述第一计算节点上的一个或多个第二VM到第二计算节点之前，所述方法还包括：暂停所述一个或多个第二VM。
根据权利要求5所述的方法，其特征在于，所述一个或多个第二VM满足以下一个或多个条件：所述一个或多个第二VM占用的总内存容量大于所述阈值，迁移所述一个或多个第二VM所用的时间小于耗尽所述第一计算节点上的可用内存容量所用的时间。
根据权利要求7所述的方法，其特征在于，所述第二计算节点能够满足所述一个或多个第二VM所需的总内存容量的要求，其中，所述一个或多个第二VM所需的总内存容量包括所述一个或多个第二VM占用的总内存容量。
根据权利要求8所述的方法，其特征在于，所述迁移所述第一计算节点上的一个或多个第二VM到第二计算节点，包括：

将所述一个或多个第二VM中的目标第二VM的迁移状态信息发送到所述第二计算节点，其中，所述目标第二VM的迁移状态信息包括所述目标第二VM的物理地址偏移、以及所述目标第二VM在迁移到所述第二计算节点之前向所述第一计算节点请求的内存容量。
根据权利要求9所述的方法，其特征在于，还包括：

在所述第二计算节点基于所述目标第二VM的物理地址偏移、以及所述目标第二VM在迁移到所述第二计算节点之前向所述第一计算节点请求的内存容量，为所述目标第二VM分配内存。
一种内存分配方法，其特征在于，包括：

在第一计算节点不能够满足第一虚拟机VM所需要的内存时，暂停所述第一VM；

将所述第一VM从所述第一计算节点迁移到第二计算节点；

在所述第一计算节点为所述第一计算节点上的第二VM分配内存。
根据权利要求11所述的方法，其特征在于，如果所述第一计算节点上的可用内存容量与所述第一VM请求的内存容量的差值小于阈值，则所述第一计算节点不能够满足所述第一VM所需要的内存。
根据权利要求12所述的方法，其特征在于，所述第二计算节点能够满足所述第一VM占用的内存容量和所述第一VM请求的内存容量的要求。
根据权利要求13所述的方法，其特征在于，还包括：在所述第二计算节点为所述第一VM分配内存。
根据权利要求12-14任一项所述的方法，其特征在于，所述将所述第一VM从所述第一计算节点迁移到第二计算节点，包括：

将所述第一VM的迁移状态信息发送到所述第二计算节点，其中，所述第一VM的迁移状态信息包括所述第一VM请求的内存容量和所述第一VM的物理地址偏移。
根据权利要求15所述的方法，其特征在于，所述在所述第二计算节点为所述第一VM分配内存，包括：

在所述第二计算节点基于所述第一VM请求的内存容量和所述第一VM的物理地址偏移为所述第一VM分配内存。
一种内存分配装置，其特征在于，包括：

调度模块，用于在第一计算节点不能够满足第一虚拟机VM所需要的内存时，迁移所述第一计算节点上的一个或多个第二VM到第二计算节点；

内存管理模块，用于在所述第一计算节点为所述第一VM分配内存。
根据权利要求17所述的装置，其特征在于，

所述内存管理模块，用于在所述第一计算节点为所述第一VM增加分配内存。
根据权利要求17所述的装置，其特征在于，

所述内存管理模块，用于在迁移所述一个或多个第二VM时，延迟在所述第一计算节点为所述第一VM增加分配内存。
根据权利要求17所述的装置，其特征在于，

所述内存管理模块，用于在所述第一计算节点为所述第一VM增加分配所述第一VM请求的内存容量。
根据权利要求17-20任一项所述的装置，其特征在于，如果所述第一计算节点上的可用内存容量与所述第一VM请求的内存容量的差值小于阈值，则所述第一计算节点不能够满足所述第一VM所需要的内存。
根据权利要求17-21任一项所述的装置，其特征在于，还包括：

策略控制模块，用于在迁移所述第一计算节点上的一个或多个第二VM到第二计算节点之前，暂停所述一个或多个第二VM。
根据权利要求21所述的装置，其特征在于，所述一个或多个第二VM满足以下一个或多个条件：所述一个或多个第二VM占用的总内存容量大于所述阈值，迁移所述一个或多个第二VM所用的时间小于耗尽所述第一计算节点上的可用内存容量所用的时间。
根据权利要求23所述的装置，其特征在于，所述第二计算节点能够满足所述一个或多个第二VM所需的总内存容量的要求，其中，所述一个或多个第二VM所需的总内存容量包括所述一个或多个第二VM占用的总内存容量。
根据权利要求24所述的装置，其特征在于，

所述调度模块，用于将所述一个或多个第二VM中的目标第二VM的迁移状态信息发送到所述第二计算节点，其中，所述目标第二VM的迁移状态信息包括所述目标第二VM的物理地址偏移、以及所述目标第二VM在迁移到所述第二计算节点之前向所述第一计算节点请求的内存容量。
根据权利要求25所述的装置，其特征在于，

所述内存管理模块，还用于在所述第二计算节点基于所述目标第二VM的物理地址偏移、以及所述目标第二VM在迁移到所述第二计算节点之前向所述第一计算节点请求的内存容量，为所述目标第二VM分配内存，其中，所述目标第二VM通过所述分配的内存在所述第二计算节点上恢复运行。
一种内存分配装置，其特征在于，包括：

策略控制模块，用于在第一计算节点不能够满足第一虚拟机VM所需要的内存时，暂停所述第一VM；

调度模块，用于将所述第一VM从所述第一计算节点迁移到第二计算节点；

内存管理模块，用于在所述第一计算节点为所述第一计算节点上的第二VM分配内存。
根据权利要求27所述的装置，其特征在于，如果所述第一计算节点上的可用内存容量与所述第一VM请求的内存容量的差值小于阈值，则所述第一计算节点不能够满足所述第一VM所需要的内存。
根据权利要求28所述的装置，其特征在于，所述第二计算节点能够满足所述第一VM占用的内存容量和所述第一VM请求的内存容量的要求。
根据权利要求29所述的装置，其特征在于，

所述内存管理模块，还用于在所述第二计算节点为所述第一VM分配内存，其中，所述第一VM通过所述分配的内存在所述第二计算节点上恢复运行。
根据权利要求28-30任一项所述的装置，其特征在于，

所述调度模块，用于将所述第一VM的迁移状态信息发送到所述第二计算节点，其中，所述第一VM的迁移状态信息包括所述第一VM请求的内存容量和所述第一VM的物理地址偏移。
根据权利要求31所述的装置，其特征在于，

所述内存管理模块，用于在所述第二计算节点基于所述第一VM请求的内存容量和所述第一VM的物理地址偏移为所述第一VM分配内存。
一种计算系统，其特征在于，包括如前述权利要求17-26任一项所述的内存分配装置、第一计算节点以及第二计算节点，

所述第一计算节点，运行有第一虚拟机VM、一个或多个第二VM；

所述内存分配装置，用于在所述第一计算节点不能够满足第一VM所需要的内存时，迁移所述一个或多个第二VM到所述第二计算节点，以及在所述第一计算节点为所述第一VM分配内存。
一种计算系统，其特征在于，包括如前述权利要求27-32任一项所述的内存分配装置、第一计算节点以及第二计算节点，

所述第一计算节点，运行有第一虚拟机VM和第二VM；

所述内存分配装置，用于在所述第一计算节点不能够满足所述第一VM所需要的内存时，暂停所述第一VM，将所述第一VM从所述第一计算节点迁移到所述第二计算节点，以及在所述第一计算节点为所述第二VM分配内存。
一种计算设备系统，其特征在于，包括处理器和存储器，所述处理器执行所述存储器中的计算机程序代码以实现前述权利要求1-10或11-16任一项所述的方法。
一种计算机可读存储介质，其特征在于，存储有计算机程序代码，所述计算机程序代码被计算设备系统执行时，所述计算设备系统执行前述权利要求1-10或11-16任一项所述的方法。