WO2022057754A1

WO2022057754A1 - 内存控制方法和装置

Info

Publication number: WO2022057754A1
Application number: PCT/CN2021/117914
Authority: WO
Inventors: 丁肇辉; 朱波
Original assignee: 华为技术有限公司
Priority date: 2020-09-21
Filing date: 2021-09-13
Publication date: 2022-03-24
Also published as: CN114253457B; CN114253457A

Abstract

一种内存控制方法和装置，应用于第一节点，该方法包括：第一节点获取作业控制组包括的各作业的第一总占用内存，作业控制组包括该第一节点上未处理完毕的各作业（S501）；第一节点在第一总占用内存满足第一预设条件时，减少作业控制组包括的各作业的总占用内存，第一预设条件包括大于最大可用内存，或者，包括小于或等于该最大可用内存、且大于该最大可用内存的第一预设比例（S502）。第一节点上未处理完毕的各作业均位于同一个作业控制组中，使得第一节点可以实时的获取第一节点上的各作业的总占用内存，且在总占用内存满足上述的第一预设条件时，才减少作业控制组包括的各作业的总占用内存，在避免OOM的同时，还可以充分利用第一节点的系统内存。

Description

内存控制方法和装置

技术领域

本申请涉及计算机技术领域，由于涉及一种内存控制方法和装置。

背景技术

高性能计算(high performance computing，HPC)服务的主要目的是提高运算速度及能力，以达到每秒万亿次级的计算速度。其可以解决大规模科学问题的计算和海量数据的处理，如气象预报、汽车模拟仿真、军事研究、生物制药、基因测序、核爆炸模拟等等。可以提供高性能计算服务的计算机可称之为“高性能计算机”或“HPC计算机”。也就是说，HPC计算机的负载较大，比如运行有大量的作业，因此对HPC计算机的内存控制具有重要的意义。

目前HPC计算机的内存控制的方法有的存在内存溢出(out of memory，简称OOM)的问题，有的存在无法充分使用HPC计算机的系统内存的问题。

发明内容

本申请实施例提供一种内存控制方法和装置，可以充分利用系统内存以及有效的防止内存溢出。

第一方面，本申请实施例提供一种内存控制方法，应用于第一节点，所述方法包括：获取作业控制组包括的各作业的第一总占用内存，所述作业控制组包括所述第一节点上未处理完毕的各作业；在所述第一总占用内存满足第一预设条件时，减少所述作业控制组包括的各作业的总占用内存，所述第一预设条件包括大于最大可用内存，或者，所述第一预设条件包括小于或等于所述最大可用内存、且大于所述最大可用内存的第一预设比例。

可以理解的是，本方案中第一节点调用控制组系统监控进程，获取作业控制组包括的各作业的第一总占用内存。

本方案中，作业控制组的数量为一个，第一节点获取到的各作业被所述第一节点均添加至作业控制组中。在一种具体的实现中，在第一节点获取到作业后，启动管理该作业的一个任务管理进程，第一节点调用该任务管理进程启动该作业，并将该作业对应的进程添加至该作业控制组中，以实现该作业与该作业控制组的绑定。

其中，最大使用内存的一种确定方法可如下：第一节点读取配置文件中的最大可用内存比例，根据最大使用内存比例和所述第一节点的总内存，确定所述最大使用内存。此外，最大使用内存还可以是第一节点的系统内存，本方案中并不限定。

因为控制组系统监控进程具有实时监控作业控制组的功能以及第一节点上未处理完毕的各作业均位于同一个作业控制组中，因此，第一节点可以实时的获取第一节点上未处理完毕的各作业的总占用内存，且在总占用内存大于最大可用内存，或者，小于或等于最大可用内存、且大于最大可用内存的第一预设比例时，才减少作业控制组包括的各作业的总占用内存，因此，本方案的方法在避免内存溢出的同时，还可以充分利用第一节点的系统内存。

在一种可能的实施方式中，所述减少所述作业控制组包括的各作业的总占用内存，包括：采用第一处理方式处理所述作业控制组中的第一作业对应的进程，所述第一处理方式为挂起或终止。

其中，在第一种可选的方式中，第一作业可以是满足如下条件的作业：第一作业的第一实际使用内存大于第一作业的第一最大可用内存、且第一作业的内存超出比例最高。其中，第一作业的内存超出比例为第二差值与第一最大使用内存的比值，第二差值为第一实际使用内存与第一最大可用内存的差值。该第一种可选的方式可以有针对性的挂起或终止内存超出比例最高的作业，保证第一节点上的其它作业的正常执行。

在第二种可选的方式中，第一作业可以是实际使用内存最高的作业。该第二种可选的方式可以快速的降低控制组包括的各作业的总占用内存。

可选的，在第一节点采用第一处理方式处理作业控制组中的第一作业对应的进程之前，还包括：第一节点读取配置文件中的处理方式指示信息，该处理方式指示信息指示第一处理方式。也就是说，第一节点可根据从配置文件中读取的处理方式指示信息得到的第一处理方式。该可选的方式，可以使得第一节点确定第一作业的处理方式，以实现对第一作业的正确处理，方便了第一节点对作业的管理。

本方案通过挂起或终止第一作业的方式减少所述作业控制组包括的各作业的总占用内存，保证了除了第一作业以外的其它作业的正常执行。

在一种可能的实施方式中，在所述采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，还包括：确定所述第一总占用内存小于或等于所述最大使用内存；根据所述第一总占用内存和所述最大使用内存，确定第一内存信息，所述第一内存信息指示所述第一总占用内存大于所述最大可用内存的第一预设比例。

可选的，所述第一内存信息包括：第一剩余总可用内存比例小于第二预设比例，所述第一预设比例和所述第二预设比例的和为100％；所述第一剩余总可用内存比例为第一差值与所述最大可用内存的比值，所述第一差值为所述最大可用内存与所述第一总占用内存的差值。其中，第二预设比例为第一节点的剩余总内存比例的最小阈值。第二预设比例可以是第一节点从配置文件中读取的。

可选的，所述第一内存信息包括：已用总内存比例大于所述第一预设比例；所述已用总内存比例为所述第一总占用内存与所述最大可用内存的比值。其中，第一预设比例为第一节点的已用总内存比例的最小阈值。第一预设比例可以是第一节点从配置文件中读取的。

也就是说，本方案在第一总占用内存满足第一预设条件且第一预设条件为小于或等于所述最大使用内存、且大于所述最大可用内存的第一预设比例时，采用第一处理方式处理所述作业控制组中的第一作业对应的进程。由于在第一总占用内存大于最大可用内存的第一预设比例后，就采用第一处理方式处理所述作业控制组中的第一作业对应的进程，因此，本方案可以有效的降低作业控制组包括的各作业的总占用内存大于最大使用内存的几率。

在一种可能的实施方式中，在所述获取作业控制组包括的各作业的第一总占用内存之前，还包括：获取作业控制组包括的各作业的第二总占用内存；若所述第二总占用内存大于所述最大可用内存，则所述将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存为所述第一总占用内存。在第一总占用内存满足第一预设条件且第一预设条件为小于或等于所述最大使用内存、且大于所述最大可用内存的第一预设比例时，采用第一处理方式处理作业控制中的第一作业，第一处理方式为挂起或终止。

在本方案中，可以有效防止第一节点的内存溢出，且由于在控制组中的各作业的总占用内存小于或等于最大可用内存、且大于最大可用内存的第一预设比例时，便挂起或终止第一作业，可以降低控制组中的各作业的总内存大于最大可用内存的几率，也就是可以降低将作业控制组对应的部分内存数据迁移至第一节点的swap分区的概率，进而降低了作业由于内存数据被迁移至swap分区造成的作业执行时间变长的概率。

在一种可能的实施方式中，所述第一处理方式为挂起，在第一总占用内存满足第一预设条件且第一预设条件为小于或等于所述最大使用内存、且大于所述最大可用内存的第一预设比例时，采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后，还包括：获取作业控制组包括的各作业的第三总占用内存；确定所述第三总占用内存小于所述最大可用内存的第三预设比例，所述第三预设比例小于或等于所述第一预设比例；唤醒所述第一作业对应的进程。

也就是说，本方案中在第一总占用内存满足第一预设条件且第一预设条件为小于或等于所述最大使用内存、且大于所述最大可用内存的第一预设比例时，第一节点将第一作业对应的进程挂起之后，若监控到第三总占用内存小于最大可用内存的第三预设比例，则可以唤醒第一作业对应的进程，以使得第一作业继续被执行，增加了第一节点的可靠性。

在一种可能的实施方式中，所述第一处理方式为挂起，在第一总占用内存满足第一预设条件且第一预设条件为大于所述最大使用内存时，采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后，还包括：获取作业控制组包括的各作业的第三总占用内存；确定所述第三总占用内存小于所述最大可用内存的第四预设比例；唤醒所述第一作业对应的进程。

也就是说，本方案中在第一总占用内存满足第一预设条件且第一预设条件为大于最大可用内存时，第一节点将第一作业对应的进程挂起之后，若监控到第三总占用内存小于最大可用内存的第四预设比例，则可以唤醒第一作业对应的进程，以使得第一作业继续被执行，增加了第一节点的可靠性。

在一种可能的实施方式中，所述减少所述作业控制组包括的各作业的总占用内存，包括：将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存。

本方案中将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存，可以有效的防止内存溢出。

在一种可能的实施方式中，第一节点将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区之后，还包括：若所述swap分区被所述作业控制组所占用的第一占用存储空间满足大于所述swap分区的最大可用存储空间，采用第一处理方式处理所述作业控制组中的第二作业对应的进程，以使所述swap分区被所述作业控制组所占用存储空间小于或等于所述最大可用存储空间，第一处理方式为挂起或终止。

其中，所述第二作业为所述作业控制组中占用所述swap分区的作业中的任意一个作业；或者，所述第二作业为所述作业控制组中占用的所述swap分区的存储空间最多的作业。第一节点确定swap分区的最大可用存储空间的方法可如下：第一节点读取配置文件的最大使用内存与所述swap分区的最大可用存储空间的第一比值；根据所述第一比值和所述最大使用内存，确定所述swap分区的最大可用存储空间。

本方案可以防止swap分区的存储空间被过度使用。

第二方面，本申请实施例提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或者第一方面任一可能的实施方式中所述的方法。

第三方面，本申请实施例提供一种内存控制系统，包括第二节点和至少一个第一节点；所述第二节点，用于向所述第一节点发送作业信息；所述第一节点，用于基于所述作业信息得到作业，以及将所述作业添加至作业控制组，所述作业控制组包括所述第一节点上未处理完毕的各作业；所述第一节点，还用于获取作业控制组包括的各作业的第一总占用内存，所述作业控制组包括所述第一节点上未处理完毕的各作业；在所述第一总占用内存满足第一预设条件时，减少所述作业控制组包括的各作业的总占用内存，所述第一预设条件包括大于最大可用内存，或者，所述第一预设条件包括小于或等于所述最大可用内存、且大于所述最大可用内存的第一预设比例。

在一种可能的实施方式中，所述第一节点具体用于：调用控制组系统监控进程，获取作业控制组包括的各作业的第一总占用内存。

在一种可能的实施方式中，所述作业控制组的数量为一个，所述第一节点获取到的各作业被所述第一节点添加至所述作业控制组中。

在一种可能的实施方式中，所述第一节点具体用于：采用第一处理方式处理所述作业控制组中的第一作业对应的进程，所述第一处理方式为挂起或终止。

在一种可能的实施方式中，在所述第一节点采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述第一节点还用于：确定所述第一总占用内存小于或等于所述最大使用内存；根据所述第一总占用内存和所述最大使用内存，确定第一内存信息，所述第一内存信息指示所述第一总占用内存大于所述最大可用内存的第一预设比例。

在一种可能的实施方式中，所述第一内存信息包括：已用总内存比例大于所述第一预设比例；所述已用总内存比例为所述第一总占用内存与所述最大可用内存的比值。

在一种可能的实施方式中，所述第一节点还用于：读取配置文件中的所述第一预设比例。

在一种可能的实施方式中，所述第一内存信息包括：第一剩余总可用内存比例小于第二预设比例，所述第一预设比例和所述第二预设比例的和为100％；所述第一剩余总可用内存比例为第一差值与所述最大可用内存的比值，所述第一差值为所述最大可用内存与所述第一总占用内存的差值。

在一种可能的实施方式中，所述第一节点还用于：读取配置文件中的所述第二预设比例。

在一种可能的实施方式中，在所述第一节点获取作业控制组包括的各作业的第一总占用内存之前，所述第一节点还用于：获取作业控制组包括的各作业的第二总占用内存；若所述第二总占用内存大于所述最大可用内存，则所述将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存为所述第一总占用内存。

在一种可能的实施方式中，所述第一作业的第一实际使用内存大于所述第一作业的第一最大可用内存且所述第一作业的内存超出比例最高；所述第一作业的内存超出比例为第二差值与所述第一最大使用内存的比值，所述第二差值为所述第一实际使用内存与所述第一最大可用内存的差值。

在一种可能的实施方式中，所述第一处理方式为挂起，在所述第一节点采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后，所述第一节点还用于：获取作业控制组包括的各作业的第三总占用内存；确定所述第三总占用内存小于所述最大可用内存的第三预设比例，所述第三预设比例小于或等于所述第一预设比例；唤醒所述第一作业对应的进程。

在一种可能的实施方式中，在所述第一节点采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述第一节点还用于：读取配置文件中的处理方式指示信息，所述处理方式指示信息指示所述第一处理方式。

在一种可能的实施方式中，所述第一节点具体用于：将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存。

在一种可能的实施方式中，所述第一节点还用于：读取配置文件中的最大可用内存比例；根据所述最大使用内存比例和所述第一节点的总内存，确定所述最大使用内存。

在一种可能的实施方式中，所述第一节点为分布式计算系统中的计算节点或云服务器，所述第二节点为所述分布式计算系统中的管理节点；所述作业信息包括所述作业。

在一种可能的实施方式中，所述第二节点为终端设备，所述第一节点为应用服务器；所述作业信息包括用户请求，所述作业用于执行所述用户请求。

第四方面，本申请实施例提供一种内存控制装置，该装置包括：获取模块，用于获取作业控制组包括的各作业的第一总占用内存所述作业控制组包括所述第一节点上未处理完毕的各作业。处理模块，用于在所述第一总占用内存满足第一预设条件时，减少所述作业控制组包括的各作业的总占用内存，所述第一预设条件包括大于最大可用内存，或者，所述第一预设条件包括小于或等于所述最大可用内存、且大于所述最大可用内存的第一预设比例。

在一种可能实施方式中，所述获取模块具体用于：调用控制组系统监控进程，获取作业控制组包括的各作业的第一总占用内存。

在一种可能实施方式中，所述作业控制组的数量为一个，所述第一节点获取到的各作业被所述第一节点添加至所述作业控制组中。

在一种可能实施方式中，所述处理模块具体用于：采用第一处理方式处理所述作业控制组中的第一作业对应的进程，所述第一处理方式为挂起或终止。

在一种可能实施方式中，在所述处理模块采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述处理模块还用于：确定所述第一总占用内存小于或等于所述最大使用内存；根据所述第一总占用内存和所述最大使用内存，确定第一内存信息，所述第一内存信息指示所述第一总占用内存大于所述最大可用内存的第一预设比例。

在一种可能实施方式中，所述第一内存信息包括：已用总内存比例大于所述第一预设比例；所述已用总内存比例为所述第一总占用内存与所述最大可用内存的比值。

在一种可能实施方式中，所述处理模块还用于：读取配置文件中的所述第一预设比例。

在一种可能实施方式中，所述第一内存信息包括：第一剩余总可用内存比例小于第二预设比例，所述第一预设比例和所述第二预设比例的和为100％；所述第一剩余总可用内存比例为第一差值与所述最大可用内存的比值，所述第一差值为所述最大可用内存与所述第一总占用内存的差值。

在一种可能实施方式中，所述处理模块还用于：读取配置文件中的所述第二预设比例。

在一种可能实施方式中，在所述获取模块在获取作业控制组包括的各作业的第一总占用内存之前：所述获取模块还用于：获取作业控制组包括的各作业的第二总占用内存；若所述第二总占用内存大于所述最大可用内存，则所述处理模块还用于：将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存为所述第一总占用内存。

在一种可能实施方式中，所述第一作业的第一实际使用内存大于所述第一作业的第一最大可用内存且所述第一作业的内存超出比例最高；所述第一作业的内存超出比例为第二差值与所述第一最大使用内存的比值，所述第二差值为所述第一实际使用内存与所述第一最大可用内存的差值。

在一种可能实施方式中，所述第一处理方式为挂起，在处理模块采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后：所述获取模块还用于：获取作业控制组包括的各作业的第三总占用内存；所述处理模块还用于：确定所述第三总占用内存小于所述最大可用内存的第三预设比例，所述第三预设比例小于或等于所述第一预设比例；以及唤醒所述第一作业对应的进程。

在一种可能实施方式中，在所述处理模块采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述处理模块还用于：读取配置文件中的处理方式指示信息，所述处理方式指示信息指示所述第一处理方式。

在一种可能实施方式中，所述处理模块具体用于：将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存。

在一种可能实施方式中，在所述处理模块将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区之后，所述处理模块还用于：若所述swap分区被所述作业控制组所占用的第一占用存储空间满足大于所述swap分区的最大可用存储空间，采用第一处理方式处理所述作业控制组中的第二作业对应的进程，以使所述swap分区被所述作业控制组所占用存储空间小于或等于所述最大可用存储空间，第一处理方式为挂起或终止。

在一种可能实施方式中，所述第二作业为所述作业控制组中占用所述swap分区的作业中的任意一个作业；或者，所述第二作业为所述作业控制组中占用的所述swap分区的存储空间最多的作业。

在一种可能实施方式中，所述处理模块还用于：读取配置文件中的最大使用内存与所述swap分区的最大可用存储空间的第一比值；根据所述第一比值和所述最大使用内存，确定所述swap分区的最大可用存储空间。

在一种可能实施方式中，所述处理模块还用于：读取配置文件中的最大可用内存比例；根据所述最大使用内存比例和所述第一节点的总内存，确定所述最大使用内存。

第五方面，本申请实施例提供一种存储介质，所述存储介质包括计算机程序，所述计算机程序用于实现如第一方面或第一方面任一可能的实施方式中所述的方法。

第六方面，本申请实施例提供一种芯片，包括处理器、存储器和通信接口，所述处理器、存储器与所述通信接口连接，其特征在于，所述处理器用于读取并执行所述存储器中存储的计算机程序，以执行第一方面或第一方面任一可能的实施方式中所述的方法。

附图说明

图1为目前的一种内存控制方法的原理示意图；

图2为目前的另一种内存控制方法的原理示意图；

图3A为本申请实施例提供的一种系统架构图；

图3B为本申请实施例提供的分布式计算系统下一种具体系统架构图；

图4为本申请实施例的电子设备的一种示意性框图；

图5为本申请实施例提供的内存控制方法的流程图一；

图6为本申请实施例提供的内存控制方法的流程图二；

图7为图6所示的方法实施例的原理示意图；

图8为图6所示的方法实施例的过程示意图；

图9为本申请实施例提供的内存控制方法的流程图三；

图10为本申请实施例提供的内存控制方法的流程图四；

图11为本申请实施例提供的内存控制方法的流程图五；

图12为本申请实施例提供的内存控制装置的示意性框图；

图13为本申请实施例提供内存控制系统的示意性框图。

具体实施方式

首先对本申请涉及的要素进行说明。

1、分布式计算系统：分布式计算系统包括多台通过网络互联的计算机，比如多台通过网络互联的HPC计算机。分布式计算系统中的多台计算机可包括至少一个管理节点和多个计算节点，管理节点用于接收用户提交的作业，并将作业分配至计算节点，计算节点执行管理节点分配的作业。一个作业可被分配至一个计算节点或多个计算节点来执行。

2、作业(job)：完成一项特定的计算业务所需要执行的一组程序实例的集合，通常对应于一台或多台计算机上的一组进程、容器或其他运行时实体。也就是说，一个作业对应多个进程。比如，在分布式管理系统中，管理节点接收用户的请求后，会生成至少一个处理该请求的作业，并将作业分配至计算节点中执行。又比如在其它的一些场景中，终端设备接收到用户针对某一应用的请求后，将该请求发送至该应用的应用服务器，该应用服务器生成至少一个处理该请求的作业，并执行至少一个作业。

3、内存过度使用或过载(overuse)：会导致同一台机器上的多个作业恶性竞争资源，作业执行慢或异常退出：如：处理器被其他作业占用，系统进程(如nfsd)受影响导致系统服务响应慢，严重时可能导致机器因内存溢出(out of memory，OOM)而宕机。

4、内存未充分使用(underuse)：内存资源利用率低，可能导致作业排队等待时间更久，吞吐量降低。

5、控制组(cgroup)，它提供了一套机制用于控制一组特定进程对资源的使用。cgroup绑定一个进程集合到一个或多个子系统上。其中，子系统是一个通过cgroup提供的工具和接口来管理进程集合的模块。一个子系统就是一个典型的“资源控制器”，用来调度资源或者控制资源使用的上限。

为了更好的理解本申请，下面对目前存在的技术问题进行说明。

作业内存限制(Job Limit)方法是分布式计算系统中应用的一种内存控制方法。对于该种方法，参见图1，管理节点接收用户提交的作业，作业中携带有作业的最大可用内存(job-level limit)，管理节点将该作业分配至计算节点，并携带该作业的最大可用内存。计算节点执行作业时，周期性的监控作业的实际使用内存，若该作业的实际使用内存大于该作业的最大可用内存，则计算节点挂起或终止该作业。比如，某个作业的最大可用内存为10G，当该作业的实际使用内存大于10G，该作业就会被挂起或终止。

该方法一方面由于计算节点在监控作业的实际使用内存时，无法做到实时监控，在监控的间隔期，存在作业的实际使用内存大于该作业的最大可用内存的可能，从而有可能发生OOM。另一方面，在某个作业实际使用内存大于该作业的最大可用内存时，即使此时计算节点的系统内存有大量的闲置内存，该作业还是被挂起或终止，因此无法充分利用内存。

硬资源限制是分布式计算系统中应用的另一种内存控制方法。对于该种方法，参见图2，计算节点为每个作业创建一个控制组(cgroup)，当计算节点调用控制组系统监控进程，来监控作业的实际使用内存，当监控到作业的实际使用内存大于该作业的最大使用内存时，将该作业的部分内存数据迁移至swap分区中，当该作业的实际使用内存大于该作业的最大使用内存且该作业占用的swap分区的存储空间大于该作业的swap分区最大使用存储空间(job swap limit)时，计算节点才会挂起或者终止该作业。

该方法由于为每个作业创建一个控制组，计算节点可以调用控制组系统监控进程实现对作业的实际使用内存的实时监控，几乎避免了OOM。但是，该方法中当作业的实际使用内存大于该作业的最大使用内存时，即使此时计算节点的系统内存有大量的闲置内存，还是将该作业的部分内存数据迁移至swap分区中，因此也无法充分利用内存。

为了解决上述技术问题，提出了本申请实施例的方法。

图3A为本申请实施例提供的一种系统架构图。参见图3A，该系统架构包括至少一个第二节点和至少一个第一节点。其中，第二节点可以是分布式计算系统中的管理节点，也可以是终端设备，还可以是其它的服务器；第一节点可以是分布式计算系统中的计算节点或云服务器，也可以是其它的服务器，比如云服务器或应用服务器。例如，在第二节点为分布式计算系统中的管理节点时，第一节点可以是分布式计算系统中的计算节点或云服务器且第一节点的数量为多个。又例如，在第二节点为终端设备时，第一节点可以是应用服务器。

其中，第一节点运行有作业，第一节点中的作业可以是第二节点分配的，也可以是基于第一节点发送的请求生成的。

例如，在本实施例的方法应用于分布式计算系统时，一种具体的系统架构图可如图3B所示。参见图3B，该系统架构包括管理节点和计算节点，还可包括运服务器，计算节点和云服务器可为图3A中所示的第一节点，管理节点可为图3B中所示的第二节点。

图4为本申请实施例的电子设备的一种示意性框图。本实施例的电子设备可以是上述系统架构中的第一节点，也可以是支持第一节点实现下述方法的芯片、芯片系统、或处理器等，该电子设备可用于实现下述方法实施例中描述的第一节点对应的方法，具体可以参见述方法实施例中的说明。

所述电子设备可以包括一个或多个处理器401，所述处理器401也可以称为处理单元，可以实现一定的控制功能。所述处理器401可以是通用处理器或者专用处理器等。

在一种可选的设计中，处理器401也可以存有指令和/或数据403，所述指令和/或数据403可以被所述处理器运行，使得所述电子设备执行下述方法实施例中描述的方法。

在另一种可选的设计中，处理器401中可以包括用于实现接收和发送功能的收发单元。例如该收发单元可以是收发电路，或者是接口，或者是接口电路。用于实现接收和发送功能的收发电路、接口或接口电路可以是分开的，也可以集成在一起。上述收发电路、接口或接口电路可以用于代码/数据的读写，或者，上述收发电路、接口或接口电路可以用于信号的传输或传递。

可选的，所述电子设备中可以包括一个或多个存储器402，其上可以存有指令404，所述指令可在所述处理器上被运行，使得所述电子设备执行下述方法实施例中描述的方法。可选的，所述存储器中还可以存储有数据。可选的，处理器中也可以存储指令和/或数据。所述处理器和存储器可以单独设置，也可以集成在一起。例如，下述方法实施例中所描述的对应关系可以存储在存储器中，或者存储在处理器中。

可选的，所述电子设备还可以包括收发器405和/或天线406。所述处理器401可以称为处理单元，对所述电子设备进行控制。所述收发器405可以称为收发单元、收发机、收发电路或者收发器等，用于实现收发功能。

下面采用具体的实施例对本申请的内存控制方法进行说明。

图5为本申请实施例提供的内存控制方法的流程图一，本实施例的执行主体可为图3A中的第一节点。参见图5，本实施例的方法包括：

步骤S501、第一节点获取作业控制组包括的各作业的第一总占用内存，作业控制组包括第一节点上未处理完毕的各作业。

其中，在第一节点的初始化阶段，第一节点创建一个作业控制组。当第一节点获取到作业时，第一节点将该作业分配至该作业控制组，或者说将该作业对应的进程绑定至该作业控制组。一种具体的实现中，在第一节点获取到作业后，启动管理该作业的一个任务管理进程，第一节点调用该任务管理进程启动该作业，并将该作业对应的进程添加至该作业控制组中，以实现该作业与该作业控制组的绑定。也就是说，作业控制组包括第一节点上未处理完毕的所有作业，其中，未处理完毕的所有作业包括正在被执行的作业和被挂起的作业。也就是说，第一节点包括一个作业控制组，第一节点获取到的每个作业均被第一节点分配至该作业控制组中。

第一节点可调用控制组系统监控进程，来监控作业控制组包括的各作业的第一总占用内存。因为控制组系统监控进程具有实时监控作业控制组的功能，因此，计算节点调用控制组系统监控进程，来监控作业控制组包括的各作业的总占用内存时，监控实时性优异，即第一节点可以实时的获取作业控制组包括的各作业的第一总占用内存或者说可以实时的获取第一节点上未处理完毕的各作业的第一总占用内存。

步骤S502、第一节点在该第一总占用内存满足第一预设条件时，减少作业控制组包括的各作业的总占用内存，第一预设条件包括大于最大可用内存，或者，第一预设条件包括小于或等于最大可用内存、且大于最大可用内存的第一预设比例。

一种方案中，最大可用内存可以是第一节点的系统总内存。

另一种方案中，最大可用内存可以是第一节点的系统总内存与最大可用内存比例(jobcgroup.memory.limit_rate)的乘积。其中，最大可用内存比例的乘积可以是第一节点从配置文件中读取的，第一节点获取到最大可用内存比例后，获取第一节点的系统总内存与最大可用内存比例的乘积，得到最大可用内存。可选的，最大可用内存比例可为70％～95％中的任一数值。比如，第一节点的系统总内存为100G，最大可用内存比例为90％，则最大可用内存为90G。

其中，目标节点可接收最大可用内存比例配置指令，该配置指令可用于生成配置文件。目标节点可以是该第一节点，可以是第二节点，还可以是其它的设备，也就是说目标节点为本实施例的第一节点本身，或者目标节点为与本实施例的第一节点建立有通信连接的且能够使得本实施例的第一节点读取到该配置文件的节点。由于配置文件中包括用户设置的最大可用内存比例，在第一节点从配置文件中读取最大可用内存比例，以得到最大可用内存时，可使得第一节点确定的最大可用内存比较合理。

第一节点根据该第一总占用内存和最大可用内存，判断该第一总占用内存是否满足第一预设条件，第一预设条件包括大于最大可用内存，或者，第一预设条件包括小于或等于最大可用内存、且大于最大可用内存的第一预设比例。若该第一总占用内存满足第一预设条件，则第一节点减少作业控制组包括的各作业的总占用内存，比如可通过挂起或终止作业的方式减少作业控制组包括的各作业的总占用内存，又比如，通过将部分内存数据迁移至swap分区的方式减少作业控制组包括的各作业的总占用内存。

本实施例中，第一节点上未处理完毕的各作业均位于同一个作业控制组中，使得第一节点可以实时的获取第一节点上未处理完毕的各作业的总占用内存，且在总占用内存大于最大可用内存，或者，小于或等于最大可用内存、且大于最大可用内存的第一预设比例时，才减少作业控制组包括的各作业的总占用内存，在避免OOM的同时，还可以充分利用第一节点的系统内存。

下面采用具体的实施例对图5所示的实施例进行详细说明。

图6为本申请实施例提供的内存控制方法的流程图二，本实施例适用于第一预设条件包括小于或等于最大可用内存、且大于最大可用内存的第一预设比例的场景。参见图6，本实施例的方法与图5所示的方法不同之处在于：在本实施例中，图5所示的步骤S502“第一节点减少作业控制组包括的各作业的总占用内存”的具体实现为本实施例中步骤S603，以及本实施例的方法在步骤S603之前还包括步骤S601和步骤S602：

步骤S601、第一节点确定第一总占用内存小于或等于最大使用内存。

步骤S602、第一节点根据第一总占用内存和最大使用内存确定第一内存信息，第一内存信息指示第一总占用内存大于最大可用内存的第一预设比例。

在一种方案中，第一节点根据第一总占用内存和最大使用内存，确定第一内存信息，包括如下的a1～a2：

a1、第一节点根据第一总占用内存和最大使用内存，确定第一剩余总可用内存比例。

其中，第一节点可先获取最大使用内存与第一总占用内存的第一差值，确定第一差值和最大使用内存的比值为第一剩余总可用内存比例。或者，第一节点还可以先获取已用内存比例，确定100％与已用内存比例的差值为第一剩余总可用内存比例。

a2、第一节点确定第一剩余总可用内存比例小于第二预设比例。

此时，第一内存信息包括第一剩余总可用内存比例小于第二预设比例。因为第一剩余总可用内存比例与已用内存比例的和为100％，第二预设比例和第一预设比例的和为100％，因此，若第一剩余总可用内存比例小于第二预设比例，则已用内存比例大于第一预设比例，结合前述对已用内存比例的说明，在第一内存信息包括第一剩余总可用内存比例小于第二预设比例时，第一内存信息可指示第一总占用内存大于最大可用内存的第一预设比例。

其中，第二预设比例为第一节点的剩余总内存比例的最小阈值。第二预设比例可以是第一节点从配置文件中读取的。相应地，目标节点还接收第二预设比例配置指令，该配置指令用于生成配置文件。可以理解的是，配置文件中可包括第一预设比例、第二预设比例中的一项。

在另一种方案中，第一节点根据第一总占用内存和最大使用内存，确定第一内存信息，包括如下的b1～b2：

b1、第一节点根据第一总占用内存和最大使用内存，确定已用总内存比例。

其中，第一节点确定第一总占用内存小于或等于最大使用内存之后，确定已用总内存比例。已用总内存比例为第一总占用内存与最大可用内存的比值。

b2、第一节点确定已用总内存比例大于第一预设比例。

此时，第一内存信息包括：已用总内存比例大于第一预设比例，由于已用总内存比例为第一总占用内存与最大可用内存的比值，因此，第一内存信息可指示第一总占用内存大于最大可用内存的第一预设比例。

其中，第一预设比例为第一节点的已用总内存比例的最大阈值。第一预设比例可以是第一节点从配置文件中读取的。相应地，目标节点还接收第一预设比例配置指令，该配置指令用于生成配置文件。

b1～b2所示的方案中的第一内存信息包括：已用总内存比例大于第一预设比例，由于已用总内存比例可直接根据第一总占用内存和最大使用内存确定，无需获取第一总占用内存和最大使用内存的差值、以及根据该差值与最大使用内存的比值确定剩余总可用内存比例，因此b1～b2所示的方案相对于a1～a2所示的方案而言，获取第一内存信息的效率较高。

步骤S603、第一节点采用第一处理方式处理作业控制组中的第一作业对应的进程，第一处理方式为挂起或终止。

也就是说，本实施例中在第一总占用内存满足小于或等于最大可用内存、且大于最大可用内存的第一预设比例时，第一节点挂起或终止作业控制组中的第一作业。第一作业的数量可以是一个或多个。

在第一种可选的方式中，第一作业可以是满足如下条件的作业：第一作业的第一实际使用内存大于第一作业的第一最大可用内存、且第一作业的内存超出比例最高。其中，第一作业的内存超出比例为第二差值与第一最大使用内存的比值，第二差值为第一实际使用内存与第一最大可用内存的差值。第一作业的第一最大可用内存(job-level limit)可以是第二节点向本实施例中的第一节点分配第一作业时，发送至第一节点的。

该第一种可选的方式可以有针对性的挂起或终止内存超出比例最高的作业，保证第一节点上的其它作业的正常执行。

可选的，在第一节点采用第一处理方式处理作业控制组中的第一作业对应的进程之前，还包括：第一节点读取配置文件中的处理方式指示信息，该处理方式指示信息指示第一处理方式。该可选的方式，可以使得第一节点确定第一作业的处理方式，以实现对第一作业的正确处理，方便了第一节点对作业的管理。

也就是说，配置文件中包括：至少一个作业的处理方式指示信息，该至少一个作业用于减少作业控制组的总占用内存时。

可选的，第一处理方式为挂起，即第一节点挂起第一作业对应的进程，那么在第一节点采用第一处理方式处理作业控制组中的第一作业对应的进程之后，还可包括：第一节点获取作业控制组包括的各作业的第三总占用内存，在第三总占用内存小于最大可用内存的第三预设比例时，第一节点唤醒第一作业对应的进程，第三预设比例小于或等于第一预设比例。

在第三预设比例和第一预设比例不同时，第三预设比例可以是第一节点从配置文件中读取的。相应地，目标节点还接收用户输入的第三预设比例配置指令，该配置指令用于生成配置文件。

也就是说，在第一节点将第一作业对应的进程挂起之后，若监控到第三总占用内存小于最大可用内存的第三预设比例，则可以唤醒第一作业对应的进程，以使得第一作业继续被执行，增加了第一节点的可靠性。

可选的，在本实施例中，在步骤S501之前，还包括步骤S500、第一节点获取作业控制组包括的各作业的第二总占用内存，若第二总占用内存大于最大可用内存，则第一节点将作业控制组对应的部分内存数据迁移至第一节点的swap分区，以使作业控制组包括的各作业的总占用内存为第一总占用内存，第一总占用内存小于或等于最大可用内存。其中，第一节点可调用控制组系统监控进程，来获取作业控制组包括的各作业的第二总占用内存。此时，在第一节点为分布式计算系统中的计算节点，第二节点为管理节点时，该实施例对应的原理示意图可如图7所示，该实施例对应的过程示意图可如图8所示。

参见图8，第一节点启动后，创建作业控制组。第一节点每接收到一个作业，先将该作业加入到作业队列中，然后启动作业后将该作业对应的进程加入到作业控制组中。第一节点调用控制组系统监控进程，来获取作业控制组包括的各作业的总占用内存，若该总占用内存大于最大可用内存，则第一节点将作业控制组对应的部分内存数据迁移至swap分区。之后，第一节点继续调用控制组系统监控进程，来获取作业控制组包括的各作业的总占用内存，若此时作业控制组包括的各作业的总占用内存小于或等于最大可用内存，则第一节点获取第一内存信息，若第一内存信息指示该总占用内存大于最大可用内存的第一预设比例，则第一节点挂起内存使用超出比例最高的作业1，以减少作业控制组包括的各作业的总占用内存。

本实施例中，在控制组中的各作业的总占用内存小于或等于最大可用内存、且大于最大可用内存的第一预设比例时，挂起或终止第一作业，可以降低控制组中的各作业的总内存大于最大可用内存的几率，进而降低OOM发生的概率。

此外，在若控制组中的各作业的总占用内存大于最大可用内存，则将作业控制组对应的部分内存数据迁移至第一节点的swap分区的场景下，本实施例中的在控制组中的各作业的总占用内存小于或等于最大可用内存、且大于最大可用内存的第一预设比例时，便挂起或终止第一作业，可以降低控制组中的各作业的总内存大于最大可用内存的几率，也就是可以降低将作业控制组对应的部分内存数据迁移至第一节点的swap分区的概率，进而降低了作业由于内存数据被迁移至swap分区造成的作业执行时间变长的概率。

图9为本申请实施例提供的内存控制方法的流程图三，本实施例适用于第一预设条件包括大于最大可用内存的场景。参见图9，本实施例与图5所示的实施例的不同之处在于：在本实施例中，图5所示的实施例中的步骤S502“第一节点减少作业控制组包括的各作业的总占用内存”的具体实现为本实施例中步骤S902，以及本实施例的方法在步骤S902之前还包括步骤S901：

步骤S901、第一节点确定该第一总占用内存大于最大可用内存。

步骤S902、第一节点采用第一处理方式处理作业控制组中的第一作业对应的进程，第一处理方式为挂起或终止。

本实施例中的第一处理方式、第一作业参照上一实施例中的说明，此处不再赘述。

可选的，若第一处理方式为挂起，那么在第一节点采用第一处理方式处理作业控制组中的第一作业对应的进程之后，还可包括：第一节点获取作业控制组包括的各作业的第三总占用内存，在第三总占用内存小于最大可用内存的第四预设比例或者小于最大可用内存，第一节点唤醒第一作业对应的进程。其中，第四预设比例可以与第三预设比例相同，与可以不相同。可选的，第四预设比例可为70％～90％中的任意一个比例。

本实施例中在控制组中的各作业的总占用内存大于最大可用内存时，第一节点挂起或终止第一作业，可以降低OOM发生的概率以及充分使用第一节点的系统内存。

图10为本申请实施例提供的内存控制方法的流程图四。本实施例适用于第一预设条件包括大于最大可用内存的场景。参见图10，本实施例与图5所示的实施例的不同之处在于：在本实施例中，图5所示的实施例中的步骤S502“第一节点减少作业控制组包括的各作业的总占用内存”的具体实现为本实施例中步骤S1002，以及本实施例的方法在步骤S1002之前还包括步骤S1001：

步骤S1001、第一节点确定该第一总占用内存大于最大可用内存。

步骤S1002、第一节点将作业控制组对应的至少部分内存数据迁移至第一节点的swap分区，以使作业控制组包括的各作业的总占用内存小于或等于最大可用内存。

本实施例中在该第一总占用内存大于最大可用内存时，将作业控制组对应的至少部分内存数据迁移至第一节点的swap分区，以使作业控制组包括的各作业的总占用内存小于或等于最大可用内存即可。也就是说，在该第一总占用内存小于或等于最大可用内存时，第一节点不执行任何操作。

本实施例中在控制组中的各作业的总占用内存大于最大可用内存时，第一节点将作业控制组对应的至少部分内存数据迁移至第一节点的swap分区，无需挂起或终止第一节点上的部分作业，在降低OOM发生的概率以及充分使用第一节点的系统内存的基础上，还可使得第一节点上的各作业正常运行。

针对上述实施例中在控制组中的各作业的总占用内存大于最大可用内存时，第一节点将作业控制组对应的至少部分内存数据迁移至第一节点的swap分区的场景，为了防止swap分区的存储空间被过度使用(overuse)，本实施例在图上述实施例的基础上做了进一步的改进，图11为本申请实施例提供的内存控制方法的流程图五，参见图11，本实施例的方法包括：

步骤S1101、第一节点确定swap分区被作业控制组所占用的第一占用存储空间。

步骤S1102、若第一占用存储空间大于swap分区的最大可用存储空间，则第一节点采用第一处理方式处理作业控制组中的第二作业对应的进程，以使swap分区被作业控制组所占用存储空间小于或等于该最大可用存储空间，第一处理方式为挂起或终止。

可选的，第二作业为占用的swap分区的存储空间最多的作业。

可选的，第二作业为作业控制组中占用swap分区的存储空间的作业中的任意一个作业。

其中，第一节点获取最大可用存储空间的方法可如下：第一节点获取最大使用内存与swap分区的最大可用存储空间的第一比值，根据第一比值和最大使用内存，确定swap分区的最大可用存储空间。比如，最大使用内存为90G，最大使用内存与swap分区的最大可用存储空间的第一比值为1:2，则swap分区的最大可用存储空间为180G。

其中，该最大使用内存与swap分区的最大可用存储空间的第一比值可以存储在配置文件中，第一节点从配置文件中读取该第一比值。相应地，目标节点还接收用户输入的该第一比值的配置指令，该配置指令用于生成配置文件。本实施例中的目标节点的含义和上述实施例中的目标节点的含义相同，此处不再赘述。

可选的，若第一处理方式为挂起，则在第一节点采用第一处理方式处理作业控制组中的第二作业对应的进程之后，还包括如下的c1～c3：

c1、第一节点确定swap分区被作业控制组所占用的第二占用存储空间。

c2、第一节点确定第二占用存储空间小于或等于swap分区的最大占用存储空间。

c3、第一节点根据第二占用存储空间和swap分区的最大占用存储空间，确定第一存储空间信息，第一存储空间信息指示第二占用存储空间小于或等于swap分区的最大可用存储空间的第五预设比例。

可选的，第五预设比例可为60％～80％中的任意一个数值。

在一种方案中，第一节点根据第二占用存储空间和swap分区的最大占用存储空间，确定第一存储空间信息，包括如下的c31～c32：

c31、第一节点根据第二占用存储空间和swap分区的最大占用存储空间，确定已用总存储空间比例。

其中，已用总存储空间比例为第二占用存储空间与swap分区的最大占用存储空间的比值。

c32、第一节点确定已用总存储空间比例小于或等于第五预设比例。

此时，第一存储空间信息包括已用总存储空间比例小于或等于预设比例，由于已用总存储空间比例为第二占用存储空间与swap分区的最大占用存储空间的比值，因此，第一存储空间信息可指示第二占用存储空间小于或等于swap分区的最大可用存储空间的第五预设比例。

其中，第五预设比例为作业控制组的已用总存储空间比例的最大阈值。第五预设比例可以是第一节点从配置文件中读取的。相应地，目标节点还接收用户输入的第五预设比例配置指令，该配置指令用于生成配置文件。

在又一种方案中，第一节点根据第二占用存储空间和swap分区的最大占用存储空间，确定第一存储空间信息，包括如下的c33～c34：

c33、第一节点根据第二占用存储空间和swap分区的最大占用存储空间，确定剩余总可用存储空间比例。

其中，第一节点可先获取swap分区的最大占用存储空间与第二占用存储空间的第三差值，确定第三差值和swap分区的最大占用存储空间的比值为剩余总可用存储空间比例。或者，第一节点还可以先获取已用总存储空间比例，确定100％与已用总存储空间比例的差值为剩余总可用存储空间比例。

c34、第一节点确定剩余总可用存储空间比例大于或等于第六预设比例。

此时，第一存储空间信息为剩余总可用存储空间比例大于或等于第六预设比例的信息。因为剩余总可用存储空间比例与已用总存储空间比例的和为100％，第五预设比例和第六预设比例的和为100％，因此，若剩余总可用存储空间比例小于或等于第六预设比例，则已用总存储空间比例大于第五预设比例，结合前述对已用总存储空间比例的说明，在第一内存信息包括剩余总可用存储空间比例小于或等于第六预设比例时，第一存储空间信息可指示第二占用存储空间小于或等于swap分区的最大可用存储空间的第五预设比例。

其中，第六预设比例为作业控制组的剩余总存储空间比例的最小阈值。第六预设比例可以是第一节点从配置文件中读取的。相应地，目标节点还接收用户输入的第六预设比例配置指令，该配置指令用于生成配置文件。可以理解的是，配置文件中可包括第五预设比例、第六预设比例中的一项。

c4、第一节点唤醒第二作业对应的进程。

本实施例的方法可以防止swap分区的存储空间被过度被使用。

以上对本申请涉及的方法进行了说明，下面对本申请涉及的装置进行说明。

图12为本申请实施例提供的内存控制装置的示意性框图，参见图11，本实施例的装置包括：获取模块1201和处理模块1202。

获取模块1201，用于获取作业控制组包括的各作业的第一总占用内存所述作业控制组包括所述第一节点上未处理完毕的各作业。

处理模块1202，用于在所述第一总占用内存满足第一预设条件时，减少所述作业控制组包括的各作业的总占用内存，所述第一预设条件包括大于最大可用内存，或者，所述第一预设条件包括小于或等于所述最大可用内存、且大于所述最大可用内存的第一预设比例。

可选的，所述获取模块1201具体用于：调用控制组系统监控进程，获取作业控制组包括的各作业的第一总占用内存。

可选的，所述作业控制组的数量为一个，所述第一节点获取到的各作业被所述第一节点添加至所述作业控制组中。

可选的，所述处理模块1202具体用于：采用第一处理方式处理所述作业控制组中的第一作业对应的进程，所述第一处理方式为挂起或终止。

可选的，在所述处理模块1202采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述处理模块1202还用于：

确定所述第一总占用内存小于或等于所述最大使用内存；

根据所述第一总占用内存和所述最大使用内存，确定第一内存信息，所述第一内存信息指示所述第一总占用内存大于所述最大可用内存的第一预设比例。

可选的，所述第一内存信息包括：已用总内存比例大于所述第一预设比例；所述已用总内存比例为所述第一总占用内存与所述最大可用内存的比值。

可选的，所述处理模块1202还用于：读取配置文件中的所述第一预设比例。

可选的，所述第一内存信息包括：第一剩余总可用内存比例小于第二预设比例，所述第一预设比例和所述第二预设比例的和为100％；所述第一剩余总可用内存比例为第一差值与所述最大可用内存的比值，所述第一差值为所述最大可用内存与所述第一总占用内存的差值。

可选的，所述处理模块1202还用于：读取配置文件中的所述第二预设比例。

可选的，在所述获取模块1201在获取作业控制组包括的各作业的第一总占用内存之前：所述获取模块1201还用于：获取作业控制组包括的各作业的第二总占用内存；若所述第二总占用内存大于所述最大可用内存，则所述处理模块1202还用于：将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存为所述第一总占用内存。

可选的，所述第一作业的第一实际使用内存大于所述第一作业的第一最大可用内存且所述第一作业的内存超出比例最高；所述第一作业的内存超出比例为第二差值与所述第一最大使用内存的比值，所述第二差值为所述第一实际使用内存与所述第一最大可用内存的差值。

可选的，所述第一处理方式为挂起，在处理模块1202采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后：所述获取模块1201还用于：获取作业控制组包括的各作业的第三总占用内存；所述处理模块1202还用于：确定所述第三总占用内存小于所述最大可用内存的第三预设比例，所述第三预设比例小于或等于所述第一预设比例；以及唤醒所述第一作业对应的进程。

可选的，在所述处理模块1202采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述处理模块1202还用于：读取配置文件中的处理方式指示信息，所述处理方式指示信息指示所述第一处理方式。

可选的，所述处理模块1202具体用于：将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存。

可选的，在所述处理模块1202将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区之后，所述处理模块1202还用于：若所述swap分区被所述作业控制组所占用的第一占用存储空间满足大于所述swap分区的最大可用存储空间，采用第一处理方式处理所述作业控制组中的第二作业对应的进程，以使所述swap分区被所述作业控制组所占用存储空间小于或等于所述最大可用存储空间，第一处理方式为挂起或终止。

可选的，所述第二作业为所述作业控制组中占用所述swap分区的作业中的任意一个作业；或者，所述第二作业为所述作业控制组中占用的所述swap分区的存储空间最多的作业。

可选的，所述处理模块1202还用于：读取配置文件中的最大使用内存与所述swap分区的最大可用存储空间的第一比值；根据所述第一比值和所述最大使用内存，确定所述swap分区的最大可用存储空间。

可选的，所述处理模块1202还用于：读取配置文件中的最大可用内存比例；根据所述最大使用内存比例和所述第一节点的总内存，确定所述最大使用内存。

本实施例的装置可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本申请实施例提供的内存控制系统的示意性框图。参见图13，本实施例中的系统包括至少一个第一节点1301和第二节点1302；

所述第二节点1302，用于向所述第一节点1301发送作业信息；

所述第一节点1301，用于基于所述作业信息得到作业，以及将所述作业添加至作业控制组，所述作业控制组包括所述第一节点1301上未处理完毕的各作业；

所述第一节点1301，还用于获取作业控制组包括的各作业的第一总占用内存，所述作业控制组包括所述第一节点1301上未处理完毕的各作业；

在所述第一总占用内存满足第一预设条件时，减少所述作业控制组包括的各作业的总占用内存，所述第一预设条件包括大于最大可用内存，或者，所述第一预设条件包括小于或等于所述最大可用内存、且大于所述最大可用内存的第一预设比例。

可选的，所述第一节点1301具体用于：调用控制组系统监控进程，获取作业控制组包括的各作业的第一总占用内存。

可选的，所述作业控制组的数量为一个，所述第一节点1301获取到的各作业被所述第一节点1301添加至所述作业控制组中。

可选的，所述第一节点1301具体用于：采用第一处理方式处理所述作业控制组中的第一作业对应的进程，所述第一处理方式为挂起或终止。

可选的，在所述第一节点1301采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述第一节点1301还用于：

确定所述第一总占用内存小于或等于所述最大使用内存；

可选的，所述第一节点1301还用于：读取配置文件中的所述第一预设比例。

可选的，所述第一节点1301还用于：读取配置文件中的所述第二预设比例。

可选的，在所述第一节点1301获取作业控制组包括的各作业的第一总占用内存之前，所述第一节点1301还用于：

获取作业控制组包括的各作业的第二总占用内存；

若所述第二总占用内存大于所述最大可用内存，则所述将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存为所述第一总占用内存。

可选的，所述第一作业的第一实际使用内存大于所述第一作业的第一最大可用内存且所述第一作业的内存超出比例最高；

所述第一作业的内存超出比例为第二差值与所述第一最大使用内存的比值，所述第二差值为所述第一实际使用内存与所述第一最大可用内存的差值。

可选的，所述第一处理方式为挂起，在所述第一节点1301采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后，所述第一节点1301还用于：

获取作业控制组包括的各作业的第三总占用内存；

确定所述第三总占用内存小于所述最大可用内存的第三预设比例，所述第三预设比例小于或等于所述第一预设比例；

唤醒所述第一作业对应的进程。

读取配置文件中的处理方式指示信息，所述处理方式指示信息指示所述第一处理方式。

可选的，所述第一节点1301具体用于：将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存。

可选的，所述第一节点1301还用于：

读取配置文件中的最大可用内存比例；

根据所述最大使用内存比例和所述第一节点1301的总内存，确定所述最大使用内存。

可选的，所述第一节点1301为分布式计算系统中的计算节点或云服务器，所述第二节点1302为所述分布式计算系统中的管理节点；所述作业信息包括所述作业。

可选的，所述第二节点1302为终端设备，所述第一节点1301为应用服务器；所述作业信息包括用户请求，所述作业用于执行所述用户请求。

本实施例的系统可以用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述任一方法实施例所述的方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品被计算机执行时实现上述任一方法实施例所述的方法。

本申请实施例还提供了一种芯片，包括处理器、存储器和通信接口，所述处理器、存储器与所述通信接口连接，其特征在于，所述处理器用于读取并执行所述存储器中存储的计算机程序，以执行上述任一方法实施例所述的方法。

本申请实施例中描述的处理器和收发器可以用各种IC工艺技术来制造，例如互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor，NMOS)、P型金属氧化物半导体(positive channel metal oxide semiconductor,PMOS)、双极结型晶体管(Bipolar Junction Transistor，BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。

应理解，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在上述实施例使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

应理解，说明书通篇中提到的“实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各个实施例未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，在本申请中，“当…时”、“若”以及“如果”均指在某种客观情况下第一节点会做出相应的处理，并非是限定时间，且也不要求第一节点实现时一定要有判断的动作，也不意味着存在其它限定。

本申请中对于使用单数表示的元素旨在用于表示“一个或多个”，而并非表示“一个且仅一个”，除非有特别说明。本申请中，在没有特别说明的情况下，“至少一个”旨在用于表示“一个或者多个”，“多个”旨在用于表示“两个或两个以上”。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A可以是单数或者复数，B可以是单数或者复数。

字符“/”一般表示前后关联对象是一种“或”的关系。

本文中术语“……中的至少一个”或“……中的至少一种”，表示所列出的各项的全部或任意组合，例如，“A、B和C中的至少一种”，可以表示：单独存在A，单独存在B，单独存在C，同时存在A和B，同时存在B和C，同时存在A、B和C这六种情况，其中A可以是单数或者复数，B可以是单数或者复数，C可以是单数或者复数。

应理解，在本申请各实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

Claims

一种内存控制方法，其特征在于，应用于第一节点，所述方法包括：

获取作业控制组包括的各作业的第一总占用内存，所述作业控制组包括所述第一节点上未处理完毕的各作业；

在所述第一总占用内存满足第一预设条件时，减少所述作业控制组包括的各作业的总占用内存，所述第一预设条件包括大于最大可用内存，或者，所述第一预设条件包括小于或等于所述最大可用内存、且大于所述最大可用内存的第一预设比例。
根据权利要求1所述的方法，其特征在于，所述获取作业控制组包括的各作业的第一总占用内存，包括：

调用控制组系统监控进程，获取作业控制组包括的各作业的第一总占用内存。
根据权利要求1或2所述的方法，其特征在于，所述作业控制组的数量为一个，所述第一节点获取到的各作业被所述第一节点添加至所述作业控制组中。
根据权利要求1～3任一项所述的方法，其特征在于，所述减少所述作业控制组包括的各作业的总占用内存，包括：

采用第一处理方式处理所述作业控制组中的第一作业对应的进程，所述第一处理方式为挂起或终止。
根据权利要求4所述的方法，其特征在于，在所述采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，还包括：

确定所述第一总占用内存小于或等于所述最大使用内存；

根据所述第一总占用内存和所述最大使用内存，确定第一内存信息，所述第一内存信息指示所述第一总占用内存大于所述最大可用内存的第一预设比例。
根据权利要求5所述的方法，其特征在于，所述第一内存信息包括：已用总内存比例大于所述第一预设比例；

所述已用总内存比例为所述第一总占用内存与所述最大可用内存的比值。
根据权利要求6所述的方法，其特征在于，还包括：

读取配置文件中的所述第一预设比例。
根据权利要求5所述的方法，其特征在于，所述第一内存信息包括：第一剩余总可用内存比例小于第二预设比例，所述第一预设比例和所述第二预设比例的和为100％；

所述第一剩余总可用内存比例为第一差值与所述最大可用内存的比值，所述第一差值为所述最大可用内存与所述第一总占用内存的差值。
根据权利要求8所述的方法，其特征在于，还包括：

读取配置文件中的所述第二预设比例。
根据权利要求5～9任一项所述的方法，其特征在于，在所述获取作业控制组包括的各作业的第一总占用内存之前，还包括：

获取作业控制组包括的各作业的第二总占用内存；

若所述第二总占用内存大于所述最大可用内存，则所述将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存为所述第一总占用内存。
根据权利要求4～10任一项所述的方法，其特征在于，所述第一作业的第一实际使用内存大于所述第一作业的第一最大可用内存且所述第一作业的内存超出比例最高；

所述第一作业的内存超出比例为第二差值与所述第一最大使用内存的比值，所述第二差值为所述第一实际使用内存与所述第一最大可用内存的差值。
根据权利要求5～11任一项所述的方法，其特征在于，所述第一处理方式为挂起，在所述采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后，还包括：

获取作业控制组包括的各作业的第三总占用内存；

确定所述第三总占用内存小于所述最大可用内存的第三预设比例，所述第三预设比例小于或等于所述第一预设比例；

唤醒所述第一作业对应的进程。
根据权利要求4～12任一项所述的方法，其特征在于，在采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，还包括：

读取配置文件中的处理方式指示信息，所述处理方式指示信息指示所述第一处理方式。
根据权利要求1～3任一项所述的方法，其特征在于，所述减少所述作业控制组包括的各作业的总占用内存，包括：

将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存。
根据权利要求1～14任一项所述的方法，其特征在于，还包括：

读取配置文件中的最大可用内存比例；

根据所述最大使用内存比例和所述第一节点的总内存，确定所述最大使用内存。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～15中任一项所述的方法。
一种内存控制系统，其特征在于，包括第二节点和至少一个第一节点；

所述第二节点，用于向所述第一节点发送作业信息；

所述第一节点，用于基于所述作业信息得到作业，以及将所述作业添加至作业控制组，所述作业控制组包括所述第一节点上未处理完毕的各作业；

所述第一节点，还用于获取作业控制组包括的各作业的第一总占用内存，所述作业控制组包括所述第一节点上未处理完毕的各作业；

在所述第一总占用内存满足第一预设条件时，减少所述作业控制组包括的各作业的总占用内存，所述第一预设条件包括大于最大可用内存，或者，所述第一预设条件包括小于或等于所述最大可用内存、且大于所述最大可用内存的第一预设比例。
根据权利要求17所述的系统，其特征在于，所述第一节点具体用于：

调用控制组系统监控进程，获取作业控制组包括的各作业的第一总占用内存。
根据权利要求17或18所述的系统，其特征在于，所述作业控制组的数量为一个，所述第一节点获取到的各作业被所述第一节点添加至所述作业控制组中。
根据权利要求17～19任一项所述的系统，其特征在于，所述第一节点具体用于：

采用第一处理方式处理所述作业控制组中的第一作业对应的进程，所述第一处理方式为挂起或终止。
根据权利要求20所述的系统，其特征在于，在所述第一节点采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述第一节点还用于：

确定所述第一总占用内存小于或等于所述最大使用内存；

根据所述第一总占用内存和所述最大使用内存，确定第一内存信息，所述第一内存信息指示所述第一总占用内存大于所述最大可用内存的第一预设比例。
根据权利要求21所述的系统，其特征在于，所述第一内存信息包括：已用总内存比例大于所述第一预设比例；

所述已用总内存比例为所述第一总占用内存与所述最大可用内存的比值。
根据权利要求22所述的系统，其特征在于，所述第一节点还用于：

读取配置文件中的所述第一预设比例。
根据权利要求21所述的系统，其特征在于，所述第一内存信息包括：第一剩余总可用内存比例小于第二预设比例，所述第一预设比例和所述第二预设比例的和为100％；

所述第一剩余总可用内存比例为第一差值与所述最大可用内存的比值，所述第一差值为所述最大可用内存与所述第一总占用内存的差值。
根据权利要求24所述的系统，其特征在于，所述第一节点还用于：

读取配置文件中的所述第二预设比例。
根据权利要求21～25任一项所述的系统，其特征在于，在所述第一节点获取作业控制组包括的各作业的第一总占用内存之前，所述第一节点还用于：

获取作业控制组包括的各作业的第二总占用内存；

若所述第二总占用内存大于所述最大可用内存，则所述将所述作业控制组包括的各作业所对应的部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存为所述第一总占用内存。
根据权利要求20～26任一项所述的系统，其特征在于，所述第一作业的第一实际使用内存大于所述第一作业的第一最大可用内存且所述第一作业的内存超出比例最高；

所述第一作业的内存超出比例为第二差值与所述第一最大使用内存的比值，所述第二差值为所述第一实际使用内存与所述第一最大可用内存的差值。
根据权利要求21～27任一项所述的系统，其特征在于，所述第一处理方式为挂起，在所述第一节点采用第一处理方式处理所述作业控制组中的第一作业对应的进程之后，所述第一节点还用于：

获取作业控制组包括的各作业的第三总占用内存；

确定所述第三总占用内存小于所述最大可用内存的第三预设比例，所述第三预设比例小于或等于所述第一预设比例；

唤醒所述第一作业对应的进程。
根据权利要求20～28任一项所述的系统，其特征在于，在所述第一节点采用第一处理方式处理所述作业控制组中的第一作业对应的进程之前，所述第一节点还用于：

读取配置文件中的处理方式指示信息，所述处理方式指示信息指示所述第一处理方式。
根据权利要求17～19任一项所述的系统，其特征在于，所述第一节点具体用于：

将所述作业控制组包括的至少一个作业所对应的至少部分内存数据迁移至swap分区，以使作业控制组包括的各作业的总占用内存小于或等于所述最大可用内存。
根据权利要求17～30任一项所述的系统，其特征在于，所述第一节点还用于：

读取配置文件中的最大可用内存比例；

根据所述最大使用内存比例和所述第一节点的总内存，确定所述最大使用内存。
根据权利要求17～31任一项所述的系统，其特征在于，所述第一节点为分布式计算系统中的计算节点或云服务器，所述第二节点为所述分布式计算系统中的管理节点；

所述作业信息包括所述作业。
根据权利要求17～31任一项所述的系统，其特征在于，所述第二节点为终端设备，所述第一节点为应用服务器；

所述作业信息包括用户请求，所述作业用于执行所述用户请求。
一种存储介质，其特征在于，所述存储介质包括计算机程序，所述计算机程序用于实现如权利要求1～15任一项所述的方法。
一种芯片，包括处理器、存储器和通信接口，所述处理器、存储器与所述通信接口连接，其特征在于，所述处理器用于读取并执行所述存储器中存储的计算机程序，以执行前述权利要求1～15任一项所述的方法。