WO2023051228A1

WO2023051228A1 - 样例数据的处理方法、装置、设备和存储介质

Info

Publication number: WO2023051228A1
Application number: PCT/CN2022/118411
Authority: WO
Inventors: 徐之浩; 车漾; 张凯; 顾荣
Original assignee: 阿里巴巴（中国）有限公司; 阿里云计算有限公司
Priority date: 2021-09-28
Filing date: 2022-09-13
Publication date: 2023-04-06
Also published as: CN113988306A

Abstract

一种样例数据的处理方法、装置、设备和存储介质，包括：获取训练任务以及训练任务对应的元信息序列，元信息序列包括若干元信息，元信息用于索引到对应的样例数据（101）；遍历元信息序列，确定出预设数量的目标元信息（102）；预存目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行训练任务（103）；当前一次预存的目标样例数据被使用完时，返回执行遍历元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐前一次预存的目标样例数据（104）。应用该方法，按照元信息序列先预将要被执行训练任务时使用的样例数据，驱逐已经被使用的样例数据，只要预存少量的样例数据就能满足执行训练任务的需要，以节约缓存系统的资源使用。

Description

样例数据的处理方法、装置、设备和存储介质

本申请要求2021年09月28日递交的申请号为202111144871.7、发明名称为“样例数据的处理方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种样例数据的处理方法和装置、一种电子设备和一种存储介质。

背景技术

近年来，随着异构计算设备自身的研究发展，越来越多拥有更强计算能力的异构计算设备出现，进一步地加速了机器学习训练过程。然而数据处理能力的加快对程序的数据访问速度提出了更高的要求，而云上所采用的计算和存储分离的架构进一步地限制了数据访问速度，数据访问速度因此逐渐成为机器学习训练程序的主要性能瓶颈。

为了解决上述问题，目前普遍采用计算侧分布式缓存的方案实现数据访问的加速：通过将存储系统中的数据在计算环境中缓存，计算环境中运行的机器学习训练作业能够以更低延迟和更高的带宽获取到所需的数据。由于机器学习往往进行多轮训练，数据缓存能够在多轮之间被复用，提升机器学习训练过程的效率。

然而，随着所使用的数据集规模越来越大，缓存系统面临着更大的挑战：一方面，为了获得最大的数据访问加速，缓存系统需要缓存下整个数据集中的数据，这意味着缓存系统需要占用计算环境中的大量存储资源。另一方面，受缓存系统的驱逐策略影响，如果缓存系统无法完全缓存整个数据集中的数据，那么机器学习训练作业的数据访问的效率相比于完全缓存的情况下将会有显著的降低。

发明内容

本申请实施例提供了一种样例数据的处理方法，以解决缓存系统占用计算环境中的大量存储资源，以及在缓存系统无法完全缓存整个数据集中的数据时，机器学习训练作业的数据访问效率底的问题。

相应地，本申请实施例还提供了一种样例数据的处理装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种样例数据的处理方法，所述方法包括：

获取训练任务以及所述训练任务对应的元信息序列，所述元信息序列包括若干元信息，所述元信息用于索引到对应的样例数据；

遍历所述元信息序列，确定出预设数量的目标元信息；

预存所述目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行所述训练任务；

当所述前一次预存的目标样例数据被使用完时，返回执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐所述前一次预存的目标样例数据。

可选地，还包括：

获取机器学习作业，以及所述机器学习作业进行学习训练时需要使用到的样例数据集中样例数据对应的元信息；

采用所述样例数据集中样例数据对应的元信息随机生成元信息总序列；

将所述元信息总序列拆分成多个元信息序列，并基于所述多个元信息序列将所述机器学习作业拆分成多个训练任务；其中，多个训练任务并列执行。

可选地，还包括：

获取使用所述样例数据集的其他机器学习作业；

基于多个所述元信息序列将所述其他机器学习作业拆分成多个其他训练任务；其中，所述其他训练任务与对应同一个所述元信息序列的训练任务同步执行。

可选地，还包括：

确定使用所述前一次预存的目标样例数据执行所述训练任务所花费的时间；

确定历史中使用预存的目标样例数据，执行所述训练任务所花费的最短时间；

根据所述最短时间和异常值参数，计算得到异常时间；

当所述时间大于所述异常时间时，增加所述预设数量。

可选地，所述当所述时间大于所述异常时间时，增加所述预设数量，包括：

当所述时间大于所述异常时间时，检测上一次增加所述预设数量的系统时间至当前系统时间执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤的次数；

当所述次数大于预设次数时，增加所述预设数量。

可选地，应用于Kubernetes集群，所述Kubernetes集群部署有工作节点和分布式缓存系统，所述工作节点用于执行所述训练任务，所述分布式缓存系统用于预存目标样例数据。

本申请实施例还公开了一种样例数据的处理装置，所述装置包括：

序列获取模块，用于获取训练任务以及所述训练任务对应的元信息序列，所述元信息序列包括若干元信息，所述元信息用于索引到对应的样例数据；

序列遍历模块，用于遍历所述元信息序列，确定出预设数量的目标元信息；

任务执行模块，用于预存所述目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行所述训练任务；

数据驱逐模块，用于当所述前一次预存的目标样例数据被使用完时，返回执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐所述前一次预存的目标样例数据。

可选地，还包括：

作业获取模块，用于获取机器学习作业，以及所述机器学习作业进行学习训练时需要使用到的样例数据集中样例数据对应的元信息；

序列生成模块，用于采用所述样例数据集中样例数据对应的元信息随机生成元信息总序列；

作业拆分模块，用于将所述元信息总序列拆分成多个元信息序列，并基于所述多个元信息序列将所述机器学习作业拆分成多个训练任务；其中，多个训练任务并列执行。

可选地，还包括：

作业获取模块，还用于获取使用所述样例数据集的其他机器学习作业；

作业拆分模块，用于基于多个所述元信息序列将所述其他机器学习作业拆分成多个其他训练任务；其中，所述其他训练任务与对应同一个所述元信息序列的训练任务同步执行。

可选地，还包括：

时间确定模块，用于确定使用所述前一次预存的目标样例数据执行所述训练任务所花费的时间；

时间确定模块，还用于确定历史中使用预存的目标样例数据，执行所述训练任务所花费的最短时间；

时间计算模块，用于根据所述最短时间和异常值参数，计算得到异常时间；

数量增加模块，用于当所述时间大于所述异常时间时，增加所述预设数量。

可选地，所述数量增加模块，包括：

次数确定子模块，用于当所述时间大于所述异常时间时，检测上一次增加所述预设数量的系统时间至当前系统时间执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤的次数；

数量增加子模块，用于当所述次数大于预设次数时，增加所述预设数量。

可选地，所述Kubernetes集群部署有机器学习框架，所述机器学习框架的数据读取模块被Dataset Indexing Service组件替换，以通过所述Dataset Indexing Service组件维护所述训练任务对应的元信息序列。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的样例数据的处理方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的样例数据的处理方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，获取训练任务以及训练任务对应的元信息序列，元信息序列包括若干元信息，元信息用于索引到对应的样例数据；遍历元信息序列，确定出预设数量的目标元信息；预存目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行训练任务，当前一次预存的目标样例数据被使用完时，返回执行遍历元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐前一次预存的目标样例数据。应用本申请实施例，按照元信息序列中元信息的排序，先预将要被执行训练任务时使用的样例数据，驱逐已经被使用的样例数据，只要预存少量的样例数据就能满足执行训练任务需要，以节约缓存系统的资源使用。同时按照元信息序列先预将要被执行训练任务时使用的样例数据，避免了在执行训练任务时无法命中样例数据的情况发生，解决数据访问慢造成的性能瓶颈。另外，驱逐和预存的过程与执行训练任务同步进行，整个过程以流水线方式运行，缩短执行训练任务的时间。

此外，获取到训练任务所需要的样例数据对应的元信息后，采用该元信息随机生成元信息序列，元信息序列中元信息的随机排序，保证了在按照元信息序列执行训练任务的过程中样例数据的使用的随机性，以防止执行训练任务得到的学习模型过拟合。

附图说明

图1是本申请的一种样例数据的处理方法实施例的步骤流程图；

图2是本申请的另一种样例数据的处理方法实施例的步骤流程图；

图3是本申请的一种预存样例数据的数量的调整实施例的步骤流程图；

图4是本申请的一种机器学习编程框架修改实施例的示意图；

图5是本申请的一种Kubernetes集群实施例的框架示意图；

图6是本申请的一种样例数据处理实施例的框架示意图之一；

图7是本申请的一种样例数据处理实施例的框架示意图之二；

图8是本申请的一种样例数据的装置实施例的结构框图；

图9是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

过去几年得益于数据存储和数据收集技术的进步，像机器学习这样从数据中学习专家知识的方法成为了解决计算机认知问题的常用方法。其中，机器学习在各个领域均展现了很强的解决实际问题的能力。机器学习方法主要包含训练和推断两个过程。其中，机器学习训练过程需要从大规模的数据集中学习到数据与数据之间的正确相关性，获取“经验”，而机器学习推断过程根据“经验”对新出现的数据进行判断。

实际执行机器学习训练时往往使用异构计算设备如GPU以实现数据处理的并行加速。近年来，随着异构计算设备自身的研究发展，越来越多拥有更强计算能力的异构计算设备出现，进一步地加速了机器学习训练过程。数据处理能力的加快对程序的数据访问速度提出了更高的要求，而云上所采用的计算和存储分离的架构进一步地限制了数据访问速度，数据访问速度因此逐渐成为机器学习训练程序的主要性能瓶颈。而现有技术为解决上述问题，提出了以下方案：

利用目前业界流行的Alluxio和其他缓存技术，能够在计算侧实现分布式缓存，分布式缓存得以将各个节点的存储资源整合起来，提供一个更大的缓存池，缓存下机器学习训练所需的整个数据集。然而却需要占用大量存储资源。随着数据集规模越来越大，所需的存储资源也越来越多，尤其在多租户场景下，多个机器学习训练作业同时需要不同的多个数据集，这将使得分布式缓存系统面临更大的负担。

对机器学习编程框架如(PyTorch和Tensorflow)内部对数据访问过程进行优化。例如当数据访问瓶颈发生时，Data Echoing(数据回放)通过重放之前已经使用的数据来提升计算设备的资源利用率，然而这样的优化实质上修改了机器学习训练的语义，对机器学习方法的有效性可能造成潜在影响。

PyTorch和Tensorflow框架提供的数据预存能力同样有助于减轻数据访问瓶颈造成的性能影响，然而预存过程依赖于用户编写的机器学习训练程序。在程序运行前，用户无法提前预知是否会出现数据访问瓶颈，因此无法对框架提供的预存功能进行合理的配置。

为了解决上述问题，本申请的核心思想是在集群部署机器学习应用时，在应用容器的框架层通过注入的方式替换已有数据读取组件，通过统一的服务管理样例数据的预存和驱逐，在较低的数据空间前提下达到提升应用运行速度的目的。

1.引入Dataset Indexing Service组件，并且自动替换TensorFlow，PyTorch等机器学习框架的数据读取模块，控制机器学习训练作业的样例数据访问顺序。

2.Dataset Indexing Service组件根据不同应用数据访问顺序特性进行缓存系统中样例数据的预存和驱逐管理，高效利用缓存。

3.根据机器学习训练速度动态控制样例数据预存的行为，保障机器学习训练过程尽可能不受数据访问瓶颈影响。

本申请提供了一种样例数据的处理方法和装置，在下面的实施例中进行详细说明。首先，对本申请一个或多个实施例涉及的名词术语进行解释。

Kubernetes：是用于自动部署、扩展和管理容器化(containerized)应用程序的开源系统。

机器学习：本质上是利用数据解决计算机的认知问题。知识理解，信息加工甚至是预测。

远程存储系统：是指远离计算侧的用于存储训练样例数据集的云存储或者存储服务器。

分布式缓存：指在分布式环境或系统下，将远程储存的数据存储到离用户或应用近的机器，以减少远程数据传输的延迟，让用户和应用可以很快访问到想要的数据。

GPU：图形处理器，与CPU类似，只不过GPU是专为执行复杂的数学和几何计算而设计的，在人工智能应用非常广泛。

工作节点：具有如GPU或者用于进行学习训练的计算机节点。

元信息：也称为元数据，为描述数据的数据(data about data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。

参照图1，是本申请的一种样例数据的处理方法实施例的步骤流程图，包括如下步骤：

步骤101，获取训练任务以及所述训练任务对应的元信息序列，所述元信息序列包括若干元信息，所述元信息用于索引到对应的样例数据。

其中，方法应用于Kubernetes集群，Kubernetes集群部署有如TensorFlow，PyTorch等机器学习框架，引入Dataset Indexing Service组件，并且自动替换机器学习框架的数据读取模块，同时Kubernetes集群部署有工作节点和分布式缓存系统。

具体地，在获取训练任务以及训练任务对应的元信息序列，将训练任务调度到工作节点中，并通过Dataset Indexing Service组件维护训练任务对应的元信息序列。元信息序列为Dataset Indexing Service组件获取到训练任务所需要的样例数据对应的元信息后随机生成，元信息序列中元信息的随机排序，保证了在按照元信息序列执行训练任务的过程中样例数据使用(消费)的随机性，以防止执行训练任务得到的学习模型过拟合。

步骤102，遍历所述元信息序列，确定出预设数量的目标元信息。

具体地，当工作节点需要消费(使用)样例数据执行训练任务时时，工作节点会向Dataset Indexing Service组件请求样例数据，Dataset Indexing Service组件依序按遍历元信息序列，确定出预设数量的目标元信息，并返回至工作节点，例如预设数量为2，元信息序列为1、3、6、5、4、5，那么确定出预设数量的目标元信息为1、3。

步骤103，预存所述目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行所述训练任务。

其中，远程存储系统储存有元信息序列中元信息对应的样例数据。

具体地，开始从远程存储系统拉取目标元信息对应的目标样例数据，预存在分布式缓存系统中，同时使用前一次预存的目标样例数据执行训练任务，例如，元信息序列为1、3、6、5、4、5，分布式缓存系统中已经预存有1、3样例数据，因此，,在工作节点向Dataset Indexing Service组件请求样例数据，Dataset Indexing Service组件依序按遍历元信息序列，确定的目标元信息为6、5，那么分布式缓存系统开始预存6、5样例数据，同时工作节点从分布式缓存系统获取到1、3样例数据执行训练任务。

步骤104，当所述前一次预存的目标样例数据被使用完时，返回执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐所述前一次预存的目标样例数据。

具体地，在前一次预存的目标样例数据被使用(消费)完时，工作节点会再次向Dataset Indexing Service组件请求样例数据，Dataset Indexing Service组件依序再次遍历元信息序列，确定出新的预设数量目标元信息，需要说明的是，已经预存过的样例数据对应的元信息不会在被确定为目标元信息，例如预设数量为2，元信息序列为1、3、6、5、4、5，那么前一次确定出预设数量的目标元信息为1、3，再次遍历元信息序列，从元信息6开始遍历，确定出预设数量的目标元信息为6、5。同时驱逐分布缓存系统中前一次预存的目标样例数据。

本申请实施例中，获取训练任务以及训练任务对应的元信息序列，元信息序列包括若干元信息，元信息用于索引到对应的样例数据；遍历元信息序列，确定出预设数量的目标元信息；预存目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行训练任务，当前一次预存的目标样例数据被使用完时，返回执行遍历元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐前一次预存的目标样例数据。应用本申请实施例，按照元信息序列先预存执行训练任务将要被使用(消费)的样例数据，驱逐已经被使用的样例数据，只要预存少量的样例数据就能满足执行训练任务需要，不需要将执行训练任务所需要的样例数据全部进行预存，以节约缓存系统的资源使用。同时按照元信息序列，先预将要被执行训练任务时使用的样例数据，避免了在执行训练任务时无法命中样例数据的情况发生，解决数据访问慢造成的性能瓶颈。另外，驱逐和预存的过程与执行训练任务同步进行，整个过程以流水线方式运行，缩短执行训练任务的时间。

此外，元信息序列为Dataset Indexing Service组件获取到训练任务所需要的样例数据对应的元信息后随机生成，元信息序列中元信息的随机排序，保证了在按照元信息序列执行训练任务的过程中样例数据的使用(消费)的随机性，以防止执行训练任务得到的学习模型过拟合。

在上述实施例的基础上，提出了可选实施例，在此需要说明的是，为了使描述简要，在可选实施例中仅描述与上述实施例的不同之处。

在本申请一实施例中，参照图2，示出了本申请的另一种样例数据的处理方法实施例的步骤流程图，包括如下步骤：

步骤201，获取机器学习作业，以及所述机器学习作业进行学习训练时需要使用到的样例数据集中样例数据对应的元信息。

具体地，获取机器学习作业，以及机器学习作业进行学习训练时需要使用到的样例数据集中样例数据对应的元信息，其中，样例数据集中样例数据对应的元信息储存在分布式缓存系统中，通过Dataset Indexing Service组件从分布式缓存系统中获取样例数据对应的元信息。

步骤202，采用所述样例数据集中样例数据对应的元信息随机生成元信息总序列。

其中，基于对大规模数据集进行机器学习训练的程序的性能分析，可以发现机器学习训练随机的数据访问顺序是造成数据访问效率显著降低的根本原因。机器学习训练过程中的数据访问顺序是完全随机的，如果缓存系统无法缓存全部数据，缓存驱逐策略如LRU将会把时间上最近未被使用的数据驱逐，造成机器学习训练在接下来的数据访问中缓存不命中。

具体地，在Dataset Indexing Service组件从分布式缓存系统中获取样例数据对应的元信息后，采用该元信息随机生成元信息总序列，机器学习作业可以按照元信息总序列中元信息的排序访问(使用)样例数据，以进行学习训练。

本申请实施例中，提前将取样例数据对应的元信息随机生成元信息总序列，在机器学习作业进行学习训练时，可以按照元信息总序列中元信息的排序访问样例数据，保证了进行学习训练的过程中样例数据使用的随机性，以防止得到的学习模型过拟合。同时解决了学习训练在接下来的样例数据访问中缓存不命中的问题。

步骤203，将所述元信息总序列拆分成多个元信息序列，并基于所述多个元信息序列将所述机器学习作业拆分成多个训练任务；其中，多个训练任务并列执行。

具体地，通过Dataset Indexing Service组件将元信息总序列拆分成多个元信息序列，并基于多个元信息序列将机器学习作业拆分成多个训练任务，将多个训练任务分别调度到不同的工作节点并列执行。工作节点执行训练任务的步骤以在上文进行描述，此处不再重复描述。

本申请实施例中，基于多个元信息序列将机器学习作业拆分成多个训练任务，并将多个训练任务分别调度到不同的工作节点并列执行，可以缩短机器学习作业进行学习训练所花费的时间。

在本申请一实施例中，还包括：获取使用所述样例数据集的其他机器学习作业；基于多个所述元信息序列将所述其他机器学习作业拆分成多个其他训练任务；其中，所述其他训练任务与对应同一个所述元信息序列的训练任务同步执行。

具体地，获取使用样例数据集(机器学习作业的)的其他机器学习作业，因为机器学习作业和其他机器学习作业进行学习训练时所使用的样例数据集相同，可以通过中心化方式协调机器学习作业和其他机器学习作业共享同一个元信息总序列，因此，可以基于多个元信息序列将其他机器学习作业拆分成多个其他训练任务，将多个其他训练任务调度到不同的工作节点执行，对应同一个元信息序列的训练任务和其他训练任务可以同步执行，在执行的过程中，训练任务和其他训练任务使用同一份样例数据，使分布式缓存系统中样例数据被多个训练任务重复利用，提升缓存利用率。

另外，基于多个元信息序列，将机器学习作业拆分成多个训练任务，将其他机器学习作业拆分成多个其他训练任务，对应同一个元信息序列的训练任务和其他训练任务可以同步执行，在执行的过程中，训练任务和其他训练任务使用同一份样例数据，使分布式缓存系统中样例数据被多个训练任务重复利用，提升缓存利用率。

在本申请一实施例中，参照图3，示出了本申请的一种预存样例数据的数量的调整实施例的步骤流程图，包括如下步骤：

步骤301：确定使用所述前一次预存的目标样例数据执行所述训练任务所花费的时间。

步骤302：确定历史中使用预存的目标样例数据，执行所述训练任务所花费的最短时间。

步骤303：根据所述最短时间和异常值参数，计算得到异常时间。

步骤304：当所述时间大于所述异常时间时，增加所述预设数量。

其中，分布式缓存系统中预存样例数据的数量由执行训练任务时使用样例数据的速度和从远程存储系统中拉取样例数据的速度共同相关，预存样例数据的数量过少使得部分样例数据被使用时仍然不在分布式缓存系统中，缓存不命中导致样例数据访问效率下降，而预存样例数据的数量过多占据分布式缓存系统中过多存储资源。

具体地，确定出使用前一次预存的预设数量目标样例数据执行训练任务所花费的时间，以及历史中使用预存的目标样例数据，执行训练任务所花费的最短时间，将该最短时间和异常值参数相乘，得到异常时间；当使用前一次预存的预设数量目标样例数据执行训练任务所花费的时间大于异常时间时，说明部分样例数据被使用时仍然不在分布式缓存系统中，需要增加预设数量，即增加分布式缓存系统中预存样例数据的数量，以满足执行训练任务时的需求。

本申请一实施例中，所述当所述时间大于所述异常时间时，增加所述预设数量，包括：当所述时间大于所述异常时间时，检测上一次增加所述预设数量的系统时间至当前系统时间执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤的次数；当所述次数大于预设次数时，增加所述预设数量。

其中，对于一个机器学习作业来说，每次工作节点请求间隔中消费的样例数据数量是一定的，且对这部分训练样例的运算逻辑是固定的，因此整体的运算时间也很稳定的，仅仅可能出现较小范围时间波动。因此在分布式缓存系统中预存样例数据的数量增加到合适的数量，在一定时间内不需要进行调整。

具体地，当使用前一次预存的预设数量目标样例数据执行训练任务所花费的时间大于大于异常时间时，检测上一次增加预设数量的系统时间至当前系统时间执行遍历元信息序列，确定出预设数量的目标元信息的步骤的次数，当该次数大于预设次数时，增加预设数量，即增加分布式缓存系统中预存样例数据的数量，当该次数小于或等于预设次数时，则不需要增加预设数量，即不需要增加分布式缓存系统中预存样例数据的数量。

另外需要说明的是机器学习作业消费样例数据的速度比较稳定，因此在分布式缓存系统中预存样例数据的数量一旦扩容到合适的大小，通常情况下不再需要缩小。

具体通过以下公式判断是否需要增加预设数量：

式中：t _i表示本次收到工作节点发起请求与上次收到工作节点发起请求之间的时间间隔，即使用前一次预存的目标样例数据执行训练任务所花费的时间；T ⁱ _min表示过去时间段请求间隔时间的最小值，即历史中使用预存的目标样例数据，执行训练任务所花费的最短时间；α为异常值参数；i表示检测上一次增加预设数量的系统时间至当前系统时间执行遍历元信息序列，确定出预设数量的目标元信息的步骤的次数；P为稳定值参数，即为预设次数。

当t _i大于α*T ⁱ _min，且i大于P时，增加预设数量，即增加分布式缓存系统中预存样例数据的数量。

本申请实施例中，通过检测使用预设数量目标样例数据执行训练任务所花费的时间，可以对分布式缓存系统中预存样例数据的数量进行调整，以避免预存样例数据的数量过少，使得部分样例数据被使用时仍然不在分布式缓存系统中，缓存不命中导致样例数据访问效率下降，而预存样例数据的数量过多占据分布式缓存系统中过多存储资源。

为了更好地理解本申请中的实施例，以下对样例数据的处理方法加以示例性说明，但应当理解的是，本申请实施例并不限于此。

参照图4，示出了本申请的一种机器学习编程框架修改实施例的示意图，

本申请中的技术方案的要求修改机器学习编程框架(如PyTorch，Tensorflow)的底层数据访问逻辑，而用户往往使用的是标准版的机器学习编程框架，不包含实现本申请技术方案的代码逻辑。当用户提交作业时，Service Auto Injector组件(以下简称Injector组件)会在集群中创建Dataset Indexing Service组件(以下简称Service组件)，Service组件启动后开始进行样例数据的预存。接着，Injector组件在用户提交的机器学习作业中注入InitContainer(用来做初始化工作的容器)，该InitContainer使用本方案所定义的镜像，镜像中包含对机器学习编程框架的代码逻辑变动。InitContainer会优先于用户提交的机器学习作业启动，当InitContainer启动时，会将需要变动的代码逻辑覆盖到用户镜像的对应位置，实现用户无感知的逻辑替换。当用户定义的机器学习作业启动时，其数据访问过程将按照下文中的工作流程进行。

需要说明的是，在不引入Dataset Indexing Service组件，采用修改机器学习框架的数据访问逻辑，同样可以使得机器学习在访问数据的同时对分布式缓存系统进行缓存管理。

参照图5，示出了本申请的一种Kubernetes集群实施例的框架示意图，在机器学习训练作业开始前，Service组件从分布式缓存系统中获取整个数据集中全部训练样例数据(样例数据)的元信息。机器学习训练过程消费样例的数据的顺序应当是完全随机的，为了防止得到机器学习模型过拟合，因此Service组件在获得训练样例的元信息时，首先会将其打乱生成一个随机的元信息总序列，并将元信息总序列拆分成多个元信息序列以对应多个机器学习训练Worker的训练任务；

当任意机器学习训练Worker需要消费数据以执行训练任务时，该机器学习训练Worker向Service组件请求训练样例数据，Service组件遍历该机器学习训练Worker对应的元信息序列，选择其中未被使用过的训练样例数据对应的元信息返回。

机器学习训练Worker根据返回的元信息从分布式缓存系统中读取对应的样例数据执行训练任务。

参照图6，示出了本申请的一种样例数据处理实施例的框架示意图之一，分布缓存系统中已经预存有样例数据1，3，5，当Service组件返回元信息3，5至机器学习训练Worker后，机器学习训练Worker从分布缓存系统中读取样例数据3，5。参照图7，此时，机器学习训练Worker向Service组件请求训练样例时，滑动窗口(虚线窗口)右移，新的元信息6、4移动进入滑动窗口，此时Service组件立刻进行6、4样例数据的预存操作。滑动窗口右移的同时，移出滑动窗口的元信息3，5，由于元信息3，5对应的样例数据刚刚被请求，正在被机器学习训练Worker消费以进行模型训练(执行训练任务)，此时Service组件不会立即将3，5样例数据驱逐出分布式缓存系统。当机器学习训练Worker再次向Service组件请求样例数据时，标志着之前请求的样例数据3，5已经消费完成，此时Service组件可将样例数据3，5驱逐。

本申请实施例中，在被消费过的样例数据不会再被使用，因此Service组件指导分布式缓存系统将这些样例数据驱逐，以节约缓存系统的资源使用。同时，滑动窗口中移入了新的元信息，Service组件指导分布式缓存系统将该元信息对应的样例数据从远程存储系统中预存到分布式缓存系统中，使得机器学习训练Worker需要这部分样例数据时能够命中缓存，以避免数据访问慢造成的性能瓶颈。上述驱逐和预存的过程与机器学习训练Worker的模型训练过程同步进行，整个过程以流水线方式运行，缩短整体机器学习训练时间。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种样例数据的处理装置，应用于终端设备、服务器等电子设备中。

参照图8，示出了本申请的一种样例数据的装置实施例的结构框图，具体可以包括如下模块：

序列获取模块801，用于获取训练任务以及所述训练任务对应的元信息序列，所述元信息序列包括若干元信息，所述元信息用于索引到对应的样例数据；

序列遍历模块802，用于遍历所述元信息序列，确定出预设数量的目标元信息；

任务执行模块803，用于预存所述目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行所述训练任务；

数据驱逐模块804，用于当所述前一次预存的目标样例数据被使用完时，返回执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐所述前一次预存的目标样例数据。

在本申请一实施例中，还包括：

在本申请一实施例中，所述数量增加模块，包括：

在本申请一实施例中，应用于Kubernetes集群，所述Kubernetes集群部署有工作节点和分布式缓存系统，所述工作节点用于执行所述训练任务，所述分布式缓存系统用于预存目标样例数据。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器(集群)等电子设备。图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置900。

对于一个实施例，图9示出了示例性装置900，该装置具有一个或多个处理器902、被耦合到(一个或多个)处理器902中的至少一个的控制模块(芯片组)904、被耦合到控制模块904的存储器906、被耦合到控制模块904的非易失性存储器(NVM)/存储设备908、被耦合到控制模块904的一个或多个输入/输出设备910，以及被耦合到控制模块904的网络接口912。

处理器902可包括一个或多个单核或多核处理器，处理器902可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置900能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置900可包括具有指令914的一个或多个计算机可读介质(例如，存储器906或NVM/存储设备908)以及与该一个或多个计算机可读介质相合并被配置为执行指令914以实现模块从而执行本公开中所述的动作的一个或多个处理器902。

对于一个实施例，控制模块904可包括任意适当的接口控制器，以向(一个或多个)处理器902中的至少一个和/或与控制模块904通信的任意适当的设备或组件提供任意适当的接口。

控制模块904可包括存储器控制器模块，以向存储器906提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器906可被用于例如为装置900加载和存储数据和/或指令914。对于一个实施例，存储器906可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器906可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块904可包括一个或多个输入/输出控制器，以向NVM/存储设备908及(一个或多个)输入/输出设备910提供接口。

例如，NVM/存储设备908可被用于存储数据和/或指令914。NVM/存储设备908可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备908可包括在物理上作为装置900被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备908可通过网络经由(一个或多个)输入/输出设备910进行访问。

(一个或多个)输入/输出设备910可为装置900提供接口以与任意其他适当的设备通信，输入/输出设备910可以包括通信组件、音频组件、传感器组件等。网络接口912可为装置900提供接口以通过一个或多个网络通信，装置900可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置900可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置900可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置900包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程xxxx终端设备的处理器以产生一个机器，使得通过计算机或其他可编程xxxx终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程xxxx终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程xxxx终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种样例数据的处理方法和装置，一种电子设备和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种样例数据的处理方法，其特征在于，所述方法包括：

获取训练任务以及所述训练任务对应的元信息序列，所述元信息序列包括若干元信息，所述元信息用于索引到对应的样例数据；

遍历所述元信息序列，确定出预设数量的目标元信息；

预存所述目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行所述训练任务；

当所述前一次预存的目标样例数据被使用完时，返回执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐所述前一次预存的目标样例数据。
根据权利要求1所述的方法，其特征在于，还包括：

获取机器学习作业，以及所述机器学习作业进行学习训练时需要使用到的样例数据集中样例数据对应的元信息；

采用所述样例数据集中样例数据对应的元信息随机生成元信息总序列；

将所述元信息总序列拆分成多个元信息序列，并基于所述多个元信息序列将所述机器学习作业拆分成多个训练任务；其中，多个训练任务并列执行。
根据权利要求2所述的方法，其特征在于，还包括：

获取使用所述样例数据集的其他机器学习作业；

基于多个所述元信息序列将所述其他机器学习作业拆分成多个其他训练任务；其中，所述其他训练任务与对应同一个所述元信息序列的训练任务同步执行。
根据权利要求1所述的方法，其特征在于，还包括：

确定使用所述前一次预存的目标样例数据执行所述训练任务所花费的时间；

确定历史中使用预存的目标样例数据，执行所述训练任务所花费的最短时间；

根据所述最短时间和异常值参数，计算得到异常时间；

当所述时间大于所述异常时间时，增加所述预设数量。
根据权利要求4所述的方法，其特征在于，所述当所述时间大于所述异常时间时，增加所述预设数量，包括：

当所述时间大于所述异常时间时，检测上一次增加所述预设数量的系统时间至当前系统时间执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤的次数；

当所述次数大于预设次数时，增加所述预设数量。
根据权利要求1所述的方法，其特征在于，应用于Kubernetes集群，所述Kubernetes集群部署有工作节点和分布式缓存系统，所述工作节点用于执行所述训练任务，所述分布式缓存系统用于预存目标样例数据。
根据权利要求6所述的方法，其特征在于，所述Kubernetes集群部署有机器学习框架，所述机器学习框架的数据读取模块被Dataset Indexing Service组件替换，以通过所述Dataset Indexing Service组件维护所述训练任务对应的元信息序列。
一种样例数据的处理装置，其特征在于，所述装置包括：

序列获取模块，用于获取训练任务以及所述训练任务对应的元信息序列，所述元信息序列包括若干元信息，所述元信息用于索引到对应的样例数据；

序列遍历模块，用于遍历所述元信息序列，确定出预设数量的目标元信息；

任务执行模块，用于预存所述目标元信息对应的目标样例数据，同时使用前一次预存的目标样例数据执行所述训练任务；

数据驱逐模块，用于当所述前一次预存的目标样例数据被使用完时，返回执行所述遍历所述元信息序列，确定出预设数量的目标元信息的步骤，同时驱逐所述前一次预存的目标样例数据。
根据权利要求8所述的装置，其特征在于，还包括：

作业获取模块，用于获取机器学习作业，以及所述机器学习作业进行学习训练时需要使用到的样例数据集中样例数据对应的元信息；

序列生成模块，用于采用所述样例数据集中样例数据对应的元信息随机生成元信息总序列；

作业拆分模块，用于将所述元信息总序列拆分成多个元信息序列，并基于所述多个元信息序列将所述机器学习作业拆分成多个训练任务；其中，多个训练任务并列执行。
一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-7中一个或多个所述的样例数据的处理方法。
一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-7中一个或多个所述的样例数据的处理方法。