WO2024088031A1

WO2024088031A1 - 一种数据采集方法、装置及相关设备

Info

Publication number: WO2024088031A1
Application number: PCT/CN2023/123300
Authority: WO
Inventors: 欧争光; 黄志炜; 郑子木
Original assignee: 华为云计算技术有限公司
Priority date: 2022-10-27
Filing date: 2023-10-08
Publication date: 2024-05-02
Also published as: CN117998228A

Abstract

本申请提供了一种数据采集方法、装置及相关设备，该方法包括以下步骤：数据采集装置获取用户输入的场景信息，其中，场景信息包括用户所需训练的模型对应的业务场景信息，根据场景信息确定至少一个传感器中的目标传感器，使用目标传感器进行数据采集获得多个数据，根据场景信息确定多个数据中每个数据的场景相关度，向用户发送用于训练模型的样本集，其中，样本集是根据每个数据的场景相关度确定的，使得样本集中的数据是与业务场景相关的数据，将样本集中的数据上传至服务器，可以避免与业务场景无关的数据被上传至服务器，从而减轻数据传输和存储的压力，提高模型训练效率。

Description

一种数据采集方法、装置及相关设备

本申请要求在2022年10月27日提交中国国家知识产权局、申请号为202211330232.4的中国专利申请的优先权，发明名称为“一种数据采集方法、装置及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能(artificial intelligence,AI)领域，尤其涉及一种数据采集方法、装置及相关设备。

背景技术

随着科学技术的不断发展，AI模型在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。AI模型通常需要使用大量的样本对其进行训练，通常情况下，传感器会将采集到的原始数据统一上传至服务器中，再对服务器中的原始数据进行标注后获得样本才，然后使用样本训练AI模型。

但是，传感器采集到的原始数据可能会存在大量与业务场景无关的数据，这些数据也会被上传至服务器，造成数据传输和存储的压力，降低模型训练效率。

发明内容

本申请提供了一种数据采集方法、装置及相关设备，用于解决传感器采集到的原始数据与业务场景无关，导致数据传输和存储的压力大，模型训练效率低的问题。

第一方面，提供了一种数据采集方法，该方法包括以下步骤：数据采集装置获取用户输入的场景信息，其中，场景信息包括用户所需训练的模型对应的业务场景信息，根据场景信息确定至少一个传感器中的目标传感器，使用目标传感器进行数据采集获得多个数据，目标传感器的数量为一个或者多个，根据场景信息确定多个数据中每个数据的场景相关度，每个数据的场景相关度用于描述每个数据与业务场景之间的相关程度，向用户发送用于训练模型的样本集，其中，样本集是根据每个数据的场景相关度确定的。

上述实现方式，数据采集装置可以获取用户输入的场景信息，然后根据场景信息确定至少一个传感器中的目标传感器，使用目标传感器进行数据采集获得多个数据，再根据场景信息确定多个数据中每个数据的场景相关度，向用户发送用于训练上述模型的样本集，其中，样本集是根据每个数据的场景相关度确定的，使得样本集中的数据是与业务场景相关的数据，将样本集中的数据上传至服务器，可以避免与业务场景无关的数据被上传至服务器，从而减轻数据传输和存储的压力，提高模型训练效率。

在一可能的实现方式中，在数据采集装置获取用户输入的场景信息之前，该方法还包括以下步骤：数据采集装置向用户提供传感器信息，其中，传感器信息包括数据采集装置拥有的至少一个传感器的参数信息，传感器信息用于供用户确定场景信息。

可选地，传感器信息可包括数据采集装置中传感器的参数信息，比如分辨率、灵敏度、线性范围、稳定性、精度、频率响应特性、采样频率等等，本申请不作具体限定。应理解，不同传感器的参数信息类型可能不同，本申请不作具体限定。

可选地，传感器信息还可包括其他用于确认业务场景的相关信息，举例来说，传感器信息还可包括数据采集装置的设备信息，比如数据采集装置的设备型号、设备功能、资源状态、设备状态等等，其中，资源状态可包括但不限于内存资源状态、中央处理器(central processing unit,CPU)资源状态、网络占用等等，设备状态可包括但不限于数据采集装置的传感器是否发生损坏，数据采集装置是否处于异常状态等等。再举例来说，传感器信息还可包括数据采集装置和用户所持有的客户端之间的通信网络的状态信息，比如带宽、网速等等，应理解，上述举例用于说明，本申请不作具体限定。

具体实现中，数据采集装置可以在首次与用户所持有的客户端建立通信连接后，向客户端上报传感器信息，或者，在接收到客户端发起的上报请求之后，向客户端上报传感器信息，或者，在数据采集装置的传感器信息发生更新后，将更新后的传感器信息上报给客户端，本申请不作具体限定。

可选地，用户可以根据客户端显示的传感器信息，输入用户所需的业务场景的信息，如果客户端显示该数据采集装置没有业务场景所需的传感器信息，用户可以选择其他能够满足业务场景需求的其他数据采集装置，从而避免数据采集装置无法采集到用户的业务场景相关的数据，降低模型训练效率。

上述实现方式，在用户输入场景信息之前，将数据采集装置的传感器信息上报给用户，使得用户可以根据数据采集装置的传感器信息确定输入的场景信息，避免出现数据采集装置无法满足用户需求这一情况的发生，提高用户的使用体验。

在一可能的实现方式中，场景信息可以是用户所需的业务场景的信息，比如业务场景的名称、编号、缩写等等，本申请不作具体限定。用户所需的业务场景可包括但不限于图像识别、语音识别、文字识别、图像检测等等，本申请不作具体限定。

具体实现中，客户端可以根据传感器信息确定该传感器信息可实现的一个或者多个场景，然后向用户展示的上述一个或者多个场景后，获取用户从中选择的场景信息。或者，用户也可以根据客户端展示的传感器信息，自行输入场景信息，本申请不作具体限定。具体实现中，客户端可以通过可视化界面向用户展示多个场景信息以供选择，也可以通过应用程序接口(application programming interface,API)输入场景信息，本申请不作具体限定。

上述实现方式，通过获取用户输入的场景信息，可以使得最后确定的样本集中的数据是与业务场景相关的数据，从而避免与业务场景无关的数据被上传至服务器，减轻数据传输和存储的压力，提高模型训练效率。

在一可能的实现方式中，数据采集装置可以存储有场景信息和目标传感器之间的对应关系，获取用户输入的场景信息之后，可以根据对应关系确定该场景信息对应的目标传感器，比如图像识别场景对应图像传感器，语音识别场景对应麦克风、声敏传感器等等，本申请不作具体限定。

需要说明的，根据场景信息对应的多个目标传感器中，不仅包括业务直接需求的目标传感器，还可包括业务扩展需求的目标传感器，其中，业务扩展需求的目标传感器所采集到的数据，能够为业务直接需求的目标传感器采集到的数据提供更多数据维度的补充。举例来说，图像识别场景中，业务直接需求的目标传感器是摄像头，但是雷达传感器、红外传感器、激光传感器等其他传感器所采集到的关联模态的样本数据也可能在该图像识别场景中提供数据维度的补充，这些传感器可以是该业务场景下存在业务扩展需求的目标传感器，那么图像识别场景下的目标传感器不仅包括摄像头，还可包括雷达传感器、红外传感器、激光传感器等，应理解，上述举例用于说明，在不同的业务场景中，业务直接需求的目标传感器和业务扩展需求的目标传感器不同，这里不一一举例说明。

上述实现方式，根据用户确认的场景信息确定目标传感器，使用目标传感器采集多个数据，这样提供给用户的多个数据是与用户所确认的业务场景相关的数据，从而避免向用户提供与业务场景无关的数据，提高通信效率，同时减轻样本存储压力，避免资源的浪费。

在一可能的实现方式中，在目标传感器的数量为多个时，使用目标传感器采集的多个数据可包括同一时刻下多个目标传感器采集的多个数据。具体地，可以对多个目标传感器采集到的数据进行数据对齐操作后，获得上述多个数据。应理解，由于不同目标传感器的采集频率存在差异，因此可以对多个目标传感器采集的数据进行数据对齐处理，获得上述多个数据。

具体实现中，可以为多个目标传感器在周期时间内采集到的多个数据以及采集时间建立数据集合和对应的查找索引，基于索引快速定位和筛选出同一时刻下采集的数据，从而获得对齐后的多个数据。应理解，对多个目标传感器采集到的数据进行对齐处理时，也可以适当进行数据补偿，以获得对齐后的多个数据，本申请不作具体限定。

需要说明的，对于多传感器融合场景来说，上述多个数据中的每个数据可以包括同一时刻下的多个传感器采集的数据，比如同一时刻下的雷达帧和图像帧可以作为一个数据。对于单一传感器场景来说，一个数据对应一个传感器采集的数据，比如一个图像帧，一个文本等等，本申请不作限定。

上述实现方式，通过将多个目标传感器采集的多个数据进行对齐操作，使得最后样本集中的数据是同一时刻下中多个目标传感器采集的数据，提高数据的准确性，避免由于数据误差导致模型训练效果差的问题。

在一可能的实现方式中，数据的场景相关度是根据数据与场景信息所描述的业务场景之间的相关程度确定的，相关程度越高，数据的场景相关度越高，反之则越低。

可选地，数据的场景相关度是根据数据是否包含目标确定的，包含目标的数据的场景相关度高于不包含目标的数据的场景相关度，该目标可以是业务场景所需的目标，比如业务场景是行人识别时，业务场景所需的目标可以是行人；比如业务场景是车辆识别，业务场景所需的目标可以是车辆，上述举例用于说明，本申请不作具体限定。

可选地，数据的场景相关度是根据数据包含的目标数量确定的，数据包含的目标数量越高，数据的场景相关度越高，反之则越低，比如业务场景是车辆识别时，包含2个车辆的图像数据A的场景相关度高于包含1车辆的图像数据B的场景相关度，上述举例用于说明，本申请不作具体限定。

可选地，数据的场景相关度是根据数据对模型训练时的贡献程度决定的，比如数据的标签置信度越差、样本清晰度越差、训练效果越差的数据的场景相关度越底，反之则越高，举例来说，数据C的目标边框模糊不清，或者边框位置错误没有将目标完整框住，数据D的目标边框完整、清晰的框住了目标，那么数据C的场景相关度低于数据D的场景相关度，上述举例用于说明，本申请不作具体限定。

可选地，数据的场景相关度是根据数据采集装置200采集数据时的设备状态决定的，设备状态越差，数据采集装置所采集的数据的场景相关度越低，反之则越高。举例来说，数据采集装置200为园区机器人，园区机器人处于非正常姿态时，比如园区机器人摔倒、倾覆等状态时，其采集的数据E的场景相关度低于正常姿态下采集的数据F的场景相关度，上述举例用于说明，本申请不作具体限定。

可选地，可以通过评估模型确定每个数据的场景相关度，其中，评估模型可以是使用评估样本集对神经网络进行训练后获得的，其中，评估样本集包括评估样本和评估样本对应的标签，评估样本包括已知数据，评估样本对应的标签包括已知数据对应的场景相关度。其中，评估样本的标签可以是根据评估标准确定的，评估标准可包括但不限于评估样本是否包含目标、包含目标数量、样本置信度中的一个或者多个，还可以包括其他评估标准，这里不一一举例说明。

可选地，上述评估标准还可包括数据采集装置的设备状态，设备状态差时，样本的场景相关度较低，设备状态可包括但不限于数据采集装置的传感器是否发生损坏，数据采集装置是否处于异常状态等等。举例来说，数据采集装置是园区机器人，那么异常状态可以包括园区机器人的运动路线发生严重偏移。应理解，上述举例用于说明，本申请不作具体限定。

需要说明的，数据采集装置可以使用通用的评估模型确定每个数据对应的场景相关度，或者，根据用户选择的场景信息确定与业务场景对应的评估模型，应理解，不同的业务场景下数据的场景相关度的评估标准可能存在差异，因此可以使用业务场景对应的评估模型进行数据的场景相关度评估，从而提高数据的场景相关度的获取的准确性。举例来说，目标识别场景下，样本中目标数量越多，样本场景相关度越高，目标检测场景下，目标边界框的置信度越高，样本场景相关度越高，应理解，上述举例用于说明，本申请不作具体限定。

上述实现方式中，通过确定每个数据的场景相关度，并以此来确定样本集，可以使得样本集更加符合用户所需的业务场景，从而避免向用户提供与业务场景无关的数据，提高通信效率，同时减轻样本存储压力，避免资源的浪费。

在一可能的实现方式中，根据场景信息确定多个数据中每个数据的场景相关度之前，该方法还包括以下步骤：获取用户输入的采集策略，其中，采集策略包括模型训练时所需的样本的目标样本特征。

具体实现中，数据采集装置也可以结合客户下发的采集策略进一步确定数据的场景相关度，数据采集装置可以对多个数据中任意一个第一数据执行以下步骤：在第一数据符合采集策略的情况下，将第一数据输入评估模型获得第一数据的场景相关度，或者，将第一数据输入评估模型获得第一场景相关度，根据采集策略获得第二场景相关度，根据第一场景相关度和第二场景相关度获得第一数据的场景相关度。其中，第一场景相关度和第二场景相关度的获取可以是同时进行的，也可以是先后进行的，本申请不作具体限定。

举例来说，以目标检测场景为例，假设用户需要优先采集“消防栓”样本图像，那么采集策略可以包括“消防栓”样本的纹理特征，其中，纹理特征用于描述图像中目标的表面性质，例如图像纹理的粗细、稠密等特征。常见的纹理特征有灰度共生矩阵特征、自回归纹理模型特征、Tamura纹理特征、小波变换特征等，本申请不作具体限定。其中，数据的样本特征与目标样本特征越相似，该数据的场景相关度越高。

可选地，采集策略包括目标采集条件，其中，样本集中数据的是在目标采集条件下采集的数据，在目标采集条件下采集到的数据的场景相关度高，非目标采集条件下采集到的数据的场景相关度低，或者，非目标采集条件下采集到的数据不进行场景相关度评估，比如场景相关度为0，只将目标采集条件下采集到的数据输入评估模型进行场景相关度评估。举例来说，用户需求采集环境温度高于40摄氏度时目标传感器采集的样本，那么对于环境温度低于40摄氏度时目标传感器采集的样本不进行场景相关度评估。

可选地，采集策略可以包括目标指标，满足目标指标的数据场景相关度高，不满足目标指标的数据场景相关度低，或者，不满足目标指标的数据不进行场景相关度评估，只将满足目标指标的数据输入评估模型进行场景相关度评估。举例来说，用户需求置信度高于阈值X的样本，那么对于置信度低于阈值X的数据不进行场景相关度评估。应理解，上述举例用于说明，本申请不作具体限定。

可选地，采集策略包括数据的优先级信息，其中，优先级高的数据的场景相关度高于优先级低的数据的场景相关度，数据上传时，场景相关度高的数据比场景相关度低的数据优先上传。换句话说，优先级得低的数据可以在优先级高的数据采集完之后，再进行采集，举例来说，用户需求难例样本进行模型训练，那么用户下发的采集策略中难例样本的优先级高于非难例样本，此时可以先上传难例样本，然后再上传非难例样本，本申请不作具体限定。再举例来说，用户当前训练的业务模型的识别精度较差，需要优先采集元素丰富的样本，那么用户下发的采集策略中元素丰富的数据的优先级高于元素单一的数据，那么元素丰富的数据的场景相关度高于元素单一的数据的场景相关度。其中，元素丰富的数据指的是目标传感器采集到的数据中的目标数量高于阈值，这里的目标可以是用户所需的目标，也可以不是用户所需的目标，可以是识别出的目标，也可以是未知目标，本申请不作具体限定。举例来说，目标传感器包括激光传感器和图像传感器，目标传感器采集到的第一数据中，图像传感器采集并识别出场景中的物体A，激光传感器探测出场景中存在障碍物A、B以及C，也就是说，物体A是已知目标，物体B和C是未知目标，那么第一数据属于元素丰富的数据，应理解，上述举例用于说明，在不同的应用场景下，用户可以灵活设置场景所需的优先级信息，这里不一一举例说明。

可选地，采集策略可包括上传逻辑，上传逻辑包括实时上传、资源占用低时上传、定时上传、周期间隔上传中的任一种，根据上传逻辑将样本集上传至服务器，其中，服务器用于供用户训练模型。上传逻辑可包括实时上传、资源占用低时上传、定时上传、周期间隔上传等等，本申请不作具体限定。举例来说，对于业务模型迭代要求及时的场景，用户可以输入的采集策略可包括实时上传，对于业务模型要求优先保证使用者体验的场景，用户输入的采集策略可以包括资源占用较低时上传，具体实现中，数据采集装置可以获取本地资源状态，包括内存、CPU、网络占用等，在资源状态降低的情况下进行打包和上传。应理解，上述上传逻辑用于举例说明，在不同的应用场景下，用户可以灵活设置场景所需的上传逻辑，这里不一一举例说明。

在一实施例中，用户的采集策略可以以指令的形式下发至数据采集装置，该指令可包括多个参数，一个参数对应一种上传策略，比如参数1对应上传逻辑，参数2对应优先级信息，参数3对应目标指标，参数4对应目标采集条件，参数5对应目标样本特征等等，这里不一一举例说明。携带有采集策略的指令下发至数据采集装置之后，评估单元可以根据指令中的参数确定用户下发的采集策略，比如指令包括参数1和参数5，那么可根据参数1的值确定上传逻辑，比如资源占用低时上传，根据参数5的值确定目标样本特征，比如“消防栓”的纹理特征，然后根据采集策略和评估模型确定多个数据中每个数据的场景相关度。应理解，上述举例用于说明，本申请不作具体限定。

上述实现方式，通过获取用户的采集策略，根据采集策略来确定训练模型使用的样本集，可以使得样本集更加符合用户所需的业务场景，从而避免向用户提供与业务场景无关的数据，提高通信效率，同时减轻样本存储压力，避免资源的浪费。

在一可能的实现方式中，样本集可以包括场景相关度高于阈值的数据，数据采集装置将场景相关度高于阈值的数据上传至服务器，或者，样本集中的数据是数据采集装置按照数据的场景相关度对数据进行排序后获得的，场景相关度高的数据的上传顺序早于场景相关度低的数据，具体可根据用户的采集策略确定。

可选地，数据采集装置可以先将样本集存储于数据采集装置的存储器中，该存储器与服务器建立通信连接，使得服务器可以基于用户的上报策略获取存储器中的样本集，其中，上述存储器可以是可移动存储介质，比如数据采集装置的U盘、移动硬盘、软盘、光盘、存储卡等等，本申请不作具体限定。

可选地，数据采集装置也可以对样本集进行标注，获得样本集中每个数据的标签，该标签可以是人工标注的标签也可以是机器标注的标签，具体可根据数据采集装置的处理能力决定，本申请不作具体限定，

可选地，数据采集装置确定多个数据中每个数据的场景相关度之后，可以通过客户端向用户显示每个数据的场景相关度，用户可以根据业务需求选择样本集中的数据，然后将样本集上传至服务器，本申请不作具体限定。

上述实现方式，根据数据的场景相关度确定样本集，使得样本集中的数据都是与用户所需的业务场景相关的数据，从而避免向用户提供与业务场景无关的数据，提高通信效率，同时减轻样本存储压力，避免资源的浪费。

在一可能的实现方式中，向用户发送用于训练模型的样本集之后，获取的新的采集策略，根据新的采集策略确定新的样本集，其中，新的采集策略是服务器使用样本集对模型训练后确定的，或者，新的采集策略是用户输入的。

举例来说，业务模型下一个训练阶段为增量学习阶段，在增量学习阶段需求更多难例样本，此时服务器可以根据增量学习阶段的采集策略获得更新后的采集策略，将更新后的采集策略发送给数据采集装置，使得数据采集装置可以根据更新后的采集策略对目标传感器采集到的新数据进行场景相关度评估。其中，更新后的采集策略可以包括优先级信息，该优先级信息包括优先采集难例样本的信息。应理解，上述举例用于说明本申请不作具体限定。

需要说明的，也可以根据业务模型的训练结果和当前样本的数据维度，获取新的采集策略，其中，新的采集策略用于获取关联数据，该关联数据的数据维度与当前样本的数据维度不同，比如当前样本是单模态数据，关联数据是多模态数据。举例来说，当前样本的数据维度是单模态的数据，比如只有摄像头采集的视频帧，业务模型为识别消防栓的模型，模型的训练结果显示模型预测的准确率较低，此时需要更多的样本，服务器可以基于此获取关联数据，比如激光采集的样本以及雷达采集的样本，关联样本可以提高模型的预测能力。应理解，上述举例用于说明，本申请不作具体限定。

可选地，服务器可以向用户显示业务模型的训练结果，接收用户输入的更新后的采集策略。当然，用户也可以通过客户端向数据采集装置发送新的采集策略，本申请不作具体限定。

举例来说，业务模型是训练完毕后，用户根据业务模型的训练结果，认为业务模型对A类别的样本识别能力很高，但是对B类别的样本识别能力较差，而当前业务场景正好需求业务模型拥有对B类别的样本识别能力，用户希望可以获取更多B类别的样本对业务模型进行进一步的训练。此时用户可以通过客户端输入新的采集策略，新的采集策略中包括目标样本特征，即B类别样本的纹理特征，还可包括优先级信息，即B类别样本优先采集的信息，然后客户端100可以将上述新的采集策略发送给数据采集装置，使其优先采集B类别的数据至服务器，服务器对B类别的数据进行标注后即可获得B类别的样本。应理解，上述举例用于说明，本申请不作具体限定。

上述实现方式，根据训练结果更新采集策略，再使用新的采集策略获取新的样本集对模型进行进一步的训练，不断使用与业务场景相关的样本集对模型进行训练，解决了模型的样本集需求会随着时间不断变化的问题，提高用户的使用体验。

第二方面，提供了一种数据采集装置，该数据采集装置包括采集单元，用于获取用户输入的场景信息，其中，场景信息包括用户所需训练的模型对应的业务场景信息，采集单元，用于根据场景信息确定至少一个传感器中的目标传感器，使用目标传感器进行数据采集获得多个数据，目标传感器的数量为一个或者多个，评估单元，用于根据场景信息确定多个数据中每个数据的场景相关度，上传单元，用于向用户发送用于训练模型的样本集，其中，样本集是根据每个数据的场景相关度确定的。

在一可能的实现方式中，样本集中的数据的场景相关度高于阈值，或者，样本集中的数据是根据多个数据的场景相关度对多个数据进行排序后获得的。

在一可能的实现方式中，装置包括上报能力单元，上报能力单元用于在数据采集装置获取用户输入的场景信息之前，向用户提供传感器信息，其中，传感器信息包括数据采集装置拥有的至少一个传感器的参数信息，传感器信息用于供用户确定场景信息。

在一可能的实现方式中，采集单元还用于获取用户输入的采集策略，其中，采集策略包括模型训练时所需的样本的目标样本特征，评估单元，用于根据场景信息确定每个数据的第一场景相关度，根据采集策略确定每个数据的第二场景相关度，根据第一场景相关度和第二场景相关度确定每个数据的场景相关度，其中，每个数据的数据特征与目标样本特征之间的相似度越高，数据的第二场景相关度越高。

在一可能的实现方式中，采集策略包括目标采集条件，其中，样本集中数据的是在目标采集条件下采集的数据。

在一可能的实现方式中，采集策略包括数据的优先级信息，其中，优先级高的数据的场景相关度高于优先级低的数据的场景相关度。

在一可能的实现方式中，采集策略包括上传逻辑，上传逻辑包括实时上传、资源占用低时上传、定时上传、周期间隔上传中的任一种，上传单元用于根据上传逻辑将样本集上传至服务器，其中，服务器用于供用户训练模型。

在一可能的实现方式中，评估单元，用于确定场景信息对应的评估模型，使用评估模型对数据进行场景相关度评估，确定数据的第一场景相关度，其中，不同场景信息对应不同的评估模型。

在一可能的实现方式中，采集单元还用于获取的新的采集策略，根据新的采集策略确定新的样本集，其中，新的采集策略是服务器使用样本集对模型训练后确定的，或者，新的采集策略是用户输入的。

第三方面，提供了一种计算设备，该计算设备包括处理器和存储器，存储器用于存储代码，处理器用于执行代码实现如第一方面描述的方法。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括指令，当指令在计算设备上运行时，使得计算设备实现如第一方面描述的方法。

第五方面，提供了一种计算机程序产品，该计算机程序产品包括代码，该代码在计算机上运行时使得计算机实现如第一方面描述的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1是本申请提供的一种数据采集系统的架构图；

图2是本申请提供的一种数据采集方法的流程示意图；

图3是本申请提供的一种配置页面的示例图；

图4是本申请提供的另一种配置页面的示例图；

图5是本申请提供的一种计算设备的结构示意图。

具体实施方式

AI是利用数字计算机或者数字计算机控制的计算设备模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能的应用场景十分广泛，比如人脸识别、车辆识别、行人重识别、数据处理应用、机器人领域、自动驾驶等等。AI模型是一种实现AI的数学方法集合。可以使用大量的样本对AI模型进行训练来使训练完成的AI模型获得预测的能力。

通常情况下，传感器会将采集到的原始数据统一上传至服务器中，再对服务器中的原始数据进行处理后获得的样本才可以用来训练AI模型，这里的数据处理可包括但不限于数据清洗、样本标注、数据筛选等等，数据处理是一个费力费时的秘籍劳动过程，需要昂贵的人力成本才能构建一个可用的数据集。

因此，如何使用尽可能少的高质量样本来训练模型是当前AI技术重点突破的课题之一。但是，传感器采集到的原始数据可能会存在大量的无场景相关度数据，比如重复数据、不清晰的无法使用的数据或者与业务场景无关的数据等等，这些无场景相关度数据也会被上传至服务器，造成数据传输和存储的压力，降低模型训练效率。即使提前预定好数据采集的规则，该也需要技术人员消耗大量的时间精力去制定采集规则，不仅存在人为误差，难以规模化，每次采集数据都要人工定制规则，而且采集规则的更新也容易出现不及时的情况，尤其对于多传感器场景来说，人工定制采集规则更加困难，比如机器人、自动驾驶场景下，人工制定采集规则时很容易出现采集规则无法覆盖全部传感器导致高场景相关度样本遗漏的情况。

综上可知，传感器采集到的原始数据可能会存在大量与业务场景无关的数据，这些数据会被上传至服务器，容易造成数据传输和存储的压力，降低模型训练效率。

为了解决传感器采集到的原始数据存在大量与业务场景无关的数据，导致数据传输和存储压力大，模型训练效率低的问题，本申请提供了一种数据采集系统，该系统中的数据采集装置可以获取用户输入的场景信息，该场景信息包括用户所需训练的模型对应的业务场景的信息，然后根据场景信息确定至少一个传感器中的目标传感器，使用目标传感器进行数据采集获得多个数据，再根据场景信息确定多个数据中每个数据的场景相关度，向用户发送用于训练上述模型的样本集，其中，样本集是根据每个数据的场景相关度确定的，使得样本集中的数据是与业务场景相关的数据，将样本集中的数据上传至服务器，可以避免与业务场景无关的数据被上传至服务器，从而减轻数据传输和存储的压力，提高模型训练效率。

如图1所示，图1是本申请提供的一种数据采集系统的架构图，如图1所示，该数据采集系统可包括客户端100、数据采集装置200以及服务器300，其中，客户端100、数据采集装置200以及服务器300之间存在通信连接，具体可以是有线网络或者无线网络，本申请不作具体限定。客户端100、数据采集装置200以及服务器300的数量可以是一个或者多个，本申请不作具体限定。

客户端100可以是与用户交互的计算设备、终端设备或者边缘计算设备，该计算设备可包括但不限于物理服务器、虚拟机、容器、芯片等，其中，物理服务器可包括但不限于ARM服务器、X86服务器等；虚拟机指的是网络功能虚拟化(network functions virtualization,NFV)技术实现的、通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统；容器指的是一组受到资源限制，彼此间相互隔离的进程；终端设备可以是智能手机、掌上处理设备、平板电脑、移动笔记本、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、一体化掌机、穿戴设备、车载设备、智能会议设备、智能广告设备、智能家电等等，此处不作具体限定。边缘计算设备指的是与数据采集装置200距离较近的、拥有计算能力的计算设备，边缘计算设备可以对数据采集装置200所采集的数据进行预处理，然后再将预处理后的数据发送至远端进行存储，从而节省通信带宽，减少数据流量，还可以提高数据的安全性。

数据采集装置200可以是一个或者多个传感器的计算设备、终端设备、机器人或者车辆，其中，一个或者多个传感器可以包括图像传感器，具体可以是用于面部图像识别、眼睛虹膜识别的摄像头，比如语音传感器，具体可以是用于语音识别的麦克风阵列，还可以包括其他能够感受规定的被测量(物理量、化学量、状态量以及机械量)，并按一定规律转换成可用输出信号的多种信息获取传感器，比如，激光传感器、光敏传感器、气敏传感器、雷达传感器、化学传感器、压敏传感器、温敏传感器、流体传感器、加速度传感器、陀螺仪传感器、地磁传感器、红外线传感器、心电传感器、脉压传感器等等。应理解，上述提及的传感器用于示例性说明，并不能构成具体限定。

服务器300可以是计算设备，比如裸金属服务器(bare metal server,BMS)、虚拟机、容器、边缘计算设备等。其中，BMS指的是通用的物理服务器，例如，ARM服务器或者X86服务器，虚拟机和容器的描述可参考前述内容，这里不重复赘述。服务器300还可以是用于存储数据的服务器，比如存储阵列，本申请不作具体限定。服务器300还可以是多个上述计算设备组成的服务器集群，比如集中式服务器集群或者分布式服务器集群，本申请不作具体限定。

可选地，客户端100可以部署于服务器300中，或者，客户端100可以部署于数据采集装置200中，或者，数据采集装置200和服务器300可以是同一个计算设备，或者，客户端100、数据采集装置200以及服务器300是同一个计算设备，或者，客户端100、数据采集装置200以及服务器300在不同的计算设备上，本申请不作具体限定。

可选地，服务器300也可以部署于公有云中，客户端100是该公有云的控制台(console)或者API，本申请不作具体限定。举例来说，数据采集装置200是园区机器人，客户端100可以是web化的管理系统，服务器300是公有云中的对象存储服务(Object Storage Service,OBS)设备，用户400可以通过客户端100购买公有云的OBS存储服务，园区机器人采集的数据可以上传至公有云中进行存储，应理解，上述举例用于说明，本申请不作具体限定。

进一步地，客户端100、数据采集装置200以及服务器300可以划分为多个单元模块，示例性地，如图1所示，客户端100可包括场景确认单元101以及策略下发单元102。数据采集装置200可包括上报能力单元201、采集单元202、评估单元203以及上传单元204。服务器300可包括模型训练单元301以及策略更新单元302。应理解，图1中的划分方式用于举例说明，客户端100、数据采集装置200以及服务器300还可以包括更多或者更少的单元模块，本申请不作具体限定。

数据采集装置200中的上报能力单元201用于获取数据采集装置200中的传感器信息，并将其上报给客户端100。其中，传感器信息可包括数据采集装置200中传感器的参数信息，比如分辨率、灵敏度、线性范围、稳定性、精度、频率响应特性、采样频率等等，本申请不作具体限定。应理解，不同传感器的参数信息类型可能不同，本申请不作具体限定。

可选地，传感器信息还可包括其他用于确认业务场景的相关信息，举例来说，传感器信息还可包括数据采集装置200的设备信息，比如数据采集装置200的设备型号、设备功能、资源状态、设备状态等等，其中，资源状态可包括但不限于内存、CPU、网络占用等等，设备状态可包括但不限于数据采集装置200的传感器是否发生损坏，数据采集装置200是否处于异常状态等等。再举例来说，传感器信息还可包括数据采集装置200和客户端100之间的通信网络的状态信息，比如带宽、网速等等，应理解，上述举例用于说明，本申请不作具体限定。

具体实现中，上报能力单元201可以在首次于客户端100建立通信连接后，向客户端100上报传感器信息，或者，在接收到客户端100发起的上报请求之后，向客户端100上报传感器信息，或者，在数据采集装置200的传感器信息发生更新后，将更新后的传感器信息上报给客户端，本申请不作具体限定。

客户端100中的场景确认单元101用于接收上报能力单元201上报的传感器信息，向用户400显示该传感器信息后，接收用户400输入的场景信息，并将场景信息返回给数据采集装置200。

具体实现中，场景信息可以是用户所需的业务场景的信息，比如业务场景的名称、编号、缩写等等，本申请不作具体限定。用户所需的业务场景可包括但不限于图像识别、语音识别、文字识别、图像检测等等，本申请不作具体限定。举例来说，用户的业务场景是图像识别时，用户可以输入场景信息为编号01，用户的业务场景是语音识别时，用户可以输入场景信息为编号02，用户的业务场景是文字识别时，用户可以输入场景信息为编号03，以此类推，应理解，上述举例用于说明，本申请不作具体限定。

可选地，用户可以根据客户端100显示的传感器信息，输入用户所需的业务场景的信息，如果客户端100显示该数据采集装置200没有业务场景所需的传感器信息，用户可以选择其他能够满足业务场景需求的其他数据采集装置200，从而避免数据采集装置200无法采集到用户的业务场景相关的数据，降低模型训练效率。

具体实现中，客户端100可以根据传感器信息确定该传感器信息可实现的一个或者多个场景，然后向用户展示的上述一个或者多个场景后，获取用户从中选择的场景信息。或者，用户也可以根据客户端100展示的传感器信息，自行输入场景信息，本申请不作具体限定。具体实现中，客户端100可以通过可视化界面向用户展示多个场景信息以供选择，也可以通过应用程序界面(application program interface,API)输入场景信息，本申请不作具体限定。

数据采集装置200中的采集单元202用于接收客户端100发送的场景信息，根据场景信息确定目标传感器，使用目标传感器采集多个数据，其中，目标传感器的数量可以是一个或者多个。

具体实现中，数据采集装置200可以存储有场景信息和目标传感器之间的对应关系，比如图像识别场景对应图像传感器，语音识别场景对应麦克风、声敏传感器等等，本申请不作具体限定。

可以理解的，根据用户确认的场景信息确定目标传感器，使用目标传感器采集多个数据，这样提供给用户的多个数据是与用户所确认的业务场景相关的数据，从而避免向用户提供与业务场景无关的数据，提高通信效率，减轻服务器300的样本存储压力，避免资源的浪费。

可选地，在目标传感器的数量为多个时，采集单元202使用目标传感器采集的多个数据可包括同一时刻下多个目标传感器采集的多个数据。具体地，可以对多个目标传感器采集到的数据进行数据对齐操作后，获得上述多个数据。应理解，由于不同目标传感器的采集频率存在差异，因此可以对多个目标传感器采集的数据进行数据对齐处理，获得上述多个数据。

具体实现中，可以为多个目标传感器在周期时间内采集到的多个数据以及采集时间建立数据集合和对应的查找索引，基于索引快速定位和筛选出同一时刻下采集的数据，从而获得对齐后的多个数据。比如图像传感器在00:01、00:03、00:05采集了3个图像帧，雷达传感器在00:01、00:02、00:03、00:04、00:05、00:06采集了6个雷达帧，那么数据对齐后，可以获得3组对齐的多个数据，第1组数据包括00:01时刻下的雷达帧和图像帧，第2组数据包括00:03时刻下的雷达帧和图像帧，第3组数据包括00:01时刻下的雷达帧和图像帧。应理解，上述举例用于说明，本申请不作具体限定。

应理解，对多个目标传感器采集到的数据进行对齐处理时，也可以适当进行数据补偿，以获得对齐后的多个数据，举例来说，图像传感器在00:01、00:03、00:05采集了3个图像帧，雷达传感器在00:02、00:04、00:06采集了3个雷达帧，那么可以根据00:01、00:03、00:05采集的图像帧确定00:02、00:04、00:06的补偿帧，从而获得对齐后的多个数据，比如00:02时刻下的雷达帧和图像帧，这里不一一展开说明。应理解，上述举例用于说明，本申请不作具体限定。

数据采集装置200的评估单元203可以对采集单元202采集的多个数据进行场景相关度评估，获得多个数据对应的场景相关度。

可选地，数据的场景相关度还可以是根据数据包含的目标数量确定的，数据包含的目标数量越高，数据的场景相关度越高，反之则越低，比如业务场景是车辆识别时，包含2个车辆的图像数据A的场景相关度高于包含1车辆的图像数据B的场景相关度，上述举例用于说明，本申请不作具体限定。

可选地，数据的场景相关度还可以根据数据对模型训练时的贡献程度决定的，数据对模型训练时的贡献程度越高，数据的场景相关度越高，反之则越低，比如标签置信度越差、样本清晰度越差、训练效果越差的数据的场景相关度越底，反之则越高，举例来说，数据C的目标边框模糊不清，或者边框位置错误，或者目标边框没有框住完整目标，数据D的目标边框完整、清晰的框住了目标，那么数据C的场景相关度低于数据D的场景相关度，上述举例用于说明，本申请不作具体限定。

可选地，数据的场景相关度还可以是根据数据采集装置200采集数据时的设备状态决定的，设备状态越差，数据采集装置所采集的数据的场景相关度越低，反之则越高。举例来说，数据采集装置200为园区机器人，园区机器人处于非正常姿态时，比如园区机器人摔倒、倾覆等状态时，其采集的数据E的场景相关度低于正常姿态下采集的数据F的场景相关度，上述举例用于说明，本申请不作具体限定。

具体实现中，评估单元203可以将多个数据输入评估模型，获得多个数据中每个数据对应的场景相关度，其中，评估模型可以是使用评估样本集对神经网络进行训练后获得的，其中，评估样本集包括评估样本和评估样本对应的标签，评估样本包括已知数据，评估样本对应的标签包括已知数据对应的场景相关度。其中，评估样本的标签可以是根据评估标准确定的，评估标准可包括但不限于评估样本是否包含目标、包含目标数量、样本置信度中的一个或者多个，还可以包括其他评估标准，这里不一一举例说明。

需要说明的，评估单元203可以使用通用的评估模型确定每个数据对应的场景相关度，或者，根据用户选择的场景信息确定与业务场景对应的评估模型，应理解，不同的业务场景下数据的场景相关度的评估标准可能存在差异，因此可以使用业务场景对应的评估模型进行数据的场景相关度评估，从而提高数据的场景相关度的获取的准确性。举例来说，目标识别场景下，样本中目标数量越多，样本场景相关度越高，目标检测场景下，目标边界框的置信度越高，样本场景相关度越高，应理解，上述举例用于说明，本申请不作具体限定。

在一实施例中，上述评估标准还可包括数据采集装置200的设备状态，设备状态差时，样本的场景相关度较低，设备状态可包括但不限于数据采集装置200的传感器是否发生损坏，数据采集装置200是否处于异常状态等等。举例来说，数据采集装置200是园区机器人，那么异常状态可以包括园区机器人的运动路线发生严重偏移。应理解，上述举例用于说明，本申请不作具体限定。

举例来说，目标检测场景下的评估标准可包括样本的置信度、样本中的目标数量、样本采集时的设备状态是否异常等等，如果样本是多模态数据，比如摄像头采集的图像数据和激光传感器采集的激光数据，那么该评估标准还可包括图像数据与激光数据之间的目标匹配度，应理解，上述举例用于说明，本申请不作具体限定。

在一实施例中，客户端100的策略下发单元102可以获取用户下发的采集策略，并将其发送给数据采集装置200，数据采集装置200的评估单元203可以结合用户下发的采集策略进一步确定第一数据的场景相关度。

具体实现中，评估单元203可以在第一数据符合采集策略的情况下，将第一数据输入评估模型获得第一数据的场景相关度，或者，评估单元203可以将第一数据输入评估模型获得第一场景相关度，根据采集策略获得第二场景相关度，根据第一场景相关度和第二场景相关度获得第一数据的场景相关度。其中，第一场景相关度和第二场景相关度的获取可以是同时进行的，也可以是先后进行的，本申请不作具体限定。

可选地，采集策略可以包括目标样本特征，以目标检测场景为例，假设用户需要优先采集“消防栓”样本图像，那么采集策略可以包括“消防栓”样本的纹理特征，其中，纹理特征用于描述图像中目标的表面性质，例如图像纹理的粗细、稠密等特征。常见的纹理特征有灰度共生矩阵特征、自回归纹理模型特征、Tamura纹理特征、小波变换特征等，本申请不作具体限定。

具体实现中，评估单元203接收到携带有目标样本特征的采集策略之后，可以根据第一数据的特征与目标样本特征之间的相似度的大小，确定第一数据的场景相关度。比如相似度越大，场景相关度越高，相似度越低，场景相关度越低，最后根据相似度确定第一数据的第二场景相关度，根据评估模型的输出值确定第一数据的第一场景相关度，然后根据第一场景相关度和第二场景相关度获得第一数据的场景相关度。或者，评估单元203可以在确定第一数据的特征与目标样本特征之间的相似度高于阈值标准的情况下，将第一数据输入评估模型获得第一数据的场景相关度，其中，上述阈值标准可以是用户输入的采集策略中携带的，也可以是数据采集装置200预设的阈值标准，本申请不作具体限定。

可选地，采集策略可以包括目标采集条件，在目标采集条件下采集到的数据的场景相关度高，非目标采集条件下采集到的数据的场景相关度低，或者，非目标采集条件下采集到的数据不进行场景相关度评估，比如场景相关度为0，只将目标采集条件下采集到的数据输入评估模型进行场景相关度评估。举例来说，用户需求采集环境温度高于40摄氏度时目标传感器采集的样本，那么对于环境温度低于40摄氏度时目标传感器采集的样本不进行场景相关度评估。

可选地，采集策略可包括优先级信息，其中，优先级高的数据的场景相关度高于优先级低的数据，数据上传时，场景相关度高的数据比场景相关度低的数据优先上传。换句话说，优先级得低的数据可以在优先级高的数据采集完之后，再进行采集，举例来说，用户需求难例样本进行模型训练，那么用户下发的采集策略中难例样本的优先级高于非难例样本，此时可以先上传难例样本，然后再上传非难例样本，本申请不作具体限定。再举例来说，用户当前训练的业务模型的识别精度较差，需要优先采集元素丰富的样本，那么用户下发的采集策略中元素丰富的数据的优先级高于元素单一的数据，那么元素丰富的数据的场景相关度高于元素单一的数据的场景相关度。其中，元素丰富的数据指的是目标传感器采集到的数据中的目标数量高于阈值，这里的目标可以是用户所需的目标，也可以不是用户所需的目标，可以是识别出的目标，也可以是未知目标，本申请不作具体限定。举例来说，目标传感器包括激光传感器和图像传感器，目标传感器采集到的第一数据中，图像传感器采集并识别出场景中的物体A，激光传感器探测出场景中存在障碍物A、B以及C，也就是说，物体A是已知目标，物体B和C是未知目标，那么第一数据属于元素丰富的数据，应理解，上述举例用于说明，在不同的应用场景下，用户可以灵活设置场景所需的优先级信息，这里不一一举例说明。

可选地，采集策略可包括上传逻辑，上传逻辑可包括实时上传、资源占用低时上传、定时上传、周期间隔上传等等，本申请不作具体限定。举例来说，对于业务模型迭代要求及时的场景，用户可以输入的采集策略可包括实时上传，对于业务模型要求优先保证使用者体验的场景，用户输入的采集策略可以包括资源占用较低时上传，具体实现中，数据采集装置200可以获取本地资源状态，包括内存、CPU、网络占用等，在资源状态降低的情况下进行打包和上传。应理解，上述上传逻辑用于举例说明，在不同的应用场景下，用户可以灵活设置场景所需的上传逻辑，这里不一一举例说明。

在一实施例中，用户的采集策略可以以指令的形式下发至评估单元203，该指令可包括多个参数，一个参数对应一种上传策略，比如参数1对应上传逻辑，参数2对应优先级信息，参数3对应目标指标，参数4对应目标采集条件，参数5对应目标样本特征等等，这里不一一举例说明。携带有采集策略的指令下发至评估单元203之后，评估单元可以根据指令中的参数确定用户下发的采集策略，比如指令包括参数1和参数5，那么可根据参数1的值确定上传逻辑，比如资源占用低时上传，根据参数5的值确定目标样本特征，比如“消防栓”的纹理特征，然后根据采集策略和评估模型确定多个数据中每个数据的场景相关度。应理解，上述举例用于说明，本申请不作具体限定。

需要说明的，用户也可以不输入采集策略，数据采集装置200可以根据评估模型，确定每个数据的场景相关度，当数据采集装置200接收到用户输入的采集策略时，再结合采集策略和评估模型确定每个数据的场景相关度，本申请不对此进行具体限定。

上传单元204可以根据多个数据中每个数据的场景相关度，确定样本集，将样本集上传至服务器300。

可选地，样本集可以包括场景相关度高于阈值的数据，上传单元204将场景相关度高于阈值的数据上传至服务器300，或者，样本集中的数据是上传单元204按照数据的场景相关度对数据进行排序后获得的，场景相关度高的数据的上传顺序早于场景相关度低的数据，具体可根据用户的采集策略确定。举例来说，若用户的采集策略中没有设置优先级信息，此时可以将场景相关度高于阈值的数据统一上传至服务器300，若用户采集策略中设置有优先级信息，此时可以按照数据的场景相关度对数据进行排序，场景相关度高的数据被优先上传至服务器300。应理解，上述举例用于说明，本申请不作具体限定。

可选地，上传单元204可以先将样本集存储于数据采集装置200的存储器中，该存储器与服务器300建立通信连接，使得服务器300可以基于用户的上报策略获取存储器中的样本集，其中，上述存储器可以是可移动存储介质，比如数据采集装置200的U盘、移动硬盘、软盘、光盘、存储卡等等，本申请不作具体限定。

可选地，上传单元204也可以对样本集进行标注，获得样本集中每个数据的标签，该标签可以是人工标注的标签也可以是机器标注的标签，具体可根据数据采集装置200的处理能力决定，本申请不作具体限定，

在一实施例中，评估单元203确定多个数据中每个数据的场景相关度之后，上传单元204可以通过客户端100向用户显示每个数据的场景相关度，用户可以根据业务需求选择样本集中的数据，然后将样本集上传至服务器300，本申请不作具体限定。

服务器300的模型训练单元301可以接收数据采集装置200上报的样本集。使用上述样本集对业务模型进行训练，获得训练结果。具体实现中，上述业务模型是用户正在训练的模型，模型可以是机器学习模型，具体可以是人工神经网络模型、贝叶斯网络模型、决策树模型、向量机模型、随机森林模型、关联规则模型中的一种或者多种，还可以是其他类型的机器学习模型，这里不一一举例说明。

可选地，上传单元204没有对样本集进行标注，模型训练单元301也可以对样本集进行标注。具体实现中，可以是人工标注也可以是机器标注，本申请不作具体限定。

服务器300的策略更新单元302可以根据业务模型的训练结果确定更新后的采集策略。

具体实现中，业务模型是用户正在训练的模型，该模型的训练过程可以包括多个训练阶段，每个训练阶段所需的样本的采集策略可能存在差异，策略更新单元302可以存储业务模型每个训练阶段所需的采集策略，根据业务模型当前的训练结果，确定下一个训练阶段所需要的采集策略，获得更新后的采集策略。

举例来说，业务模型下一个训练阶段为增量学习阶段，在增量学习阶段需求更多难例样本，此时策略更新单元302可以根据增量学习阶段的采集策略获得更新后的采集策略，将更新后的采集策略发送给数据采集装置200，使得数据采集装置200可以根据更新后的采集策略对目标传感器采集到的新数据进行场景相关度评估。其中，更新后的采集策略可以包括优先级信息，该优先级信息包括优先采集难例样本的信息。应理解，上述举例用于说明本申请不作具体限定。

需要说明的，也可以根据业务模型的训练结果和当前样本的数据维度，获取新的采集策略，其中，新的采集策略用于获取关联数据，该关联数据的数据维度与当前样本的数据维度不同，比如当前样本是单模态数据，关联数据是多模态数据。举例来说，当前样本的数据维度是单模态的数据，比如只有摄像头采集的视频帧，业务模型为识别消防栓的模型，模型的训练结果显示模型预测的准确率较低，此时需要更多的样本，策略更新单元302可以基于此获取关联数据，比如激光采集的样本以及雷达采集的样本，关联样本可以提高模型的预测能力。应理解，上述举例用于说明，本申请不作具体限定。

可选地，策略更新单元302可以向用户显示业务模型的训练结果，接收用户输入的更新后的采集策略。当然，用户也可以通过客户端100的策略下发单元102向数据采集装置200发送新的采集策略，本申请不作具体限定。

举例来说，业务模型是训练完毕后，用户根据业务模型的训练结果，认为业务模型对A类别的样本识别能力很高，但是对B类别的样本识别能力较差，而当前业务场景正好需求业务模型拥有对B类别的样本识别能力，用户希望可以获取更多B类别的样本对业务模型进行进一步的训练。此时用户可以通过客户端100输入新的采集策略，新的采集策略中包括目标样本特征，即B类别样本的纹理特征，还可包括优先级信息，即B类别样本优先采集的信息，然后客户端100可以通过策略下发单元102将上述新的采集策略发送给数据采集装置200，使其优先采集B类别的数据至服务器300，服务器300对B类别的数据进行标注后即可获得B类别的样本。应理解，上述举例用于说明，用户也可以通过服务器300中的策略更新单元302输入新的采集策略，本申请不作具体限定。

综上可知，本申请提供了一种数据采集系统，该系统中的数据采集装置可以获取用户输入的场景信息，该场景信息包括用户所需训练的模型对应的业务场景的信息，然后根据场景信息确定至少一个传感器中的目标传感器，使用目标传感器进行数据采集获得多个数据，再根据场景信息确定多个数据中每个数据的场景相关度，向用户发送用于训练上述模型的样本集，其中，样本集是根据每个数据的场景相关度确定的，使得样本集中的数据是与业务场景相关的数据，将样本集中的数据上传至服务器，可以避免与业务场景无关的数据被上传至服务器，从而减轻数据传输和存储的压力，提高模型训练效率。

图2是本申请提供的一种数据采集方法的流程示意图，该方法可应用于如图1所示的数据采集系统中，如图2所示，该方法可包括以下步骤。

步骤S201：数据采集装置200向客户端100上报传感器信息。该步骤可以由图1实施例中的上报能力单元201实现。其中，数据采集装置200和客户端100的描述可参考图1实施例，这里不重复赘述。

可选地，传感器信息可包括数据采集装置200中传感器的参数信息，比如分辨率、灵敏度、线性范围、稳定性、精度、频率响应特性、采样频率等等，本申请不作具体限定。应理解，不同传感器的参数信息类型可能不同，本申请不作具体限定。

具体实现中，数据采集装置200可以在首次于客户端100建立通信连接后，向客户端100上报传感器信息，或者，在接收到客户端100发起的上报请求之后，向客户端100上报传感器信息，或者，在数据采集装置200的传感器信息发生更新后，将更新后的传感器信息上报给客户端，本申请不作具体限定。

步骤S202：客户端100向数据采集装置200发送用户输入的场景信息。该步骤可以由图1实施例中的场景确认单元101实现。

具体实现中，场景信息可以是用户所需的业务场景的信息，比如业务场景的名称、编号、缩写等等，本申请不作具体限定。用户所需的业务场景可包括但不限于图像识别、语音识别、文字识别、图像检测等等，本申请不作具体限定。

具体实现中，客户端100可以根据传感器信息确定该传感器信息可实现的一个或者多个场景，然后向用户展示的上述一个或者多个场景后，获取用户从中选择的场景信息。或者，用户也可以根据客户端100展示的传感器信息，自行输入场景信息，本申请不作具体限定。具体实现中，客户端100可以通过可视化界面向用户展示多个场景信息以供选择，也可以通过API输入场景信息，本申请不作具体限定。

步骤S203：数据采集装置200根据场景信息确定目标传感器。该步骤可以由图1实施例中的采集单元202实现。其中，目标传感器的数量可以是一个或者多个。

可选地，在目标传感器的数量为多个时，使用目标传感器采集的多个数据可包括同一时刻下多个目标传感器采集的多个数据。具体地，可以对多个目标传感器采集到的数据进行数据对齐操作后，获得上述多个数据。应理解，由于不同目标传感器的采集频率存在差异，因此可以对多个目标传感器采集的数据进行数据对齐处理，获得上述多个数据。

步骤S204：数据采集装置200使用目标传感器采集多个数据。该步骤可以由图1实施例中的采集单元202实现。

步骤S205：客户端100向数据采集装置200发送用户输入的采集策略。该步骤可以由图1实施例中的策略下发单元102实现。

可选地，采集策略可以包括目标样本特征，以目标检测场景为例，假设用户需要优先采集“消防栓”样本图像，那么采集策略可以包括“消防栓”样本的纹理特征，其中，纹理特征用于描述图像中目标的表面性质，例如图像纹理的粗细、稠密等特征。常见的纹理特征有灰度共生矩阵特征、自回归纹理模型特征、Tamura纹理特征、小波变换特征等，本申请不作具体限定。其中，数据的样本特征与目标样本特征越相似，该数据的场景相关度越高。

在一实施例中，用户的采集策略可以以指令的形式下发至数据采集装置200，该指令可包括多个参数，一个参数对应一种上传策略，比如参数1对应上传逻辑，参数2对应优先级信息，参数3对应目标指标，参数4对应目标采集条件，参数5对应目标样本特征等等，这里不一一举例说明。携带有采集策略的指令下发至数据采集装置200之后，评估单元可以根据指令中的参数确定用户下发的采集策略，比如指令包括参数1和参数5，那么可根据参数1的值确定上传逻辑，比如资源占用低时上传，根据参数5的值确定目标样本特征，比如“消防栓”的纹理特征，然后根据采集策略和评估模型确定多个数据中每个数据的场景相关度。应理解，上述举例用于说明，本申请不作具体限定。

需要说明的，用户也可以不输入采集策略，也就是说，步骤S205可以省略，数据采集装置200可以根据评估模型，确定每个数据的场景相关度，当数据采集装置200接收到用户输入的采集策略时，再结合采集策略和评估模型确定每个数据的场景相关度，本申请不对此进行具体限定。

步骤S206：数据采集装置200确定每个数据的场景相关度。该步骤可以由图1实施例中的评估单元203实现。

具体实现中，数据采集装置200可以对多个数据中任意一个第一数据执行以下步骤：在第一数据符合采集策略的情况下，将第一数据输入评估模型获得第一数据的场景相关度，或者，将第一数据输入评估模型获得第一场景相关度，根据采集策略获得第二场景相关度，根据第一场景相关度和第二场景相关度获得第一数据的场景相关度。其中，第一场景相关度和第二场景相关度的获取可以是同时进行的，也可以是先后进行的，本申请不作具体限定。

具体实现中，评估模型可以是使用评估样本集对神经网络进行训练后获得的，其中，评估样本集包括评估样本和评估样本对应的标签，评估样本包括已知数据，评估样本对应的标签包括已知数据对应的场景相关度。其中，评估样本的标签可以是根据评估标准确定的，评估标准可包括但不限于评估样本是否包含目标、包含目标数量、样本置信度中的一个或者多个，还可以包括其他评估标准，这里不一一举例说明。

需要说明的，数据采集装置200可以使用通用的评估模型确定每个数据对应的场景相关度，或者，根据用户选择的场景信息确定与业务场景对应的评估模型，应理解，不同的业务场景下数据的场景相关度的评估标准可能存在差异，因此可以使用业务场景对应的评估模型进行数据的场景相关度评估，从而提高数据的场景相关度的获取的准确性。举例来说，目标识别场景下，样本中目标数量越多，样本场景相关度越高，目标检测场景下，目标边界框的置信度越高，样本场景相关度越高，应理解，上述举例用于说明，本申请不作具体限定。

在一实施例中，上述评估标准还可包括数据采集装置200的设备状态，设备状态差时，样本的场景相关度较低，设备状态可包括但不限于数据采集装置200的传感器是否发生损坏，数据采集装置200是否处于异常状态等等。举例来说，数据采集装置200是园区机器人，那么异常状态可以包括园区机器人的运动路线发生严重偏移。

步骤S207：数据采集装置200根据每个数据的场景相关度确定样本集。该步骤可以由图1实施例中的上传单元204实现。

可选地，样本集可以包括场景相关度高于阈值的数据，数据采集装置200将场景相关度高于阈值的数据上传至服务器300，或者，样本集中的数据是数据采集装置200按照数据的场景相关度对数据进行排序后获得的，场景相关度高的数据的上传顺序早于场景相关度低的数据，具体可根据用户的采集策略确定。举例来说，若用户的采集策略中没有设置优先级信息，此时可以将场景相关度高于阈值的数据统一上传至服务器300，若用户采集策略中设置有优先级信息，此时可以按照数据的场景相关度对数据进行排序，场景相关度高的数据被优先上传至服务器300。应理解，上述举例用于说明，本申请不作具体限定。

可选地，数据采集装置200可以先将样本集存储于数据采集装置200的存储器中，该存储器与服务器300建立通信连接，使得服务器300可以基于用户的上报策略获取存储器中的样本集，其中，上述存储器可以是可移动存储介质，比如数据采集装置200的U盘、移动硬盘、软盘、光盘、存储卡等等，本申请不作具体限定。

可选地，数据采集装置200也可以对样本集进行标注，获得样本集中每个数据的标签，该标签可以是人工标注的标签也可以是机器标注的标签，具体可根据数据采集装置200的处理能力决定，本申请不作具体限定，

在一实施例中，数据采集装置200确定多个数据中每个数据的场景相关度之后，可以通过客户端100向用户显示每个数据的场景相关度，用户可以根据业务需求选择样本集中的数据，然后将样本集上传至服务器300，本申请不作具体限定。

步骤S208：数据采集装置200上传样本集至服务器300。该步骤可以由图1实施例中的上传单元204实现。

步骤S209：服务器300使用样本集训练模型，获得训练结果。该步骤可以由图1实施例中的模型训练单元301实现。

可选地，若服务器300接收到的样本集是未标注的样本集，也就是说，数据采集装置200没有对样本集进行标注，服务器300也可以对样本集进行标注。具体实现中，可以是人工标注也可以是机器标注，本申请不作具体限定。

服务器300可以使用上述样本集对业务模型进行训练，获得训练结果。具体实现中，上述业务模型是用户正在训练的模型，模型可以是机器学习模型，具体可以是人工神经网络模型、贝叶斯网络模型、决策树模型、向量机模型、随机森林模型、关联规则模型中的一种或者多种，还可以是其他类型的机器学习模型，这里不一一举例说明。

步骤S210：服务器300根据训练结果确定新的采集策略。该步骤可以由图1实施例中的策略更新单元302实现。

具体实现中，业务模型是用户正在训练的模型，该模型的训练过程可以包括多个训练阶段，每个训练阶段所需的样本的采集策略可能存在差异，服务器300可以存储业务模型每个训练阶段所需的采集策略，根据业务模型当前的训练结果，确定下一个训练阶段所需要的采集策略，获得更新后的采集策略。

举例来说，业务模型下一个训练阶段为增量学习阶段，在增量学习阶段需求更多难例样本，此时服务器300可以根据增量学习阶段的采集策略获得更新后的采集策略，将更新后的采集策略发送给数据采集装置200，使得数据采集装置200可以根据更新后的采集策略对目标传感器采集到的新数据进行场景相关度评估。其中，更新后的采集策略可以包括优先级信息，该优先级信息包括优先采集难例样本的信息。应理解，上述举例用于说明本申请不作具体限定。

需要说明的，也可以根据业务模型的训练结果和当前样本的数据维度，获取新的采集策略，其中，新的采集策略用于获取关联数据，该关联数据的数据维度与当前样本的数据维度不同，比如当前样本是单模态数据，关联数据是多模态数据。举例来说，当前样本的数据维度是单模态的数据，比如只有摄像头采集的视频帧，业务模型为识别消防栓的模型，模型的训练结果显示模型预测的准确率较低，此时需要更多的样本，服务器300可以基于此获取关联数据，比如激光采集的样本以及雷达采集的样本，关联样本可以提高模型的预测能力。应理解，上述举例用于说明，本申请不作具体限定。

步骤S211：服务器300向数据采集装置200发送新的采集策略。该步骤可以由图1实施例中的策略更新单元302实现。

步骤S212：客户端100向数据采集装置200发送用户输入的新的采集策略。

可选地，服务器300可以向用户显示业务模型的训练结果，接收用户输入的更新后的采集策略。当然，用户也可以通过客户端100的策略下发单元102向数据采集装置200发送新的采集策略，本申请不作具体限定。

为了使本申请的有益效果能够被更好地理解，下面集合具体的应用场景对上述步骤S201～步骤S212进行举例说明。

假设数据采集装置200为园区机器人，客户端100为用户的个人计算机，服务器300是公有云中的云服务器，用户通过公有云的控制台购买了云服务后获得远程控制服务器300的权限。该应用场景下，园区机器人在执行巡检任务中，作为园区物管人员的用户有以下业务需求：用户希望园区机器人拥有AI感知技能，使得园区机器人在园区内巡逻时，可以感知园区内环境中的各种实体。这里的AI感知技能可以是一个深度学习模型，该深度学习模型可根据园区机器人采集的各种样本进行增量学习。

首先，数据采集装置200执行步骤S201，将传感器信息上报给客户端100，客户端100可以向用户显示如图3所示的用户界面，图3是本申请提供的一种配置页面的示例图，应理解，图3用于举例说明，本申请不对用户界面进行具体限定。示例性地，图3所示的配置页面310可包括传感器信息显示区域320、场景信息输入区域330以及控件340。

示例性地，如图3所示，传感器信息显示区域320用于显示传感器信息，传感器信息可包括数据采集装置200(本应用场景下即为园区机器人)所拥有的全部传感器的名称以及参数信息，比如园区机器人的传感器可包括：图像传感器1、图像传感器2、激光传感器1、雷达传感器1等等，其中，图像传感器1的参数信息包括像素、帧率、信噪比、感光度等等，应理解，图3示例性的给出了数据采集装置200可能拥有的传感器名称和参数信息，实际应用场景中，数据采集装置200上报的传感器信息还可以包括更多类型的传感器以及更丰富的参数，这里不一一举例说明。

接着，客户端100可以执行步骤S202，接收用户输入的场景信息，并将其发送给数据采集装置200，数据采集装置200可以执行步骤S203，确定场景信息对应的目标传感器。示例性地，如图3所示，场景信息输入区域330用于供用户输入场景信息，用户可以通过图3所示的用户界面输入场景信息，假设用户选择的场景信息为“目标检测”场景，数据采集装置200接收到客户端100反馈的场景信息之后，可以根据预先存储的场景信息与目标传感器之间的对应关系，确定“目标检测”场景对应的一个或者多个目标传感器，示例性地，如图3所示，客户端100可以向用户显示“目标检测”场景对应的目标传感器为图像传感器1、图像传感器2、激光传感器1等等。当然，数据采集装置200确定目标传感器之后也可以不用通过客户端100将其反馈给用户，本申请不对此进行限定。应理解，图3示例性的给出了几种可供选择的场景信息，比如语音识别、文字识别等等，具体实现中，客户端100可以向用户提供更多类型的场景信息，这里不一一举例说明。

需要说明的，用户也可以自行上传场景信息，比如点击图3中的“自定义场景信息”控件，输入自定义的场景信息，还可以对自行上传的场景信息对应的目标传感器进行自定义，比如点击图3中的“自定义目标传感器”控件，输入该自定义场景信息对应的目标传感器。具体实现中，用户可通过API输入场景信息和目标传感器，本申请不作具体限定。

应理解，用户通过选择或者自定义场景信息之后，可以点击控件340进行保存，客户端100可以将用户输入的场景信息发送给数据采集装置200。

进一步地，数据采集装置200可以执行步骤S204，使用目标传感器采集多个数据，在图3所示的应场景下，数据采集装置200可以使用图像传感器1、图像传感器2以及激光传感器采集多个数据，然后通过数据对齐操作对图像传感器1、图像传感器2以及激光传感器采集的多个数据进行对齐，获得同一时刻、同一场景下的多模态数据，一个模态对应一个传感器，将这些同一时刻、同一场景下的数据归纳成为集合，并且为其建立索引。具体可参考前述内容中关于步骤S204的描述，这里不重复展开赘述。

进一步地，数据采集装置200可以执行步骤S206，根据场景信息和目标传感器采集的多个数据，确定每个数据的场景相关度，具体实现中，数据采集装置可以先根据场景信息确定对应的评估模型，然后将多个数据输入评估模型，获得每个数据的场景相关度。其中，该场景信息对应的评估模型是使用评估样本集对机器学习模型进行训练后获得的，该评估样本集中的评估样本以及对应的标签是根据评估标准确定的，该评估标准包括但不限于评估样本是否包含目标、包含目标数量、样本置信度、数据采集装置的状态信息等等，还可以包括其他评估标准，具体可参考前述步骤S206中的描述，这里不一一举例说明。

在图3所示的应用场景中，评估标准可包括激光传感器采集的激光数据的置信度、视频传感器采集的图像数据的置信度、激光数据和图像数据中包含的目标数量、激光数据和图像数据之间同一个目标的匹配度、数据采集装置200的融合速度和惯性测量单元(inertial measurement unit,IMU)角速度的异常状态识别结果等等，应理解，上述评估标准用于举例说明，本申请不作具体限定。

可选地，用户也可以根据业务需求，通过客户端100输入采集策略，客户端100可以执行步骤S205，将用户输入的采集策略发送给数据采集装置200，使得数据采集装置200执行步骤S206时，可以综合用户输入的采集策略以及步骤S202输入的场景信息，多维度确认目标传感器采集的数据的场景相关度，使得步骤S207确定的样本集不仅符合用户的业务场景，而且符合用户的业务需求，提高用户的使用体验。

示例性的，如图4所示，图4是本申请提供的另一种配置页面的示例图，如图4所示该配置页面410可包括采集策略输入区域420以及控件430。由图4可知，客户端100可以向用户显示可供选择的多个采集策略类型，比如目标样本特征、目标采集条件、优先级信息、上传逻辑等等。示例性地，用户选择目标样本特征之后，客户端100可以向用户显示多种可供选择的目标，比如消防栓、灌木、电表等等，如果用户选择了消防栓作为目标，那么客户端100可以根据预先存储的消防栓的样本特征，比如消防栓的纹理特征，将其作为采集策略发送给数据采集装置200。再举例来说，用户选择优先级信息之后，客户端100可以向用户提供多种目标，用户可以根据业务需求为目标设置优先等级，比如图4中设置消防栓为优先等级1，表示用户希望数据采集装置可以优先上传消防栓的样本数据。再举例来说，用户还可以选择上传策略，比如闲时上传，用户可以定时闲时时刻，比如北京时间凌晨3点，或者，资源占用较低时上传，应理解，图4用于举例说明，本申请不作具体限定。

需要说明的，用户也可以自定义采集策略，或者，自定义每种类型的采集策略，比如自定义目标样本特征，或者自定义优先级信息，也可以自定义新的采集策略类型，本申请不作具体限定。具体实现中，用户自定义采集策略时可以通过编写API实现。用户选择或者自定义采集策略之后，可以通过控件430保存采集策略，使得客户端100将采集策略发送给数据采集装置200。

进一步地，数据采集装置200可以根据采集策略和场景信息，执行步骤S206和步骤S207，确定目标传感器所采集的多个数据中每个数据的场景相关度，从而确定样本集。确定数据场景相关度时，数据采集装置可以根据采集策略中“消防栓”的目标样本特征，即消防栓的激光纹理特征以及图像纹理特征，对采集的激光数据和图像数据进行检索，其中，激光数据与激光纹理特征之间的相似度越大，该激光数据的场景相关度越高，相反则场景相关度越低，同理，图像数据与图像纹理特征之间的相似度越大，该图像数据的场景相关度越高，相反则场景相关度越低，这里的相似度可以指的是特征匹配度。根据采集的数据的场景相关度，确定样本集，这里的样本集可以是将所有数据的场景相关度按照从大到小的顺序进行排列后获得的，比如样本集的数量为100万个数据，那么按数据的场景相关度从大到小排序后，从第1个到第100万个数据作为样本集中的数据。上述举例用于说明，本申请不作具体限定。

进一步地，数据采集装置200可执行步骤S208上传样本集，根据采集策略中的上传策略，即闲时上传策略，在用户定义的闲时时刻上传样本集至服务器300，比如北京时间3点。

最后，服务器使用用户指定的目标样本特征(消防栓)的采集策略对模型进行训练一段时间之后，根据模型的训练结果，比如增量学习对消防栓的识别效果达到预期，此时用户可以下发新的采集策略，比如用户希望模型能够识别更多类型的样本，那么用户可以更改采集策略中目标样本特征为“灌木”或者“电表”，客户端可以执行步骤S212下发新的采集策略至数据采集装置200，数据采集装置接收到新的采集策略之后，可以根据新的采集策略确定新的样本集，将符合用户新的采集策略的样本集上传至服务器。

可以理解的，上述方案可以灵活变更用户的采集策略，快速匹配用户所需的样本集，尽可能减少数据采集和上传带来的资源浪费，同时保证了用户所需的样本集的训练效果，提高用户的使用体验。

综上可知，本申请提供了一种数据采集方法，数据采集装置可以获取用户输入的场景信息，该场景信息包括用户所需训练的模型对应的业务场景的信息，然后根据场景信息确定至少一个传感器中的目标传感器，使用目标传感器进行数据采集获得多个数据，再根据场景信息确定多个数据中每个数据的场景相关度，向用户发送用于训练上述模型的样本集，其中，样本集是根据每个数据的场景相关度确定的，使得样本集中的数据是与业务场景相关的数据，将样本集中的数据上传至服务器，可以避免与业务场景无关的数据被上传至服务器，从而减轻数据传输和存储的压力，提高模型训练效率。

图5是本申请提供的一种计算设备的结构示意图，该计算设备500是图1至图4实施例中的客户端100、数据采集装置200或者服务器300。

进一步地，计算设备500包括处理器501、存储单元502、存储介质503和通信接口504，其中，处理器501、存储单元502、存储介质503和通信接口504通过总线505进行通信，也通过无线传输等其他手段实现通信。

处理器501由至少一个通用处理器构成，例如CPU、NPU或者CPU和硬件芯片的组合。上述硬件芯片是专用集成电路(Application-Specific Integrated Circuit，ASIC)、编程逻辑器件(Programmable Logic Device，PLD)或其组合。上述PLD是复杂编程逻辑器件(Complex Programmable Logic Device，CPLD)、现场编程逻辑门阵列(Field-Programmable Gate Array，FPGA)、通用阵列逻辑(Generic Array Logic，GAL)或其任意组合。处理器501执行各种类型的数字存储指令，例如存储在存储单元502中的软件或者固件程序，它能使计算设备500提供较宽的多种服务。

具体实现中，作为一种实施例，处理器501包括一个或多个CPU，例如图5中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算设备500也包括多个处理器，例如图5中所示的处理器501和处理器506。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储单元502用于存储程序代码，并由处理器501来控制执行，以执行上述图1-图5中任一实施例中程序运行装置、客户端或者服务端的处理步骤。程序代码中包括一个或多个软件单元。

在计算设备500为前述内容中的客户端100时，上述一个或多个软件单元是图1实施例中的场景确认单元和策略下发单元，其中，场景确认单元用于获取用户输入的场景信息，并将其发送给数据采集装置200，策略下发单元用于获取用户输入的采集策略，并将其发送给数据采集装置200。其中，场景确认单元用于执行图2实施例中的步骤S202及其可选步骤，策略下发单元用于执行图2中的步骤S205及其可选步骤，此处不再赘述。

在计算设备500为前述内容中的数据采集装置200时，上述一个或多个软件单元是图1实施例中的上报能力单元、采集单元、评估单元以及上传单元，其中，上报能力单元用于向客户端发送数据采集装置200的传感器信息，采集单元用于根据用户输入的场景信息确定目标传感器，使用目标传感器采集多个数据，评估单元用于根据场景信息和用户输入的采集策略确定多个数据的场景相关度，上传单元用于根据多个数据的场景相关度确定样本集，将样本集上传至服务器。其中，上报能力单元用于执行图2实施例中的步骤S201及其可选步骤，采集单元用于中行图2实施例中的步骤S203和步骤S204及其可选步骤，评估单元用于执行图2中的步骤S206及其可选步骤，上传单元用于执行图2中的步骤S207和步骤S208及其可选步骤，此处不再赘述。

在计算设备500为前述内容中的服务器300时，上述一个或多个软件单元是图1实施例中的模型训练单元以及策略更新单元，其中，模型训练单元用于接收数据采集装置发送的样本集，使用样本集对模型进行训练，获得训练结果，策略更新单元用于根据训练结果确定新的采策略，并将其发送给数据采集装置获得新的样本，其中，模型训练单元用于中行图2实施例中的步骤S209及其可选步骤，策略更新单元用于执行图2中的步骤S210、步骤S211及其可选步骤，此处不再赘述。

存储单元502包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储单元502还包括非易失性随机存取存储器。存储单元502是易失性存储器或非易失性存储器，或包括易失性和非易失性存储器两者。其中，非易失性存储器是只读存储器(read-only memory，ROM)、编程只读存储器(programmable ROM，PROM)、擦除编程只读存储器(erasable PROM，EPROM)、电擦除编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。还是硬盘(hard disk)、U盘(universal serial bus，USB)、闪存(flash)、SD卡(secure digital memory Card,SD card)、记忆棒等等，硬盘是硬盘驱动器(hard disk drive,HDD)、固态硬盘(solid state disk,SSD)、机械硬盘(mechanical hard disk,HDD)等，本申请不作具体限定。

存储介质503是存储数据的载体，比如硬盘(hard disk)、U盘(universal serial bus，USB)、闪存(flash)、SD卡(secure digital memory Card,SD card)、记忆棒等等，硬盘可以是硬盘驱动器(hard disk drive,HDD)、固态硬盘(solid state disk,SSD)、机械硬盘(mechanical hard disk,HDD)等，本申请不作具体限定。

通信接口504为有线接口(例如以太网接口)，为内部接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect express,PCIe)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他服务器或单元进行通信。

总线505是快捷外围部件互联标准(Peripheral Component Interconnect Express，PCIe)总线，或扩展工业标准结构(extended industry standard architecture，EISA)总线、统一总线(unified bus，Ubus或UB)、计算机快速链接(compute express link，CXL)、缓存一致互联协议(cache coherent interconnect for accelerators，CCIX)等。总线505分为地址总线、数据总线、控制总线等。

总线505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线505。

需要说明的，图5仅仅是本申请实施例的一种可能的实现方式，实际应用中，计算设备500还包括更多或更少的部件，这里不作限制。关于本申请实施例中未示出或未描述的内容，参见前述图1-图4实施例中的相关阐述，这里不再赘述。

本申请实施例提供一种计算机集群，包括多个计算设备500，多个计算设备之间存在通信连接。其中，每个计算设备500可以是前述内容中的客户端100、数据采集装置200以及服务器300，具体实现中，客户端100、数据采集装置200以及服务器300可以分别部署于计算机集群中的不同的计算设备上，也可以部分部署于同一个计算设备，部分部署于其他计算设备上，本申请不作具体限定。

本申请实施例提供一种计算机存储介质，包括：该计算机存储介质中存储有指令；当该指令在计算设备上运行时，使得该计算设备执行上述图1至图5描述的数据采集方法。

上述实施例，全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例全部或部分地以计算机程序产品的形式实现。计算机程序产品包括至少一个计算机指令。在计算机上加载或执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机为通用计算机、专用计算机、计算机网络、或者其他编程装置。计算机指令存储在计算机读存储介质中，或者从一个计算机读存储介质向另一个计算机读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机读存储介质是计算机能够存取的任何用介质或者是包含至少一个用介质集合的服务器、数据中心等数据存储节点。用介质是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc,DVD)、或者半导体介质。半导体介质是SSD。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，轻易想到各种等效的修复或替换，这些修复或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种数据采集方法，其特征在于，所述方法应用于数据采集装置，所述方法包括：

所述数据采集装置获取用户输入的场景信息，其中，所述场景信息包括所述用户所需训练的模型对应的业务场景信息；

根据所述场景信息确定至少一个传感器中的目标传感器，使用所述目标传感器进行数据采集获得多个数据，所述目标传感器的数量为一个或者多个；

根据所述场景信息确定所述多个数据中每个数据的场景相关度，所述每个数据的场景相关度用于描述所述每个数据与所述业务场景之间的相关程度；

向所述用户发送用于训练所述模型的样本集，其中，所述样本集是根据所述每个数据的场景相关度确定的。
根据权利要求1所述的方法，其特征在于，所述样本集中的数据的场景相关度高于阈值，或者，所述样本集中的数据是根据所述多个数据的场景相关度对所述多个数据进行排序后获得的。
根据权利要求1或2所述的方法，其特征在于，在所述数据采集装置获取用户输入的场景信息之前，所述方法还包括：

所述数据采集装置向所述用户提供传感器信息，其中，所述传感器信息包括所述数据采集装置拥有的至少一个传感器的参数信息，所述传感器信息用于供所述用户确定所述场景信息。
根据权利要求1至3任一权利要求所述的方法，其特征在于，根据所述场景信息确定所述多个数据中每个数据的场景相关度之前，所述方法还包括：

获取所述用户输入的采集策略，其中，所述采集策略包括所述模型训练时所需的样本的目标样本特征；

所述根据所述场景信息确定所述多个数据中每个数据的场景相关度包括：

根据所述场景信息确定所述每个数据的第一场景相关度，根据所述采集策略确定所述每个数据的第二场景相关度，根据所述第一场景相关度和所述第二场景相关度确定所述每个数据的场景相关度，其中，所述每个数据的数据特征与所述目标样本特征之间的相似度越高，所述数据的第二场景相关度越高。
根据权利要求4所述的方法，其特征在于，所述采集策略包括目标采集条件，其中，所述样本集中数据的是在所述目标采集条件下采集的数据。
根据权利要求4或5所述的方法，其特征在于，所述采集策略包括数据的优先级信息，其中，优先级高的数据的场景相关度高于优先级低的数据的场景相关度。
根据权利要求4至6任一权利要求所述的方法，其特征在于，所述采集策略包括上传逻辑，所述上传逻辑包括实时上传、资源占用低时上传、定时上传、周期间隔上传中的任一种，所述方法还包括：根据所述上传逻辑将所述样本集上传至服务器，其中，所述服务器用于供所述用户训练所述模型。
根据权利要求4至7任一权利要求所述的方法，其特征在于，所述根据所述场景信息确定所述每个数据的第一场景相关度包括：

确定所述场景信息对应的评估模型，使用所述评估模型对所述数据进行场景相关度评估，确定所述数据的第一场景相关度，其中，不同场景信息对应不同的评估模型。
根据权利要求1至8任一权利要求所述的方法，其特征在于，向所述用户发送用于训练所述模型的样本集之后，所述方法还包括：

获取的新的采集策略，根据新的采集策略确定新的样本集，其中，所述新的采集策略是所述服务器使用所述样本集对所述模型训练后确定的，或者，所述新的采集策略是所述用户输入的。
一种数据采集装置，其特征在于，所述装置包括：

采集单元，用于获取用户输入的场景信息，其中，所述场景信息包括所述用户所需训练的模型对应的业务场景信息；

所述采集单元，用于根据所述场景信息确定所述至少一个传感器中的目标传感器，使用所述目标传感器进行数据采集获得多个数据，所述目标传感器的数量为一个或者多个；

评估单元，用于根据所述场景信息确定所述多个数据中每个数据的场景相关度；

上传单元，用于向所述用户发送用于训练所述模型的样本集，其中，所述样本集是根据所述每个数据的场景相关度确定的。
根据权利要求10所述的装置，其特征在于，所述样本集中的数据的场景相关度高于阈值，或者，所述样本集中的数据是根据所述多个数据的场景相关度对所述多个数据进行排序后获得的。
根据权利要求10或11所述的装置，其特征在于，所述装置包括上报能力单元，所述上报能力单元用于在所述数据采集装置获取用户输入的场景信息之前，向所述用户提供传感器信息，其中，所述传感器信息包括所述数据采集装置拥有的至少一个传感器的参数信息，所述传感器信息用于供所述用户确定所述场景信息。
根据权利要求10至12任一权利要求所述的装置，其特征在于，

所述采集单元还用于获取所述用户输入的采集策略，其中，所述采集策略包括所述模型训练时所需的样本的目标样本特征；

所述评估单元，用于根据所述场景信息确定所述每个数据的第一场景相关度，根据所述采集策略确定所述每个数据的第二场景相关度，根据所述第一场景相关度和所述第二场景相关度确定所述每个数据的场景相关度，其中，所述每个数据的数据特征与所述目标样本特征之间的相似度越高，所述数据的第二场景相关度越高。
根据权利要求13所述的装置，其特征在于，所述采集策略包括目标采集条件，其中，所述样本集中数据的是在所述目标采集条件下采集的数据。
根据权利要求13或14所述的装置，其特征在于，所述采集策略包括数据的优先级信息，其中，优先级高的数据的场景相关度高于优先级低的数据的场景相关度。
根据权利要求13至15任一权利要求所述的装置，其特征在于，所述采集策略包括上传逻辑，所述上传逻辑包括实时上传、资源占用低时上传、定时上传、周期间隔上传中的任一种；

所述上传单元用于根据所述上传逻辑将所述样本集上传至服务器，其中，所述服务器用于供所述用户训练所述模型。
根据权利要求13至16任一权利要求所述的装置，其特征在于，所述评估单元，用于确定所述场景信息对应的评估模型，使用所述评估模型对所述数据进行场景相关度评估，确定所述数据的第一场景相关度，其中，不同场景信息对应不同的评估模型。
根据权利要求10至17任一权利要求所述的装置，其特征在于，所述采集单元还用于获取的新的采集策略，根据新的采集策略确定新的样本集，其中，所述新的采集策略是所述服务器使用所述样本集对所述模型训练后确定的，或者，所述新的采集策略是所述用户输入的。
一种计算设备，其特征在于，所述计算设备包括处理器和存储器，所述存储器用于存储代码，所述处理器用于执行所述代码实现如权利要求1至9任一权利要求所述的方法。
一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算设备上运行时，使得所述计算设备执行如权利要求1至9任一权利要求所述的方法。