WO2016041442A1

WO2016041442A1 - 数据处理的方法和设备

Info

Publication number: WO2016041442A1
Application number: PCT/CN2015/088832
Authority: WO
Inventors: 王靓伟; 陈嘉
Original assignee: 华为技术有限公司
Priority date: 2014-09-16
Filing date: 2015-09-02
Publication date: 2016-03-24
Also published as: US20220036142A1; CN115690558A; EP3188081B1; US11093806B2; EP3188081A1; US20170185873A1; EP3188081A4; CN105488044A; US10452962B2; US20200097779A1

Abstract

本发明实施例提供一种数据处理的方法和设备，该方法包括：获取目标感知数据，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；确定该目标感知数据所属的目标场景；确定该目标场景对应的目标感知模型；根据该目标感知模型，计算该目标感知数据的识别结果。因此，本发明实施例的数据处理的方法和设备，通过确定感知数据所属的场景，利用该场景所对应的感知模型计算获得该感知数据的识别结果，相比现有技术，能够降低计算复杂度，从而能够提高数据处理的效率。

Description

数据处理的方法和设备

本申请要求于2014年9月16日提交中国专利局、申请号为201410471480.X、发明名称为“数据处理的方法和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及数据处理领域，并且更具体地，涉及一种数据处理的方法和设备。

背景技术

手机、可穿戴设备、机器人等终端设备，都存在从图像、视频、声音等感知数据中识别多种物体、声音、动作的需求。例如手机要进行拍照搜索，需要先识别出所拍照片中的目标物品，然后才可以搜索目标物品相关的信息。再例如，机器人要执行抓取目标物品的任务，需要先通过摄像头数据获取到目标物品在周围环境中的位置。

为了让终端设备具备广泛的识别能力，通常方法为：从大量已知样本数据训练出能区分各种物体、声音或动作的感知模型。针对每输入的新的图像、视频或声音，终端设备基于训练好的感知模型，可以计算出相应的识别结果。

随着需要识别的类型越来越多，并为了提高识别的准确率，用来识别感知数据的感知模型越来越复杂，例如感知模型的参数越来越多。如目前用于图像识别的卷积神经网络(Convolutional Neural Network，简称为“CNN”)模型的参数已经达到数千万，甚至数亿。目前，在许多应用中，为了提高用户体验，感知模型需要对各种给定场景下的大量的物体、动作、声音进行精准的识别，这对感知模型的准确度提出很大的挑战，当前技术中通常采用参数固定的感知模型完成所有的识别任务，则感知模型的复杂度将随着识别需求的细化而无限增加，从而会对存储和计算带来巨大挑战。

发明内容

本发明实施例提供一种数据处理的方法和设备，能够解决设备的计算能力与感知模型的复杂度之间的矛盾的问题。

第一方面提供了一种数据处理的方法，该方法包括：

获取目标感知数据，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

确定该目标感知数据所属的目标场景；

确定该目标场景对应的目标感知模型；

根据该目标感知模型，计算该目标感知数据的识别结果。

结合第一方面，在第一方面的第一种可能的实现方式中，确定该目标感知数据所属的目标场景，包括：

通过对该目标感知数据进行场景分析，确定该目标场景。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，该目标感知数据为在终端当前所处位置生成的数据；

其中，该通过对该目标感知数据进行场景分析，确定该目标场景，包括：

结合该终端当前所处位置的定位信息，对该目标感知数据进行场景分析，确定该目标场景。

结合第一方面，在第一方面的第三种可能的实现方式中，确定该目标感知数据所属的目标场景，包括：

向服务器发送用于请求该目标感知数据所属的场景的第一请求；

接收该服务器根据该第一请求发送的该目标场景。

结合第一方面和第一方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第一方面的第四种可能的实现方式中，确定该目标场景对应的目标感知模型，包括：

从预存的感知模型库中，确定该目标场景对应的该目标感知模型，该感知模型库中的每个感知模型分别对应一种场景。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，该方法还包括：

根据用户历史场景序列，更新该感知模型库，该更新后的感知模型库中包括该目标场景对应的该目标感知模型。

结合第一方面和第一方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第一方面的第六种可能的实现方式中，确定该目标场景对应的目标感知模型，包括：

当确定预存的感知模型库中没有该目标场景对应的感知模型时，向服务器发送用于请求该目标场景对应的感知模型的第二请求，该感知模型库中的每个感知模型分别对应一种场景；

接收该服务器根据该第二请求发送的该目标场景对应的该目标感知模型。

第二方面提供了一种数据处理的方法，该方法包括：

接收终端发送的用于请求目标感知数据所属的场景所对应的感知模型的请求消息，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

根据该请求消息，确定该目标感知数据所属的目标场景；

从预存的感知模型库中，确定该目标场景对应的目标感知模型，该感知模型库中的每个模型分别对应一种场景；

根据该请求消息，向该终端发送该目标感知模型，以便于该终端根据该目标感知模型计算该目标感知数据的识别结果。

结合第二方面，在第二方面的第一种可能的实现方式中，在接收到该请求消息之前，该方法还包括：

获取感知数据样本，该感知数据样本至少包括一部分具有场景标注信息和物品标注信息的感知数据；

根据该感知数据样本，训练不同场景分别对应的感知模型；

将该不同场景分别对应的感知模型存储到该感知模型库中，该感知模型库中包括该目标感知模型。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，根据该请求消息，确定该目标感知数据所属的目标场景，包括：

通过对该请求消息中包括的该目标感知数据进行场景分析，确定该目标感知数据所属的该目标场景。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，目标感知数据为在终端当前所处位置生成的数据；

其中，确定该目标感知数据所属的该目标场景，包括：

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第四种可能的实现方式中，根据该请求消息，确定该目标感知数据所属的目标场景，包括：

根据该请求消息中包括的用于指示该目标场景的标识，确定该目标场景。

第三方面提供了一种数据处理的设备，该设备包括：

获取模块，用于获取目标感知数据，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

第一确定模块，用于确定该获取模块获取的该目标感知数据所属的目标场景；

第二确定模块，用于确定该第一确定模块确定的该目标场景对应的目标感知模型；

计算模块，用于根据该第二确定模块确定的该目标感知模型，计算该获取模块获取的该目标感知数据的识别结果。

结合第三方面，在第三方面的第一种可能的实现方式中，该第一确定模块具体用于，通过对该目标感知数据进行场景分析，确定该目标场景。

结合第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，该目标感知数据为在终端当前所处位置生成的数据；

其中，该第一确定模块具体用于，结合该终端当前所处位置的定位信息，对该目标感知数据进行场景分析，确定该目标场景。

结合第三方面，在第三方面的第三种可能的实现方式中，该第一确定模块包括：

第一发送单元，用于向服务器发送用于请求该目标感知数据所属的场景的第一请求；

第一接收单元，用于接收该服务器根据该第一请求发送的该目标场景。

结合第三方面和第三方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第三方面的第四种可能的实现方式中，该第二确定模块具体用于，从预存的感知模型库中，确定该目标场景对应的该目标感知模型，该感知模型库中的每个感知模型分别对应一种场景。

结合第三方面的第四种可能的实现方式，在第三方面的第五种可能的实现方式中，该设备还包括：

更新模块，用于在该获取模块获取目标感知数据之前，根据用户历史场景序列，更新该感知模型库，该更新后的感知模型库中包括该目标场景对应的该目标感知模型。

结合第三方面和第三方面的第一种至第三种可能的实现方式中的任一种可能的实现方式，在第三方面的第六种可能的实现方式中，该第二确定模块包括：

第二发送单元，用于当确定预存的感知模型库中没有该目标场景对应的感知模型时，向服务器发送用于请求该目标场景对应的感知模型的第二请求，该感知模型库中的每个感知模型分别对应一种场景；

第二接收单元，用于接收该服务器根据该第二请求发送的该目标场景对应的该目标感知模型。

第四方面提供了一种数据处理的设备，该设备包括：

接收模块，用于接收终端发送的用于请求目标感知数据所属的场景所对应的感知模型的请求消息，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

第一确定模块，用于根据该接收模块接收的该请求消息，确定该目标感知数据所属的目标场景；

第二确定模块，用于从预存的感知模型库中，确定该第一确定模块确定的该目标场景对应的目标感知模型，该感知模型库中的每个模型分别对应一种场景；

发送模块，用于根据该接收模块接收的该请求消息，向该终端发送该第二确定模块确定的该目标感知模型，以便于该终端根据该目标感知模型计算该目标感知数据的识别结果。

结合第四方面，在第四方面的第一种可能的实现方式中，该设备还包括：

获取模块，用于在该接收模块接收到该请求消息之前，获取感知数据样本，该感知数据样本至少包括一部分具有场景标注信息和物品标注信息的感知数据；

训练模块，用于根据该感知数据样本，训练不同场景分别对应的感知模型；

存储模块，用于将该训练模块训练得到的该不同场景分别对应的感知模型存储到该感知模型库中，该感知模型库中包括该目标感知模型。

结合第四方面或第四方面的第一种可能的实现方式，在第四方面的第二种可能的实现方式中，该第一确定模块具体用于，通过对该请求消息中包括的该目标感知数据进行场景分析，确定该目标感知数据所属的该目标场景。

结合第四方面的第二种可能的实现方式，在第四方面的第三种可能的实现方式中，该目标感知数据为在终端当前所处位置生成的数据；

结合第四方面或第四方面的第一种可能的实现方式，在第四方面的第四种可能的实现方式中，该第一确定模块具体用于，根据该请求消息中包括的用于指示该目标场景的标识，确定该目标场景。

基于上述技术方案，本发明实施例的数据处理的方法和设备中，通过确定感知数据所属的场景，利用该场景所对应的感知模型计算获得该感知数据的识别结果，相比现有技术，能够降低计算复杂度，从而能够提高数据处理的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的数据处理的方法的示意性流程图。

图2示出了本发明另一实施例的数据处理的方法的示意性流程图。

图3示出了本发明另一实施例提供的训练感知模型的示意性流程图。

图4示出了本发明实施例的数据处理的设备的示意性框图。

图5示出了本发明实施例的数据处理的设备的另一示意性框图。

图6示出了本发明另一实施例的数据处理的设备的示意性框图。

图7示出了本发明另一实施例的数据处理的设备的另一示意性框图。

图8示出了本发明实施例提供的数据处理的设备的示意性框图。

图9示出了本发明另一实施例提供的数据处理的设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，本发明实施例的技术方案可以应用于各种通信系统，例如：通用移动通信系统(Universal Mobile Telecommunication System，简称为“UMTS”)、全球移动通讯(Global System of Mobile communication，简称为“GSM”)系统、码分多址(Code Division Multiple Access，简称为“CDMA”)系统、宽带码分多址(Wideband Code Division Multiple Access，简称为“WCDMA”)系统、通用分组无线业务(General Packet Radio Service，简称为“GPRS”)、长期演进(Long Term Evolution，简称为“LTE”)系统、LTE频分双工(Frequency Division Duplex，简称为“FDD”)系统、LTE时分双工(Time Division Duplex，简称为“TDD”)、通用移动通信系统(Universal Mobile Telecommunication System，简称为“UMTS”)或全球互联微波接入(Worldwide Interoperability for Microwave Access，简称为“WiMAX”)通信系统等。

还应理解，在本发明实施例中，终端也可称之为用户设备(User Equipment，简称为“UE”)、移动台(Mobile Station，简称为“MS”)、移动终端(Mobile Terminal)等，该终端可以经无线接入网(Radio Access Network，简称为“RAN”)与一个或多个核心网进行通信，例如，终端可以是移动电话(或称为“蜂窝”电话)或具有移动终端的计算机等，例如，终端还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据，具体地，该终端可以是手机、可穿戴设备、机器人等设备。

目前技术中一般采用一个参数固定的感知模型完成所有的识别任务，例如对在超市、医院或厨房生成的感知数据，都采用同一个感知模型执行识别任务。随着要识别的对象类型越来越多、对识别准确度的要求越来越高，导致感知模型的参数越来越多，如目前用于图像识别数万类物体的CNN模型的参数已经达到数千万，甚至数亿，这必然使得感知模型的计算复杂度大大增加，同时对感知模型的存储空间也提出挑战。

针对上述存在的问题，本发明提出一种数据处理的方法，在训练感知模型的过程中，考虑场景的因素，生成不同场景各自的感知模型；在对感知数据识别计算的过程中，首先确定该感知数据所属于的场景，然后获取该场景对应的感知模型，最后，利用该感知数据所属场景对应的感知模型，计算感知数据的识别结果。

由于每个场景中出现的对象类型有限，例如对于室外场景或者城市场景，可能需要识别人、车、建筑、或文字等对象，但基本不会出现各种动物和植物的识别需求。换句话说，每种场景中经常出现的需要识别的对象类别数都是相对较少的，相应地，每个场景各自对应的感知模型的模型参数也相对较少，从而，每个场景对应的感知模型的计算复杂度大大减小，而且也不会对存储空间有很高的需求。因此，本发明提出的数据处理的方法，能够在保持甚至提高数据识别的准确度的前提下，大大简化感知模型的复杂度和计算量，从而解决了终端计算能力与模型的复杂度之间矛盾，能够有效提高识别能力。

为了便于本领域技术人员更好地理解本发明的技术方案，下面以一个具体的例子介绍本发明实施例的一个具体的应用场景。例如，用户在广场上拍照，可以利用手机根据该照片识别出花坛、咖啡馆、巴士等物体；再例如，用户在林间拍照，可以利用手机根据该照片识别出苜蓿、菊花、螳螂等物体。即本发明实施例提供的技术方案可以应用于以下，用户在各种场景下用手机拍照，手机从照片中识别各种物体，并返回物体的名称。应理解，上述的手机也可以是其他终端设备。

图1示出了本发明实施例的数据处理的方法100，该方法100例如由终端来执行。如图1所示，该方法100包括：

S110，获取目标感知数据，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据。

具体地，该目标感知数据可以为摄像头、麦克风、红外传感器或深度传感器等传感装置所测量或生成的数据；例如该目标感知数据为一张图片、或者一段视频，再或者一节录音等。

应理解，获取该目标感知数据的终端也可以是生成该目标感知数据的设备。可选地，在本发明实施例中，S110获取目标感知数据，包括：

在终端当前所处位置生成该目标感知数据。

具体地，例如，用户用手机在场景A拍照，并直接用手机识别处理所拍摄的照片。

还应理解，获取该目标感知数据的终端可以与生成该目标感知数据的设备是不同的设备。例如，用户用手机拍照(手机生成感知数据)，然后将照片上传到笔记本电脑中(笔记本电脑获取该感知数据，以进行后续的数据处理)，进行相应地处理。

S120，确定该目标感知数据所属的目标场景。

具体地，可以对该目标感知数据进行场景分析与识别，确定该目标感知数据所属的目标场景；也可以向服务器发送请求该目标感知数据所属的目标场景，本发明实施例对此不作限定。

可选地，在本发明实施例中，S120确定该目标感知数据所属的目标场景，包括：通过对该目标感知数据进行场景分析，确定该目标场景。

具体地，可以场景识别器对该目标感知数据进行场景分析，以确定该目标感知数据所属的目标场景。其中场景识别器可以是现有的场景分类模型，例如支持向量机(Support Vector Machine，简称为“SVM”)多分类器。具体地，以该目标感知数据为摄像头拍摄数据为例，从摄像头数据中抽取图像的全局特征(GIST)、稠密尺度不变特征转换(Dense Scale-invariant feature transform，简称为“Dense SIFT”)、或纹理直方图(Texton Histograms)等特征，将这些特征输入事先训练好的SVM多分类器，进行场景识别，输出场景类型，例如识别出场景为“广场”。

进一步地，在该目标感知模型为在终端当前所处位置生成的感知数据的情况下，还可以结合终端当前所处位置的定位信息，进一步限定该目标感知数据所属的场景。

可选地，在本发明实施例中，该目标感知数据为在终端当前所处位置生成的数据；

其中，S120通过对该目标感知数据进行场景分析，确定该目标场景，包括：结合该终端当前所处位置的定位信息，对该目标感知数据进行场景分析，确定该目标场景。

具体地，以目标感知数据为在终端当前所在的广场A所拍的照片为例，通过SVM多分类器对该目标感知数据进行场景分析，其识别结果为该目标感知数据所属的目标场景为广场；然后获取终端当前所在位置的定位信息(即广场A)，根据该定位信息，可以将该目标感知数据所属的目标场景由广场进一步限定为广场A。再例如，目标感知数据为在终端当前所在的厨房所拍的照片，通过SVM多分类器对该目标感知数据进行场景分析，其识别结果为该目标感知数据所属的目标场景为室内；然后获取终端当前所在位置的定位信息(即厨房)，根据该定位信息，可以将该目标感知数据所属的目标场景由室内进一步限定为厨房。

可知，在本发明实施例中，通过结合终端的定位信息，可以将目标感知数据所属的场景进一步限定到更小的时空区域，应理解，更加具体的、范围相对较小的场景，其对应的感知模型也将相应地更加简化，其计算复杂度也相对较小，后续基于该感知模型对感知数据的识别计算的计算量也相对较小。

应理解，在本发明实施例中，获取终端当前所在位置的定位信息的方法可以是下列方法中的任意一个，或者是多个方法的组合：通过wifi定位的方法、通过同步定位与地图构建(Simultaneous Localization and Mapping，简称为“SLAM”)功能定位的方法。其中，通过wifi定位的方法具体为：终端扫描和搜集周围wifi的无线接入点信号，获取MAC地址。由于通常来说，无线接入点在一定时间段内不会移动，因此，终端可以将MAC地址上报给位置服务器，位置服务器可以检索出事先保存的无线接入点的地理位置，并结合每个无线接入点信号的强弱程度，计算获得对应终端的地理位置，并将相应的定位信息下发给终端，这样终端就获取了当前所在位置的定位信息。SLAM技术具体指的是通过摄像头在运动过程中，重复观测的同时构建地图和确定自身位置，SLAM技术为现有技术，为了简洁，这里不再赘述。还可以采用其他定位方法获取终端当前所处位置的定位信息，例如GPS等，本发明实施例对此不作限定。

也可以向服务器发送请求该目标感知数据所属的目标场景。

可选地，在本发明实施例中，S120确定该目标感知数据所属的目标场景，包括：

接收该服务器根据该第一请求发送的该目标场景。

具体地，该第一请求中包括该目标感知数据，还可以包括该终端的标识。

S130，确定该目标场景对应的目标感知模型；

具体地，可以根据终端本地预存的感知模型库，确定该目标场景对应的该目标感知模型；还可以向网络侧服务器请求该目标场景对应的该目标感知模型，本发明实施例对此不作限定。

可选地，在本发明实施例中，S130确定该目标场景对应的目标感知模型，包括：

具体地，预存的感知模型库可以理解为终端本地用于缓存感知模型的一段存储区域，可选地，各个感知模型可以：场景标识(场景编号或场景或类型)+感知模型的存储形式存储在感知模型库，即感知模型库中的每个感知模型分别对应一种场景。例如，确定目标感知数据所属的目标场景为场景D，在终端本地缓存的感知模型库中具有场景D对应的感知模型d情况下，就可以直接从该感知模型库中获取到用于识别处理该目标感知数据的感知模型d。

应理解，终端在每次接收到服务器下发的感知模型后，可以将接收到的感知模型及其对应的场景标识缓存到该感知模型库中，以便后续使用；可选地，当确定该感知模型库的存储空间全部被占用时，可以删除最先缓存的感知模型，然后就将最新接收的感知模型缓存到该感知模型库中。

当确定终端本地缓存的感知模型库中没有目标感知数据所属的目标场景对应的目标感知模型时，可以向网络侧服务器请求该目标感知模型。

应理解，该第二请求包括用于指示该目标场景的标识，还可以包括该终端的标识。

可选地，在本发明实施例中，可以将接收到的该目标场景对应的该目标感知模型缓存到终端本地预存的感知模型库中，以便于下次需要获取该目标场景对应的目标感知模型时，可以直接从终端本地获取，而无需向服务器再次请求该目标感知模型。

S140，根据该目标感知模型，计算该目标感知数据的识别结果。

具体地，以目标感知数据为摄像头的图像数据为例，其所属的目标场景为广场为例，从预存的感知模型库中加载相应的目标感知模型，例如<piazza.model>，对摄像头的图像数据进行分析识别。识别过程如下：读取图像；用滑动窗口从原始图像中产生多个局部图像区域；将局部区域图像输入按照<piazza.model>文件中的链接权重参数配置的卷积神经网络(Convolutional Neural Networks，简称为“CNN”)，输出一到多个识别结果，如<花坛、长椅、游客、巴士、轿车、警察、儿童、气球、咖啡馆>。

应理解，S140的计算过程还可以根据深度学习网络(Deep Neural Networks，简称为“DNN”)等算法模型，计算识别结果。例如计算步骤为：将输入的感知数据依次进行数据块选择、神经网络各层级联卷积和抽样计算、分类矩阵计算，产生分类结果。

还应理解，S140中的计算过程，包括但并不限于完全在通用中央处理器(Central Processing Unit，简称为“CPU”)上执行；例如，以输入的感知数据为图像数据为例，该计算过程还可以部分在图形处理器(Graphic Processing Unit，简称为“GPU”)芯片上执行；再例如，如果输入的感知数据为声音数据或视频数据等，该计算过程可以部分在相应的专用芯片上执行，本发明实施例对此不作限定。

还应理解，在本发明实施例中，由于利用终端本地预存的感知模型计算获得感知数据的识别结果，避免了现有技术中存在的：服务器需要响应各个终端的感知数据识别的请求、并一一下发各个感知数据的识别结果，因此本发明实施例的数据处理的方法，能够有效降低网络侧服务器的计算负担和传输数据所需的带宽负担，同时还能够提高识别计算的速度。

因此，本发明实施例的数据处理的方法中，通过确定要识别的感知数据所属的场景，采用该场景对应的感知模型计算获取该感知数据的识别结果，相比现有技术，能够降低计算复杂度，从而能够提高数据处理的效率。

可选地，在本发明实施例中，在获取目标感知数据之前，该方法还包括：

S150，根据用户历史场景序列，更新该感知模型库，该更新后的感知模型库中包括该目标场景对应的该目标感知模型。

具体步骤如下：

S151，根据用户历史场景序列，预测即将识别的感知数据所属的场景。

例如，根据终端本地预存的感知模型库可获知，用户S在工作日一天的场景及其时间序列为：06:00卧室；7:00客厅；7:20街道；7:30高速；7:40园区车库；将上述场景及其时间序列作为条件随机场(Conditional Random Field，简称为“CRF”)算法模型的输入序列，预测得到在下一个最可能出现的场景及其概率，例如，办公室：0.83；会议室：0.14。

S152，向服务器请求即将识别的感知数据所属的场景对应的感知模型。

例如，向服务器发送用于请求办公室场景和会议室场景分别对应的感知模型的第三请求，该第三请求中包括用于指示办公室场景的标识和用于指示会议室场景的标识。

S153，接收该服务器发送的该即将识别的感知数据所属的场景对应的感知模型，并更新本地预存的感知模型库。

具体地，接收到服务器发送的办公室场景和会议室场景分别对应的感知模型，将该两个场景对应的感知模型以场景标识(编号或类型)+感知模型的形式存储到本地预存的感知模型库中。这样，当后续获取的感知数据所属的场景就是办公室时，就可以直接根据本地预存的感知模型库中获取到办公室对应的感知模型，进而根据该更新后的感知模型获取该感知数据的识别结果。

因此，在本发明实施例中，可以利用终端预存的各个场景对应的感知模型，计算获取到感知数据的识别结果，能够有效提高数据处理的效率。

下面将结合具体实施例对本发明进行进一步描述，需要理解的是，下面的实施例仅是为了帮助更好的理解本发明，而并非对本发明的限制。

执行主体以手机为例，以目标感知数据为在A广场拍摄的照片为例。

1)手机获取到该照片，以对其进行识别处理；

2)从照片中抽取GIST、Dense SIFT，Texton Histograms等特征，将这些这些特征输入事先训练好的场景分类模型(SVM多分类器)，进行场景识别，识别出场景为广场；

3)进一步地，获取终端当前所在的位置的定位信息；

4)结合该定位信息进一步将该照片的场景限定为A广场；

5)确定终端本地缓存的感知模型库中是否有A广场对应的感知模型，如果有，转到6)，如果没有，转到7)

6)在终端本地缓存的感知模型库中获取到A广场对应的感知模型，如<piazza.model>；转到9)

7)将识别出的场景，即A广场的标识(编号或类型)，手机ID和请求序列号，发送到网络侧的服务器，以请求该A广场的感知模型。

8)接收服务器发送的A广场对应的感知模型，如<piazza.model>，并将该收到的模型参数文件<piazza.model>缓存到手机的感知模型库中。如果缓存已满，按照更新策略，删除以前缓存的一些感知模型。

9)根据该感知模型<piazza.model>，对该照片的图像数据进行分析识别。具体识别过程如下：读取图像；用滑动窗口从原始图像中产生多个局部图像区域；将局部区域图像输入按照<piazza.model>文件中的链接权重参数配置的卷积神经网络，输出一到多个识别结果，如<花坛、长椅、游客、巴士、轿车、警察、儿童、气球、咖啡馆>。

再以执行主体以手机为例，以目标感知数据为在室内用户John的厨房拍摄的照片为例。

1)手机获取到该照片，以对其进行识别处理；

2)从照片中抽取GIST、Dense SIFT，Texton Histograms等特征，将这些这些特征输入事先训练好的场景分类模型(SVM多分类器)，进行场景识别，识别出场景为室内；

3)进一步地，通过wifi信号和SLAM功能可获得在手机在室内地图中精确位置，即用户John家的厨房。

4)结合该定位信息进一步将该照片的场景限定为厨房；

5)确定终端本地缓存的感知模型库中是否有厨房对应的感知模型，如果有，转到6)，如果没有，转到7)

6)在终端本地缓存的感知模型库中获取到厨房对应的感知模型，如<kitchen.model>；转到9)

7)将识别出的场景，即厨房的标识(编号或类型)，手机ID和请求序列号，发送到网络侧的服务器，以请求该厨房的感知模型。

8)接收服务器发送的厨房对应的感知模型，如<kitchen.model>，并将该收到的模型参数文件<kitchen.model>缓存到手机的感知模型库中。如果缓存已满，按照更新策略，删除以前缓存的一些感知模型。

9)根据该感知模型<kitchen.model>，对该照片的图像数据进行分析识别。具体识别过程如下：读取图像；用滑动窗口从原始图像中产生多个局部图像区域；将局部区域图像输入按照<kitchen.model>文件中的链接权重参数配置的卷积神经网络，输出一到多个识别结果，如<煤气灶、吸油烟机、碗柜、炒锅、勺子、调料盒>。

可选地，作为一个实施例，也可以直接通过向服务器发送目标感知数据已请求用于处理该目标感知数据的目标感知模型。

具体地，

1)，获取目标感知数据，该目标感知数据可以为下列数据中的任一种：图像数据、视频数据和声音数据；

2)，向服务器请求用于处理该目标感知数据的感知模型；

3)，接收该服务器在确定该目标感知数据所属的目标场景后，发送的该目标场景对应的该目标感知模型；

4)，根据该目标感知模型计算该目标感知数据的识别结果。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

还应理解，在本发明实施例中，在对目标感知数据进行识别处理时，先确定该目标感知数据所属的目标场景，然后采用该目标场景相对应的目标感知模型来计算获取该目标感知数据的识别结果，由于具体的场景其对应的感知模型对该场景内的对象的识别准确率较高，且相对于现有技术中的用于处理不同场景下感知数据的感知计算模型，本发明实施例中的各个场景各自对应的感知模型的计算复杂度大大降低，从而能够有效降低对计算能力的要求，同时提高数据处理的效率。还应理解，本发明实施例的数据处理的方法的执行主体可以是终端，也可以是服务器，还可以是终端和服务器的组合，本发明实施例对此不作限定。

因此，本发明实施例的数据处理的方法中，通过确定要识别的感知数据所属的场景，采用该场景对应的感知模型获取该感知数据的识别结果，相比现有技术，能够降低计算复杂度，从而能够提高数据处理的效率。

上文中结合图1，从终端的角度详细描述了根据本发明实施例的数据处理的方法，下面将结合图2和图3，从服务器的角度描述根据本发明实施例的数据处理的方法。

如图2所示，根据本发明实施例的数据处理的方法200，例如可以由服务器执行，该方法200包括：

S210，接收终端发送的用于请求目标感知数据所属的场景所对应的感知模型的请求消息，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据。

该请求消息可以只包括该目标感知数据的，即直接向服务器请求用于处理该目标感知数据的感知模型，应理解，这种情形下，由服务器确定该目标感知数据所属的目标场景，进而确定对应的目标感知模型；该请求消息也可以直接包括用于指示该目标感知数据所属的目标场景的标识，即用于请求该目标场景对应到的感知模型，这种情形下，服务器可以直接根据该请求消息确定目标场景，进而确定相应的感知模型。

S220，根据该请求消息，确定该目标感知数据所属的目标场景。

具体地，在终端发送的请求消息包括该目标感知数据的情况下，可以通过对该目标感知数据进行场景分析与识别，确定该目标感知数据所属的目标场景；在终端发送的请求消息指示了该目标感知数据所属场景的情况下，可以直接根据该请求消息确定该目标场景，本发明实施例对此不作限定。

可选地，在本发明实施例中，S220根据该请求消息，确定该目标感知数据所属的目标场景，包括：

其中，确定该目标感知数据所属的该目标场景，包括：

应理解，在本发明实施例中，可以采用现有的任意一种定位方法或多种定位方法的组合，获取终端当前位置的定位信息，本发明对此不作限定。

在终端发送的请求消息指示了该目标感知数据所属场景的情况下，可以直接根据该请求消息确定该目标场景。

S230，从预存的感知模型库中，确定该目标场景对应的目标感知模型，该感知模型库中的每个模型分别对应一种场景。

该预存的感知模型库中存储有根据不同感知数据和不同场景的样本数据，所训练得到的不同场景分别对应的感知模型。

具体地，不同场景的感知模型在感知模型库中的存储形式可以为，场景标识+感知模型。应理解，不同场景的感知模型在感知模型库中的存储形式还可以是其他任意形式，本发明实施例对此不作限定，只要能使得根据场景的标识(场景编号或类型)，从该感知模型库中获取到对应的感知模型库即可。

S240，根据该请求消息，向该终端发送该目标感知模型，以便于该终端根据该目标感知模型计算该目标感知数据的识别结果。

因此，本发明实施例的数据处理的方法，通过为终端提供需要识别的感知数据所属的场景对应的感知模型，使得终端根据该感知模型处理对应的感知数据，由于具体一种场景对应的感知模型的复杂度相对较小、模型准确度相对较高，因此能够有效降低计算复杂度，同时能够提高数据处理的速度和准确度。

在本发明实施例中，该预存的感知模型库中存储有根据不同感知数据和不同场景的样本数据，所训练得到的不同场景分别对应的感知模型。

可选地，在本发明实施例中，在接收到该请求消息之前，该方法200还包括：

S250，获取感知数据样本，该感知数据样本至少包括一部分具有场景标注信息和物品标注信息的感知数据；

S260，根据该感知数据样本，训练不同场景分别对应的感知模型；

S270，将该不同场景分别对应的感知模型存储到该感知模型库中，该感知模型库中包括该目标感知模型。

具体地，以感知数据为图像数据为例，训练不同场景对应的感知模型的具体步骤如图3所示：

在S310中，读取图像样本，该图像样本中至少有一部分图像具有场景标注信息和物品标注信息。

具体地，例如该图像样本中的图像Img00001的场景标注信息为<场景：广场>，物品标注信息为：<物品：花坛、长椅、游客、巴士、巴士站、轿车、警察、儿童、气球、咖啡馆、鸽子>。进一步地，图像的物品标注信息还可以包括该物品在图像中的位置，例如采用局部矩形区域表示。

应理解，在本发明实施例中，图像样本的其中一部分图像可以同时具有场景标注信息和物品标注信息、另一部图像可以只具有物品标注信息、还有一部分图像可以既没有场景标注信息也没有物品标注信息。还应理解，该图像样本中的全部图像可以都具有各自的场景标注信息和物品标注信息，本发明实施例对此不作限定，只要保证该图像样本中至少具有一部分图像具有场景标注信息和物品标注信息即可。

在S320中，获取该图像样本中包括的所有图像的局部区域图像文件。

具体地，对读取的图像样本中包括的所有图像进行局部区域抽取。例如用不同大小的矩形滑动窗口,分别自左向右、自上而下地从图像P(图像样本中的任一个原始图像)中截取多个局部图像区域，生成多个局部区域图像文件。更具体地，采用大小分别为200×200和400×400的矩形滑动窗口，从左向右、自上而下地从3264×2448的原始图像中截取多个200*200和400×400的局部图像区域，进而生成该原始图像的多个局部区域图像文件。

在S330中，根据局部区域图像文件和图像样本中携带的物品标注信息，确定通用感知模型，或者称之为确定通过感知模型的参数文件。

具体地，将在S320中生成的图像样本中所有原始图像的局部区域图像文件作为通用感知模型的输入，结合该通用感知模型输出的物品类型计算信息和图像样本中携带的物品标注信息，确定该通用感知模型的参数文件。

应理解，该通用感知模型可以看作是卷积神经网络(CNN)模型与支持多分类的逻辑回归(Softmax)模型合并后的模型。确定该通用感知模型的步骤例如包括：将局部区域图像文件作为CNN模型的输入，相应地，CNN模型会输出相关的矩阵信息；然后将CNN模型输出的矩阵信息作为Softmax模型的输入，相应地，Softmax模型会输出物品类型计算结果；基于该物品类型计算结果和图像样本中携带的物品标注信息(二者之间的匹配度或错误率)，可以计算得到CNN模型和Softmax模型的各自的参数，即确定了该通用感知模型。

还应理解，S330生成通用感知模型的方法可以采用现有的相关方法，为了简洁，这里不再赘述。

在S340中，确定目标图像样本，该目标图像样本中的图像具有场景标注信息和物品标注信息。

具体地，在S310中读取的图像样本中，选择既有场景标注信息，又有物品标注信息的图像，将这类型图像确定为目标图像样本。例如第一类图像的标注信息为：<场景：餐馆；物品：椅子、桌子、酒瓶、盘子、筷子>、第二类图像的标注信息为：<场景：广场；物品：花坛、长椅、游客、巴士、轿车、警察、儿童、气球、咖啡馆>、第三类图像的标注信息为：<场景：广场；物品：花坛、长椅、游客、巴士、巴士站、轿车、气球、咖啡馆、鸽子>、第四类图像的标注信息为：<场景：病房；物品：病床、监护仪、呼吸机、呼叫器、支架、污物桶>、第五类图像的标注信息为：<场景：厨房；物品：烧水壶、水龙头、微波炉、盐罐、糖罐、番茄汁、盘子、燃气灶>。

应理解，S340中确定的目标图像样本中，每一种场景对应包括多张图像的图像集合，不应该理解为一种场景只对应一张图像的，换句话说，上面提到的场景标注信息为<场景：餐馆>的第一类图像是数张图像的集合。

在S350中，根据该目标图像样本中的图像及其物品标注信息和场景标注信息，基于通用感知模型，确定不同场景各自对应的感知模型。

具体地，以场景标注信息为<场景：广场>的第三类图像的局部区域图像文件(在S320中已经获取到)作为S330中确定的通用感知模型的输入，相应地，该通用感知模型会输出计算所得的物品类型计算信息；然后根据该第三类图像所携带的物品标注信息所指示的物品类型，确定该物品类型计算信息的错误率，同时衡量该通用感知模型的复杂度，综合考虑该错误率和复杂度，对该通用感知模型的参数进行调节和简化，其中，参数的简化包括对参数相似的计算节点进行聚类合并，对输出无贡献参数的裁剪等。通过上述对通用感知模型的参数的调节和简化，使得该物品类型计算信息的错误率和通用感知模型的复杂度均满足预定条件后，这时的经过参数简化后的感知模型可以成为场景<广场>对应的感知模型。应理解，在上述确定场景<广场>对应的感知模型的过程中，会备份好S330中确定的通用感知模型，以便于后续确定其他场景对应的感知模型。还应理解，类似地，可以获取到其他各个场景所对应的感知模型。

由于与全局通用的物体识别相比，特定场景中的物体识别的类别数量相对较少，则每个场景对应的感知模型的参数相对于S330中确定的通用感知模型的参数的数量大大减少。能够在提高识别计算准确率的前提下，有效降低计算复杂度。

在S360中，将各个场景对应的感知模型，存储感知模型库中。

应理解，上面的实施例仅是为了帮助更好的理解本发明，而并非对本发明的限制。

应理解，由于每个场景中出现的对象类型有限，例如对于室外场景或者城市场景，可能需要识别人、车、建筑、或文字等对象，但基本不会出现各种动物和植物的识别需求。换句话说，每种场景中经常出现的需要识别的对象类别数都是相对较少的，相应地，每个场景各自对应的感知模型的模型参数也相对较少，从而，每个场景对应的感知模型的计算复杂度大大减小，而且也不会对存储空间有很高的需求。因此，本发明提出的数据处理的方法，能够在保持甚至提高数据识别的准确度的前提下，大大简化感知模型的复杂度和计算量，从而解决了计算能力与模型的复杂度之间矛盾，能够有效提高识别能力。

还应理解，上述训练各个场景对应的感知模型的过程(相当于更新感知模型库的过程)，不局限于只在接收终端发送的用于请求处理目标感知数据的目标感知模型的请求消息之前执行一次；也可以按照一定的周期，定期执行感知模型的训练过程，这样可以参考终端实时请求的感知数据，不断丰富充实感知数据和场景的样本库，从而更加充实和完善场景的类型及其对应的感知模型，同时能够不断提高各个场景分别对应的感知模型的识别计算的准确度。

还应理解，上文中在数据处理的方法100和数据处理的方法200中都提到了“预存的感知模型库”，总的来说，该“预存的感知模型库”用于存储用于处理感知数据的各个场景所对应的感知模型；但在方法100和方法200中，该“预存的感知模型库”的含义略有区别，具体说明如下：本发明实施例提供的数据处理的方法100例如由终端来执行，则该“预存的感知模型库”指的是终端内用于缓存从服务器获取的各个场景对应的感知模型的存储区域；换句话说，该“预存的感知模型库”存储的感知模型为该终端已经处理的或者即将处理的感知数据所属的场景所对应的感知模型，可能没有包括所有场景分别对应的感知模型。而本发明实施例提供的数据处理的方法200的执行主体一般是服务器，则该“预存的感知模型库”指的是服务器中用于存储根据不同感知数据和不同场景的训练样本生成的各个场景分别对应的感知模型的存储区域；可以理解为服务器内的“预存的感知模型库”包括了所有场景分别对应的感知模型。

上文中结合图1至图3，详细描述了根据本发明实施例的数据处理的方法，下面将结合图4至图7，详细描述根据本发明实施例的数据处理的设备。

图4示出了根据本发明实施例的数据处理的设备400的示意性框图，如图4所示，该设备400包括：

获取模块410，用于获取目标感知数据，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

第一确定模块420，用于确定该获取模块获取的该目标感知数据所属的目标场景；

第二确定模块430，用于确定该第一确定模块确定的该目标场景对应的目标感知模型；

计算模块440，用于根据该第二确定模块确定的该目标感知模型，计算该获取模块获取的该目标感知数据的识别结果。

因此，本发明实施例的数据处理的设备400，通过确定要识别的感知数据所属的场景，采用该场景对应的感知模型计算获取该感知数据的识别结果，相比现有技术，能够降低计算复杂度，从而能够提高数据处理的效率。

具体地，计算模块440可以为感知计算处理器，其功能为执行感知计算，例如根据卷积神经网络CNN、深度学习网络DNN等算法模型，执行感知数据的识别处理。将输入的感知数据，依次进行数据块选择、神经网络各层级联卷积和抽样计算、分类矩阵计算，最终产生识别结果。计算过程，包括并不限于在完全在通用CPU上执行，部分在GPU加速芯片上执行，或在专用芯片上执行。

可选地，作为一个实施例，该第一确定模块420具体用于，通过对该目标感知数据进行场景分析，确定该目标场景。

具体地，该第一确定模块420可以为场景识别器，其功能为识别输入的感知数据所处的场景。输入感知数据，输出场景类型或场景编码，或其他可以表示场景的标识。

可选地，作为一个实施例，该目标感知数据为在终端当前所处位置生成的数据；

具体地，该第一确定模块输入感知数据和定位信息，输出场景类型或编码。

可选地，作为一个实施例，该第一确定模块包括：

可选地，作为一个实施例，该第二确定模块具体用于，从预存的感知模型库中，确定该目标场景对应的该目标感知模型，该感知模型库中的每个感知模型分别对应一种场景。

可选地，如图5所示，作为一个实施例，该设备包括：

计算模块440，用于根据该第二确定模块确定的该目标感知模型，计算该获取模块获取的该目标感知数据的识别结果；

更新模块450，用于在该获取模块获取目标感知数据之前，根据用户历史场景序列，更新该感知模型库，该更新后的感知模型库中包括该目标场景对应的该目标感知模型。

应理解，更新模块450可以在第二确定模块430向服务器请求获取到目标感知模型后，将该目标感知模型存储到预存的感知模型库，以更新该感知模型库；该更新模块450还可以在获取模块410获取到需要识别计算的目标感知数据之前，通过预测算法，提前向服务器请求即将需要的感知模型，即事先更新预存的感知模型库。

可选地，作为一个实施例，该第二确定模块包括：

可选地，在本发明实施例中，该设备400还包括：缓存模块，用于将第二接收单元接收的该目标感知模型及其场景标识(场景类型或场景编号)缓存到预存的感知模型库中。具体地，该缓存模块可以为内存等高速访问设备。

应理解，根据本发明实施例的数据处理的设备400可对应于本发明实施例的数据处理的方法中的终端，并且设备400中的各个模块的上述和其它操作和/或功能分别为了实现图1至图3中的各个方法的相应流程，为了简洁，在此不再赘述。

上文中结合图4和图5，详细描述了根据本发明实施例的数据处理的设备400，下面将结合图6和图7，详细描述根据本发明实施例的数据处理的另一设备。

图6示出了根据本发明实施例的数据处理的设备500的示意性框图。如图6所示，该设备500包括：

接收模块510，用于接收终端发送的用于请求目标感知数据所属的场景所对应的感知模型的请求消息，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

第一确定模块520，用于根据该接收模块接收的该请求消息，确定该目标感知数据所属的目标场景；

第二确定模块530，用于从预存的感知模型库中，确定该第一确定模块确定的该目标场景对应的目标感知模型，该感知模型库中的每个模型分别对应一种场景；

发送模块540，用于根据该接收模块接收的该请求消息，向该终端发送该第二确定模块确定的该目标感知模型，以便于该终端根据该目标感知模型计算该目标感知数据的识别结果。

因此，本发明实施例的数据处理的设备500，通过为终端提供终端所需的场景所对应的感知模型，以便于终端根据该感知模型处理对应的感知数据，由于具体一个场景对应的感知模型的复杂度相对较小、模型准确度相对较高，因此能够有效降低计算复杂度，同时能够提高数据处理的速度和准确度。

如图7所示，可选地，作为一个实施例，该设备500包括：

发送模块540，用于根据该接收模块接收的该请求消息，向该终端发送该第二确定模块确定的该目标感知模型，以便于该终端根据该目标感知模型计算该目标感知数据的识别结果；

获取模块550，用于在该接收模块接收到该请求消息之前，获取感知数据样本，该感知数据样本至少包括一部分具有场景标注信息和物品标注信息的感知数据；

训练模块560，用于根据该感知数据样本，训练不同场景分别对应的感知模型；

存储模块570，用于将该训练模块训练得到的该不同场景分别对应的感知模型存储到该感知模型库中，该感知模型库中包括该目标感知模型。

具体地，该训练模块560可以称之为模型训练服务器，功能为读取训练样本数据库，根据场景知识库中的各场景分类描述，训练出各种场景所需的感知模型参数。该训练模型560，输入训练样本数据、场景分类描述文件；输出各场景的感知模型参数文件。

其中，场景知识库为用于管理和保存各种场景对应的分类描述的存储空间。各种场景对应的分类描述包括：各种场景下可能出现的类别，如物品、人物、动作行为、事件、文字等，还可以包括所有类别之间的层次关系，如动物-狗-金毛犬、汽车-轿车-宝马-宝马3系还、聚会-生日聚会。此外，对于已知空间结构的具体场景，该场景知识库还可以包括空间结构信息，以及每个空间区域对应的场景编号。

具体地，存储模块570用于保存训练模型560(模型训练服务器)生成的各场景的模型参数文件，例如，包括场景标识(类型或编号)及对应的模型参数文件。该存储模块570可以称之模型参数库。

可选地，作为一个实施例，该第一确定模块具体用于，通过对该请求消息中包括的该目标感知数据进行场景分析，确定该目标感知数据所属的该目标场景。

可选地，作为一个实施例，该第一确定模块具体用于，根据该请求消息中包括的用于指示该目标场景的标识，确定该目标场景。

应理解，根据本发明实施例的数据处理的设备500可对应于本发明实施例的数据处理的方法中的服务器，并且设备500中的各个模块的上述和其它操作和/或功能分别为了实现图1至图3中的各个方法的相应流程，为了简洁，在此不再赘述。

如图8所示，本发明实施例还提供了一种数据处理的设备600，该设备600包括处理器610、存储器620、总线系统630、接收器640和发送器650。其中，处理器610、存储器620、接收器640和发送器650通过总线系统630相连，该存储器620用于存储指令，该处理器610用于执行该存储器620存储的指令，以控制接收器640接收信号，并控制发送器650发送信号。其中，该处理器610用于，获取目标感知数据，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；确定该目标感知数据所属的目标场景；确定该目标场景对应的目标感知模型；根据该目标感知模型，计算该目标感知数据的识别结果。

因此，本发明实施例的数据处理的设备600，通过确定要识别的感知数据所属的场景，采用该场景对应的感知模型计算获取该感知数据的识别结果，相比现有技术，能够降低计算复杂度，从而能够提高数据处理的效率。

可选地，作为一个实施例，处理器610具体用于，通过对该目标感知数据进行场景分析，确定该目标场景。

处理器610具体用于，结合该终端当前所处位置的定位信息，对该目标感知数据进行场景分析，确定该目标场景。

可选地，作为一个实施例，发送器650，用于向服务器发送用于请求该目标感知数据所属的场景的第一请求；接收器640，用于接收该服务器根据该第一请求发送的该目标场景。

可选地，作为一个实施例，处理器610具体用于，从预存的感知模型库中，确定该目标场景对应的该目标感知模型，该感知模型库中的每个感知模型分别对应一种场景。

可选地，作为一个实施例，处理器610具体用于，在获取目标感知数据之前，根据用户历史场景序列，更新该感知模型库，该更新后的感知模型库中包括该目标场景对应的该目标感知模型。

可选地，作为一个实施例，发送器650，用于当确定预存的感知模型库中没有该目标场景对应的感知模型时，向服务器发送用于请求该目标场景对应的感知模型的第二请求，该感知模型库中的每个感知模型分别对应一种场景；接收器640，用于接收该服务器根据该第二请求发送的该目标场景对应的该目标感知模型。

应理解，在本发明实施例中，该处理器610可以是中央处理单元(Central Processing Unit，简称为“CPU”)，该处理器610还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器620可以包括只读存储器和随机存取存储器，并向处理器610提供指令和数据。存储器620的一部分还可以包括非易失性随机存取存储器。例如，存储器620还可以存储设备类型的信息。

该总线系统630除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统630。

在实现过程中，上述方法的各步骤可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器620，处理器610读取存储器620中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应理解，根据本发明实施例的数据处理的设备600可对应于本发明实施例的数据处理的方法中的终端，该设备600还可以对应于本发明实施例的数据处理的设备400，并且设备600中的各个模块的上述和其它操作和/或功能分别为了实现图1至图3中的各个方法的相应流程，为了简洁，在此不再赘述。

如图9所示，本发明实施例还提供了一种数据处理的设备700，该设备700包括处理器710、存储器720、总线系统730、接收器740和发送器750。其中，处理器710、存储器720、接收器740和发送器750通过总线系统730相连，该存储器720用于存储指令，该处理器710用于执行该存储器720存储的指令，以控制接收器740接收信号，并控制发送器750发送信号。其中，

接收器740，用于接收终端发送的用于请求目标感知数据所属的场景所对应的感知模型的请求消息，该目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；处理器710，用于根据该请求消息，确定该目标感知数据所属的目标场景；从预存的感知模型库中，确定该目标场景对应的目标感知模型，该感知模型库中的每个模型分别对应一种场景；发送器750，用于根据该请求消息，向该终端发送该目标感知模型，以便于该终端根据该目标感知模型计算该目标感知数据的识别结果。

因此，本发明实施例的数据处理的设备700，通过为终端提供终端所需的场景所对应的感知模型，以便于终端根据该感知模型处理对应的感知数据，由于具体一个场景对应的感知模型的复杂度相对较小、模型准确度相对较高，因此能够有效降低计算复杂度，同时能够提高数据处理的速度和准确度。

可选地，作为一个实施例，处理器710具体用于，在接收器740接收到该请求消息之前，获取感知数据样本，该感知数据样本至少包括一部分具有场景标注信息和物品标注信息的感知数据；根据该感知数据样本，训练不同场景分别对应的感知模型；将该不同场景分别对应的感知模型存储到该感知模型库中，该感知模型库中包括该目标感知模型。

可选地，作为一个实施例，处理器710具体用于，通过对该请求消息中包括的该目标感知数据进行场景分析，确定该目标感知数据所属的该目标场景。

处理器710具体用于，结合该终端当前所处位置的定位信息，对该目标感知数据进行场景分析，确定该目标场景。

可选地，作为一个实施例，处理器710具体用于，根据该请求消息中包括的用于指示该目标场景的标识，确定该目标场景。

应理解，在本发明实施例中，该处理器710可以是中央处理单元(Central Processing Unit，简称为“CPU”)，该处理器710还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器720可以包括只读存储器和随机存取存储器，并向处理器710提供指令和数据。存储器720的一部分还可以包括非易失性随机存取存储器。例如，存储器720还可以存储设备类型的信息。

该总线系统730除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统730。

在实现过程中，上述方法的各步骤可以通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器720，处理器710读取存储器720中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应理解，根据本发明实施例的数据处理的设备700可对应于本发明实施例的数据处理的方法中的服务器，该设备700还可以对应于本发明实施例的数据处理的设备500，并且设备700中的各个模块的上述和其它操作和/或功能分别为了实现图1至图3中的各个方法的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据处理的方法，其特征在于，包括：

获取目标感知数据，所述目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

确定所述目标感知数据所属的目标场景；

确定所述目标场景对应的目标感知模型；

根据所述目标感知模型，计算所述目标感知数据的识别结果。
根据权利要求1所述的方法，其特征在于，所述确定所述目标感知数据所属的目标场景，包括：

通过对所述目标感知数据进行场景分析，确定所述目标场景。
根据权利要求2所述的方法，其特征在于，所述目标感知数据为在终端当前所处位置生成的数据；

其中，所述通过对所述目标感知数据进行场景分析，确定所述目标场景，包括：

结合所述终端当前所处位置的定位信息，对所述目标感知数据进行场景分析，确定所述目标场景。
根据权利要求1所述的方法，其特征在于，所述确定所述目标感知数据所属的目标场景，包括：

向服务器发送用于请求所述目标感知数据所属的场景的第一请求；

接收所述服务器根据所述第一请求发送的所述目标场景。
根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述目标场景对应的目标感知模型，包括：

从预存的感知模型库中，确定所述目标场景对应的所述目标感知模型，所述感知模型库中的每个感知模型分别对应一种场景。
根据权利要求5所述的方法，其特征在于，在获取目标感知数据之前，所述方法还包括：

根据用户历史场景序列，更新所述感知模型库，所述更新后的感知模型库中包括所述目标场景对应的所述目标感知模型。
根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述目标场景对应的目标感知模型，包括：

当确定预存的感知模型库中没有所述目标场景对应的感知模型时，向服务器发送用于请求所述目标场景对应的感知模型的第二请求，所述感知模型库中的每个感知模型分别对应一种场景；

接收所述服务器根据所述第二请求发送的所述目标场景对应的所述目标感知模型。
一种数据处理的方法，其特征在于，包括：

接收终端发送的用于请求目标感知数据所属的场景所对应的感知模型的请求消息，所述目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

根据所述请求消息，确定所述目标感知数据所属的目标场景；

从预存的感知模型库中，确定所述目标场景对应的目标感知模型，所述感知模型库中的每个模型分别对应一种场景；

根据所述请求消息，向所述终端发送所述目标感知模型，以便于所述终端根据所述目标感知模型计算所述目标感知数据的识别结果。
根据权利要求8所述的方法，其特征在于，在接收到所述请求消息之前，所述方法还包括：

获取感知数据样本，所述感知数据样本至少包括一部分具有场景标注信息和物品标注信息的感知数据；

根据所述感知数据样本，训练不同场景分别对应的感知模型；

将所述不同场景分别对应的感知模型存储到所述感知模型库中，所述感知模型库中包括所述目标感知模型。
根据权利要求8或9所述的方法，其特征在于，所述根据所述请求消息，确定所述目标感知数据所属的目标场景，包括：

通过对所述请求消息中包括的所述目标感知数据进行场景分析，确定所述目标感知数据所属的所述目标场景。
根据权利要求10所述的方法，其特征在于，所述目标感知数据为在终端当前所处位置生成的数据；

其中，所述确定所述目标感知数据所属的所述目标场景，包括：

结合所述终端当前所处位置的定位信息，对所述目标感知数据进行场景分析，确定所述目标场景。
根据权利要求8或9所述的方法，其特征在于，所述根据所述请求消息，确定所述目标感知数据所属的目标场景，包括：

根据所述请求消息中包括的用于指示所述目标场景的标识，确定所述目标场景。
一种数据处理的设备，其特征在于，包括：

获取模块，用于获取目标感知数据，所述目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

第一确定模块，用于确定所述获取模块获取的所述目标感知数据所属的目标场景；

第二确定模块，用于确定所述第一确定模块确定的所述目标场景对应的目标感知模型；

计算模块，用于根据所述第二确定模块确定的所述目标感知模型，计算所述获取模块获取的所述目标感知数据的识别结果。
根据权利要求13所述的设备，其特征在于，所述第一确定模块具体用于，通过对所述目标感知数据进行场景分析，确定所述目标场景。
根据权利要求14所述的设备，其特征在于，所述目标感知数据为在终端当前所处位置生成的数据；

其中，所述第一确定模块具体用于，结合所述终端当前所处位置的定位信息，对所述目标感知数据进行场景分析，确定所述目标场景。
根据权利要求13所述的设备，其特征在于，所述第一确定模块包括：

第一发送单元，用于向服务器发送用于请求所述目标感知数据所属的场景的第一请求；

第一接收单元，用于接收所述服务器根据所述第一请求发送的所述目标场景。
根据权利要求13至16中任一项所述的设备，其特征在于，所述第二确定模块具体用于，从预存的感知模型库中，确定所述目标场景对应的所述目标感知模型，所述感知模型库中的每个感知模型分别对应一种场景。
根据权利要求17所述的设备，其特征在于，所述设备还包括：

更新模块，用于在所述获取模块获取目标感知数据之前，根据用户历史场景序列，更新所述感知模型库，所述更新后的感知模型库中包括所述目标场景对应的所述目标感知模型。
根据权利要求13至16中任一项所述的设备，其特征在于，所述第二确定模块包括：

第二发送单元，用于当确定预存的感知模型库中没有所述目标场景对应的感知模型时，向服务器发送用于请求所述目标场景对应的感知模型的第二请求，所述感知模型库中的每个感知模型分别对应一种场景；

第二接收单元，用于接收所述服务器根据所述第二请求发送的所述目标场景对应的所述目标感知模型。
一种数据处理的设备，其特征在于，包括：

接收模块，用于接收终端发送的用于请求目标感知数据所属的场景所对应的感知模型的请求消息，所述目标感知数据为下列数据中的任一种：图像数据、视频数据和声音数据；

第一确定模块，用于根据所述接收模块接收的所述请求消息，确定所述目标感知数据所属的目标场景；

第二确定模块，用于从预存的感知模型库中，确定所述第一确定模块确定的所述目标场景对应的目标感知模型，所述感知模型库中的每个模型分别对应一种场景；

发送模块，用于根据所述接收模块接收的所述请求消息，向所述终端发送所述第二确定模块确定的所述目标感知模型，以便于所述终端根据所述目标感知模型计算所述目标感知数据的识别结果。
根据权利要求20所述的设备，其特征在于，所述设备还包括：

获取模块，用于在所述接收模块接收到所述请求消息之前，获取感知数据样本，所述感知数据样本至少包括一部分具有场景标注信息和物品标注信息的感知数据；

训练模块，用于根据所述感知数据样本，训练不同场景分别对应的感知模型；

存储模块，用于将所述训练模块训练得到的所述不同场景分别对应的感知模型存储到所述感知模型库中，所述感知模型库中包括所述目标感知模型。
根据权利要求20或21所述的设备，其特征在于，所述第一确定模块具体用于，通过对所述请求消息中包括的所述目标感知数据进行场景分析，确定所述目标感知数据所属的所述目标场景。
根据权利要求22所述的设备，其特征在于，所述目标感知数据为在终端当前所处位置生成的数据；

其中，所述第一确定模块具体用于，结合所述终端当前所处位置的定位信息，对所述目标感知数据进行场景分析，确定所述目标场景。
根据权利要求20或21所述的设备，其特征在于，所述第一确定模块具体用于，根据所述请求消息中包括的用于指示所述目标场景的标识，确定所述目标场景。