WO2014205658A1

WO2014205658A1 - 数据处理方法和数据处理系统

Info

Publication number: WO2014205658A1
Application number: PCT/CN2013/077929
Authority: WO
Inventors: 黄伟; 王奎
Original assignee: 东莞宇龙通信科技有限公司; 宇龙计算机通信科技(深圳)有限公司
Priority date: 2013-06-25
Filing date: 2013-06-25
Publication date: 2014-12-31
Also published as: EP3016052A4; US20160078056A1; US10255243B2; EP3016052A1; CN104885113A

Abstract

本发明提供了一种数据处理方法，包括：第一终端对至少一个拍摄对象实体进行图像采集，并将图像和对应的识别信息进行编码，形成视频数据，发送至第二终端；第二终端对视频数据进行数据分离，得到视频文件和与视频文件中的至少一个拍摄对象相关联的识别信息；第二终端根据识别信息识别出视频文件中的至少一个拍摄对象，并在视频文件中形成对应的操作区域；第二终端在播放视频文件时，根据检测到的对指定操作区域的操作动作，执行相关联的操作功能。本发明还提出了一种数据处理系统。通过本发明的技术方案，可以对视频中的拍摄对象进行识别，使用户在观看视频时能够直接对视频中的拍摄对象进行操作，从而有利于简化用户操作，提升了用户体验。

Description

说明书数据处理方法和数据处理系统技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数据处理方法和一种数据处理系统。背景技术

目前，当用户进行网上购物时，通过浏览网页图片的方式去购买产品，但是购买到的实物跟网上的照片偏差较大，产生很多纠纷。

用户通过图片无法全面地了解一件物体，但如果通过视频的形式去描述同一件物体，尤其是通过对线下卖场中的实物进行视频采集，无疑会增强用户对于同一件物体的感知，有利于而且允许用户在观看视频的同时对感兴趣的物体进行操作，将极大提高提升用户的购买体验。

然而在现有技术中，人们在观看视频的过程中，比如查看到了感兴趣的物品，只能够另外通过在网络上进行搜索等方式才能够实现购买等操作。比如用户需要单独打开浏览器，通过输入该物品的名称进行搜索，或是通过对视频画面进行截图后的以图搜图，从而进入网上电商的网站后进行购买。而通过输入物品名称等方式，当用户无法得知其准确名称时，甚至很难搜索到相关的物品，更难以实现购买等操作。

因此，需要一种新的技术方案，可以对视频中的拍摄对象进行识别，使用户在观看视频时能够直接对视频中的拍摄对象进行操作，而无需通过单独的网络搜索等方式进行操作，从而有利于筒化用户操作，提升了用户体验。发明内容

本发明正是基于上述问题，提出了一种新的数据处理方案，可以对视频中的拍摄对象进行识别，使用户在观看视频时能够直接对视频中的拍摄对象进行操作，而无需通过单独的网络搜索等方式进行操作，从而有利于筒化用户操作，提升了用户体验。

有鉴于此，本发明提出了一种数据处理方法，包括：第一终端对至少一个拍摄对象实体进行图像采集，并将采集到的图像和对应于至少一个所述拍摄对象实体的识别信息进行编码，形成视频数据，并通过网络发送至第二终端；所述第二终端接收所述视频数据，对所述视频数据进行数据分离，得到视频文件和与所述视频文件中的至少一个拍摄对象相关联的识别信息；所述第二终端根据所述识别信息识别出所述视频文件中的至少一个拍摄对象，并在所述视频文件中形成对应于至少一个所述拍摄对象的操作区域；所述第二终端在播放所述视频文件时，根据检测到的对指定操作区域的操作动作，执行与所述指定操作区域对应的指定拍摄对象相关联的操作功能。

在该技术方案中，通过对视频中拍摄对象的识别，可以使用户在观看视频时直接对识别出的物体进行操作，提升了用户的体验。通过对视频中的拍摄对象的识别，生成的对应的操作区域可以是该拍摄对象的显示边沿对应的区域，或是将该拍摄对象包含在其中的矩形区域等，具体地，该操作区域可以是透明的，也可以在一定条件下（比如设置一个可显示出操作区域的视频播放模式，并进入该模式时）进行显示。由于视频是动态的，因此，当视频内的拍摄对象发生移动（主动地发生移动，或由于镜头的移动而使得该拍摄对象在终端屏幕上形成相对位置变化）时，对应的操作区域也应当相应地变化，从而使得用户直接对拍摄对象进行操作即可，而无需特别关注该操作区域的位置。

优选地，视频数据可以是由第一终端获取后传输至第二终端的，尤其是可以由第一终端实时获取并通过网络传输至第二终端。当第一终端在进行拍摄的过程中，获取被拍摄的拍摄对象的识别信息，由第一终端将其与拍摄的视频文件编码成视频数据，从而无需第一终端对拍摄对象进行分析和特征获取，降低了对第一终端的要求，也方便了第二终端对视频中的拍摄对象进行识别。

在上述技术方案中，优选地，还包括：所述第一终端接收至少一个所述拍摄对象实体发送的对应于其自身的识别信息，以用于编码至所述视频数据中。

在该技术方案中，识别信息可以是第一终端从拍摄对象实体处获取的，则有助于在识别信息与具体的拍摄对象实体之间建立实际上的关联，便于执行对拍摄对象实体和相应的识别信息的管理工作。

在上述技术方案中，优选地，还包括：所述第二终端将所述视频文件的图像帧中的内容与预存储的识别特征进行匹配，以识别出所述视频文件中的至少一个拍摄对象。

在该技术方案中，在第二终端中或第二终端对应的云端存储空间内，预存储一个或多个物体的识别特征，从而在第二终端获取视频文件之后的任意时刻、或是播放视频文件（预先获取或实时接收的）的过程中，将视频的图像帧中的内容与预存储的识别特征进行匹配，以识别出视频中的拍摄对象。由于采用了预存储的识别特征，因而对于视频文件本身而言，并没有特殊的要求，所有的视频文件都可以适用于该技术方案，可以是第二终端从网络上下载的、从其他终端处获取的或是第二终端自己拍摄的，具有较强的通用性。同时，由于视频文件中的拍摄对象并不总是在变化，因此，在对某个图像帧中的拍摄对象进行识别之后，可以将该图像帧与其之后的一个或多个图像帧中的像素信息进行比较，以判断出是否发生拍摄对象的变化，若存在变化，则可以进行识别，否则无需再次识别，有利于提高识别效率，降低对终端处理能力的要求。

其中，预存储的识别特征，筒单而言，可以是物体的图像，则可以根据与视频文件中的画面进行比对，以识别出该物体；进一步地，识别特征还可以是一些特征参数，比如对于 "衣服" ，可以包括 "前方存在开口，左右存在对称的袖子" 等参数，使得第二终端能够 "认识" 到 "衣服" 为何物，再加之需要识别的衣服自身的特征，比如颜色、大小、款式等，就可以由第二终端实现对 "衣服" 的智能识别。同时，第二终端自身预存储识别特征，与其根据第一终端发送的识别信息，两者并不矛盾，可以仅用其中的某一个进行对象识别，也可以同时利用两者进行识别。

在上述技术方案中，优选地，所述第二终端对所述视频数据进行数据分离的过程包括：解析所述视频数据，从所述视频数据中提取识别帧，并得到经提取所述识别帧后剩余的所述视频文件；从所述识别帧中进一步提取出所述识别信息，以用于对所述视频文件的识别操作。

在该技术方案中，可以在视频文件对应的数据流中间或两端添加包含识别信息的识别帧。为了实现对视频数据的分离，在识别帧的帧头部分应该包含类型标识，用于第二终端对视频数据中的识别帧的类型进行识别，当识别到上述类型标识后，即判断该数据帧为识别帧，具体比如识别帧头主要是由特殊字符组成，以用来标识识别帧。然后，第二终端继续解析其他的如识别帧长度等信息，以完整地确定对应的识别帧。识别帧还应该包括信息部分，该信息部分中包含了拍摄对象的识别信息等，以用于对视频中的拍摄对象进行识别。通过采用识别帧的方式，能够方便地将识别信息编码在视频数据中，并方便地从视频数据中解析出识别帧，从识别帧的信息部分提取出拍摄对象的识别信息，通过识别信息对视频文件中的拍摄对象进行识别。

在上述技术方案中，优选地，还包括：至少一个所述第一终端作为上层节点，所有的所述拍摄对象实体作为下层节点，以形成 Ad Hoc分层式网络结构。

在该技术方案中， Ad Hoc 分层式网络结构不需要依靠现有固定通信网络基础设施，并且能够迅速展开使用的网络体系。网络中的各个网络节点相互协作，通过无线链路进行通信、交换信息，实现信息和服务的共享。网络节点能够动态地、随意地、频繁地进入和离开网络，而常常不需要事先示警或通知，并且不会破坏网络中其他节点之间的通信。第一终端可以是摄像头，将摄像头作为 Ad Hoc 的上层节点，拍摄对象（比如衣服）作为下层节点，则根据 Ad Hoc 网络的结构特点，一个上层节点（即摄像头）可以对应于多个下层节点（即多个上述的信息收发装置），并且不同网络节点之间互不影响，提高了视频采集系统的稳定性与灵活性。

在上述技术方案中，优选地，还包括：所述第一终端还接收所述至少一个所述拍摄对象实体发送的对应于其自身的可控信息；其中，所述第一终端将所述可控信息与所述识别信息关联地编码至所述视频数据，且所述第二终端还从所述视频数据中获取与至少一个所述拍摄对象相关联的可控信息，并当检测到对所述指定操作区域的所述操作动作时，根据所述可控信息执行对所述指定拍摄对象的操作功能；或当所述第二终端检测到对所述指定操作区域的操作动作，并将检测结果上报至所述第一终端时，所述第一终端将对应于所述指定操作区域的可控信息发送至所述第二终端，以由所述第二终端根据所述可控信息执行对所述指定拍摄对象的操作功能。

在该技术方案中，第二终端可以对所有的拍摄对象进行默认的处理操作，比如对所有被点击到的拍摄对象进行放大处理，或是存储被点击到的拍摄对象，或是直接调用浏览器对被点击到的拍摄对象进行 "以图搜图" 。当然，为了能够实现更多的处理操作方式，可以通过将可控信息与识别信息进行关联并编码至视频数据中，则用户在对识别出的拍摄对象进行操作时，第二终端根据可控信息执行相应的功能。具体来说，可以将可控信息编码至上述识别帧中，或是单独编码为控制信息帧，将识别帧（还可能包括控制信息帧）与拍摄得到的视频文件进行整合形成视频数据。第二终端根据解析出的可控信息，以执行相应的功能。第二终端解析出可控信息之后，可以同相关联的识别信息一起保存至匹配数据库中，则在用户对识别出的拍摄对象进行操作时，从匹配数据库中检索出与该指定物体的识别信息关联的可控信息，以执行对该拍摄对象的操作功能。

当然，第一终端将可控信息编码至视频数据中时，往往是将与视频数据中的拍摄对象相关联的识别信息和可控信息一并发送至第二终端；但为了节约网络资源、提高视频数据的传输速度，则第一终端可以根据第二终端上报的检测结果，仅当某个拍摄对象对应的操作区域存在操作动作时，才将对应的可控信息发送至第二终端，这也有利于节省第二终端的存储空间。

在上述技术方案中，优选地，所述可控信息包括：菜单数据、链接信息、控制命令；以及所述操作功能相应地包括：根据所述菜单数据生成并展示对应的交互菜单、打开所述链接信息、执行所述控制命令。

在该技术方案中，具体来说，比如用户在通过手机观看购物视频时，手机识别出了视频中的某一件衣服，用户触屏点击该衣服的操作区域，弹出比如包含 "购买、价格、咨询" 的交互菜单，或者直接链接至 "购买" 的页面中，也可以是对该衣服图像的放大等处理，以方便用户的进一步操作。

本发明还提出了一种数据处理系统，包括第一终端和第二终端，所述第一终端包括：图像采集单元，用于对至少一个拍摄对象实体进行图像采集；编码单元，用于将采集到的图像和对应于至少一个所述拍摄对象实体的识别信息进行编码，形成视频数据；视频数据发送单元，用于将所述编码单元形成的所述视频数据通过网络发送至所述第二终端；所述第二终端包括：视频数据接收单元，用于接收所述视频数据；数据分离单元，用于对所述视频数据进行数据分离，得到视频文件和与所述视频文件中的至少一个拍摄对象相关联的识别信息；识别单元，用于根据所述识别信息识别出视频文件中的至少一个拍摄对象；操作区域生成单元，根据识别出的所述至少一个拍摄对象在所述视频文件中形成对应于至少一个所述拍摄对象的操作区域；视频播放单元，用于播放所述视频文件；操作动作检测单元，用于在所述视频播放单元播放所述视频文件时，检测对指定操作区域的操作动作；处理单元，用于在所述操作动作检测单元检测到对所述指定操作区域的操作动作时，执行与所述指定操作区域对应的指定拍摄对象相关联的操作功能。

在该技术方案中，通过对视频中拍摄对象的识别，可以使用户在观看视频时直接对识别出的物体进行操作，提升了用户的体验。这里的视频文件可以是摄像头实时拍摄后通过有线或无线方式传输过来的视频，也可以是其他任意时刻拍摄的非实时的视频。通过对视频中的拍摄对象的识别，生成的对应的操作区域可以是该拍摄对象的显示边沿对应的区域，或是将该拍摄对象包含在其中的矩形区域等，具体地，该操作区域可以是透明的，也可以在一定条件下（比如设置一个可显示出操作区域的视频播放模式，并进入该模式时）进行显示。由于视频是动态的，因此，当视频内的拍摄对象发生移动（主动地发生移动，或由于镜头的移动而使得该拍摄对象在终端屏幕上形成相对位置变化）时，对应的操作区域也应当相应地变化，从而使得用户直接对拍摄对象进行操作即可，而无需特别关注该操作区域的位置。

在上述技术方案中，优选地，所述第一终端，还包括：信息接收单元，用于接收至少一个所述拍摄对象实体发送的对应于其自身的识别信息，以用于编码至所述视频数据中。

在上述技术方案中，优选地，所述第二终端，还包括：预存储单元，用于预存储识别特征；其中，所述识别单元将所述视频文件的图像帧中的内容与所述预存储单元预存储的识别特征进行匹配，以识别出所述视频文件中的至少一个拍摄对象。

在该技术方案中，在第二终端中或第二终端对应的云端存储空间内，预存储一个或多个物体的识别特征，从而在第二终端获取视频文件之后的任意时刻、或是播放视频文件（预先获取或实时接收的）的过程中，将视频的图像帧中的内容与预存储的识别特征进行匹配，以识别出视频中的拍摄对象。由于采用了预存储的识别特征，因而对于视频文件本身而言，并没有特殊的要求，所有的视频文件都可以适用于该技术方案，可以是第二终端从网络上下载的、从其他终端处获取的或是第二终端自己拍摄的，具有较强的通用性。同时，由于视频文件中的拍摄对象并不总是在变化，因此，在对某个图像帧中的拍摄对象进行识别之后，可以将该图像帧与其之后的一个或多个图像帧中的像素信息进行比较，以判断出是否发生拍摄对象的变化，若存在变化，则可以进行识别，否则无需再次识别，有利于提高识别效率，降低对终端处理能力的要求。其中，预存储的识别特征，筒单而言，可以是物体的图像，则可以根据与视频文件中的画面进行比对，以识别出该物体；进一步地，识别特征还可以是一些特征参数，比如对于 "衣服" ，可以包括 "前方存在开口，左右存在对称的袖子" 等参数，使得第二终端能够 "认识" 到 "衣服" 为何物，再加之需要识别的衣服自身的特征，比如颜色、大小、款式等，就可以由第二终端实现对 "衣服" 的智能识别。同时，第二终端自身预存储识别特征，与其根据第一终端发送的识别信息，两者并不矛盾，可以仅用其中的某一个进行对象识别，也可以同时利用两者进行识别。

在上述技术方案中，优选地，所述数据分离单元，包括：帧提取子单元，用于从所述视频数据中提取识别帧，并得到经提取所述识别帧后剩余的所述视频文件；帧解析子单元，用于从所述识别帧中进一步提取出所述识别信息，以用于所述识别单元对所述视频文件的识别操作。

在上述技术方案中，优选地，所述第一终端还接收所述至少一个所述拍摄对象实体发送的对应于其自身的可控信息；其中，所述编码单元还用于将所述可控信息与所述识别信息关联地编码至所述视频数据，且所述数据分离单元还用于从所述视频数据中获取与至少一个所述拍摄对象相关联的可控信息，所述处理单元还用于在检测到对所述指定操作区域的所述操作动作的情况下，根据所述可控信息执行对所述指定拍摄对象的操作功能；或所述第二终端还在检测到对所述指定操作区域的操作动作时，将检测结果上报至所述第一终端，且所述第一终端相应地将对应于所述指定操作区域的可控信息发送至所述第二终端，以由所述处理单元根据所述可控信息执行对所述指定拍摄对象的操作功能。

在上述技术方案中，优选地，所述数据分离单元分离出的所述可控信息包括：菜单数据、链接信息、控制命令；以及所述处理单元执行的所述操作功能相应地包括：根据所述菜单数据生成并展示对应的交互菜单、打开所述链接信息、执行所述控制命令。

通过以上技术方案，可以对视频中的拍摄对象进行识别，使用户在观看视频时能够直接对视频中的拍摄对象进行操作，而无需通过单独的网络搜索等方式进行操作，从而有利于筒化用户操作，提升了用户体验。附图说明

图 1示出了根据本发明的实施例的数据处理方法的流程图；

图 2示出了根据本发明的实施例的数据处理系统的框图；

图 3示出了根据本发明的实施例基于 Ad Hoc网络结构的智能视频交互系统；

图 4示出了根据本发明实施例的智能视频交互系统的流程图；图 5A 至图 5C 示出了根据本发明的实施例智能视频交互系统的示意图。具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不沖突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图 1示出了根据本发明的实施例的数据处理方法的流程图。

如图 1 所示，根据本发明的实施例的数据处理方法，包括：步骤 102 , 第一终端对至少一个拍摄对象实体进行图像采集，并将采集到的图像和对应于至少一个所述拍摄对象实体的识别信息进行编码，形成视频数据，并通过网络发送至第二终端；步骤 104 , 所述第二终端接收所述视频数据，对所述视频数据进行数据分离，得到视频文件和与所述视频文件中的至少一个拍摄对象相关联的识别信息；步骤 106 , 所述第二终端根据所述识别信息识别出所述视频文件中的至少一个拍摄对象，并在所述视频文件中形成对应于至少一个所述拍摄对象的操作区域；步骤 108 , 所述第二终端在播放所述视频文件时，根据检测到的对指定操作区域的操作动作，执行与所述指定操作区域对应的指定拍摄对象相关联的操作功能。

具体来说，比如用户在通过手机、电脑等终端设备观看视频时，点击 (或其他方式，比如将鼠标放置在拍摄对象对应的操作区域中）了视频中的某一件衣服，如果这件衣服是被识别了的拍摄对象，则可以实现对应的操作，比如链接至一个网页（调用浏览器并切换至浏览器界面，或是以气泡框的形式显示在视频播放界面），该网页为这件衣服的品牌信息和 /或购买信息；再比如在视频的播放界面上弹出包含 "购买、价格、咨询"

(用于举例，也可以包含其他信息）的菜单，用户可以通过对菜单的选择操作，实现进一步控制操作。

此外，拍摄对象实体对应于存储装置和信息收发装置，其中，存储装置中存储了该拍摄对象实体的识别信息，是预先存储在该存储装置中的，而信息收发装置则用于将该识别信息发送至第一终端。而第一终端对于拍摄对象实体的识别信息进行获取时，可以通过发送识别信息获取指令，则接收到该指令的信息收发装置就将对应的识别信息发送给第一终端。存储装置和信息收发装置可以位于拍摄对象实体中，比如该拍摄对象实体为智能手机；存储装置和信息收发装置也可以是与拍摄对象实体相关联的，比如是连接至该拍摄对象实体的，或是放置在拍摄对象实体附近，或是由于存储装置中包含了某个拍摄对象实体的识别信息、且信息收发装置用于发送该识别信息，就认为该拍摄对象实体与存储装置、信息收发装置是相关联的。

进一步地，一个存储装置可以对应于一个或多个拍摄对象实体，而一个信息收发装置也可以对应于一个或多个存储装置。信息收发装置在接收到第一终端发出的识别信息获取指令时，可以将其关联的存储装置中的所有识别信息都发送给第一终端；也可以通过设置另一个图像采集设备，其通过监测第一终端的实时状态，确定其拍摄到的拍摄对象实体，从而信息收发装置仅将这部分能够被拍摄到的拍摄对象实体的识别信息发送给第一终端，从而减少了第一终端需要处理的数据量。

在该技术方案中， Ad Hoc 分层式网络结构不需要依靠现有固定通信网络基础设施，并且能够迅速展开使用的网络体系。网络中的各个网络节点相互协作，通过无线链路进行通信、交换信息，实现信息和服务的共享。网络节点能够动态地、随意地、频繁地进入和离开网络，而常常不需要事先示警或通知，并且不会破坏网络中其他节点之间的通信。第一终端可以是摄像头，将摄像头作为 Ad Hoc 的上层节点，拍摄对象（比如衣服）作为下层节点，则根据 Ad Hoc 网络的结构特点，一个上层节点（即摄像头）可以对应于多个下层节点（即多个上述的信息收发装置），并且不同网络节点之间互不影响，提高了视频采集系统的稳定性与灵活性。在上述技术方案中，优选地，还包括：所述第一终端还接收所述至少一个所述拍摄对象实体发送的对应于其自身的可控信息；其中，所述第一终端将所述可控信息与所述识别信息关联地编码至所述视频数据，且所述第二终端还从所述视频数据中获取与至少一个所述拍摄对象相关联的可控信息，并当检测到对所述指定操作区域的所述操作动作时，根据所述可控信息执行对所述指定拍摄对象的操作功能；或当所述第二终端检测到对所述指定操作区域的操作动作，并将检测结果上报至所述第一终端时，所述第一终端将对应于所述指定操作区域的可控信息发送至所述第二终端，以由所述第二终端根据所述可控信息执行对所述指定拍摄对象的操作功能。

图 2示出了根据本发明的实施例的数据处理系统的框图。

如图 2所示，根据本发明的实施例的数据处理系统 200, 包括第一终端 202和第二终端 204 , 所述第一终端 202包括：图像采集单元 202A, 用于对至少一个拍摄对象实体进行图像采集；编码单元 202B , 用于将采集到的图像和对应于至少一个所述拍摄对象实体的识别信息进行编码，形成视频数据；视频数据发送单元 202C, 用于将所述编码单元 202B形成的所述视频数据通过网络发送至所述第二终端 204; 所述第二终端 204 包括：视频数据接收单元 204A, 用于接收所述视频数据；数据分离单元 204B , 用于对所述视频数据进行数据分离，得到视频文件和与所述视频文件中的至少一个拍摄对象相关联的识别信息；识别单元 204C , 用于根据所述识别信息识别出视频文件中的至少一个拍摄对象；操作区域生成单元 204D , 根据识别出的所述至少一个拍摄对象在所述视频文件中形成对应于至少一个所述拍摄对象的操作区域；视频播放单元 204E , 用于播放所述视频文件；操作动作检测单元 204F, 用于在所述视频播放单元 204E播放所述视频文件时，检测对指定操作区域的操作动作；处理单元 204G, 用于在所述操作动作检测单元 204F 检测到对所述指定操作区域的操作动作时，执行与所述指定操作区域对应的指定拍摄对象相关联的操作功能。

优选地，视频数据可以是由第一终端 202获取后传输至第二终端 204 的，尤其是可以由第一终端 202 实时获取并通过网络传输至第二终端 204。当第一终端 202 在进行拍摄的过程中，获取被拍摄的拍摄对象的识别信息，由第一终端 202将其与拍摄的视频文件编码成视频数据，从而无需第一终端 202对拍摄对象进行分析和特征获取，降低了对第一终端 202 的要求，也方便了第二终端 204对视频中的拍摄对象进行识别。

具体来说，比如用户在通过手机、电脑等终端设备观看视频时，点击 (或其他方式，比如将鼠标放置在拍摄对象对应的操作区域中）了视频中的某一件衣服，如果这件衣服是被识别了的拍摄对象，则可以实现对应的操作，比如链接至一个网页（调用浏览器并切换至浏览器界面，或是以气泡框的形式显示在视频播放界面），该网页为这件衣服的品牌信息和 /或购买信息；再比如在视频的播放界面上弹出包含 "购买、价格、咨询" (用于举例，也可以包含其他信息）的菜单，用户可以通过对菜单的选择操作，实现进一步控制操作。

此外，拍摄对象实体对应于存储装置和信息收发装置（图中未示出），其中，存储装置中存储了该拍摄对象实体的识别信息，是预先存储在该存储装置中的，而信息收发装置则用于将该识别信息发送至第一终端

202。而第一终端 202 对于拍摄对象实体的识别信息进行获取时，可以通过发送识别信息获取指令，则接收到该指令的信息收发装置就将对应的识别信息发送给第一终端 202。存储装置和信息收发装置可以位于拍摄对象实体中，比如该拍摄对象实体为智能手机；存储装置和信息收发装置也可以是与拍摄对象实体相关联的，比如是连接至该拍摄对象实体的，或是放置在拍摄对象实体附近，或是由于存储装置中包含了某个拍摄对象实体的识别信息、且信息收发装置用于发送该识别信息，就认为该拍摄对象实体与存储装置、信息收发装置是相关联的。

进一步地，一个存储装置可以对应于一个或多个拍摄对象实体，而一个信息收发装置也可以对应于一个或多个存储装置。信息收发装置在接收到第一终端 202发出的识别信息获取指令时，可以将其关联的存储装置中的所有识别信息都发送给第一终端 202; 也可以通过设置另一个图像采集设备，其通过监测第一终端 202的实时状态，确定其拍摄到的拍摄对象实体，从而信息收发装置仅将这部分能够被拍摄到的拍摄对象实体的识别信息发送给第一终端 202 , 从而减少了第一终端 202需要处理的数据量。

在上述技术方案中，优选地，所述第一终端 202 , 还包括：信息接收单元 202D , 用于接收至少一个所述拍摄对象实体发送的对应于其自身的识别信息，以用于编码至所述视频数据中。

在该技术方案中，识别信息可以是第一终端 202从拍摄对象实体处获取的，则有助于在识别信息与具体的拍摄对象实体之间建立实际上的关联，便于执行对拍摄对象实体和相应的识别信息的管理工作。

在上述技术方案中，优选地，所述第二终端 204 , 还包括：预存储单元（图中未示出），用于预存储识别特征；其中，所述识别单元 204C 将所述视频文件的图像帧中的内容与所述预存储单元预存储的识别特征进行匹配，以识别出所述视频文件中的至少一个拍摄对象。

在该技术方案中，在第二终端 204中或第二终端 204对应的云端存储空间内，预存储一个或多个物体的识别特征，从而在第二终端 204获取视频文件之后的任意时刻、或是播放视频文件（预先获取或实时接收的）的过程中，将视频的图像帧中的内容与预存储的识别特征进行匹配，以识别出视频中的拍摄对象。由于采用了预存储的识别特征，因而对于视频文件本身而言，并没有特殊的要求，所有的视频文件都可以适用于该技术方案，可以是第二终端 204从网络上下载的、从其他终端处获取的或是第二终端 204 自己拍摄的，具有较强的通用性。同时，由于视频文件中的拍摄对象并不总是在变化，因此，在对某个图像帧中的拍摄对象进行识别之后，可以将该图像帧与其之后的一个或多个图像帧中的像素信息进行比较，以判断出是否发生拍摄对象的变化，若存在变化，则可以进行识别，否则无需再次识别，有利于提高识别效率，降低对终端处理能力的要求。

其中，预存储的识别特征，筒单而言，可以是物体的图像，则可以根据与视频文件中的画面进行比对，以识别出该物体；进一步地，识别特征还可以是一些特征参数，比如对于 "衣服" ，可以包括 "前方存在开口，左右存在对称的袖子" 等参数，使得第二终端 204 能够 "认识" 到 "衣服" 为何物，再加之需要识别的衣服自身的特征，比如颜色、大小、款式等，就可以由第二终端 204实现对 "衣服" 的智能识别。同时，第二终端 204 自身预存储识别特征，与其根据第一终端 202发送的识别信息，两者并不矛盾，可以仅用其中的某一个进行对象识别，也可以同时利用两者进行识别。

在上述技术方案中，优选地，所述数据分离单元 204B , 包括：帧提取子单元（图中未示出），用于从所述视频数据中提取识别帧，并得到经提取所述识别帧后剩余的所述视频文件；帧解析子单元（图中未示出），用于从所述识别帧中进一步提取出所述识别信息，以用于所述识别单元对所述视频文件的识别操作。

在该技术方案中，可以在视频文件对应的数据流中间或两端添加包含识别信息的识别帧。为了实现对视频数据的分离，在识别帧的帧头部分应该包含类型标识，用于第二终端 204对视频数据中的识别帧的类型进行识别，当识别到上述类型标识后，即判断该数据帧为识别帧，具体比如识别帧头主要是由特殊字符组成，以用来标识识别帧。然后，第二终端 204继续解析其他的如识别帧长度等信息，以完整地确定对应的识别帧。识别帧还应该包括信息部分，该信息部分中包含了拍摄对象的识别信息等，以用于对视频中的拍摄对象进行识别。通过采用识别帧的方式，能够方便地将识别信息编码在视频数据中，并方便地从视频数据中解析出识别帧，从识别帧的信息部分提取出拍摄对象的识别信息，通过识别信息对视频文件中的拍摄对象进行识别。

在上述技术方案中，优选地，还包括：至少一个所述第一终端 202作为上层节点，所有的所述拍摄对象实体作为下层节点，以形成 Ad Hoc分层式网络结构。

在该技术方案中， Ad Hoc 分层式网络结构不需要依靠现有固定通信网络基础设施，并且能够迅速展开使用的网络体系。网络中的各个网络节点相互协作，通过无线链路进行通信、交换信息，实现信息和服务的共享。网络节点能够动态地、随意地、频繁地进入和离开网络，而常常不需要事先示警或通知，并且不会破坏网络中其他节点之间的通信。第一终端 202 可以是摄像头，将摄像头作为 Ad Hoc 的上层节点，拍摄对象（比如衣服）作为下层节点，则根据 Ad Hoc 网络的结构特点，一个上层节点 (即摄像头）可以对应于多个下层节点（即多个上述的信息收发装置），并且不同网络节点之间互不影响，提高了视频采集系统的稳定性与灵活性。

在上述技术方案中，优选地，所述第一终端 202还接收所述至少一个所述拍摄对象实体发送的对应于其自身的可控信息；其中，所述编码单元 202B 还用于将所述可控信息与所述识别信息关联地编码至所述视频数据，且所述数据分离单元 204B 还用于从所述视频数据中获取与至少一个所述拍摄对象相关联的可控信息，所述处理单元 204G 还用于在检测到对所述指定操作区域的所述操作动作的情况下，根据所述可控信息执行对所述指定拍摄对象的操作功能；或所述第二终端 204还在检测到对所述指定操作区域的操作动作时，将检测结果上报至所述第一终端 202 , 且所述第一终端 202相应地将对应于所述指定操作区域的可控信息发送至所述第二终端 204, 以由所述处理单元 204G 根据所述可控信息执行对所述指定拍摄对象的操作功能。

在该技术方案中，第二终端 204可以对所有的拍摄对象进行默认的处理操作，比如对所有被点击到的拍摄对象进行放大处理，或是存储被点击到的拍摄对象，或是直接调用浏览器对被点击到的拍摄对象进行 "以图搜图" 。当然，为了能够实现更多的处理操作方式，可以通过将可控信息与识别信息进行关联并编码至视频数据中，则用户在对识别出的拍摄对象进行操作时，第二终端 204根据可控信息执行相应的功能。具体来说，可以将编码至上述识别帧中，或是单独编码为控制信息帧，将识别帧（还可能包括控制信息帧）与拍摄得到的视频文件进行整合形成视频数据。第二终端 204根据解析出的可控信息，以执行相应的功能。第二终端 204解析出可控信息之后，可以同相关联的识别信息一起保存至匹配数据库中，则在用户对识别出的拍摄对象进行操作时，从匹配数据库中检索出与该指定物体的识别信息关联的可控信息，以执行对该拍摄对象的操作功能。

当然，第一终端 202将可控信息编码至视频数据中时，往往是将与视频数据中的拍摄对象相关联的识别信息和可控信息一并发送至第二终端 204; 但为了节约网络资源、提高视频数据的传输速度，则第一终端 202 可以根据第二终端 204上报的检测结果，仅当某个拍摄对象对应的操作区域存在操作动作时，才将对应的可控信息发送至第二终端 204 , 这也有利于节省第二终端 204的存储空间。

在上述技术方案中，优选地，所述数据分离单元 204B 分离出的所述可控信息包括：菜单数据、链接信息、控制命令；以及所述处理单元 204G 执行的所述操作功能相应地包括：根据所述菜单数据生成并展示对应的交互菜单、打开所述链接信息、执行所述控制命令。

图 3示出了根据本发明实施例的基于 Ad Hoc网络结构的智能视频交互系统的模块图。

如图 3所示，根据本发明实施例的基于 Ad Hoc网络结构的智能视频交互系统，包括客户端 302与服务端 304。

本实施例中服务端 304采用的是 Ad Hoc分层式网络结构来进行信息的采集，以形成视频数据供客户端 302进行下载，且客户端 302可以根据需要实时播放或在其他任意时刻播放。 Ad Hoc 网络中的各个网络节点相互协作，通过无线链路进行通信、交换信息，实现信息和服务的共享。网络节点能够动态地、随意地、频繁地进入和离开网络，而常常不需要事先示警或通知，并且不会破坏网络中其他节点之间的通信，具有^艮强的灵活性。当然，采用 Ad Hoc 网络结构只是一种较为优选的方式，若采用其他的网络结构以实现本发明中信息的采集过程，也应包含在本发明的保护范围之内。

服务端 304包括：

服务器 304A, 用于提供客户端 302 下载视频数据，其中的视频数据可以是包含有识别帧的视频数据，也可以是不含识别帧的视频文件。服务器 304A 可以根据客户端的不同选择，传输上述两种视频数据中的任一种。

上层节点 304B与上层节点 304C是 Ad Hoc网络中的上层节点（显然地，上层节点的数量是可以根据需要而变化的，即可以仅包含一个上层节点，也可以包含 2 个或更多上层节点，此处以包含 2 个节点为例进行说明），节点之间互不影响，可以动态地、随意地、频繁地进入和离开网络，使信息采集系统具有很强的灵活性。上层节点在此可以是摄像头，用于根据服务器 304A 的请求动态采集拍摄对象（即下层节点）的图像信息。上层节点对于下层节点的识别信息和 /或可控信息进行获取时，可以通过发送识别信息和 /或可控信息获取指令，则下层节点接收到该指令就将对应的识别信息和 /或可控信息发送至上层节点。其中一个上层节点可以对应于多个下层节点。如上层节点 304B 对应于下层节点 304D 与 304E, 下层节点 304D与 304E之间也是互不影响的。

下层节点 304D、 304E、 304F、 304G是 Ad Hoc网络中的下层节点，与上层节点一样，可以动态地、随意地、频繁地进入和离开网络，并不影响其他网络节点的工作。当下层节点接收到上层节点发送的获取识别信息和 /或可控信息的命令时，传输识别信息与可控信息至上层节点。

客户端 302包括：

接收模块 302A, 用于接收从服务端获取的视频数据，所述视频数据中包含了识别拍摄对象的识别信息。

数据分离模块 302B , 用于对所述视频数据进行数据分离，得到所述视频文件和与所述视频文件中的至少一个拍摄对象相关联的识别信息，以及与识别信息关联的可控信息。具体来说，视频数据中包含有识别帧，识别帧包含识别帧头、识别帧长度、识别帧信息等特征。识别帧头主要是由特殊字符组成，以用来标识识别帧；识别帧长度用来标记识别帧信息的长度；识别帧信息部分是由特殊的字符编码格式组成，包含了拍摄对象的识别信息和可控信息等。因此可以将识别帧从视频数据中分离出来，并解析识别帧，从识别帧的信息部分提取出拍摄对象的识别信息与可控信息，通过识别信息对视频文件中的拍摄对象进行识别。

视频解码模块 302C, 用于对视频文件进行解码。

音视频输出模块 302D, 用于将解码后的音视频输出进行播放。

匹对数据库 302E , 用于保存从视频数据中分离出的识别信息与可控信息。

智能识别模块 302F , 用于根据分离出的识别信息对视频文件中的拍摄对象进行识别，并根据识别出的拍摄对象生成对应的操作区域。

智能交互显示模块 302G, 用于在播放视频文件时，在识别出的拍摄对象的操作区域内对拍摄对象进行操作时，根据分离出的可控信息，执行相应的操作。

下面结合图 4和图 5A-5C, 对本发明的技术方案进行详细说明。

图 4示出了根据本发明实施例的智能视频交互系统的流程图。

如图 4所示，根据本发明实施例的智能视频交互系统的流程，包括：步骤 402 , 用户选择相应的视频文件进行播放，即选择包含有数据信息的视频数据，或者是单纯的视频文件。

步骤 404, 当用户想了解某个物体（拍摄对象）的具体信息时，可通过点击某个物体。本实施例中，用户首先对视频中的指定物体进行操作 (即点击，当然也可以通过其他操作，比如触屏），然后再判断该指定物体是否为可以识别的拍摄对象。当然也可以先通过对拍摄对象的识别，识别出拍摄对象之后，将拍摄对象进行特殊显示，再由用户对识别出的拍摄对象进行操作。

步骤 406, 判断用户选择何种视频模式进行播放，若选择特殊模式，则执行步骤 408 , 否则跳转至步骤 402。在本实施例中，用户可以选择视频模式，其中的特殊模式即为本发明技术方案中所述的可以对拍摄对象进行识别，并在视频播放过程中，支持用户对识别出的拍摄对象进行操作的模式。用户若选择特殊模式，则针对包含有数据信息的视频数据，可以对视频数据进行分离，得到拍摄对象的识别信息与可控信息，以对拍摄对象进行识别与操作；若所播放的视频是不含数据信息的视频文件，则可以通过终端在本地或云端存储的识别特征来对拍摄对象进行识别。若用户选择的不是特殊模式，则只能够进行视频播放，不能对视频中的拍摄对象进行操作。

步骤 408 , 根据选择的内容，弹出交互菜单进行动态的交互。弹出的交互菜单是根据可控信息做出的相应操作。

如图 5A所示，在手机终端（也可以是平板电脑、 PC等其他终端）播放视频的过程中，从视频数据中分离出的识别信息和与识别信息相关联的可控信息保存至匹配数据库中，根据识别信息（或者是存储至本地或云端的识别特征 ) 识别出拍摄对象 502 , 并可以对识别出的拍摄对象 502进行特殊显示（比如显示出一个高亮范围等），在拍摄对象 502的附近生成对应于拍摄对象 502的操作区域（图中未示出）。用户可以点击拍摄对象的操作区域来对拍摄对象 502进行操作，终端根据对拍摄对象 502的操作检索匹配数据中的可控信息，执行相应的操作，如图中所示，弹出交互菜单 504 , 用户可以通过交互菜单 504 对拍摄对象 502 作进一步的操作。当然，也可以如图 5B 所示，在点击拍摄对象 502 后，弹出一个气泡框 506, 从气泡框 506 中可以获知拍摄对象 502 的信息。也可以在点击拍摄对象 502之后，对拍摄对象 502进行放大显示，或者调用浏览器并直接切换至相应的网址链接的页面中（如图 5C所示）。

步骤 410 , 用户选择某个菜单，如图 5A中的 "详细" 。

步骤 412 , 把用户选择的操作信息发至指定的服务器，根据识别到的操作功能，通过将选择的操作信息发送至服务器，可以根据存储的操作功能作出对操作信息的响应。

步骤 414, 服务器返回操作结果，比如，可以弹出如图 5B 中所示的拍摄对象 502详细信息的气泡框。

以上结合附图详细说明了本发明的技术方案，考虑到在现有技术中，当用户进行网上购物时，通过浏览网页图片的方式去购买产品，购买到的实物跟网上的照片偏差较大，用户在观看视频时，也无法对视频中的拍摄对象进行操作，只能通过单独的网络搜索等方式对拍摄对象进行操作。因此，本发明提出了一种新的数据处理方案，可以对视频中的拍摄对象进行识别，使用户在观看视频时对视频中的拍摄对象进行操作，而无需通过单独的网络搜索等方式进行操作，从而有利于筒化用户操作，提升了用户体验。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1. 一种数据处理方法，包括：

第一终端对至少一个拍摄对象实体进行图像采集，并将采集到的图像和对应于至少一个所述拍摄对象实体的识别信息进行编码，形成视频数据，并通过网络发送至第二终端；

所述第二终端接收所述视频数据，对所述视频数据进行数据分离，得到视频文件和与所述视频文件中的至少一个拍摄对象相关联的识别信息；所述第二终端根据所述识别信息识别出所述视频文件中的至少一个拍摄对象，并在所述视频文件中形成对应于至少一个所述拍摄对象的操作区域；

所述第二终端在播放所述视频文件时，根据检测到的对指定操作区域的操作动作，执行与所述指定操作区域对应的指定拍摄对象相关联的操作功能。

2. 根据权利要求 1所述的数据处理方法，还包括：

所述第一终端接收至少一个所述拍摄对象实体发送的对应于其自身的识别信息，以用于编码至所述视频数据中。

3. 根据权利要求 1所述的数据处理方法，还包括：

至少一个所述第一终端作为上层节点，所有的所述拍摄对象实体作为下层节点，以形成 Ad Hoc分层式网络结构。

4. 根据权利要求 1至 3中任一项所述的数据处理方法，还包括：所述第一终端还接收所述至少一个所述拍摄对象实体发送的对应于其自身的可控信息；

其中，所述第一终端将所述可控信息与所述识别信息关联地编码至所述视频数据，且所述第二终端还从所述视频数据中获取与至少一个所述拍摄对象相关联的可控信息，并当检测到对所述指定操作区域的所述操作动作时，根据所述可控信息执行对所述指定拍摄对象的操作功能；

或当所述第二终端检测到对所述指定操作区域的操作动作，并将检测结果上报至所述第一终端时，所述第一终端将对应于所述指定操作区域的可控信息发送至所述第二终端，以由所述第二终端根据所述可控信息执行对所述指定拍摄对象的操作功能。

5. 根据权利要求 4 所述的数据处理方法，所述可控信息包括：菜单数据、链接信息、控制命令；以及

所述操作功能相应地包括：

根据所述菜单数据生成并展示对应的交互菜单、打开所述链接信息、执行所述控制命令。

6. 一种数据处理系统，其特征在于，包括第一终端和第二终端，所述第一终端包括：

图像采集单元，用于对至少一个拍摄对象实体进行图像采集；编码单元，用于将采集到的图像和对应于至少一个所述拍摄对象实体的识别信息进行编码，形成视频数据；

视频数据发送单元，用于将所述编码单元形成的所述视频数据通过网络发送至所述第二终端；

所述第二终端包括：

视频数据接收单元，用于接收所述视频数据；

数据分离单元，用于对所述视频数据进行数据分离，得到视频文件和与所述视频文件中的至少一个拍摄对象相关联的识别信息；

识别单元，用于根据所述识别信息识别出所述视频文件中的至少一个拍摄对象；

操作区域生成单元，根据识别出的所述至少一个拍摄对象在所述视频文件中形成对应于至少一个所述拍摄对象的操作区域；

视频播放单元，用于播放所述视频文件；

操作动作检测单元，用于在所述视频播放单元播放所述视频文件时，检测对指定操作区域的操作动作；

处理单元，用于在所述操作动作检测单元检测到对所述指定操作区域的操作动作时，执行与所述指定操作区域对应的指定拍摄对象相关联的操作功能。

7. 根据权利要求 6 所述的数据处理系统，其特征在于，所述第一终端，还包括：信息接收单元，用于接收至少一个所述拍摄对象实体发送的对应于其自身的识别信息，以用于编码至所述视频数据中。

8. 根据权利要求 6所述的数据处理系统，其特征在于，还包括：至少一个所述第一终端作为上层节点，所有的所述拍摄对象实体作为下层节点，以形成 Ad Hoc分层式网络结构。

9. 根据权利要求 6 至 8 中任一项所述的数据处理系统，其特征在于，

所述第一终端还接收所述至少一个所述拍摄对象实体发送的对应于其自身的可控信息；

其中，所述编码单元还用于将所述可控信息与所述识别信息关联地编码至所述视频数据，且所述数据分离单元还用于从所述视频数据中获取与至少一个所述拍摄对象相关联的可控信息，所述处理单元还用于在检测到对所述指定操作区域的所述操作动作的情况下，根据所述可控信息执行对所述指定拍摄对象的操作功能；

或所述第二终端还在检测到对所述指定操作区域的操作动作时，将检测结果上报至所述第一终端，且所述第一终端相应地将对应于所述指定操作区域的可控信息发送至所述第二终端，以由所述处理单元根据所述可控信息执行对所述指定拍摄对象的操作功能。

10. 根据权利要求 9所述的数据处理系统，其特征在于，所述数据分离单元分离出的所述可控信息包括：菜单数据、链接信息、控制命令；以及

所述处理单元执行的所述操作功能相应地包括：