WO2013174231A1

WO2013174231A1 - 增强现实交互的实现方法和系统

Info

Publication number: WO2013174231A1
Application number: PCT/CN2013/075784
Authority: WO
Inventors: 刘骁; 刘海龙; 侯杰; 饶丰; 伍敏慧; 陈波
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-05-22
Filing date: 2013-05-17
Publication date: 2013-11-28
Also published as: CN103426003B; KR20150011008A; JP2015524103A; CN103426003A; KR101535579B1; US20150139552A1; US9189699B2; JP5827445B2

Abstract

提供了一种增强现实交互的实现方法和系统。所述方法包括：采集帧图像，并上传所述帧图像（S110）；进行识别得到与所述帧图像匹配的模板图像，并返回所述模板图像（S130）；根据所述模板图像检测所述帧图像的标记区域（S150）；将媒体数据叠加到所述标记区域，并展示叠加得到的图像（S170）。所述系统包括客户端以及服务器；所述客户端包括采集模块、检测模块以及展示处理模块；所述采集模块用于采集帧图像，并上传所述帧图像；所述服务器用于进行识别得到与所述帧图像匹配的模板图像，并返回所述模板图像；检测模块用于根据所述模板图像检测所述帧图像的标记区域；展示处理模块用于将媒体数据叠加到所述标记区域，并展示叠加得到的图像。采用所述方法和系统能够提高增强现实交互的灵活性。

Description

增强现实交互的实现方法和系统

【技术领域】

本发明涉及模拟仿真技术，特别是涉及一种增强现实交互的实现方法和系统。

【背景技术】

增强现实技术是将虚拟的信息应用到真实世界的模拟仿真技术，是将真实环境的图像和虚拟环境实时地叠加到同一画面中。利用增强现实技术所进行的各种应用可以使得用户融入虚拟环境中，传统的增强现实技术的交互过程可通过运行于终端设备的各种客户端实现。

例如，以某一特定海报为标记，借助摄像头拍摄标记的图像，并进行识别得到识别结果，根据识别结果得到与该特定海报中内容相关的电影预告片，并进行播放。由于增强现实技术的交互过程用于识别所涉及的逻辑非常复杂，包含了各种各样的文件，进而导致客户端的体积过于庞大，所以在通过各种客户端所实现的增强现实技术的交互应用中，每一种交互应用只能对应单一标记，并且通过对应的客户端实现，换而言之，每一个客户端只能对应一种标记，对于不同的标记需要针对性地开发相应客户端，单一客户端无法为多种标记实现增强现实技术的交互过程，进而造成用户不得不重复下载安装多个的客户端，缺乏灵活性。

此外，传统的增强现实技术的交互还可以通过设置于室内或户外大屏幕所连接的主机实现。例如，通过户外大屏幕播放洗发水广告，观看者站在大屏幕前方某一特定区域，则户外大屏幕将播放该观看者和虚拟的明星人物学跳舞或合影的视频图像；又例如，在某博物馆中推出室内大屏幕广告，观看者站在特定区域可以从室内大屏幕中看到恐龙或者宇航员等从身边走过的视频图像。室内或户外大屏幕所连接的主机与运行于终端设备的客户端相比较具有较强的后台运算能力，能够处理增强现实技术交互过程中复杂的逻辑，但是，通过大屏幕以及与其相连的主机所实现的增强现实技术的交互由于使用上的限制，同样也是仅针对单一标记，缺乏灵活性。

【发明内容】

基于此，提供一种能提高灵活性的增强现实交互的实现方法。

此外，还有必要提供一种能提高灵活性的增强现实交互的实现系统。

一种增强现实交互的实现方法，包括如下步骤：

采集帧图像，并上传所述帧图像；

进行识别得到与所述帧图像匹配的模板图像，并返回所述模板图像；

根据所述模板图像检测所述帧图像的标记区域；

将与所述模板图像相对应的媒体数据叠加到所述标记区域，并展示叠加得到的图像。

一种增强现实交互的实现系统，包括客户端以及服务器；所述客户端包括采集模块、检测模块以及展示处理模块；

所述采集模块用于采集帧图像，并上传所述帧图像；

所述服务器用于进行识别得到与所述帧图像匹配的模板图像，并返回所述模板图像；

检测模块用于根据所述模板图像检测所述帧图像的标记区域；

展示处理模块用于将与所述模板图像相对应的媒体数据叠加到所述标记区域，并展示叠加得到的图像。

上述增强现实交互的实现方法和系统，在采集到帧图像之后进行上传，根据上传的帧图像进行识别并返回得到与其相匹配的模板图像，根据返回的模板图像进行标记区域的检测，进而将媒体数据叠加到标记区域中，展示叠加得到的图像，帧图像被上传到远端的服务器执行与模板图像之间的识别匹配过程，使得相对复杂的识别匹配过程不必在本地完成，进而大提高了增强现实交互中的识别能力，针对各种标记均能够识别出与其相匹配的模板图像，大大提高了灵活性。

【附图说明】

图1为一个实施例中增强现实交互的实现方法的流程图；

图2为图1中进行识别得到与帧图像匹配的模板图像，并返回模板图像的方法流程图；

图3为图1中根据模板图像检测帧图像的标记区域的方法流程图；

图4为另一个实施例中增强现实交互的实现方法的流程图；

图5为另一个实施例中增强现实交互的实现方法的流程图；

图6为另一个实施例中增强现实交互的实现方法的流程图；

图7为一个实施例中增强现实交互的实现系统的结构示意图；

图8为图7中服务器的结构示意图；

图9为图7中检测模块的结构示意图；

图10为一个实施例中客户端的结构示意图；

图11为另一个实施实施例中服务器的结构示意图；

图12为另一个实施例中增强现实交互的实现系统的结构示意图。

【具体实施方式】

如图1所示，在一个实施例中，一种增强现实交互的实现方法，包括如下步骤：

步骤S110，采集帧图像，并上传帧图像。

本实施例中，进行图像采集得到帧图像，帧图像可以是二维或者三维的形式，是图像采集过程中得到的视频流对应的图像序列中的某一图像。例如，持续进行图像采集得到视频流，视频流是由图像序列形成的，即图像序列包括了若干帧图像，采集并上传到服务端的帧图像即为图像序列中当前采集到的图像。

步骤S130，进行识别得到与帧图像匹配的模板图像，并返回模板图像。

本实施例中，预先存储了若干个不同的模板图像，从预先存储的模板图像中识别出与上传的帧图像相匹配的模板图像，可以通过基于SIFT的模式识别算法等用于识别算法根据帧图像识别出模板图像。例如，帧图像为XX电影的海报图像，而预先存储的模板图像中包含了几百个电影海报的图像，此时，通过对存储的模板图像的识别从存储的模板图像中得到XX电影的海报图像，这一识别得到的海报图像是与帧图像匹配的模板图像。在识别得到与帧图像匹配的模板图像之后，服务端向上传了帧图像的客户端返回识别得到的模板图像。

步骤S150，根据模板图像检测帧图像的标记区域。

本实施例中，图像采集过程中对一标记物进行拍摄得到该标记物的帧图像，而标记物在帧图像中形成的区域为标记区域。模板图像用于检测帧图像中的标记区域，其中也存在着标记物的图像。在帧图像标记区域的检测过程中，可通过模板图像与帧图像的比对得到帧图像的标记区域，此外，还可预先记录模板图像中形成标记区域的点，进而通过记录的点较为迅速地得到帧图像中的标记区域。

步骤S170，将与模板图像相对应的媒体数据叠加到标记区域，并展示叠加得到的图像。

本实施例中，媒体数据是与模板图像相对应的，可以是视频流或三维视频模型。例如，若模板图像为电影海报，则媒体数据为该电影的播放文件。将媒体数据叠加到标记区域中，在展示叠加得到的图像的过程中，媒体数据的播放构成了虚拟环境，而标记区域之外的一系列帧图像将构成了现实环境，实现了增强现实的效果。

如图2所示，在一个实施例中，上述步骤S130的具体过程包括：

步骤S131，获取上传帧图像的属性信息。

本实施例中，上传帧图像的属性信息用于记录与帧图像相关的描述信息。一实施例中，属性信息包括用户信息和设备信息，其中，用户信息是用户注册是登记的个人身份信息，例如，性别、年龄、教育背景和爱好等；设备信息是用户上传帧图像时使用的硬件设备返回的信息，例如，假设用户使用某一移动终端向服务端上传了帧图像，则设备信息包括了GPS地理信息、设备厂商和网络环境等。

步骤S133，根据属性信息在存储的模板图像中限定匹配范围。

本实施例中，以属性信息为依据在存储的多个模板图像进行范围限定。例如，属性信息记录了上传帧图像的用户为女性，GPS地理信息为北京，此时，限定的匹配范围为与女性、北京相关的模板图像。具体的，假设存储的模板图像中，存在着化妆品广告图像、剃须刀广告图像、北京演唱会图像以及上海演唱会图像，则处于匹配范围的模板图像为化妆品广告图像和北京演唱会图像。限定匹配范围有利于快速得到与帧图像匹配的模板图像，并且提高了匹配的准确性。

步骤S135，查找处于匹配范围的模板图像，判断帧图像是否与查找的模板图像匹配，若是，则进入步骤S137，若否，则返回步骤S110。

本实施例中，逐一对处于匹配范围的模板图像进行查找，以获取与帧图像相匹配的模板图像，并向上传帧图像的用户返回查找得到的模板图像。

步骤S137，返回查找的模板图像。

如图3所示，在一个实施例中，上述步骤S150的具体过程包括：

步骤S151，根据模板图像对应的训练数据得到帧图像中的特征点。

本实施例中，训练数据用于记录模板图像中标记区域的特征点，模板图像中的标记区域可以通过一系列的特征点进行标识。由于模板图像是与帧图像相匹配的，因此，通过训练数据中记录的特征点得到帧图像中用于标识标记区域的特征点，即训练数据中记录的特征点和帧图像中的特征点是相互匹配的特征点对。

步骤S153，通过特征点获取帧图像中标记区域的轮廓位置。

本实施例中，通过帧图像中一系列的特征点得到帧图像中标记区域的轮廓位置，进而通过轮廓位置得到标记区域的轮廓以及在帧图像中的坐标。

上述标记区域的获取过程在客户端进行处理，但并不仅限于此，也可以在服务端进行处理。

如图4所示，在另一个实施例中，上述步骤S150之前还包括：

步骤S210，判断本地文件中是否存在模板图像对应的训练数据和媒体数据，若否，则进入步骤S230，若是，则进入步骤S250。

本实施例中，本地文件是存储于客户端本地的文件。在得到帧图像的标记区域之后，判断客户端本地是否存在模板图像所对应的训练数据和媒体数据，若不存在，则需要从服务端下载训练数据和媒体数据，若客户端本地存在模板图像所对应的训练数据和媒体数据，则直接进行加载。

步骤S230，下载训练数据和媒体数据。

本实施例中，用户可在下载完毕之后进行标记区域的检测和媒体数据的叠加以及播放，也可以在训练数据和媒体数据的流式数据传输过程中边传输边进行后续的处理。

步骤S250，加载训练数据和媒体数据。

如图5所示，在另一个实施例中，上述步骤S150之前还包括：

步骤S310，对存储的模板图像进行检测得到特征点，并判断特征点的数量是否小于阈值，若否，则进入步骤S330，若是，则结束。

本实施例中，在根据模板图像进行帧图像标记区域的检测中，通过该模板图像对应的特征点得到帧图像中的特征点。模板图像是服务端采集并存入的图像以及用户上传并存入的图像。对于作为模板图像存入的图像而言，服务端存储的数据中并没有与之对应的训练数据和媒体数据，此时，需要对模板图像进行训练以得到训练数据，并建立模板图像和媒体数据之间的对应关系。对模板图像的训练可以在服务端进行，也可以在客户端进行，但是，优选在服务端实现模板图像的训练，进而实现轻量级的客户端。

在对模板图像进行训练的过程中，需对作为模板图像存入的图像通过特征点检测算法进行检测，以得到图像中的特征点。特征检测算法可以是FAST特征点检测算法或者类似的SURF特征点检测算法，还可以是其它的特征点检测算法，在此不再一一列举。

在得到模板图像中的特征点后还需判断特征点的数量是否足够用于检测帧图像的标记区域，以保证模板图像的有效性。在优选的实施例中，选取的阈值为100。

步骤S330，获取模板图像对应的样本图像，并检测得到样本图像中的特征点。

本实施例中，为保证特征点检测的准确性，获取模板图像对应的若干样本图像进行特征点的检测，进而保证特征点的鲁棒性。样本图像是与模板图像对应的各种不同旋转角度和/或缩放尺度的图像。例如，针对360度每隔10度设定一个旋转角度，共得到36个旋转角度；每次缩小0.8的缩放尺度得到7个缩放级别，总计得到36×7=252个不同旋转角度和缩放尺度的样本图像，对每一样本均进行特征点的检测。

步骤S350，处理模板图像和样本图像中的特征点生成记录特征点的训练数据。

本实施例中，合并模板图像和样本图像中的特征点形成记录了特征点的训练数据。具体的，将模板图像和样本图像中的相同特征点合并成一个特征点，进而记录该特征点的位置，得到训练数据。

在另一个实施例中，还将进行特征点的剪栽，以保证特征点的准确性。在多个样本图像中的某些特征点是重复出现的频率是非常低的，这些较少复现的特征点是检测出错产生的可能性较高，会对后续帧图像标记区域的检测造成干扰，因此应当对其进行剪裁，剔除该特征点。

具体的，合并和剪裁模板图像和样本图像中的特征点的具体过程为：对模板图像和样本图像添加随机噪声和进行模糊处理，然后对添加了噪声和模糊的图像再次进行特征点的检测，得到相应的特征点；判断模板图像和样本图像的特征点是否存在于添加了噪声和模糊的图像对应的特征点中，若否，则对其进行剪裁，若否，进行合并。

若判断到模板图像和样本图像的特征点还存在于添加了噪声和模糊的图像对应的特征点中，则说明该特征点是可复现的，若某一特征点未在添加了噪声和模糊的图像对应的特征点中出现，则认为是较少复现的。

进一步的，对于可复现的特征点，还将判断该特征点的复现次数，若复现次数大于复现阈值，则记录该特征点，若否，则剔除该特征点，以更为有效地保证特征点的准确性。

上述训练数据的生成过程在服务端实现，但并不仅限于此，还可在客户端中实现。

如图6所示，在另一个实施例中，上述步骤S310之前还包括：

步骤S410，选定模板图像和对应的媒体数据。

本实施例中，对于预先存储的模板图像和媒体数据，用户还可自行选定模板图像和对应的媒体数据，实现个性化的增强现实交互。具体的，模板图像可以是用户拍照得到的图像，也可以是通过其它方式得到的图像；媒体数据可以是用户拍摄的视频流或都三维视频模型，也可以是用户对互联网中获取到的视频流或三维视频模型进行编辑得到的，例如，用户可更改下载得到的视频流中的背景音乐，将其更换为自己的声音。

步骤S430，根据登录用户的上传操作判断选定的模板图像和对应的媒体数据是否共享，若是，则进入步骤S450，若否，则进入步骤S470。

本实施例中，在上传选定的模板图像和对应的媒体数据之前，还需验证用户信息进入登录状态，此时，获取登录用户的上传操作，上传操作包括了用户触发的上传指令和/或共享指令，用户可根据需要选择是否进行共享。

步骤S450，将选定的模板图像和对应的媒体数据上传并存储到公共存储空间。

本实施例中，若选定的模板图像和对应的媒体数据进行共享，则将其上传并存储到公共存储空间，其它用户也能够使用该登录用户上传的模板图像和媒体数据。

步骤S470，上传并存储到登录用户对应的存储空间。

本实施例中，若选定的模板图像和对应的媒体数据不进行共享，则将上传的模板图像和对应的媒体数据存入该登录用户对应的存储空间。

在一个实施例中，登录用户对应的存储空间的优先级高于公共存储空间的优先级。

本实施例中，登录用户对应的存储空间的优先级以及公共存储空间的优先级高低决定了存储于其中的模板图像的优先级，换而言之，识别与帧图像匹配的模板图像的过程中，若识别到两个与帧图像相匹配的模板图像，这两个模板图像分别存储于登录用户对应的存储空间以及公共存储空间，此时，由于登录用户对应的存储空间的优先级高于公共存储空间，将优先采用存储于登录用户对应的存储空间的模板图像，并将其返回给登录用户。

如图7所示，在一个实施例中，一种增强现实交互的实现系统，包括客户端10和服务器30，其中，客户端10包括采集模块110、检测模块130以及展示处理模块150。

一实施例中，客户端安装于终端设备中，并且根据终端设备的类型分为电脑客户端、移动客户端以及网页客户端，其中，电脑客户端是安装于电脑中的，移动客户端安装于移动终端中，网页客户端是基于浏览器实现的。

采集模块110，用于采集帧图像，并上传帧图像。

本实施例中，采集模块110进行图像采集得到帧图像，帧图像可以是二维或者三维的形式，采集模块110得到的视频流对应的图像序列中的某一图像。例如，采集模块110持续进行图像采集得到视频流，视频流是由图像序列形成的，即图像序列包括了若干帧图像，采集并上传到服务器的帧图像即为图像序列中当前采集到的图像。具体的，采集模块110可以是终端设备中的摄像头。

服务器30，用于进行识别得到与帧图像匹配的模板图像，并返回模板图像。

本实施例中，服务器30中预先存储了若干个不同的模板图像，从预先存储的模板图像中识别出与上传的帧图像相匹配的模板图像，可以通过基于SIFT的模式识别算法等用于识别算法根据帧图像识别出模板图像。例如，帧图像为XX电影的海报图像，而服务器30预先存储的模板图像中包含了几百个电影海报的图像，此时，通过对存储的模板图像的识别从存储的模板图像中得到XX电影的海报图像，这一识别得到的海报图像是与帧图像匹配的模板图像。在识别得到与帧图像匹配的模板图像之后，服务器30向上传了帧图像的客户端10返回识别得到的模板图像。

检测模块130，用于根据模板图像检测帧图像的标记区域。

本实施例中，采集模块10对一标记物进行拍摄得到该标记物的帧图像，而标记物在帧图像中形成的区域为标记区域。模板图像用于检测帧图像中的标记区域，其中也存在着标记物的图像。在帧图像标记区域的检测过程中，可通过模板图像与帧图像的比对得到帧图像的标记区域，此外，还可预先记录模板图像中形成标记区域的点，进而通过记录的点较为迅速地得到帧图像中的标记区域。

展示处理模块150，用于将与模板图像相对应的媒体数据叠加到标记区域，并展示叠加得到的图像。

如图8所示，在一个实施例中，上述服务器30包括属性获取模块310、范围限定模块330以及查找模块350。

属性获取模块310，用于获取上传帧图像的属性信息。

本实施例中，上传帧图像的属性信息用于记录与帧图像相关的描述信息。一实施例中，属性信息包括用户信息和设备信息，其中，用户信息是用户注册是登记的个人身份信息，例如，性别、年龄、教育背景和爱好等；设备信息是用户上传帧图像时使用的硬件设备返回的信息，例如，假设用户使用某一移动终端向服务器上传了帧图像，则设备信息包括了GPS地理信息、设备厂商和网络环境等。

范围限定模块330，用于根据属性信息在存储的模板图像中限定匹配范围。

本实施例中，范围限定模块330以属性信息为依据在存储的多个模板图像进行范围限定。例如，属性信息记录了上传帧图像的用户为女性，GPS地理信息为北京，此时，限定的匹配范围为与女性、北京相关的模板图像。具体的，假设存储的模板图像中，存在着化妆品广告图像、剃须刀广告图像、北京演唱会图像以及上海演唱会图像，则处于匹配范围的模板图像为化妆品广告图像和北京演唱会图像。限定匹配范围有利于快速得到与帧图像匹配的模板图像，并且提高了匹配的准确性。

查找模块350，用于查找处于匹配范围的模板图像，判断帧图像是否与查找的模板图像匹配，若是，则向客户端10返回模板图像，若否，则通知采集模块110。

本实施例中，查找模块350逐一对处于匹配范围的模板图像进行查找，以获取与帧图像相匹配的模板图像，并向上传帧图像的用户返回查找得到的模板图像。

如图9所示，在一个实施例中，上述检测模块130包括特征检测单元131以及轮廓获取单元133。

特征检测单元131，用于根据模板图像对应的训练数据得到帧图像中的特征点。

本实施例中，训练数据用于记录模板图像中标记区域的特征点，模板图像中的标记区域可以通过一系列的特征点进行标识。由于模板图像是与帧图像相匹配的，因此，特征检测单元131通过训练数据中记录的特征点得到帧图像中用于标识标记区域的特征点，即训练数据中记录的特征点和帧图像中的特征点是相互匹配的特征点对。

轮廓获取单元133，用于通过特征点获取帧图像中标记区域的轮廓位置。

本实施例中，轮廓获取单元133通过帧图像中一系列的特征点得到帧图像中标记区域的轮廓位置，进而通过轮廓位置得到标记区域的轮廓以及在帧图像中的坐标。

上述检测模块130除了设置于客户端10中之外，还可设置于服务器30中。

如图10所示，在另一个实施例中，上述客户端10还包括数据获取模块170。

数据获取模块170，用于判断本地文件中是否存在模板图像对应的训练数据和媒体数据，若否，则下载训练数据和媒体数据，若是，则加载训练数据和媒体数据。

本实施例中，本地文件是存储于客户端本地的文件。数据获取模块170判断客户端本地是否存在模板图像所对应的训练数据和媒体数据，若不存在，则需要下载训练数据和媒体数据，若客户端本地存在模板图像所对应的训练数据和媒体数据，则直接进行加载。

用户可在下载完毕之后进行标记区域的检测和媒体数据的叠加以及播放，也可以在训练数据和媒体数据的流式数据传输过程中边传输边进行后续的处理。

如图11所示，在另一个实施例中，上述服务器30还包括特征处理模块370以及训练数据生成模块390。

特征处理模块370，用于对存储的模板图像进行检测得到特征点，并判断特征点的数量是否小于阈值，若否，则获取模板图像对应的样本图像，并检测得到样本图像的特征点，若是，则结束。

本实施例中，特征处理模块370通过该模板图像对应的特征点得到帧图像中的特征点。模板图像是服务端采集并存入的图像以及用户上传并存入的图像。对于作为模板图像存入的图像而言，服务端存储的数据中并没有与之对应的训练数据和媒体数据，此时，需要对模板图像进行训练以得到训练数据，并建立模板图像和媒体数据之间的对应关系。对模板图像的训练可以在服务器进行，也可以在客户端进行，但是，优选在服务器实现模板图像的训练，进而实现轻量级的客户端。

在对模板图像进行训练的过程中，需特征处理模块370对作为模板图像存入的图像通过特征点检测算法进行检测，以得到图像中的特征点。特征检测算法可以是FAST特征点检测算法或者类似的SURF特征点检测算法，还可以是其它的特征点检测算法，在此不再一一列举。

特征处理模块370还需判断特征点的数量是否足够用于检测帧图像的标记区域，以保证模板图像的有效性。在优选的实施例中，选取的阈值为100。

训练数据生成模块390，用于处理模板图像和样本图像中的特征点生成记录所述特征点的训练数据。

本实施例中，为保证特征点检测的准确性，训练数据生成模块390获取模板图像对应的若干样本图像进行特征点的检测，进而保证特征点的鲁棒性。样本图像是与模板图像对应的各种不同旋转角度和/或缩放尺度的图像。例如，训练数据生成模块390针对360度每隔10度设定一个旋转角度，共得到36个旋转角度；每次缩小0.8的缩放尺度得到7个缩放级别，总计得到36×7=252个不同旋转角度和缩放尺度的样本图像，对每一样本均进行特征点的检测。

在另一个实施例中，训练数据生成模块390还将进行特征点的剪栽，以保证特征点的准确性。在多个样本图像中的某些特征点是重复出现的频率是非常低的，这些较少复现的特征点是检测出错产生的可能性较高，会对后续帧图像标记区域的检测造成干扰，因此训练数据生成模块390应当对其进行剪裁，剔除该特征点。

具体的，训练数据生成模块390对模板图像和样本图像添加随机噪声和进行模糊处理，然后对添加了噪声和模糊的图像再次进行特征点的检测，得到相应的特征点；判断模板图像和样本图像的特征点是否存在于添加了噪声和模糊的图像对应的特征点中，若否，则对其进行剪裁，若否，进行合并。

若训练数据生成模块390判断到模板图像和样本图像的特征点还存在于添加了噪声和模糊的图像对应的特征点中，则说明该特征点是可复现的，若某一特征点未在添加了噪声和模糊的图像对应的特征点中出现，则认为是较少复现的。

进一步的，对于可复现的特征点，训练数据生成模块390还将判断该特征点的复现次数，若复现次数大于复现阈值，则记录该特征点，若否，则剔除该特征点，以更为有效地保证特征点的准确性。

在另一个实施例中，上述特征处理模块370以及训练数据生成模块390还可以设置于客户端10中，在生成训练数据之后将其上传到服务器30即可。

在另一个实施例中，上述客户端10还用于选定模板图像和对应的媒体数据。

如图12所示，上述增强现实交互的实现系统还包括用户数据库50以及共享数据库70。

服务器30还用于根据登录用户的上传操作判断选定的模板图像和对应的媒体数据是否共享，若是，则将选定的模板图像和对应的媒体数据上传并存储到共享数据库70，若否，则上传并存储到登录用户对应的用户数据库50。

本实施例中，在上传选定的模板图像和对应的媒体数据之前，还需验证用户信息进入登录状态，此时，服务器30获取登录用户的上传操作，上传操作包括了用户触发的上传指令和/或共享指令，用户可根据需要选择是否进行共享。

若选定的模板图像和对应的媒体数据进行共享，则将其上传并存储到共享数据库70，其它用户也能够使用该登录用户上传的模板图像和媒体数据。

若选定的模板图像和对应的媒体数据不进行共享，则将上传的模板图像和对应的媒体数据存入该登录用户对应的用户数据库50。

在另一个实施例中，用户数据库50的优先级设于共享数据库70的优先级。

本实施例中，登录用户对应的用户数据库50的优先级以及共享数据库70的优先级高低决定了存储于其中的模板图像的优先级，换而言之，识别与帧图像匹配的模板图像的过程中，若服务器30识别到两个与帧图像相匹配的模板图像，这两个模板图像分别存储于登录用户对应的用户数据库50以及共享数据库70，此时，由于登录用户对应的用户数据库50的优先级高于共享数据库，将优先采用存储于登录用户对应的用户数据库50的模板图像，并将其返回给登录用户。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种增强现实交互的实现方法，包括如下步骤：

采集帧图像，并上传所述帧图像；

进行识别得到与所述帧图像匹配的模板图像，并返回所述模板图像；

根据所述模板图像检测所述帧图像的标记区域；

将与所述模板图像相对应的媒体数据叠加到所述标记区域，并展示叠加得到的图像。
根据权利要求1所述的增强现实交互的实现方法，其特征在于，所述进行识别得到与所述帧图像匹配的模板图像，并返回所述模板图像的步骤包括：

获取上传所述帧图像的属性信息；

根据所述属性信息在存储的模板图像中限定匹配范围；

查找处于所述匹配范围的模板图像，判断所述帧图像是否与查找的模板图像匹配，若是，则返回所述查找的模板图像。
根据权利要求1所述的增强现实交互的实现方法，其特征在于，所述根据所述模板图像检测所述帧图像的标记区域的步骤包括：

根据所述模板图像对应的训练数据得到所述帧图像中的特征点；

通过所述特征点获取所述帧图像中标记区域的轮廓位置。
根据权利要求3所述的增强现实交互的实现方法，其特征在于，所述根据所述模板图像检测所述帧图像的标记区域的步骤之前包括：

判断本地文件中是否存在所述模板图像对应的训练数据和媒体数据，若否，则下载所述训练数据和媒体数据，若是，则

加载所述训练数据和媒体数据。
根据权利要求3所述的增强现实交互的实现方法，其特征在于，所述根据所述模板图像检测所述帧图像的标记区域的步骤之前还包括：

对存储的模板图像进行检测得到特征点，并判断所述特征点的数量是否小于阈值，若否，则获取所述模板图像对应的样本图像，并检测得到所述样本图像中的特征点；

处理所述模板图像和样本图像中的特征点生成记录所述特征点的训练数据。
根据权利要求5所述的增强现实交互的实现方法，其特征在于，所述处理所述模板图像和样本图像中的特征点生成记录所述特征点的训练数据的步骤包括：

合并或剪裁模板图像和样本图像中的特征点形成记录了特征点的训练数据。
根据权利要求6所述的增强现实交互的实现方法，其特征在于，所述合并或剪裁模板图像和样本图像中的特征点形成记录了特征点的训练数据的步骤之前包括：

对模板图像和样本图像添加随机噪声和进行模糊处理，对添加了噪声和模糊的图像再次进行特征点的检测，得到相应的特征点；

判断模板图像和样本图像的特征点是否存在于添加了噪声和模糊的图像对应的特征点中，若是，则

对所述模板图像和样本图像的特征点进行剪裁，若否，则进行合并。
根据权利要求7所述的增强现实交互的实现方法，其特征在于，所述对所述模板图像和样本图像的特征点进行剪裁的步骤之前还包括：

进一步判断所述模板图像和样本图像的特征点的复现次数是否大于复现阈值，若否，则剔除所述特征点，若是，则

进入所述对所述模板图像和样本图像的特征点进行剪裁的步骤。
根据权利要求5所述的增强现实交互的实现方法，其特征在于，所述对存储的模板图像进行检测得到特征点的步骤之前还包括：

选定模板图像和对应的媒体数据；

根据登录用户的上传操作判断所述选定的模板图像和对应的媒体数据是否共享，若是，则将所述选定的模板图像和对应的媒体数据上传并存储到公共存储空间，若否，则上传并存储到所述登录用户对应的存储空间。
根据权利要求9所述的增强现实交互的实现方法，其特征在于，所述登录用户对应的存储空间的优先级高于所述公共存储空间的优先级。
根据权利要求1所述的增强现实交互的实现方法，其特征在于，所述展示叠加得到的图像的步骤包括：

将媒体数据的播放构成虚拟环境，标记区域之外的帧图像构成现实环境。
一种增强现实交互的实现系统，其特征在于，包括客户端以及服务器；所述客户端包括采集模块、检测模块以及展示处理模块；

所述采集模块用于采集帧图像，并上传所述帧图像；

所述服务器用于进行识别得到与所述帧图像匹配的模板图像，并返回所述模板图像；

检测模块用于根据所述模板图像检测所述帧图像的标记区域；

展示处理模块用于将与所述模板图像相对应的媒体数据叠加到所述标记区域，并展示叠加得到的图像。
根据权利要求12所述的增强现实交互的实现系统，其特征在于，所述服务器包括：

属性获取模块，用于获取上传所述帧图像的属性信息；

范围限定模块，用于根据所述属性信息在存储的模板图像中限定匹配范围；

查找模块，用于查找处于所述匹配范围的模板图像，判断所述帧图像是否与查找的模板图像匹配，若是，则向客户端返回所述模板图像。
根据权利要求12所述的增强现实交互的实现系统，其特征在于，所述检测模块包括：

特征检测单元，用于根据所述模板图像对应的训练数据得到所述帧图像中的特征点；

轮廓获取单元，用于通过所述特征点获取所述帧图像中标记区域的轮廓位置。
根据权利要求12所述的增强现实交互的实现系统，其特征在于，所述客户端还包括：

数据获取模块，用于判断本地文件中是否存在所述模板图像对应的训练数据和媒体数据，若否，则下载所述训练数据和媒体数据，若是，则加载所述训练数据和媒体数据。
根据权利要求14所述的增强现实交互的实现系统，其特征在于，所述服务器还包括：

特征处理模块，用于对存储的模板图像进行检测得到特征点，并判断所述特征点的数量是否小于阈值，若否，则获取所述模板图像对应的样本图像，并检测得到所述样本图像中的特征点；

训练数据生成模块，用于处理所述模板图像和样本图像中的特征点生成记录所述特征点的训练数据。
根据权利要求16所述的增强现实交互的系统，其特征在于，所述训练数据生成模块还用于合并或剪裁模板图像和样本图像中的特征点生成记录所述特征点的训练数据。
根据权利要求17所述的增强现实交互的系统，其特征在于，所述训练数据生成模块还用于对模板图像和样本图像添加随机噪声和进行模糊处理，对添加了噪声和模糊的图像再次进行特征点的检测，得到相应的特征点，判断模板图像和样本图像的特征点是否存在于添加了噪声和模糊的图像对应的特征点中，若是，则对所述模板图像和样本图像的特征点进行剪裁，若否，则进行合并。
根据权利要求18所述的增强现实交互的系统，其特征在于，所述训练数据生成模块还用于进一步判断所述模板图像和样本图像的特征点的复现次数是否大于复现阈值，若否，则剔除所述特征点，若是，则对所述模板图像和样本图像的特征点进行剪裁。
根据权利要求16所述的增强现实交互的实现系统，其特征在于，所述客户端还用于选定模板图像和对应的媒体数据；

所述系统还包括用户数据库和共享数据库；

所述服务器还用于根据登录用户的上传操作判断所述选定的模板图像和对应的媒体数据是否共享，若是，则将所述选定的模板图像和对应的媒体数据上传并存储到共享数据库，若否，则上传并存储到所述登录用户对应的用户数据库。
根据权利要求20所述的增强现实交互的实现系统，其特征在于，所述用户数据库的优先级高于所述共享数据库的优先级。