WO2019184634A1

WO2019184634A1 - 人机交互系统、方法、计算机可读存储介质及交互装置

Info

Publication number: WO2019184634A1
Application number: PCT/CN2019/075928
Authority: WO
Inventors: 唐堂; 张勃; 蒋志鹏; 文林福
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2018-03-29
Filing date: 2019-02-22
Publication date: 2019-10-03
Also published as: US20200409471A1; CN108536293B; CN108536293A

Abstract

本公开提供了一种人机交互系统、方法、计算机可读存储介质及交互装置，其中，人机交互系统包括：交互模块和对比模块，交互模块用于在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像；对比模块用于将人的动作图像与当前显示的姿态图像匹配，并在显示单元上显示匹配结果。

Description

人机交互系统、方法、计算机可读存储介质及交互装置

本申请要求于2018年3月29日提交中国专利局、申请号为201810273850.7、申请名称为“人机交互系统、方法、计算机可读存储介质及交互装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及人工智能领域，具体而言，涉及一种人机交互系统、人机交互方法、计算机可读存储介质及人机交互装置。

背景技术

本公开对于背景技术的描述属于与本公开相关的相关技术，仅仅是用于说明和便于理解本公开的公开内容，不应理解为申请人明确认为或推定申请人认为是本公开在首次提出申请的申请日的现有技术。

近年来，动作捕捉技术已经成为人体运动姿态研究中的一项关键技术，发挥着越来越重要的作用，人们意识到非常有必要通过识别人体运动姿态实现人体动作和信息设备之间的交互功能。然而已有动作捕捉技术一般应用于大型娱乐设备、动画制作、步态分析、生物力学、人机工程等领域，而随着手机、平板电脑等移动设备的使用普及，手机、平板电脑等移动设备以简单、方便、不受时间和地点限制等特点成为人们娱乐消遣必备品，因此，将动作捕捉技术应用到手机随着手机、平板电脑等移动设备中，以使人体验良好的娱乐效果是亟待的问题。

发明内容

本公开第一方面的实施例提供了一种人机交互方法，包括：

在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像；

将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果。

可选地，在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像之前还包括：根据指令提取与所述指令相对应的姿态模板组。

可选地，在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像之前还包括：

根据指令提取与所述指令相对应的音频；

在将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果之前播放所述音频。

可选地，将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果包括：

从所述人的动作图像中提取多个单帧图像；

将所述单帧图像与所述姿态图像进行匹配，并生成匹配结果；

根据所述匹配结果在所述显示单元上显示相应的动画和/或分数。

可选地，根据指令提取与所述指令相对应的姿态模板组包括：

提取预存的多个姿态图像中的一个或多个姿态图像构成与所述指令相对应的姿态模板组。

可选地，所述人机交互方法还包括：

在所述匹配结果包括分数时，所述姿态图像显示结束后将显示的所有分数汇总得到总分；

将总分与预设的分数评级匹配，并在所述显示单元上显示分数所处的等级。

可选地，在显示所述姿态图像之前还包括：

检测人机之间的距离，当人机之间的距离在预设范围内时，准备开始在显示单元上显示所述姿态图像。

本公开第二方面的实施例提供了一种人机交互系统，包括：交互模块，用于在显示单元上显示所述姿态模板组中的一个或多个姿态图像，采集人的动作图像；和对比模块，用于将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果。

可选地，人机交互系统还包括：提取模块，用于根据指令提取与所述指令相对应的姿态模板组。

可选地，人机交互系统还包括：提取模块，用于根据指令提取与所述指令相对应的音频；所述交互模块控制所述音频播放。

可选地，所述对比模块包括：处理单元，用于从所述人的动作图像中提取多个单帧图像；匹配单元，用于将所述单帧图像与所述姿态图像进行匹配，并生成匹配结果；和执行单元，用于根据所述匹配结果在所述显示单元上显示相应的动画和/或分数。

可选地，所述姿态模板组由选自多个预存的姿态图像中的一个或多个姿态图像构成。

可选地，所述人机交互系统还包括：汇总模块，用于在所述匹配结果包括分数时，所述姿态图像显示结束后将显示的所有分数汇总得到总分；和评级模块，用于将总分与预设的分数评级匹配，并在所述显示单元上显示分数所处的等级。

可选地，所述人机交互系统还包括：识别模块，用于检测人机之间的距离，当人机之间的距离在预设范围内时，准备开始在显示单元上显示所述姿态图像。

本公开第三方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述人机交互方法的步骤。

本公开第四方面的实施例提供了一种人机交互装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现上述任一项所述人机交互方法的步骤。

本公开提供的技术方案，显示单元上显示姿态图像(如呈不同姿态多个火柴人、动画、动物图像等)，用户去做跟这些姿态图像相同的肢体动作，使用户形成跳舞的动作，同时，采集用户的图像，将人的动作图像与姿态图像匹配，并根据人的动作与姿态图像的匹配程度，在显示单元上显示匹配结果(如分数和/或动画特效)，对不太会跳舞的用户有引导作用，使用户能够做标准的舞蹈动作，提高了娱乐效果，从而提高了用户的体验效果。

本公开的附加方面和优点将在下面的描述部分中变得明显，或通过本公开的实践了解到。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

本公开的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例的终端设备的硬件结构示意图；

图2是本公开所述人机交互系统第一种实施例的结构框图；

图3是本公开所述人机交互系统第二种实施例的结构框图；

图4是本公开所述人机交互系统第三种实施例的结构框图；

图5是本公开所述人机交互系统第四种实施例的结构框图；

图6是本公开所述人机交互系统第五种实施例的结构框图；

图7是本公开所述人机交互系统第六实施例的流结构框图；

图8是本公开所述人机交互系统第七实施例的流结构框图；

图9是本公开所述人机交互方法第一种实施例交互方法的流程示意图；

图10是本公开所述人机交互方法第二种实施例交互方法的流程示意图；

图11是本公开所述人机交互方法第三种实施例交互方法的流程示意图；

图12是本公开所述人机交互方法第四种实施例交互方法的流程示意图；

图13是本公开所述人机交互方法第五种实施例交互方法的流程示意图；

图14是本公开所述人机交互方法第六种实施例交互方法的流程示意图；

图15是本公开所述人机交互方法第七种实施例交互方法的流程示意图；

图16是本公开实施例的计算机可读存储介质的示意图；

图17是本公开实施例的人机交互装置的结构示意图。

其中，图1至图8、图16和图17中附图标记与部件名称之间的对应关系为：

100人机交互系统，101提取模块，1011图像单元，1012音频单元，102交互模块，103对比模块，1031处理单元，1032匹配单元，1033执行单元，104汇总模块，105评级模块，106识别模块，1无线通信单元，2输入单元，3用户输入单元，4感测单元，5输出单元，6存储器，7接口单元，8控制器，9电源单元，80人机交互装置，801存储器，802处理器，900计算机可读存储介质，901非暂时性计算机可读指令。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和具体实施方式对本公开进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但是，本公开还可以采用其他不同于在此描述的其他方式来实施，因此，本公开的保护范围并不受下面公开的具体实施例的限制。

下述讨论提供了本公开的多个实施例。虽然每个实施例代表了发明的单一组合，但是本公开不同实施例可以替换，或者合并组合，因此本公开也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含A、B、C，另一个实施例包含B和D的组合，那么本公开也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

如图1所示，人机交互装置即终端设备可以以各种形式来实施，本公开中的终端设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。

在本公开的一个实施例中，终端设备可以包括无线通信单元1、A/V(音频/视频)输入单元2、用户输入单元3、感测单元4、输出单元5、存储器6、接口单元7、控制器8和电源单元9等等。其中，A/V(音频/视频)输入单元2包括但不限于，摄像头、前置摄像头，后置摄像头，各类音视频输入设备。本领域的技术人员应该理解，上述实施例列出的终端设备所包括的组件，不止上述所述的种类，可以包括更少或者更多的组件。

本领域的技术人员应该理解，这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器中并且由控制器执行。

如图2所示，本公开第一方面的实施例提供的人机交互系统100，包括：交互模块102和对比模块103。

根据示例实施例，交互模块102用于在显示单元上显示姿态模板组中的一个或多个姿态图像，并采集人的动作图像；对比模块103用于将人的动作图像与当前显示的姿态图像匹配，并在显示单元上显示匹配结果。

本公开提供的人机交互系统100，显示单元(显示单元可为显示屏等)上显示姿态图像(如呈不同姿态多个火柴人、动画、动物图像等)，在姿态图像显示的是人手、大臂、小臂、大腿、小腿、躯干及头等在不同时刻的位置、角度等，用户去做跟这些姿态图像相同的肢体动作，使用户形成跳舞的动作，同时，交互模块采集用户的图像，对比模块将人的动作图像与姿态图像匹配，并根据人的动作与姿态图像的匹配程度，在显示单元上显示匹配结果(如分数和/或动画特效)，对不太会跳舞的用户有引导作用，使用户能够做标准的舞蹈动作，提高了娱乐效果，从而提高了用户的体验效果。

如图3所示，本公开第一方面的实施例提供的人机交互系统100，包括：提取模块101、交互模块102和对比模块103。

根据示例实施例，提取模块101用于根据指令提取与指令相对应的姿态模板组；交互模块102用于在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像；对比模块103用于将人的动作图像与当前显示的姿态图像匹配，并在显示单元上显示匹配结果。

在本公开的一个实施例中，提取模块101用于根据指令提取与指令相对应的姿态模板组及音频；交互模块102用于控制音频播放，在显示单元上显示姿态模板组中的多个姿态图像，采集人的动作图像；对比模块103用于将人的动作图像与当前显示的姿态图像匹配，并在显示单元上显示匹配结果。

本公开提供的人机交互系统100，随着音乐的播放显示单元(显示单元可为显示屏等)上显示姿态图像(如呈不同姿态多个火柴人、动画、动物图像等)，在姿态图像显示的是人手、大臂、小臂、大腿、小腿、躯干及头等在不同时刻的位置、角度等，用户随着音乐去做跟这些姿态图像相同的肢体动作，使用户形成跳舞的动作，同时，交互模块采集用户的图像，对比模块将人的动作图像与姿态图像匹配，并根据人的动作与姿态图像的匹配程度，在显示单元上显示匹配结果(如分数和/或动画特效)，对不太会跳舞的用户有引导作用，使用户能够做标准的舞蹈动作，提高了娱乐效果，从而提高了用户的体验效果。

在本公开的一个实施例中，如图4所示，对比模块103包括：处理单元1031、匹配单元1032和执行单元1033。

根据示例实施例，处理单元1031用于从人的动作图像中提取多个单帧图像；匹配单元1032用于将单帧图像与姿态图像进行匹配，并生成匹配结果；执行单元1033用于根据匹配结果在显示单元上显示相应的动画和/或分数。

在该实施例中，处理单元1031从采集人的动作图像转中提取多个单帧图像，如单位时间内取一百帧图像，匹配单元1032通过将一百帧图像与姿态图像匹配，判断一百帧与姿态图像的重合率，该种检测方式能够实现精准的检测，提高了产品的检测精度，从而提高了产品的体验效果；显示单元上显示分数和/或动画，动画可为perfect、good、great、miss等数字动画，或从显示单元上显示下心雨、下星星雨等特效。

在本公开的一个实施例中，如图5所示，提取模块101包括：图像单元1011和音频单元1012。

根据示例实施例，图像单元1011用于提取多个姿态图像中的一个或多个姿态图像构成与指令相对应的姿态模板组；音频单元1012用于调出与指令相对应的音频。

在该实施例中，图像单元1011中预先存储有很多姿态模板，图像单元1011根据用户选择不同的指令提取多个姿态模板并排序构成姿态模板组；在本公开的一个实施例中，包括一百个姿态模板，根据第一指令提取第1、3、5、20、66、78、82、96姿态模板构成姿态模板组；根据第二指令提取第2、12、22、25、37、47、55、69、73、86、96姿态模板构成姿态模板组；根据第三指令提取第7、13、29、35、38、46、52、68、71、86、91姿态模板构成姿态模板组，音频单元1012根据用户选择不同的指令提取相应的音乐。

在本公开的一个实施例中，提取模块101中预先存储有很多姿态模板，姿态模板组由选自多个预存的姿态图像中的一个或多个姿态图像构成，提取模块101根据用户选择不同的指令提取多个姿态模板并排序构成姿态模板组；在本公开的一个实施例中，包括一百个姿态模板，根据第一指令提取第1、3、5、20、66、78、82、96姿态模板构成姿态模板组；根据第二指令提取第2、12、22、25、37、47、55、69、73、86、96姿态模板构成姿态模板组；根据第三指令提取第7、13、29、35、38、46、52、68、71、86、91姿态模板构成姿态模板组。

在本公开的一个实施例中，如图6所示，人机交互系统100还包括：汇总模块104和评级模块105。

根据示例实施例，汇总模块104用于在匹配结果包括分数时，音频结束后或姿态图像显示结束后将显示的所有分数汇总得到总分；评级模块105用于将总分与预设的分数评级匹配，并在显示单元上显示分数所处的等级。

在该实施例中，通过汇总模块104和评级模块105用户可以知道这段跳舞的分数和等级，一方面，用户可以根据分数和等级与其他用户的分数和等级进行排名，增加了产品的互动性和趣味性，另一方面，用户可将带有分数和等级的视频分享给朋友，使朋友能够对自己跳舞好坏有个直接的判断。

在本公开的一个实施例中，如图7和图8所示，人机交互系统100还包括：识别模块106，识别模块106用于检测人机之间的距离，当人机之间的距离在预设范围内时，准备开始播放音频和/或准备开始在显示单元上显示姿态图像。

在该实施例中，识别模块106的设置，一方面，能够保证用户完全处在显示单元内，能够使用户做的舞蹈动作与显示单元上的姿态图像更好的匹配，即避免了用户的肢体超出显示单元导致匹配不准的情况发送，从而提高了产品的使用舒适度，进而提高了产品的市场竞争力，另一方面，使用户与手机之间的距离处于合理的范围内，从而使用户能够清楚的看到显示单元上显示的内容，进而增加了产品的使用舒适，进而增加了产品的市场竞争力。

实施例一

如图9所示，本公开第二方面的实施例提供的人机交互方法，包括如下步骤：

步骤30，在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像；

步骤40，将人的动作图像与当前显示的姿态图像匹配，并在显示单元上显示匹配结果。

本公开提供的人机交互的方法，显示单元(显示单元可为显示屏等)上显示姿态图像(如呈不同姿态多个火柴人、动画、动物图像等)，在姿态图像显示的是人手、大臂、小臂、大腿、小腿、躯干及头等在不同时刻的位置、角度等，用户去做跟这些姿态图像相同的肢体动作，使用户形成跳舞的动作，同时，采集用户的图像，将人的动作图像与姿态图像匹配，并根据人的动作与姿态图像的匹配程度，在显示单元上显示匹配结果(如分数和/或动画特效)，对不太会跳舞的用户有引导作用，使用户能够做标准的舞蹈动作，提高了娱乐效果，从而提高了用户的体验效果。

实施例二

在本公开的一个实施例中，如图10所示，本实施例中人机交互方法包括：

步骤10，根据指令提取与指令相对应的姿态模板组及音频；

步骤30，播放音频，在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像；

本公开提供的人机交互的方法，随着音乐的播放显示单元(显示单元可为显示屏等)上显示姿态图像(如呈不同姿态多个火柴人、动画、动物图像等)，在姿态图像显示的是人手、大臂、小臂、大腿、小腿、躯干及头等在不同时刻的位置、角度等，用户随着音乐去做跟这些姿态图像相同的肢体动作，使用户形成跳舞的动作，同时，采集用户的图像，将人的动作图像与姿态图像匹配，并根据人的动作与姿态图像的匹配程度，在显示单元上显示匹配结果(如分数和/或动画特效)，对不太会跳舞的用户有引导作用，使用户能够做标准的舞蹈动作，提高了娱乐效果，从而提高了用户的体验效果。

实施例三

在本公开的一个实施例中，如图11所示，步骤40包括：

步骤41，从人的动作图像中提取多个单帧图像；

步骤42，将单帧图像与姿态图像进行匹配，并生成匹配结果；

步骤43，根据匹配结果在显示单元上显示相应的动画和/或分数。

在本实施例中人机交互方法包括：

步骤10，根据指令提取与指令相对应的姿态模板组及音频；

步骤41，从人的动作图像中提取多个单帧图像；

在该实施例中，从采集人的动作图像转中提取多个单帧图像，如单位时间内取一百帧图像，匹配单元通过将一百帧图像与姿态图像匹配，判断一百帧与姿态图像的重合率，该种检测方式能够实现精准的检测，提高了产品的检测精度，从而提高了产品的体验效果；显示单元上显示分数和/或动画，动画可为perfect、good、great、miss等数字动画，或从显示单元上显示下心雨、下星星雨等特效。

实施例四

在本公开的一个实施例中，如图12所示，步骤10包括：

步骤11，提取多个姿态图像中的一个或多个姿态图像构成与指令相对应的姿态模板组；

步骤12，调出与指令相对应的音频；

在本实施例中人机交互方法包括：

步骤11，提取预存的多个姿态图像中的一个或多个姿态图像构成与指令相对应的姿态模板组；

步骤12，调出与指令相对应的音频；

在该实施例中，预先存储有很多姿态模板，姿态模板组由选自多个预存的姿态图像中的一个或多个姿态图像构成，根据用户选择不同的指令提取多个姿态模板并排序构成姿态模板组；在本公开的一个实施例中，包括一百个姿态模板，根据第一指令提取第1、3、5、20、66、78、82、96姿态模板构成姿态模板组；根据第二指令提取第2、12、22、25、37、47、55、69、73、86、96姿态模板构成姿态模板组；根据第三指令提取第7、13、29、35、38、46、52、68、71、86、91姿态模板构成姿态模板组，根据用户选择不同的指令提取相应的音乐。

实施例五

在本公开的一个实施例中，如图13所示，人机交互方法还包括：

步骤50，在匹配结果包括分数时，音频结束或姿态图像显示结束后将显示的所有分数汇总得到总分；

步骤60，将总分与预设的分数评级匹配，并在显示单元上显示分数所处的等级。

在本实施例中人机交互方法包括：

步骤10，根据指令提取与指令相对应的姿态模板组及音频；

步骤40，将人的动作图像与当前显示的姿态图像匹配，并在显示单元上显示匹配结果；

在该实施例中，用户可以知道这段跳舞的分数和等级，一方面，用户可以根据分数和等级与其他用户的分数和等级进行排名，增加了产品的互动性和趣味性，另一方面，用户可将带有分数和等级的视频分享给朋友，使朋友能够对自己跳舞好坏有个直接的判断。

实施例六

在本公开的一个实施例中，如图14和图15所示，在显示姿态图像之前还包括：

步骤20，检测人机之间的距离，当人机之间的距离在预设范围内时，准备开始播放音频和/或准备开始在显示单元上显示姿态图像。

如图14所示，在本实施例中人机交互方法包括：

步骤10，根据指令提取与指令相对应的姿态模板组及音频；

步骤20，检测人机之间的距离，当人机之间的距离在预设范围内时，准备开始播放音频和/或准备开始在显示单元上显示姿态图像；

或者，如图15所示，实施例七

步骤10，根据指令提取与指令相对应的姿态模板组及音频；

步骤50，在匹配结果包括分数时，音频结束后或姿态图像显示结束后将显示的所有分数汇总得到总分；

在该实施例中，识别步骤的设置，一方面，能够保证用户完全处在显示单元的显示区域内，能够使用户做的舞蹈动作与显示单元上的姿态图像更好的匹配，即避免了用户的肢体超出显示单元导致匹配不准的情况发生，从而提高了产品的使用舒适度，进而提高了产品的市场竞争力，另一方面，使用户与手机之间的距离处于合理的范围内，从而使用户能够清楚的看到显示单元上显示的内容，进而增加了产品的使用舒适，进而增加了产品的市场竞争力。

在本公开的一个实施例中，显示单元上显示识别框，人的图像处于识别框内时，准备开始播放音频或准备开始在显示单元上显示姿态图像，可选地，识别框为人形框，该人形框为人的全身形状，用户根据人形框做与人形框形状相同的动作，且用户的全部位于人形框内时，准备开始播放音频或准备开始在显示单元上显示姿态图像，显示单元上出现倒计时，倒计时结束播放音频。在本公开的另一具体实施例中，识别框为人形框，该人形框为人的上半身形状(也可为下半身)，用户根据人形框做与人形框形状相同的动作，且用户的上半身位于人形框内时，准备开始播放音频或准备开始在显示单元上显示姿态图像，显示单元上出现倒计时，倒计时结束播放音频。本领域的技术的人员应该理解，识别框的作用是识别目标，以确保交互的顺利的进行，因此，只要能够满足识别作用的识别框都应该在本公开的保护范围内。

如图16所示，本公开第三方面的实施例提供的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项人机交互方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、静态随机访问存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。在本公开的一个实施例中，计算机可读存储介质900其上存储有非暂时性计算机可读指令901。当所述非暂时性计算机可读指令901由处理器运行时，执行参照上述描述的根据本公开实施例的基于人体动态姿态的人机交互方法

本公开第四方面的实施例提供的人机交互装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述任一项人机交互方法方法的步骤。

在本公开的一个实施例中，存储器用于存储非暂时性计算机可读指令。根据示例实施例，存储器可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在本公开的一个实施例中，处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制人机交互装置中的其它组件以执行期望的功能。在本公开的一个实施例中，处理器用于运行存储器中存储的计算机可读指令，使得人机交互装置执行上述交互方法。

在本公开的一个实施例中，如图17所示，人机交互装置80包括存储器801和处理器802。人机交互装置80中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。

存储器801用于存储非暂时性计算机可读指令。根据示例实施例，存储器801可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

处理器802可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制人机交互装置80中的其它组件以执行期望的功能。在本公开的一个实施例中，所述处理器802用于运行存储器801中存储的计算机可读指令，使得人机交互装置80执行上述基于人体动态姿态的人机交互方法。人机交互装置与上述基于人体动态姿态的人机交互方法描述的实施例相同，在此将省略其重复描述。

在本公开的一个实施例中，人机交互装置为移动设备，移动设备的摄像头采集用户的图像，通过移动设备下载与指令相对应的歌曲和姿态模板组，歌曲和姿态模板组下载好后，移动设备的显示单元上出现识别框(该识框可为人形框)，通过调整用户与移动设备的距离，将用户的图像处于识别框内，移动设备开始播放音乐，同时显示单元上显示多个姿态图像(如呈不同姿态多个火柴人、动画、动物图像等)，用户开始做舞蹈动作，以使自己的肢体动作与这些姿态图像匹配，根据用户的动作与姿态图像的匹配程度，在显示单元上显示分数和/或动画(动画可为perfect、good、great、miss等数字动画，或者从显示单元上显示下心雨、下星星雨等特效)，音乐播放完成后，移动设备的显示单元上显示分数和等级，用户可将自己的跳舞视频下载下来或者分享出去或者进入排行榜，移动设备可为手机、平板电脑等。

在本公开中，术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本公开的可选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种人机交互方法，包括：

在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像；

将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果。
根据权利要求1所述的人机交互方法，其中，在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像之前还包括：

根据指令提取与所述指令相对应的姿态模板组。
根据权利要求1所述的人机交互方法，其中，在显示单元上显示姿态模板组中的一个或多个姿态图像，并采集人的动作图像之前还包括：

根据指令提取与所述指令相对应的音频；

在将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果之前播放所述音频。
根据权利要求1所述的人机交互方法，其中，将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果包括：

从所述人的动作图像中提取多个单帧图像；

将所述单帧图像与所述姿态图像进行匹配，并生成匹配结果；

根据所述匹配结果在所述显示单元上显示相应的动画和/或分数。
根据权利要求2所述的人机交互方法，其中，根据指令提取与所述指令相对应的姿态模板组包括：

提取预存的多个姿态图像中的一个或多个姿态图像构成与所述指令相对应的姿态模板组。
根据权利要求4所述的人机交互方法，其中，还包括：

在所述匹配结果包括分数时，所述姿态图像显示结束后将显示的所有分数汇总得到总分；

将总分与预设的分数评级匹配，并在所述显示单元上显示分数所处的等级。
根据权利要求1至6中任一项所述的人机交互方法，其中，

在显示所述姿态图像之前还包括：

检测人机之间的距离，当人机之间的距离在预设范围内时，准备开始在显示单元上显示所述姿态图像。
一种人机交互系统，包括：

交互模块，用于在显示单元上显示姿态模板组中的一个或多个姿态图像，采集人的动作图像；和

对比模块，用于将所述人的动作图像与当前显示的所述姿态图像匹配，并在所述显示单元上显示匹配结果。
根据权利要求8所述的人机交互系统，其中，还包括：

提取模块，用于根据指令提取与所述指令相对应的姿态模板组。
根据权利要求8所述的人机交互系统，其中，还包括：

提取模块，用于根据指令提取与所述指令相对应的音频；

所述交互模块控制所述音频播放。
根据权利要求8所述的人机交互系统，其中，所述对比模块包括：

处理单元，用于从所述人的动作图像中提取多个单帧图像；

匹配单元，用于将所述单帧图像与所述姿态图像进行匹配，并生成匹配结果；和

执行单元，用于根据所述匹配结果在所述显示单元上显示相应的动画和/或分数。
根据权利要求8所述的人机交互系统，其中，

所述姿态模板组由预存的多个姿态图像中的一个或多个姿态图像构成。
根据权利要求11所述的人机交互系统，其中，还包括：

汇总模块，用于在所述匹配结果包括分数时，所述姿态图像显示结束后将显示的所有分数汇总得到总分；和

评级模块，用于将总分与预设的分数评级匹配，并在所述显示单元上显示分数所处的等级。
根据权利要求8至13中任一项所述的人机交互系统，其中，还包括：

识别模块，用于检测人机之间的距离，当人机之间的距离在预设范围内时，准备开始在显示单元上显示所述姿态图像。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述权利要求1-7中任一项所述人机交互方法的步骤。
一种人机交互装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现所述权利要求1-7中任一项所述人机交互方法的步骤。