WO2023077886A1

WO2023077886A1 - 一种显示设备及其控制方法

Info

Publication number: WO2023077886A1
Application number: PCT/CN2022/109185
Authority: WO
Inventors: 高伟; 姜俊厚; 贾亚洲; 岳国华; 祝欣培; 李佳琳; 修建竹; 周晓磊; 李保成; 付廷杰; 刘胤伯
Original assignee: 海信视像科技股份有限公司
Priority date: 2021-11-04
Filing date: 2022-07-29
Publication date: 2023-05-11

Abstract

一种显示设备及其控制方法，该显示设备包括显示器（260），图像输入接口（501）和控制器（110），由于控制器（110）获取若干帧用户行为图像，并根据获取到的该若干帧用户行为图像，确定目标手势信息，并基于该目标手势信息进行相应的控制，而不是基于获取到的一张用户行为图像，确定目标手势信息进行控制的，提高了显示设备基于手势识别进行显示控制的准确率，从而提高了显示设备的智能化程度，提升了用户的体验感。

Description

一种显示设备及其控制方法

相关申请的交叉引用

本申请要求在2021年11月04日提交、申请号为202111302345.9；在2021年11月04日提交、申请号为202111302336.X；在2022年03月17日提交、申请号为202210266245.3；本申请要求在2022年03月24日提交、申请号为202210303452.1的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及手势控制领域，尤其涉及一种显示设备及其控制方法。

背景技术

随着电子技术的不断发展，电视机等显示设备能够实现的功能越来越多，例如，显示设备可以通过其设置的视频采集装置拍摄用户的图像，并由处理器对图像中用户的手势信息进行识别后，执行手势信息对应的命令。

然而，目前显示设备通过手势信息确定的控制命令，一般是通过识别采集到的一个用户行为图像，确定目标手势信息，进而确定出相应的控制指令，造成了显示设备的智能化程度较低、用户体验较差。

发明内容

本申请提供了一种显示设备，包括：显示器，被配置为显示图像；图像输入接口，被配置为获取用户行为图像；控制器，被配置为：获取若干帧用户行为图像；对每一帧所述用户行为图像进行手势识别处理，获得目标手势信息；基于所述目标手势信息，控制所述显示器显示对应的内容。

本申请提供了一种显示设备控制方法，所述方法包括：获取若干帧用户行为图像；对每一帧所述用户行为图像进行手势识别处理，获得目标手势信息；基于所述目标手势信息，控制所述显示器显示对应的内容。

附图说明

图1为本申请实施例提供的显示设备的使用场景；

图2为本申请实施例提供的控制装置100的硬件配置框图；

图3为本申请实施例提供的显示设备200的硬件配置框图；

图4为本申请实施例提供的显示设备200中软件配置图；

图5为本申请实施例提供的一种显示设备示意图；

图6a为本申请实施例提供的显示设备内置摄像头的示意图；

图6b为本申请实施例提供的显示设备外接摄像头的示意图；

图7为本申请实施例提供的用户界面的示意图；

图8为本申请实施例提供的显示器显示光标的示意图；

图9为本申请实施例提供的显示器中显示光标控制模式确认信息的示意图；

图10为本申请实施例提供的显示设备各部件的交互流程图；

图11为本申请实施例提供的用户手势的示意图；

图12为本申请实施例提供的根据目标手势信息确定光标位置的流程示意图；

图13为本申请实施例提供的示器显示摄像头区域的示意图；

图14为本申请实施例提供的光标沿直线运动的示意图；

图15为本申请实施例提供的光标沿曲线运动的示意图；

图16为本申请实施例提供的光标和控件距离关系的示意图；

图17为本申请实施例提供的光标和控件的位置关系；

图18为本申请实施例提供的动态手势交互流程示意图；

图19为本申请实施例提供的手朝向示意图；

图20为本申请实施例提供的一种检测模型的树结构示意图；

图21为本申请实施例提供的伪跳转成功时的动作路径图；

图22为本申请实施例提供的伪跳转失败时的动作路径图；

图23为本申请实施例提供的动态手势交互的数据流转关系示意图；

图24为本申请实施例提供的动态手势交互时序关系图；

图25为本申请实施例提供的显示设备的另一使用场景的示意图；

图26为本申请实施例提供的显示设备中另一硬件系统的硬件结构示意图；

图27为本申请实施例提供的显示设备的控制方法的示意图；

图28为本申请实施例提供的显示设备的控制方法另一实施例的示意图；

图29为本申请实施例提供的手部关键点坐标的示意图；

图30为本申请实施例提供的手部关键点的不同伸缩状态示意图；

图31为本申请实施例提供的显示设备的控制方法一应用场景的示意图；

图32为本申请实施例提供的使用手势信息和肢体信息共同确定控制命令的示意图；

图33为本申请实施例提供的显示设备的控制方法的流程示意图；

图34为本申请实施例提供的映射关系的示意图；

图35为本申请实施例提供的映射关系另一示意图；

图36为本申请实施例提供的一种图像中目标手势信息和肢体信息的示意图；

图37为本申请实施例提供的目标控件的移动位置的示意图；

图38为本申请实施例提供的目标控件的移动位置另一示意图；

图39为本申请实施例提供的显示设备的控制方法的流程示意图；

图40为本申请实施例提供的显示设备的控制方法另一的流程示意图；

图41为本申请实施例提供的虚拟框的示意图；

图42为本申请实施例提供的虚拟框和显示器的对应关系示意图；

图43为本申请实施例提供的目标控件移动的示意图；

图44为本申请实施例提供的虚拟框的面积示意图；

图45为本申请实施例提供的边缘区域的示意图；

图46为本申请实施例提供的手势信息的状态示意图；

图47为本申请实施例提供的重新建立的虚拟框的示意图；

图48为本申请实施例提供的重新建立的虚拟框的另一示意图；

图49为本申请实施例提供的目标控件的移动时的示意图；

图50为本申请实施例提供的目标控件的移动时的另一示意图；

图51为本申请实施例提供的显示设备控制过程示意图；

图52为本申请实施例提供的另一显示设备控制方法的流程示意图；

图53为本申请实施例提供的显示设备的控制方法一实施例的流程示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

图1为本申请实施例提供的显示设备与控制装置之间操作场景的示意图，如图1所示，用户可通过移动终端300和控制装置100操作显示设备200。控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信，无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。

在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。

显示设备200，一方面讲，可以是液晶显示器、OLED显示器、投影显示设备；另一方面讲，显示设备被可以是智能电视或显示器和机顶盒组成的显示系统。显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能。示例的包括，网络电视、智能电视、互联网协议电视(IPTV)等。在一些实施例中，显示设备可以不具备广播接收电视功能。

图2为本申请实施例提供的控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起到用户与显示设备200之间交互中介作用。通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。用户输入/输出接140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3为本申请实施例提供的显示设备200的硬件配置框图。如图3所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

用户输入接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器231，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

图4为本申请实施例提供的显示设备200中软件配置示意图，如图4所示，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架 (Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

随着显示设备的快速发展，人们不仅仅局限于利用控制装置对显示设备进行控制，而是想要更加便利地仅仅利用肢体行动或者语音来控制显示设备。用户可以利用手势交互的方式控制显示设备。显示设备能够采用的手势交互方式可以包括静态手势和动态手势。在使用静态手势的交互时，显示设备可以根据手势类型识别算法检测手势类型，根据手势类型执行相应的控制动作。

为了提高显示设备的智能化程度以及用户体验感，在本申请实施例中本申请提供了一种显示设备，图5为本申请实施例提供的一种显示设备示意图，如图5所示，该显示设备包括显示器260、图像输入接口501和控制器110，

其中，显示器260，被配置为显示图像；

图像输入接口501，被配置为获取用户行为图像；

控制器110，被配置为：

获取若干帧用户行为图像；对每一帧所述用户行为图像进行手势识别处理，获得目标手势信息；基于所述目标手势信息，控制所述显示器显示对应的内容。

为了提高显示设备的智能化程度并且提升用户的体验感，在本申请实施例中，控制器110可以通过图像输入接口501获取若干帧用户行为图像，该用户行为图像中可以只包括用户局部图像，例如，用户所做出的手势的手势图像，也可以包括采集到的用户全局图像，例如采集到的用户的全身图像。获取到的若干帧用户行为图像，可以是包含若干帧用户行为图像的视频，也可以是包含若干帧用户行为图像的图像集。

获取到若干帧用户行为图像之后，控制器110可以对每一帧用户行为图像进行手势识别处理，获得目标手势信息。在对用户行为图像进行手势识别处理时，可以基于图像识别技术识别用户行为图像中包含的手势，可以将识别到的每一帧用户行为图像中的手势合并，得到目标手势信息，也就是说，目标手势信息中包括识别到的每个手势。还可以将识别到的手势，根据预先设备设置的手势类型进行分类，将出现次数最多的手势类型确定为目标手势信息。

在确定了目标手势信息之后，控制器110可以控制显示器260显示对应的内容。

由于在本申请实施例中，控制器110获取若干帧用户行为图像，并根据获取到的该若干帧用户行为图像，确定目标手势信息，并基于该目标手势信息进行相应的控制，而不是基于获取到的一张用户行为图像，确定目标手势信息进行控制的，提高了显示设备基于手势识别进行显示控制的准确率，从而提高了显示设备的智能化程度，提升了用户的体验感。

显示设备是指能够输出具体显示画面的终端设备。随着显示设备的快速发展，显示设备的功能将越来越丰富，性能也越来越强大，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体，用于满足用户多样化和个性化需求。

手势交互是一种新型的人机交互模式。手势交互的目的在于通过检测用户做出的特定手势动作，控制显示设备执行相对应的控制指令。显示设备能够采用的手势交互方式可以包括静态手势和动态手势。在使用静态手势的交互时，显示设备可以根据手势类型识别算法检测手势类型，根据手势类型执行相应的控制动作。在使用动态手势的交互时，用户可以操控显示器中的光标进行移动。显示设备可以建立出用户的手势和显示器中光标的映射关系，同时通过不断检测用户图像可以确定出用户的动态手势，进而确定出映射到显示器中的手势移动轨迹，从而控制光标沿着该手势移动轨迹进行移动。

对于动态手势的交互过程，显示设备需要不断检测用户图像。然而，有的图像中可能没有检测到用户的手势，导致无法准确获取到该用户图像对应的手势移动轨迹，从而无法控制光标进行移动，出现光标卡顿、中断的情况，给用户的体验性较差。

在使用动态手势的交互时，显示设备可以检测用户的动态手势，进而确定出映射到显示器中的手势移动轨迹，从而控制光标沿着该手势移动轨迹进行移动。

用户在使用动态手势控制光标移动时，显示设备需要不断检测用户图像。通过对每一帧用户图像进行识别，得到图像中的用户手势，进而确定出每一帧用户手势映射到显示器中的坐标，从而控制光标沿着这些坐标进行移动。然而，考虑到摄像头的拍摄存在误差、用户的手势不标准以及对手势进行识别时出现错误等众多因素，显示设备可能无法识别出部分用户图像的手势从而无法确定出相应的坐标，导致无法准确获取到对应的手势移动轨迹。正常情况下，光标需要按照每一帧图像对应的位置移动，形成连续的运动轨迹。如果缺少中间帧图像对应的位置，光标则不会移动，从而出现移动卡顿的情况，直到识别出下一帧图像对应的位置，光标才会继续移动，但如果位置相差太远，光标会出现突然跳跃等情况，严重影响用户的观看体验。

在一些实施例中，为了使得显示设备能够实现和用户进行手势交互的功能，显示设备还包括图像输入接口，用于连接图像采集器231。图像采集器231可以是摄像头，用于采集一些图像数据。需要说明的是，摄像头可以作为一种外部装置，通过图像输入接口外接在显示设备上，也可以作为一种检测器内置于显示设备中。对于外接在显示设备的摄像头，可以将摄像头连接至显示设备的外部装置接口，接入显示设备。用户可以利用摄像头在显示设备上完成拍照或拍摄功能，从而采集图像数据。

摄像头可以进一步包括镜头组件，镜头组件中设有感光元件和透镜。透镜可以通过多个镜片对光线的折射作用，使景物的图像的光能够照射在感光元件上。感光元件可以根据摄像头的规格选用基于CCD(Charge-coupled Device，电荷耦合器件)或CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)的检测原理，通过光感材料将光信号转化为电信号，并将转化后的电信号输出成图像数据。摄像头还可以按照设定的采样频率逐帧获取图像数据，以根据图像数据形成视频流数据。

在一些实施例中，显示设备内置的摄像头还可以支持升降。即摄像头可以设置在升降机构上，当需要进行图像采集时，通过特定的升降指令，控制升降机构进行运动，从而带动摄像头升高，以进行图像采集。而在不需要进行图像采集时，同样可以通过特定的升降指令，控制升降机构进行运动，从而带动摄像头降低，以隐藏摄像头。图6a为本申请实施例提供的显示设备内置摄像头的示意图。

对于外接于显示设备的图像采集器231，其本身可以是一个独立的外设，并通过特定的数据接口连接显示设备。例如，如图6b所示，图像采集器231可以为独立的摄像头设备，显示设备上可以设有通用串行总线接口(Universal Serial Bus，USB)或高清晰度多媒体接口(High Definition Multimedia Interface，HDMI)，图像采集器231则通过USB接口或HDMI接口连接显示设备。为了便于对用户的手势交互动作进行检测，在一些实施例中，外接于显示设备上的图像采集器231可以设置在靠近显示设备的位置，如图像采集器231通过夹持装置夹在显示设备的顶部，或者图像采集器231放置在显示设备附近的桌面上。

显然，对于外接于显示设备的图像采集器231，还可以根据显示设备的具体硬件配置，支持其他方式连接。在一些实施例中，图像采集器231还可以通过显示设备的通信器与显示设备建立连接关系，并按照通信器对应的数据传输协议将采集的图像数据发送给显示设备。例如，显示设备可以通过局域网或互联网连接图像采集器231，则在建立网络连接后，图像采集器231可以将采集的数据通过网络传输协议发送给显示设备。

在一些实施例中，图像采集器231还可以通过无线网络连接的方式外接显示设备。例如，对于支持WiFi无线网络的显示设备，其通信器中设有WiFi模块，因此，可以通过将图像采集器231和显示设备连接同一个无线网络，使显示设备和图像采集器231建立无线连接。在图像采集器231采集到的图像数据后，可以先将图像数据发送给无线网络的路由器设备，在由路由器设备转发给显示设备。显然，图像采集器231还可以通过其他无线连接方式接入显示设备。其中，无线连接方式包括但不限于WiFi直连、蜂窝网络、模拟微波、蓝牙、红外等。

在一些实施例中，用户控制显示设备开机后，显示设备可以显示用户界面。图7为本申请实施例提供的用户界面的示意图。用户界面包括第一导航栏700、第二导航栏710、功能栏720和内容显示区730，功能栏720包括多个功能控件如“观看记录”、“我的收藏”和“我的应用”等。其中，内容显示区730中显示的内容会随第一导航栏700和第二导航栏710中被选中控件的变化而变化。用户可以通过触控某个控件，以控制显示设备显示该控件对应的显示面板。需要说明的是，用户也可以通过其他方式来输入对控件的选中操作，例如，利用语音控制功能或者搜索功能等，选中某个控件。

无论是内置于显示设备的图像采集器231还是外接于显示设备的图像采集器231，用户均可以在使用显示设备的过程中，通过特定的交互指令或者应用程序控制启动图像采集器231采集图像数据，并根据不同的需要对采集的图像数据进行相应的处理。例如，显示设备中可以安装有摄像头应用，这些摄像头应用可以调用摄像头，以实现各自的相关功能。摄像头应用，是指需要访问摄像头的摄像头应用，可以对摄像头采集的图像数据进行处理，从而实现相关功能，例如视频聊天。用户可以通过触控“我的应用”控件，查看显示设备中已安装的所有应用。显示器中可以显示出应用列表。当用户选择打开某个摄像头应用时，显示设备可以运行相应的摄像头应用，该摄像头应用可以唤醒图像采集器231，图像采集器231进一步可以实时检测图像数据并发送给显示设备。显示设备可以进一步对这些图像数据进行处理，例如控制显示器显示图像等等。

在一些实施例中，显示设备可以和用户进行手势交互，从而识别出用户的控制指令。用户可以使用静态手势和显示设备进行交互，从而输入控制指令。具体的，在手势交互过程中，用户可以在图像采集器231的拍摄范围内摆出特定的手势，图像采集器231可以采集到用户的手势图像，并将采集到的手势图像发送给显示设备。显示设备进一步可以对手势图像进行识别，检测出该图像中的手势的类型。显示设备中可以预先存储有手势交互策略，限定出每种类型的手势分别对应那种控制指令，一个手势类型可以对应一种控制指令，显示设备可以根据用途不同，针对不同的用途设置用于触发特定控制指令的手势。通过将该图像中的手势的类型和交互策略中的对应关系逐次比对，可以确定出该手势对应的控制指令，并实施该控制指令。

例如，当用户在图像采集器231的拍摄范围内摆出五指并拢且手掌面向图像采集器231的手势时，显示设备可以在图像采集器231采集的手势图像中识别出该手势，并针对该手势确定控制指令为“暂停/开始播放”。最后通过运行该控制指令，对当前播放界面执行暂停或开始播放控制。需要说明的是，

上述实施例中，手势识别是采用静态手势识别方式，静态手势识可以识别出手势类型进而确定出相应的控制指令。用户每呈现出一个静态手势，代表用户输入了一个独立的控制指令，例如控制音量加一。需要说明的是，当用户长时间保持一个静态手势时，显示设备可能依旧判定为用户输入了一个控制指令。因此，对于一些需要连贯操作的控制指令，如果采用静态手势交互的方式，则太过繁琐。

例如，当用户想要控制显示器中的焦点选中某个控件时，可能会让焦点依次进行下、右、下的移动。此时，用户需要不断变换静态手势从而控制焦点进行移动，导致用户的体验性较差。或者，如果需要焦点连续向着一个方向多次移动时，用户需要连续做出静态手势。由于用户即使长时间保持一个静态手势，也会被判定为输入一个控制指令，因此用户在做出一个静态手势后需要放下手，然后再次做出静态手势，从而影响使用体验。

在一些实施例中，显示设备还可以支持动态手势交互。其中，所述动态手势是指在一次交互过程中，用户可以使用动态手势输入的方式，向显示设备输入控制指令。其中，可以设为：可以是通过一系列动态手势向显示设备输入一个控制指令，可以是通过不同类型的手势向显示设备依次输入多种类型的不同控制指令，也可以是通过相同类型的手势连续向显示设备输入一种类型的多个相同控制指令，从而扩展显示设备的手势交互类型，提高手势交互形式的丰富程度。

例如，用户在2s时间内将手势从五指张开调整至五指并拢，即输入持续2s的抓取动作，则显示设备可以在2s的检测周期内持续获取手势图像，并逐帧识别手势图像中的手势类型，从而按照多帧图像中的手势变化识别出抓取动作。最后确定抓取动作对应的控制指令，即“全屏/窗口播放”，并执行该控制指令，对播放窗口的大小进行调节。

在一些实施例中，当显示设备中显示有用户界面时，用户可以控制显示器中的焦点选取某个控件并触发。如图7所示，当前焦点选中了“我的应用”控件。考虑到用户利用控制装置控制焦点的移动时，可能会比较繁琐，为了增加用户的体验性，用户还可以利用动态手势选取控件。

显示设备可以设置有光标控制模式。当显示设备处于光标控制模式下，显示器中的原本的焦点可以变更为光标，如图8所示，光标选中了“我的应用”控件。用户可以利用手势控制光标进行移动，从而选中某个控件，以代替原来的焦点移动。

在一些实施例中，用户可以通过操作遥控器的指定按键，向显示设备发送光标控制模式指令。在实际应用的过程中预先绑定光标控制模式指令与遥控器按键之间的对应关系。例如，在遥控器上设置一个光标控制模式按键，当用户触控该按键时，遥控器发送光标控制模式指令至控制器，此时控制器控制显示设备进入光标控制模式。当用户再次触控该按键时，控制器可以控制显示设备退出光标控制模式。

在一些实施例中，可以预先绑定光标控制模式指令与多个遥控器按键之间的对应关系，当用户触控与光标控制模式指令绑定的多个按键时，遥控器发出光标控制模式指令。

在一些实施例中，用户可以使用显示设备的声音采集器，例如麦克风，通过语音输入的方式，向显示设备发送光标控制模式指令，使得显示设备进入光标控制模式。

在一些实施例中，用户还可以通过预设的手势或动作向显示设备发送光标控制模式指令。显示设备可以通过图像采集器231实时检测用户的行为。当用户做出预设的手势或动作时，可以认为用户向显示设备发送了光标控制模式指令。

在一些实施例中，当用户使用智能设备控制显示设备时，例如使用手机时，也可以向显示设备发送光标控制模式指令。在实际应用的过程中可以在手机中设置一个控件，可以通过该控件选择是否进入光标控制模式，从而发送光标控制模式指令至显示设备。

在一些实施例中，可以在显示设备的UI界面中设置光标控制模式选项，当用户点击该选项时，可以控制显示设备进入或退出光标控制模式。

在一些实施例中，为防止用户误触发光标控制模式，当控制器接收到光标控制模式指令时，可以控制显示器显示光标控制模式确认信息，从而使得用户进行二次确认，是否要控制显示设备进入光标控制模式。图9为本申请实施例提供的显示器中显示光标控制模式确认信息的示意图。

当显示设备进入光标控制模式后，用户可以利用手势控制光标进行移动，从而选中想要触发的控件。

图10为本申请实施例提供的显示设备各部件的交互流程图，包括以下步骤：

S1001：获取用户行为图像。

在一些实施例中，当检测到显示设备进入光标控制模式时，控制器可以唤醒图像采集器231，向图像采集器231发送开启指令，从而启动图像采集器231进行图像拍摄。此时，用户可以在图像采集器231的拍摄范围内做出动态手势，图像采集器231可以随着用户的动态手势动作，连续拍摄多帧用户图像，本申请实施例中利用用户行为图像指代图像采集器231采集到的用户图像。

具体的，图像采集器231可以按照预设的帧率拍摄用户行为图像，例如每秒拍摄30帧(30FPS)用户行为图像。同时，图像采集器231还可以实时将拍摄得到的每一帧用户行为图像发送至显示设备。需要说明的是，由于图像采集器231将拍摄的用户行为图像实时发送至显示设备，因此显示设备获取到用户行为图像的速率可以和图像采集器231的拍摄帧率相同。

例如，当图像采集器231以每秒30帧的帧率进行图像拍摄时，控制器也可以按照每秒30帧的帧率获取到用户行为图像。

在一些实施例中，图像采集器231采集到若干帧用户行为图像，可以依次发送给显示设备。显示设备可以对每一帧用户行为图像逐次进行识别，从而识别出用户行为图像中所包含的用户手势，以确定用户输入的控制指令。

S1002：对于采集到的用户行为图像，控制器对用户行为图像进行手势识别处理，例如可以使用预设的动态手势识别模型对每一帧用户行为图像逐次进行处理。

控制器可以将用户行为图像输入到动态手势识别模型中，动态手势识别模型进一步可以识别图像中所包含的用户手势，例如，可以识别出用户行为图像中所包含的手指、关节、手腕等关键点的位置信息，关键点位置指的是关键点在用户行为图像中的位置坐标。在识别之后，可以依次输出每一帧用户行为图像的目标手势信息。

S1003：根据用户手势信息获取光标位置。

S1004：根据光标位置确定手势移动轨迹。

S1005：控制器控制光标移动，使显示器显示光标沿着手势移动轨迹移动。

图11为本申请实施例提供的用户手势的示意图。可以设定为：用于表征用户手势的关键点包括21个手指关键点。动态手势识别模型可以对用户行为图像中的用户手势进行确认，并识别出用户手部这21个手指关键点的位置信息，即位于用户行为图像中的位置坐标，每个关键点的位置信息都可以通过对应点的坐标进行表示。

需要说明的是，动态手势识别模型在识别用户行为图像时，可能识别出用户手势，获取到了每个手指关键点的位置信息。此时，输出的目标手势信息中可以包括所有手指关键点的位置信息。但受到用户不同手势的影响，有的手指关键点可能被用户掩盖住，导致用户行为图像中并未出现这些手指关键点，此时，动态手势识别模型则无法获取到这些手指关键点的位置信息，这些手指关键点的位置信息只能是空值。即，在目标手势信息中，包括动态手势识别模型识别到的手指关键点的位置信息，没有识别到的手指关键点的位置信息则为空值。

在一些实施例中，动态手势识别模型得到每一帧的目标手势信息后，可以输出至控制器。控制器进一步可以根据每一帧的目标手势信息，确定出用户指示的控制指令。由于用户想要控制光标进行移动，因此用户指示的控制指令可以认为是用户指示光标需要移动的位置指令。此时，控制器可以根据每一帧目标手势信息获取每一帧的光标位置。

在一些实施例中，考虑到显示设备的计算能力可能较弱，如果显示设备当前处在实现一些其他的功能，例如远场语音、4K视频播放等，显示设备会处于一个较高负载的状态。此时，如果向动态手势识别模型中输入的用户行为图像的帧率较高时，实时数据处理量过大，模型处理用户行为图像时的速率便可能较慢，从而使得获取光标位置的速率较慢，导致显示器中光标移动时会较为卡顿。

因此，控制器可以先检测显示设备当前的负载率的情况。当负载率高于预设阈值，例如高于60％时，控制器可以令动态手势识别模型以固定周期等间隔处理每一帧用户行为图像。例如，可以设定固定周期为一秒处理15帧图像。使得动态手势识别模型可以稳定处理图像。当检测到显示设备的负载率没有高于预设阈值时，则可以令动态手势识别模型实时处理每一帧用户行为图像。此时，控制器可以实时将图像采集器231发送过来的用户行为图像输入到动态手势识别模型中，并控制模型进行识别。也可以令动态手势识别模型以固定周期等间隔处理。

需要说明的是，动态手势识别模型输出目标手势信息的速率和处理用户行为图像的速率可以是相同的。当动态手势识别模型以固定周期等间隔处理图像时，其会以固定周期等间隔地输出目标手势信息。当模型实时处理图像时，其也会实时输出目标手势信息。

在一些实施例中，为了使显示器中显示的光标能根据用户的动态手势生成实时的运动轨迹，使得光标流畅的跟随动态手势运动，控制器可以根据用户利用手势所指示的信息，确定出每一帧的光标位置。

考虑到用户利用手势控制光标时，在一段时间内连续拍摄到的用户运动的手势图像中，有些帧拍到的图像可能较为模糊或者出现手势被遮挡的情况，此时动态手势识别模型无法识别出结果，未能得到目标手势的相关信息，例如目标手势信息为空值。此时，则无法根据目标手势信息获取用户所指示的信息，即无法获取到光标位置，因此显示设备可以预测该帧图像对应的光标位置，避免由于缺少光标位置使得光标不移动，而导致光标出现卡顿、轨迹中断、跟随用户手势时丢失的情况。

显示设备可以根据动态手势识别模型获取到的目标手势信息，例如图11所示的手指关键点的位置信息，确定是否能够获取到用户指示的信息。当动态手势识别模型的结果为空，即目标手势信息为空值时，可以进行光标位置预测。

在本申请实施例中，可以设定为：当检测到预先设定的目标手势时，认为用户指示了光标移动的位置信息。其中，目标手势可以是用户展示预设的手指关键点。对于如图11所示的用户手势示意图，可以设定为9号关键点为用户指示光标进行移动的控制点，即当检测到预设的手指关键点的位置信息时，确定用户指示了光标的移动。显示设备可以根据该预设的手指关键点的位置信息进一步确定出光标移动的位置信息。

因此，当在目标手势信息中检测到了该预设的手指关键点的位置信息，则可以获取到光标移动的位置信息。本申请实施例中使用虚拟位置信息指代预设的手指关键点的位置信息，即目标手势在用户行为图像中的位置信息。

在一些实施例中，显示设备可以检测每一帧目标手势信息中是否包括虚拟位置信息。如果某一帧目标手势信息中包括虚拟位置信息，即识别出了预设的手指关键点的位置信息，则认为该帧用户行为图像中检测到了目标手势，即用户具体指示了光标如何进行移动。此时，显示设备可以根据虚拟位置信息确定出光标需要移动的位置信息。

如果某一帧目标手势信息中不包括虚拟位置信息，即预设的手指关键点的位置信息为空值，则认为该帧用户行为图像中没有检测到目标手势，此时用户没有具体指示出光标应该如何进行移动，显示设备需要自行预测补充光标需要移动的位置信息。

下面结合一个具体的实施例进行说明，图12为本申请实施例提供的根据目标手势信息确定光标位置的流程示意图，包括以下步骤：

S1201：判断目标用户手势信息是否包括虚拟位置信息；若是，则执行S1202，否则，执行1204。

S1202：根据虚拟位置信息获取初始光标位置。

S1203：对初始光标位置进行调节。

S1204：预测光标位置。

在一些实施例中，对于某一帧的用户行为图像，对于其中是否检测到了目标手势的两种情况，控制器均可以分别获取到光标需要移动的位置信息。

如果检测到了目标手势，即该帧目标手势信息中包含虚拟位置信息，此时，可以根据该虚拟位置信息获取到光标需要移动的位置信息，即用户行为图像所对应的光标位置。

具体的，虚拟位置信息表征的为用户行为图像中识别到的，预设的手指关键点的位置信息，用于表示用户的目标手势的位置信息。但该位置信息为手指关键点位于用户行为图像中的位置，因此，显示设备可以将用户的目标手势映射到显示器中，从而得到光标的位置。需要说明的是，在将用户的目标手势映射到显示器中时，可以根据光标的初始位置进行参照，当首次检测到用户的目标手势时，将该帧图像中手指关键点的位置确定为光标初始的位置，形成一个映射关系。在后续的映射中，可以按照预设的映射方法，将后续用户的目标手势依次映射到显示器中，从而得到各帧图像所对应的光标位置。

在一些实施例中，在获取到光标的位置信息后，考虑到用户的手势运动是立体的，在空中运动的，运动方向不仅有上下左右，还有前后，在光标的映射过程中，如果手势频繁运动，手势状态不稳定，那么光标会出现抖动等问题，为了使光标运动更平滑，用户体验更好，显示设备还可以对光标位置进行调节优化，使得光标能够动态防抖，移动轨迹平滑、平稳。

显示设备可以根据虚拟位置信息，将目标用户行为图像中的目标手势映射到显示器中，得到原始光标位置F _c。本申请实施例中原始光标位置指的是：动态手势识别模型识别的坐标直接映射到显示器中的坐标。通过对原始光标位置进行调节优化，可以得到目标光标位置，本申请实施例中目标光标位置指的是：经过调节优化后，光标真正在显示器中显示的坐标位置。

具体的，显示设备对原始光标位置可以按照以下方法进行调节：

显示设备可以根据目标用户行为图像的上一帧用户行为图像对应的光标位置F _p以及预设的调节阈值获取第一位置数值，同时可以根据原始光标位置和预设的调节阈值获取第二位置数值。根据第一位置数值和第二位置数值可以获取目标用户行为图像对应的目标光标位置F _c1。可以用公式1表示：

F _c1＝E ₁*F _p+(1-E ₁)*F _c (1)

其中：

F _c1表示调节后的目标光标位置；

E ₁表示预设的调节阈值；

F _c表示调节前的原始光标位置，F _p表示上一帧用户行为图像对应的光标位置。

通过预设的调节阈值，可以根据上一帧图像对应的光标位置对原始光标位置进行调节，从而减小该帧目标手势可能出现的抖动偏移，以优化光标的移动。

其中，调节阈值可以根据以下方法预先设定：

其中：

E ₁表示预设的调节阈值。

k表示第一调节参数；g表示第二调节参数；第一调节参数和第二调节参数均为0-1之间的数，可以由相关技术人员自行进行设定。

S _g表示目标用户行为图像的尺寸。用户行为图像的尺寸指的是用户行为图像相对于显示器的尺寸。

具体的，显示设备可以将拍摄到的用户行为图像展示在显示器中，使得用户能够直观的确定当前的手势情况。图13为本申请实施例提供的显示器显示摄像头区域的示意图。其中，摄像头区域中显示摄像头拍摄的画面情况，整个摄像头区域的尺寸可以由显示设备进行设置。用户可以选择开启或者关闭摄像头区域，但在摄像头区域关闭时，其尺寸大小和开启时设定为相同。

S _c表示目标用户行为图像的前一帧用户行为图像对应的光标位置处的控件的尺寸。对于每一次光标移动后，均可认为光标选中了某个控件。因此，可以根据上一帧光标选中的控件设定调节阈值。

S _tv表示显示器的尺寸。

在对原始光标位置进行调节后，可以确定出目标用户行为图像对应的目标光标位置，即光标需要移动到的位置。

在一些实施例中，在目标用户行为图像中，如果没有检测到用户的目标手势，即该帧目标手势信息中不包含虚拟位置信息，此时，显示设备可以预测目标用户行为图像对应的光标位置，从而令光标能够正常移动。

具体的，为了更好地预测出光标的位置，显示设备可以先确定出光标移动的类型。需要说明的是，光标移动的类型可以分为两类：直线运动和曲线运动。当光标沿着直线进行移动时，表示用户的手势动作也是沿着直线进行移动的，相对来说会比较稳定，拍摄图像时一般不会出现丢帧现象。但当光标沿着曲线进行移动时，表示用户的手势动作也是沿着曲线进行移动的，此时，相比于直线来说，稳定性较差，导致丢帧率会略高。因此，可以预先设定一个用于检测丢帧的阈值，来判断光标时直线运动还是曲线运动。

显示设备可以检测目标用户行为图像之前的若干帧图像中，可以是预设的检测数量的用户行为图像中，例如20帧图像内，出现丢帧情况，即没有检测到用户的目标手势的用户行为图像的数量，是否超过了预设的检测阈值，可以将检测阈值设定为0。

因此，可以检测前20帧图像中，出现丢帧情况的图像的数量是否大于0，也即检测前20帧图像中是否存在图像出现丢帧情况。如果没有出现过丢帧情况，则认为光标正在做直线运动，本申请实施例中设定为第一类运动；如果出现过丢帧情况，则认为光标正在做曲线运动，本申请实施例中设定为第二类运动。

在一些实施例中，当检测到光标正在做直线运动时，显示设备可以对目标用户行为图像进行第一处理，从而预测得到目标光标位置。

图14为本申请实施例提供的光标沿直线运动的示意图。其中，光标的初始位置为A1，已经获取到的光标位置依次为A2、A3和A4。光标沿着直线运动，A5为预测得到的本帧目标光标位置。

具体的，控制器可以根据目标用户行为图像的前两帧用户行为图像对应的光标位置获取历史光标位置偏移量，用于表征上次光标的移动情况。

控制器可以根据历史光标位置偏移量和第一时间获取光标移动速度。其中，第一时间指的是：预设的动态手势识别模型处理该目标用户行为图像的前两帧用户行为图像所间隔的时间。一般来说，动态手势识别模型处理一帧图像所消耗的时间是固定的，因此，第一时间也可以认为是：动态手势识别模型输出前两帧用户行为图像对应的目标手势信息，所间隔的时间。

需要说明的是，当动态手势识别模型以固定周期等间隔处理图像时，第一时间是一个固定值不变，不需要每次都获取。当动态手势识别模型实时处理图像时，则需要实时获取模型输出前两帧图像的识别结果相差的时间。

控制器可以根据光标移动速度、第二时间和预设的第一预测阈值获取光标的目标光标位置偏移量。其中，第二时间为：预设的动态手势识别模型处理目标用户行为图像和前一帧用户行为图像所间隔的时间，也即模型输出前一帧图像的识别结果的时刻，到模型输出本帧图像的识别结果的时刻，所间隔的时间。控制器可以预测出本次光标的移动情况。

最后，控制器可以对前一帧用户行为图像对应的坐标位置和目标光标位置偏移量求和，通过在前一帧光标的位置处进行本次的偏移移动，可以得到目标光标位置。

预测方法可以用公式3、4表示：

F ₀＝v*Δt ₀*E ₂+F _0-1 (3)

v＝(F _0-1-F _0-2)/Δt (4)

其中：

F ₀表示目标光标位置；v表示光标本次移动的速度，表示Δt ₀表示第二时间；

S _f表示预设的第一预测阈值；

F _0-1表示前一帧用户行为图像对应的坐标位置；

F _0-2表示前第二帧用户行为图像对应的坐标位置；Δt表示第一时间。

其中，第一预测阈值可以根据以下方法预先设定：

其中：

E ₂表示第一预测阈值，可以是值为0.6。a1表示第一预测参数；a2表示第二预测参数。第一预测参数和第二预测参数均为0-1之间的数，可以由相关技术人员自行进行设定。

D _f表示预设时间内预设的动态手势识别模型对用户行为图像的处理速率。

C _f表示预设时间内所述图像采集器231采集用户行为图像的速率。

P _f表示预设时间内光标移动的帧率。其中，光标移动的帧率指的是光标移动次数的频率，也可以认为是单位时间内光标移动了多少次，光标从一个光标位置移动到下一个光标位置为移动一次。

具体的，预设时间可以是1s。因此可以获取目标用户行为图像前一秒内，模型处理图像的速率、图像采集器231拍摄图像的速率以及光标移动的帧率。进而，可以设定出第一预测阈值。

根据上述公式，可以预测直线运动下光标的位置坐标。

在一些实施例中，当检测到光标正在做曲线运动时，显示设备可以对目标用户行为图像进行第二处理，从而预测得到目标光标位置。

图15为本申请实施例提供的光标沿曲线运动的示意图。其中，光标的初始位置为A1，已经获取到的光标位置依次为A2-A9。光标位置A4对应图像出现了第一次丢帧现象，由于是第一次丢帧，认定光标当前运动(A1到A4之间的运动)为直线运动情况。A5、A6位置为根据用户的目标手势映射得到的坐标。光标位置A7对应图像出现了第二次丢帧现象，因此认为光标当前运动(A5到A7之间的运动)沿着曲线运动，并根据预测得到光标位置A7。A8、A9位置为根据用户的目标手势映射得到的坐标。此时，目标用户行为图像出现丢帧现象，为整体(预设的检测数量)第三次丢帧，此时，认为光标沿着曲线运动(A8到A10之间的运动)，可以预测得到光标位置A10。

对于目标用户行为图像出现了第二次丢帧，因此认为光标沿着曲线运动，目标用户行为图像经预测得到的光标位置可以为A8。

需要说明的是，在进行曲线运动时，预测光标位置的方法和直线运动类似。均可以先获取上次光标的移动情况，即历史光标位置偏移量。

再根据历史光标位置偏移量和第一时间获取光标移动速度。并根据光标移动速度、第二时间和预设的第二预测阈值获取光标的目标光标位置偏移量。

最后，控制器可以对前一帧用户行为图像对应的坐标位置和目标光标位置偏移量求差，通过在前一帧光标的位置处进行本次的偏移移动，可以得到目标光标位置。

具体的预测方法可以用公式6、7表示：

F ₀＝F _0-1-v*Δt ₀*E ₃ (6)

v＝(F _0-1-F _0-2)/Δt (7)

其中：

S _b表示第二预测阈值，可以是值为0.3。

具体的，第二预测阈值可以根据以下方法预先设定：

E ₃＝b*E ₂ (8)

其中，b表示第三预测参数。第三预测参数为0-1之间的数，可以由相关技术人员自行进行设定，可以是0.5。

根据上述公式，可以预测曲线运动下光标的位置坐标。

在一些实施例中，考虑到连续多帧用户行为图像可能会出现丢帧情况，可以设定一个连续丢帧的预设阈值，可以是4。在这个阈值内，如果用户行为图像持续出现丢帧情况，显示设备可以持续预测光标的位置。

具体的，在对本帧的目标用户行为图像进行手势识别之前，可先检测本帧图像之前预设阈值的用户行为图像中，可以是4帧用户行为图像中，这些图像是否全部都没有检测到目标手势，也即目标用户行为图像的前4帧图像是否全部丢帧。

如果是，则可以认为用户不再利用手势指示光标位置，此时用户可能已经放下手，已经确定了光标应该选中的控件。此时，可以控制光标不进行移动，认为本轮用户手势运动结束。直到摄像头再次拍摄到用户手势时，可以进行下一轮手势识别。

如果不是，则认为用户还在利用手势指示光标位置，只是前几帧因为一些情况全部丢帧。此时，控制器可以继续对目标用户行为图像进行手势识别，并确定本帧图像对应的光标位置。

在一些实施例中，对于预测光标位置的情况，只会出现在光标已经开始移动之后的过程中，也即光标的第一个位置不会是预测得到的，只会是根据用户指示得到的，具体的，当显示设备进入光标控制模式后，可以设定为：当首次检测到用户的目标手势后，允许光标开始移动，以避免首帧图像出现丢帧的情况。

在一些实施例中，在确定了目标用户行为图像对应的目标光标位置后，可以根据光标位置确定用户的手势移动轨迹。考虑到每两帧光标位置之间的距离会比较短，因此可以认为两帧光标位置之间光标进行直线运动。可以使目标光标位置从上一帧的光标位置沿直线到达目标光标位置。即将目标光标位置和上一帧的光标位置相连接，得到手势移动轨迹。

控制器可以再令光标沿着手势移动轨迹进行移动。

在一些实施例中，当光标沿着手势移动轨迹进行移动后，用户可能不再控制光标进行移动。此时，光标可能会位于某个控件的区域范围内，也可能位于某个控件的边缘处。当光标位于某个控件的区域内，可以确定用户选择了该控件，显示设备可以让用户确认是否触发该控件。然而如果光标位于控件的边缘及以外的区域，导致未能选中某个控件，显示设备便无法令用户确认触发控件。

因此，当光标没有明确落入到某个控件的区域内时，需要确定出光标停止不动时对应的控件，即确定用户最终选择的控件。

具体的，可以根据光标的位置确定出预设寸尺的位置信息。例如，预设尺寸可以是500*500。对于光标位置(a，b)，可以以该坐标为中心，确定出尺寸为500*500的一块区域。

控制器可以确定出该区域内所有的控件，并获取所有的控件到光标的距离。控件到光标的距离设定为：控件的四条边的中点到光标的平均距离。如图16所示，光标的位置为点O。对于一个控件A，其四条边的中点依次为B1、B2、B3、B4。四个中点到光标的距离依次为X1、X2、X3、X4。因此，控件到光标的距离为：(X1+X2+X3+X4)/4。

在一些实施例中，考虑到当控件尺寸较小时，其四边中点到光标距离可能会较短，从而影响判断结果。因此，还可以按照下述方法确定每个控件到光标的距离。

具体的，本申请实施例中设定为光标和控件有两种位置关系。一种是光标和控件位于同一水平方向或同一竖直方向，一种是光标和控件既不位于同一水平方向也不位于同一竖直方向。

图17为本申请实施例提供的光标和控件的位置关系的示意图。

光标位置为(a，b)。对于一个控件来说，设定其尺寸为宽w、高h。四个顶点的坐标依次为：(x-w，y-h)、(x+w，y-h)、(x+w，y+h)、(x-w，y+h)。控件的两条竖直边对应的竖直直线分别为L1和L2，两条水平边对应的水平直线分别为L3和L4。本申请实施例中设定，如果光标位于竖直直线之间的区域内，则认为光标和控件位于同一竖直方向；如果光标位于水平直线之间的区域内，则认为光标和控件位于同一水平方向。如果光标没有位于这两个区域内，则认为光标和控件既不位于同一水平方向也不位于同一竖直方向。如图17中，光标O1和控件A位于同一竖直方向，光标O2和控件A位于同一水平方向，光标O3和控件A既不位于同一水平方向也不位于同一竖直方向。

具体的，对区域内所有的控件来说，可以判断光标位置和控件位置的关系。

如果x<a<x+w，且y<b<y+h。说明光标位于该控件区域内，此时无需考虑其他控件，可以确定该控件为用户选择的控件。

如果满足x<a<x+w，但不满足y<b<y+h，则光标和控件位于同一竖直方向。

如果不满足x<a<x+w，但满足y<b<y+h，则光标和控件位于同一水平方向。

如果不满足x<a<x+w，也不满足y<b<y+h，则光标和控件既不位于同一水平方向也不位于同一竖直方向。

如果光标和控件位于同一竖直方向或同一水平方向，可以按照下述方法计算光标和控件之间的距离。

分别获取控件A四条边到光标O的距离：T1、T2、T3、T4。并将四个距离中数值最小的结果作为光标和控件之间的距离，距离为：MIN(T1、T2、T3、T4)。

如果光标和控件既不位于同一水平方向也不位于同一竖直方向，可以按照下述方法计算光标和控件之间的距离。

分别获取控件A四个顶点到光标O的距离：P1、P2、P3、P4。并将四个距离中数值最小的结果作为光标和控件之间的距离，距离为：MIN(P1、P2、P3、P4)。

控制器可以将距离最短的控件设定为光标选中的控件。

当用户触控确认键时，显示设备可以触发光标选中的控件。

随着人工智能(Artificial Intelligence，AI)技术的发展，越来越多的手势交互方式可被应用于显示设备的交互过程中。手势交互的目的在于通过检测用户做出的特定手势动作，控制显示设备执行相对应的控制指令。例如，用户可以通过向左或向右挥手的动作，代替遥控器等控制装置上的左右方向键，控制显示设备进行快退或快进播放操作。

通常，显示设备所支持手势交互方式基于静态手势，即用户在做出特定手势动作时，手型是保持不变的。例如，在进行向左或向右挥手的动作时，用户需要保持五指并拢，且手掌平行移动进行挥摆动作。在进行交互时，显示设备可以先根据手势类型识别算法检测静态手势，再根据手势类型执行相应的控制动作。

可见，这种基于静态手势的交互方式所支持的手势数量较少，只适用于简单的交互场景。为了增加支持的手势数量，部分显示设备还支持动态手势交互，即通过一个时间段内的连续动作，实现特定的手势交互。但是，由于动态手势检测过程中所使用的模型限制，使得上述动态手势交互过程不支持用户自定义手势，无法满足用户的需求。

在一些实施例中，动态手势识别可以采用深度学习等训练方法进行模型训练获得动态手势识别模型，再将多个连续帧手势图像数据输入训练获得的动态手势识别模型，经过模型内部的分类算法计算得到当前多帧手势图像对应的目标手势信息。目标手势信息通常可以关联一个特定的控制指令，显示设备200可以通过执行该控制指令，实现动态手势交互。

例如，可以基于手势图像数据生成训练数据，训练数据中每一帧用户行为图像都被设置有分类标签，即表示当前帧用户行为图像对应的手势类型。同时，多个连续帧用户行为图像还被统一设置动态手势标签，即表示多帧用户行为图像对应的动态手势。在生成训练数据后，可以将包含多个连续帧手势图像的训练数据输入初始动态手势识别模型，以获得识别模型输出的分类概率。再将模型输出的分类概率与训练数据中的分类标签进行损失函数运算，计算分类损失。最后根据计算获得的分类损失反向传播调整识别模型中的模型参数。重复上述“分类计算-损失计算-反向传播”的模型训练过程，通过大量训练数据即可获得能够输出准确分类概率的识别模型。利用训练获得的识别模型，显示设备200可以将实时检测的多个连续帧用户行为图像输入该识别模型，从而获得识别模型输出的分类结果，确定多个连续帧用户行为图像对应的动态手势，再匹配动态手势对应的控制指令，实现动态手势交互。

在一些实施例中，动态手势交互还可以支持用户的自定义操作，即提供一种显示设备控制方法，所述方法可应用于显示设备200。为了满足用户与显示设备的手势交互，显示设备200应至少包括显示器260和控制器250。并内置或外接至少一个图像采集器231。其中，显示器260用于显示用户界面，辅助用户的交互操作；图像采集器231用于采集用户输入的用户行为图像。图18为本申请实施例提供的动态手势交互流程示意图，如图18所示，控制器250则被配置为执行所述显示设备控制方法对应的应用程序，包括如下内容：

获取手势信息流。其中，所述手势信息流是由图像采集器231通过连续的图像拍摄而生成的视频数据，因此所述手势信息流包括连续多帧用户行为图像。显示设备200在启动手势交互后，可以向图像采集器231发送开启指令，启动图像采集器231进行图像拍摄。在启动图像拍摄后，用户可以在图像采集器231的拍摄范围内做出动态手势，则图像采集器231可以随着用户的动态手势动作，连续拍摄多帧用户行为图像。并实时将拍摄获得的多帧用户行为图像发送给控制器250形成手势信息流。

由于手势信息流中包括多帧用户行为图像，而用户行为图像是由图像采集器231进行拍摄获得，因此手势信息流中所包含的用户行为图像帧率可以和图像采集器231的图像拍摄帧率相同。例如，当图像采集器231以每秒30帧(30FPS)的帧率进行图像拍摄时，控制器250也可以按照每秒30帧的帧率获取的手势信息流。

但是在一些计算能力较弱显示设备200，过高的帧率将导致控制器250的实时数据处理量过大，影响手势识别的响应速度。因此，在一些实施例中，显示设备200还可以获得较低帧率的手势信息流。为了降低手势信息流的帧率，显示设备200可以在图像采集器231拍摄获得的图像中，等间隔地提取多帧用户行为图像。例如，显示设备200可以在图像采集器231拍摄获得的手势图像中，每间隔一帧提取一帧用户行为图像，从而获得帧率为15的手势信息流。显示设备200还可以向图像采集器231发送用于帧率调节的控制指令，控制图像采集器231每秒只拍摄15帧手势图像数据，从而形成帧率为15的手势信息流。

需要说明的是，由于动态手势的输入过程会受到不同用户动作输入速度的影响，即部分用户的手势输入动作较快，部分用户的手势输入动作较慢。显然，对于动作较慢时输入的手势，相邻帧之间的手势差异较小，则低帧率的手势信息流也能够表征完整的手势输入过程。而对于动作较快时输入的手势，相邻帧之间的手势差异较大，则低帧率的手势信息流有可能丢失部分关键手势，影响手势识别的准确率。因此，为了提高手势识别的准确率，显示设备200应尽可能保持较高的帧率获取用户行为图像，例如，用户行为图像可以是用户的手势交互图像，手势信息流的帧率可维持在15-30FPS区间内。

并且，在一些实施例中，显示设备200还可以根据当前运行负荷，在特定的区间内动态调整手势信息流的帧率，以实现在运算能力充足时，通过获取高帧率手势信息流提高手势识别的准确率；而在运算能力不足时，通过获取低帧率手势信息流减少对控制器250运算能力的过度消耗。

在获取手势信息流后，显示设备200可以对手势信息流中的每帧用户行为图像进行手势识别处理，以便从手势信息流中提取出关键手势信息。其中，手势识别处理可以基于图像识别算法，在用户行为图像中识别手指、关节、手腕等关键点的位置。即关键点坐标用于表征手关节在用户行为图像中的成像位置。

例如，显示设备200可以通过特征形状匹配的方式，在用户行为图像中识别各关键点在当前用户行为图像中的位置坐标。再将各关键点坐标按照设定的顺序组成信息向量。即如图11所示，用于表征手势动作的关键点可以包括21个手指关键点，每个关键点的位置信息都可以通过对应点的坐标进行表示。如对于指尖关键点，拇指指尖坐标为P _T1＝(x _t1，y _t1)，食指指尖坐标为P _T2＝(x _t2，y _t2)，中指指尖坐标为P _t3＝(x _t3，y _t3)……；同理，对于指中关键点，也同样采用上述坐标表示方式，即拇指指中坐标为：

P _M1＝(x _m1，y _m1)……；而指根关键点为P _B1＝(x _b1，y _b1)。

上述指尖、指中以及指根坐标可以组合形成用于表示指尖信息、指中信息以及指根信息的向量，即指尖信息F _T为：

F _T＝[P _T1，P _T2，P _T3，P _T4，P _T5]

指中信息F _M为：

F _M＝[P _M1，P _M2，P _M3，P _M4，P _M5]

指根信息F _B为：

F _B＝[P _B1，P _B2，P _B3，P _B4，P _B5]

除上述指尖F _T、指中F _M、指根F _B坐标信息外，显示设备200还可以在用户行为图像中提取掌心坐标P _Palm和手腕坐标P _Wrist。再将这些坐标信息组合形成手势关键坐标集H _Info。即手势关键坐标集H _Info为：

H _Info＝[P _Palm，P _Wrist，F _T，F _M，F _B]

可见，上述手势关键坐标集为多个关键点坐标组合成的坐标集。因此基于对上述手势关键坐标集中关键点位置的相互关系，显示设备200可以从根据手势关键坐标集确定关键手势类型。为了确定关键手势类型，在一些实施中，显示设备200可以从手势信息流中提取关键手势信息时，先识别用户行为图像中的关键点坐标，再从数据库中提取预设的关键点标准坐标。其中，关键点标准坐标为显示设备200的运营商通过对人群手势进行统计分析所确定的模板坐标集，每种手势可以设有对应的关键点标准坐标。

在提取关键点坐标和关键点标准坐标后，显示设备200可以计算关键点坐标与关键点标准坐标的差值。如果计算获得的差值小于或等于预设识别阈值，即确定当前用户行为图像中的用户手势与标准手势模板中的手势类型相似，因此可以确定关键点标准坐标对应的手势类型为目标手势类型。

例如，用户对图像采集器231摆出五指并拢手势，则通过对该手势对应的一帧用户行为图像进行识别，可以获得手势关键坐标集H _Info1，再从数据库中匹配五指并拢手势相近的标准手势，以提取关键点标准坐标H’。通过计算两个坐标集之间的差值，即H＝H _Info-H’，如果差值小于或等于预设识别阈值H”，即H≤H”，则匹配命中该目标坐标集，因此可以确定该当前用户行为图像中的目标手势类型为五指并拢手势。

在一些实施例中，所述关键手势信息还可以包括置信度参数，用于表征各手势类型与标准手势之间的差异。此时，关键手势信息还可以包括以下能够表示关键手势类型的参数项，即手势姿态信息包括但不限于：手面向信息H _F(Hand Face)，手朝向信息H _O(HandOrientation)，手朝向偏角信息H _OB，左右手信息H _S(Hand Side)，手势伸缩状态信息H _T(Handstretched)等。其中，每个参数项均可以通过上述手势关键坐标集计算获得。

其中，手朝向信息，可用于表示画面中手指指尖的朝向，即如图19所示，指尖朝上为Up，朝下为Down，朝左为Left，朝右为Right，朝前(中)为Center，默认为Unknown，因此，手朝向信息可以表示为：

H _O＝{Up，Down，Left，Right，Center，Unknown}

同理，在识别手朝向信息的同时，还可以根据具体关键点坐标之间的位置关系，确定手朝向偏角信息，等同于手朝向信息的置信度。例如，手朝向虽然检测为Left，但是依然会有偏角，可能不是完全朝向左方，这时就需要根据偏角信息进行一些后续处理，也可以防止误触发。即手朝向偏角可以表示为：

H _Ob＝a(0＜a＜90)

显示设备200可以优先提取手朝向信息，即根据左右手和食指关键点信息生成手朝向信息，显示设备200可以使用食指指根信息P _B2、小拇指指根信息P _B5、手腕信息P _Wrist，左右手信息H _s生成，手朝向偏角信息H _OB，手横向纵向信息H _XY，手姿态偏角信息H _XB,H _YB，最终得到手朝向信息H _O。即：

H _O＝g(H _OB，H _XY，H _XB，H _YB)＝f(P _B2，P _B5，P _Wrist，H _S，α)

生成逻辑如下，计算食指指根P _B2和小拇指指根P _B5所在向量与x轴方向的偏角f(ΔX，ΔY)，该偏角的取值范围为(0°，90°)。根据偏角可得到手朝向信息，再通过设置偏角阈值，用于判断朝向信息是否有效。例如，可以设定偏角阈值β为5，即45±5范围内认为朝向信息无效，手横向纵向信息H _XY，即生成公式如下：

式中，ΔX为食指指根和小拇指指根的水平坐标差；ΔY为食指指根和小拇指指根的竖直坐标差；f(ΔX，ΔY)为偏角；β为偏角阈值。

再计算食指指根和小拇指指根的中间点P _M，以及计算食指到小拇指之间的四个手指指根连线的中点，然后计算P _M和手腕坐标P _Wrist的差值ΔY和食指指根和小拇指指根的差值ΔX，进而可得到手朝向俯仰角度信息：

式中，H _YB为手朝向俯仰角度；ΔX为食指指根和小拇指指根的水平坐标差；ΔY为食指指根和小拇指指根的竖直坐标差。

若俯仰角度过大，则认为是手朝向为Center，具体阈值为α。由于Center朝向的姿态判定误差较大，不能作为动作的判定标准，因此在一些精细度要求不高的场景下，可以直接等同于Unknown。即判断公式如下：

式中，H _O为手朝向信息，包括Center和其他两种状态，α为手朝向俯仰角度阈值。

显然，对于某些要求动作精细的场景下，需要更为精准的手姿态偏角信息H _XB,H _YB，因此显示设备200可以对用户的手进行建模，对不同距离预设手属性信息，得到更为精准的手姿态偏角信息。即用户可以预先输入不同距离下的手型(size)信息，后根据当前帧距离信息，食指指根信息P _B2、小拇指指根信息P _B5、手腕信息P _Wrist，左右手信息H _s可生成手姿态偏角信息H _XB,H _YB。

根据中间点P _M信息，手腕信息P _Wrist，手横向纵向信息H _XY，左右手信息H _s可生成对应的朝向信息。例如，右手纵向情况下，需要对比手腕和中间点的Y轴信息，若中间点y值小于手腕y值，证明为纵向。因此：

H _O＝l(P _M，P _Wrist，H _XY，H _S)

手面向信息H _F表示画面中手面向的信息，可以包括表示面向的具体值，即前向为Front，背向为Back。手面向信息H _F默认为Unknown。即：

H _F＝{Front，Back，Unknown}

在进行手面向信息的识别过程中，还可以确定手面向偏角信息，用于表征手面向的程度，等同于手面向信息的置信度。例如，用户的手面向信息虽然检测为Front，但是依然会有偏角，可能不是完全朝向前方，这时就需要根据偏角信息进行一些后续处理，以防止误触发手势。即：

H _Fb＝a(0＜a＜90)

通过提取手面向信息，以及根据食指指根信息P _B2、小拇指指根信息P _B5、左右手信息H _s、手朝向信息H _O生成手面向信息H _F，生成逻辑为，以右手朝上为例，若食指指根的x小于小拇指指根的x，证明为Front，更多细节不再赘述，以通用公式代替：

H _F＝g(P _B2，P _B5，H _S，α，H _O)

对于左右手信息，可用于表示画面中的手影像归属于用户的左手还是右手的成像，其中，左手为Left，右手为Right，因此左右手信息可以表示为：

H _S＝{Right，Left，Unknown}

对于手势伸缩状态，可用于表示手指的伸缩状态，即处于伸开状态的手指状态可以表示为1，处于收缩状态的手指状态可以表示为0。显然，对于手指的伸缩状态不仅包括伸开和收缩两种状态，因此也可通过设置不同的值表示伸缩状态，例如，可以设置表示伸缩状态的值为0，1，2。其中，完全收缩为0，半伸开为1，全伸开为2，可根据具体应用场景灵活变换。因此手势伸缩状态可以表示为：

H _T＝[F ₁，F ₂，F ₃，F ₄，F ₅](F＝0 or 1or 2)

式中，F ₁～F ₅分别代表五个手指的伸缩状态。

提取手势伸缩状态，在该部分，主要提取每根手指的蜷缩状态，依据为手朝向、手面向、左右手、手势关键点等信息，最终提取得到的蜷缩状态属性为0或1(本实施例以状态属性0或1为例)，其中，0为蜷缩状态，1为伸开状态。以H _o＝Up，H _S＝Right，H _F＝Front为例，即用户摆出右手面向摄像头，手朝上的情况，假设食指指尖坐标为50，食指指中坐标为70，食指指尖在指中上方，则表示手指伸开，为1，若食指指尖为30，指中为50，则为蜷缩状态。拇指和其余四指的对比方式不同，在其余四指对比横坐标的时候，拇指需要对比纵坐标。在手朝向为Up和Down的情况下，拇指需要对比x坐标，其余四指需要对比y坐标；而在手朝向为Right和Left的情况下，拇指需要对比y坐标，其余四指需要对比x坐标。其中，拇指需要对比指根和指尖的状态，其余四指需要对比指中和指尖的状态，也可根据具体场景调整对比点位，最终得到5根手指的蜷缩状态信息。

通过上述手势识别过程，可以得到当前帧关键手势信息，包括手面向信息H _F，手朝向信息H _O，手朝向偏角信息H _OB，左右手信息H _s，手势伸缩状态信息H _T。其中，手朝向偏角信息可用于判断手势朝向的准确定，在特定场景可以设置阈值，过滤一些模糊姿态手势，提高手势识别准确率。以右手，手背面向摄像头，手势朝下(偏角86度)，比手势1为例，其最终的关键手势信息G _Info可以表示为：

G _Info＝{H _F＝Back，H _O＝Down，H _S＝Right，H _T＝{0，1，0，0，0}，H _OB＝86}

由于用户动态手势为一个持续输入过程，即手势交互动作可以划分为多个阶段，因此关键手势信息包括多个阶段的关键手势类型。在一些实施例中，显示设备200可以通过遍历多个连续帧用户行为图像对应的目标手势类型，并确定多帧用户行为图像对应关键手势类型的交集，即根据多个连续帧用户行为图像划分动态手势的多个阶段，每个阶段中的用户行为图像归属于相同的目标手势类型。

例如，显示设备200可以通过对多帧用户行为图像photo1～photon中的手势关键坐标集进行分析，确定出每帧用户行为图像中的关键手势类型type1～typen。再对比多帧用户行为图像的关键手势类型type1～typen，从而将关键手势类型相同的多帧用户行为图像，如photo1～photo30和photo31～photon，分别确定为两个阶段，从而确定这两个阶段的关键手势类型，即type1＝type2＝…＝type30和type31＝type32＝…＝typen。

对于多个阶段对应的置信度参数，在一些实施例中，置信度参数包括关键手势偏角，则显示设备200可以根据关键点坐标与关键点标准坐标，计算手势偏角；再遍历每个阶段中多个连续帧用户行为图像对应的手势偏角，以获得每个阶段中的偏角并集；提取每个阶段中的所述偏角并集中的极值，以作为当前阶段关键手势信息中的关键手势偏角。

在提取出关键手势信息后，显示设备200可以调用检测模型进行动态手势匹配。其中，所述检测模型是一种匹配模型，包含多个以树形结构存储的节点，每个节点中设有手势姿态模板。多个节点可以分别处于不同的层级，除根节点和叶子节点外，每个层级的节点中均设有上级节点，且每个层级的节点均被指定下级节点。例如，在显示设备200的存储器中，可以预先存储多个手势姿态模板，每个手势姿态模板用于表征一种静态手势动作。同时，显示设备200还根据存储的手势姿态模板构建手势检测模型，在所述检测模型中，可以赋予每个手势姿态模板对应的节点属性和下级节点。因此，在显示设备200中，手势姿态模板可以仍然保持原本的存储数量，仅通过赋予节点属性即可构成检测模型。

显然，对于检测模型，每个节点中仅插入一个手势姿态模板，而每个手势姿态模板可以赋予多个节点属性。例如，一个“抓取-松开”的动态手势包括三个阶段，即五指张开手势、五指蜷缩手势、五指张开手势。其对应在检测模型中的节点和手势姿态模板为：根节点-“五指张开手势”；一级节点-“五指蜷缩手势”；二级节点-“五指张开手势”。可见，对于各节点，仅插入一个手势姿态模板，而对于各手势姿态模板，则对应赋予不同层级的节点属性，即“五指张开手势”目标被赋予了根节点和二级节点两个节点属性。

在检测模型中，根节点用于初始化匹配，可以包括多个手势姿态模板，可用于匹配用户输入的初始手势。例如，根节点可以插入用于表征触发手势交互的手势姿态模板。检测模型中的叶子节点中通常不插入特定的手势姿态模板，而是插入用于表示特定响应动作的控制指令，因此在本申请实施例中，除另有说明外，所述检测模型的节点不包括叶子节点。

在调用检测模型后，显示设备200可以使用检测模型匹配关键手势信息，以获得目标手势信息，其中目标手势信息在每个阶段关键手势类型与手势姿态模板相同，且置信度参数在置信度区间内的节点组合。因此，目标手势信息可以通过一个动作(action)路径进行表示。为了确定目标手势信息，显示设备200可以将关键手势信息中各阶段的关键手势类型与检测模型中的各层级节点上的手势姿态模板进行匹配。

在使用检测模型进行关键手势匹配的过程中，显示设备200可以先基于各阶段的关键手势类型，在对应层级中匹配类型相同的手势姿态模板。并在匹配命中一个手势姿态模板时，记录该手势姿态模板对应的节点。同时，显示设备200还判断该节点的置信度参数是否在预设的合理置信度区间范围内。如果当前阶段关键手势类型与手势姿态模板相同，且置信度参数在置信度区间内，则开始下一阶段的匹配。

例如，对于“抓取-松开”的动态手势，在用户输入该动态手势以后，显示设备200可以先对第一阶段的“五指张开手势”与根节点中的手势姿态模板进行匹配，当匹配确定“五指张开手势”与一个根节点中的五指张开手势模板相同或相近时，可以判断第一阶段的置信度参数是否在预设的置信度区间内，即手势朝向偏角是否在预设偏角区间内。如果手势朝向偏角在预设偏角区间内，则开始第二阶段关键手势“五指蜷缩手势”与根节点的下级节点进行上述匹配。

经过对每个阶段的关键手势与对应层级的节点进行匹配后，显示设备200可以获得由多个匹配命中节点组成的动作路径，动作路径最终会指向一个叶子节点，叶子节点对应一个目标手势信息，因此，显示设备200可以在匹配完成后得到目标手势信息，并执行目标手势信息关联的控制指令。

例如，根据显示设备200的手势交互策略的设定，抓取-松开”的动态手势可用于删除当前选中的文件，因此，显示设备200可以在匹配获得“根节点-五指张开；一级节点-五指蜷缩；二级节点-五指张开”的动作路径后，获得删除指令，并通过执行删除指令，对当前选中的文件进行删除。

可见，在上述实施例中，显示设备200通过对手势信息流中各阶段的手势姿态信息进行提取，并使用具有树结构节点形式的检测模型对手势姿态信息进行匹配，可以按照手势输入阶段逐层确定动作路径，从而获得目标手势信息。由于检测模型采用树结构的节点形式，因此在进行手势关键信息匹配的过程中，可以避免每次读取动态手势模板，重复检测。此外，树结构的检测模型还支持用户随时插入节点，实现手势录入。并且通过调整每个节点的置信度区间，可以自定义节点匹配过程的命中率，使检测模型能够使用不同用户的手势习惯，实现自定义手势操作。

在一些实施例中，为了使显示设备200可以针对关键手势信息进行手势类型匹配，显示设备200可以在使用检测模型匹配关键手势信息时，先从多阶段关键手势信息中提取第一阶段关键手势类型。再根据第一阶段关键手势类型匹配第一节点，其中，所述第一节点为存储的手势姿态模板与第一阶段关键手势类型相同的节点。匹配获得第一节点以后，显示设备200可以再从关键手势信息中提取第二阶段关键手势类型，其中，第二阶段为第一阶段的后续动作阶段。再根据第二阶段关键手势类型匹配第二节点。同理，第二节点为存储的手势姿态模板与第二阶段关键手势类型相同的节点，即第一节点指定的下级节点包括第二节点。最后记录第一节点和第二节点，以获得动作分支。

例如，显示设备200中可以预先注册4种关键手势模板，分别对应的关键手势信息为G _info1-G _info4，对应能够组合出AM ₁-AM ₅五种动态手势。其中，AM ₁-AM ₄的第一阶段关键手势类型相同，AM ₃-AM ₄的第二阶段手势类型也相同，如图20所示，可以得到对应的树形结构检测模型，对应的动态手势表示如下：

在进行关键手势信息匹配时，显示设备200可以按照检测模型树结构的节点存储层级，优先对G _info1和G _info2的关键手势信息进行匹配。若匹配到关键手势信息为G _info1则会根据G _info1对应根节点被指定的下级节点进行续继检测，即匹配关键手势模板为G _info2、G _info3以及G _info4的下级节点。同理，如果在第二层级节点的匹配过程中，匹配到关键手势信息为G _info4，则会继续检测下级节点，即第三层级中的G _info2和G _info3对应的节点。依次进行后续层级的节点匹配，直至检测到叶子节点，如在第三层级中匹配命中G _info3的节点，则会返回动作AM ₃。若在一个层级节点的匹配期间，检测到检测模型当前层级节点中未存储的其他动作，则会重回树根节点，重新检测G _info1和G _info2。

需要说明的是，上述实施例中，第一阶段、第二阶段以及第一节点和第二节点仅仅用于表征动态手势中不同阶段的先后关系以及检测模型中不同节点的上下层级关系，并不具有相应的数字含义。在使用检测模型进行关键手势信息的匹配过程中，同一阶段的手势姿态既可以作为第一阶段也可以作为第二阶段，同理，同一个节点也既可以作为第一节点也可以作为第二节点。

例如，在使用检测模型进行关键手势信息匹配的开始阶段，需要对开始阶段的关键手势信息与检测模型中的根节点进行匹配，此时，开始阶段为第一阶段，开始阶段的下一个阶段为第二阶段；匹配命中的根节点为第一节点，根节点的下一层级匹配命中的节点为第二节点。而在开始阶段完成匹配后，显示设备200则会继续使用检测模型对关键手势信息进行匹配。此时，开始阶段的下一阶段为第一阶段，第一阶段的下一个阶段为第二阶段；而在根节点下一层级节点中匹配命中的节点为第一节点，第一节点下一层级匹配命中的节点为第二节点。因此，在使用检测模型进行匹配的过程中，可以重复上述过程，直至匹配到最终的叶子节点。

具有树结构的检测模型还支持用户的手势录入过程，即在一些实施例中，显示设备200可以在根据第二阶段关键手势类型匹配第二节点时，遍历第一节点的下级节点存储的手势姿态模板；如果所有下级节点存储的手势姿态模板均与第二阶段关键手势类型不同，即用户输入的动态手势为一种新的手势，此时可以触发显示设备200进行手势录入，即控制显示器260显示录入界面。

录入界面可以提示用户进行手势录入，为了获得准确的动态手势，在进行手势录入的过程中，录入界面可以通过提示消息，提示用户重复多次摆出需要录入的动态手势。即用户对同一行为进行多次循环录入。同时，用户还可以通过录入界面指定录入的动态手势所关联的控制指令。显示设备200则在用户每次进行录入时，按照上述示例提取关键手势信息，并与检测模型的节点进行匹配，当在其中一个层级的节点中未匹配到关键手势模板时，根据对应阶段的关键手势类型，在当前层级添加新节点。

为了减少手势录入过程对用户手势交互操作的影响，在一些实施例中，显示设备200可以在显示录入界面前，通过提示消息或窗口询问用户是否启动录入，并接收用户基于该窗口输入的指令。如果用户输入了录入手势信息，则可以接收用户基于录入界面输入的录入手势信息，并响应于录入手势信息，为检测模型设置新节点，新节点为第一节点的下级节点。最后在新节点存储对应阶段的手势类型，以作为新节点的手势姿态模板。

可见，在上述实施例中，显示设备200可以基于树结构的检测模型实时进行动态手势录入，通过确定待录入Action并录入用户行为，检测行为树结构中是否有对应Action分支。若没有对应Action分支，则进行手势关键姿态提取，然后得到对应的行为模板，将对应节点插入行为树，完成动态手势录入。显然，在进行动态手势录入的过程中，如果用户输入的动态手势在检测模型中有对应Action分支，则根据分支模板对用户行为进行检测，若检测成功，则无需对检测模型的节点状态进行改变。

在一些实施例中，显示设备200在使用检测模型对关键手势信息进行匹配时，还可以对相应的置信度进行判断，其中，置信度可以包括手势偏角和关键手势维持帧数。对于手势偏角，显示设备200可以在匹配命中一个节点后，获取检测模型中对应节点预设的置信度区间；再对比当前阶段关键手势偏角与对应节点的置信度区间。如果关键手势偏角在置信度区间内，则记录对应的当前节点并开始当前节点的下级节点匹配；如果关键手势偏角不在置信度区间内，则确定手势偏差较大，因此需要进一步判断或者进行适应性调整。

由于置信度参数不在置信度区间内可能是用户输入习惯造成的，显示设备200还可以针对用户习惯调整检测模型参数。因此，在一些实施例中，如果在使用检测模型对关键手势信息进行匹配的过程中，一个阶段的关键手势类型与节点中的手势姿态模板相同，但关键手势偏角不在置信度区间内，显示设备200还可以按照手势偏角修改置信度区间。

需要说明的是，在进行模板匹配时，显示设备200可以对手朝向、手面向、手指伸缩信息进行匹配，若匹配成功，再检测置信度阈值是否成功匹配，若成功匹配则认为手势匹配成功。而在进行手势录入时，显示设备200只需要对手朝向、手面向、手指伸缩信息进行匹配。若匹配成功即算模板匹配成功，若动态手势中的所有手势都匹配成功，则认为动态手势匹配成功，最后根据其中最佳置信度进行模板置信度优化。

其中，最佳置信度可以通过多次输入用户行为图像时的部分关键帧进行计算获得。例如，在手势检测过程中，动态手势中有个五指向上的动作，这个动作在特定顺序中出现了10次，而检测时只要检测到三次就认为检测到该手势。则在这10次中会有8个连续手势符合标准(10-3+1)，需要选取其中置信度平均最低的那一次，因为在手势开始和结束的阶段，由于手势和其他手势连接动作处可能会有较大偏角，导致偏角值过大，若采用该部分偏角值为置信度值，会出现很多误检测情况。

对于关键手势维持帧数这一置信度参数，其为用户行为图像中与第一阶段关键手势类型相同的连续帧数。在一些实施例中，显示设备200还可以在根据第二阶段关键手势类型匹配第二节点前，获取维持帧数；如果第一阶段关键手势类型的维持帧数大于或等于帧数阈值，即用户较长时间的保持了一个手势动作，不属于误输入的情况，因此可以根据第二阶段关键手势类型匹配第二节点。而如果第一阶段关键手势类型的维持帧数小于帧数阈值，当前输入与预定的动态手势可能存在不同，因此可以按照上述实施例启动手势录入，即控制显示器260显示录入界面，以更新置信度区间。

例如，在一个手势交互动作过程中，会出现多种手势类型，因此，需要提取其中较为明显的特征手势来作为该动作的特征姿态。其中，核心的手势姿态特征为手朝向和手指伸缩状态，因此，显示设备200可以对动作帧进行手势关键点识别和关键手势信息提取；再对关键手势信息进行循环匹配，若手势面向、手朝向、左右手、手指伸缩状态相同，则判断为同类手势。每检测到一次同类手势，就更新偏角信息和同类手势数量信息，偏角信息取最大范围，同类手势数量信息需要大于阈值。该阈值会根据帧率确定，也可以设置为固定值，如设置为3。对动作帧进行处理，选取其中符合条件的手势姿态，在对多个动作帧进行处理时，取动作交集，每个动作姿态的参数取并集，最终得到对应的关键手势模板。

由于用户在录入某个手势时，做的动作比较标准，但在使用手势交互时，则可能比较随意，不太在意姿势是否标准。尤其在用户比较着急的时候，可能做的手势很不标准。导致显示设备200在进行动态手势检测时识别不准确，降低用户体验。

为了改善上述问题，提高用户体验，在一些实施例中，显示设备200还可以在进行动态手势检测时，采取伪跳转的方式。即显示设备200可以获取中间阶段置信度参数，所述中间阶段为关键手势信息的多阶段中，位于开始阶段和结束阶段之间一个阶段。再对比中间阶段置信度参数与对应节点的置信度区间，如果中间阶段置信度参数不在对应节点的置信度区间内，标记中间阶段对应的节点为预跳转节点。再按照检测模型对预跳转节点的下级节点执行匹配，以根据预跳转节点的下级节点匹配结果确定目标手势信息。

在按照检测模型对预跳转节点的下级节点执行匹配时，显示设备200可以获取预跳转节点的下级节点匹配结果；如果匹配结果为命中任一下级节点，记录预跳转节点和命中的下级节点，以作为目标手势信息的节点；如果匹配结果为未命中下级节点，舍弃预跳转节点，重新从上级节点进行匹配。

例如，如图21所示，在检测到动作G1后，会进入后续动作G2的检测。此时，如果出现一个动作G2，但是置信度参数超出置信度区间，显示设备200则会进行一次伪跳转，即同时进行动作G1的后续检测和动作G2的后续动作检测。若进行伪跳转后检测到动作G3，则认为之前的伪跳转成立，直接进入动作G3。如图22所示，若进行伪跳转后未检测到动作G3，但是出现动作G4，而动作G1和动作G4刚好组成另一个Action路径，则认为此次伪跳转不成立，继续进行动作G4后续动作检测。

为了更好的实施伪跳转的方式，显示设备200可以设置一个伪跳转阈值，如不在置信度区间的一个特定置信度参数值，则在置信度参数小于伪跳转阈值时才进行伪跳转。并且，每进行一次伪跳转都会有提示，用户可以通过特定按键或特定手势删除此次伪跳转。在伪跳转一定次数后，显示设备200会对伪跳转涉及的Action节点进行优化，增大指定阈值以适应用户动作风格。

其中，显示设备200可以通过多种方式更新伪跳转阈值，例如，每进行一次伪跳转，就弹出提示，默认会更新Action节点信息，若用户认为此次检测为误检测，则只需删除此次识别即可。显示设备200也可以在多次伪跳转后更新伪跳转阈值，以获得更好的用户体验。此外，对于伪跳转过程，还可以设定一个次数阈值，即在检测过程中，有多次伪跳转，那么超过一定次数后，则认为前面的伪跳转无效。

基于上述显示设备控制方法，本申请的部分实施例中还提供一种显示设备200。所述显示设备200包括：显示器260、图像采集接口以及控制器250。其中，显示器260被配置为显示用户界面；图像采集接口被配置为采集用户输入的用户行为图像；如图23、图24所示，控制器250被配置为执行以下程序步骤：

获取手势信息流，所述手势信息流包括连续多帧用户行为图像；

从所述手势信息流中提取关键手势信息，所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数；

使用检测模型匹配所述关键手势信息，以获得目标手势信息，所述检测模型包括多个以树形结构存储的节点；每个所述节点中设有手势姿态模板和指定的下级节点；所述目标手势信息为在每个阶段关键手势类型与手势姿态模板相同，且所述置信度参数在置信度区间内的节点组合；

执行所述目标手势信息关联的控制指令。

具体的，图24为本申请实施例提供的动态手势交互时序关系图，如图24所示，动态手势交互可以包括如下步骤：

S2401：图像采集器采集用户摆出的手势。

S2402：图像采集器将采集到的用户摆出的手势作为手势信息流发送给图像采集接口。

S2403：图像采集接口将接收到的手势信息流发送给控制器。

S2404：控制器基于获取到的手势信息流，检测各个阶段的关键手势类型。

S2405：使用检测模型匹配关键手势信息，以获得目标手势信息。

S2406：执行该目标手势信息关联的控制指令，并通过响应交互使显示器显示相应的内容。

由以上内容可知，上述实施例提供的显示设备200可以在用户输入动态手势后，获取手势信息流，并从手势信息流中提取关键手势信息。再使用检测模型对关键手势信息中各阶段的关键手势类型进行匹配，以获得关键手势类型相同且置信度参数在设定的置信度区间内的节点组合，作为确定的目标手势信息，最后执行目标手势信息关联的控制指令，实现动态手势交互。所述显示设备200基于手势关键点检测动态手势，再基于树结构节点存储形式的检测模型，对关键手势类型进行动态匹配，能够丰富动态手势交互形式，并且支持用户自定义动态手势。

图25为本申请实施例提供的显示设备的另一使用场景的示意图。如图25所示，用户可通过控制装置100来操作显示设备200，或者，设置在显示设备200上的摄像头等视频采集装置201还可以采集包括用户人体的视频数据，并根据视频数据中的图像对用户的手势信息、肢体信息等进行响应，进而根据用户的动作信息执行对应的控制命令。使得用户在不需要遥控器100的情况下，就可以实现对显示设备200进行控制，来丰富显示设备200的功能，提高用户体验。

显示设备200还可与服务器通过多种通信方式进行数据通信。示例的，显示设备200可以通过发送和接收信息，以及电子节目指南(EPG，Electronic Program Guide)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器可以是一组，也可以是多组，可以是一类或多类服务器。通过服务器提供视频点播和广告服务等其他网络服务内容。

在另一些示例中，显示设备200还可以再增加更多功能或减少上述各实施例中所提到的功能。本申请对该显示设备200的具体实现不作具体限定，例如显示设备200可以是任意的电视机等电子设备。

示例性地，图26为本申请实施例提供的显示设备中另一硬件系统的硬件结构示意图。如图26中示出了图25中显示设备200中的显示设备可以具体包括：面板1、背光组件2、主板3、电源板4、后壳5和基座6。其中，面板1用于给用户呈现画面；背光组件2位于面板1的下方，通常是一些光学组件，用于供应充足的亮度与分布均匀的光源，使面板1能正常显示影像，背光组件2还包括背板20，主板3和电源板4设置于背板20上，通常在背板20上冲压形成一些凸包结构，主板3和电源板4通过螺钉或者挂钩固定在凸包上；后壳5盖设在面板1上，以隐藏背光组件2、主板3以及电源板4等显示设备的零部件，起到美观的效果；底座6，用于支撑显示设备。可选地，图26中还包括按键板，按键板可以设置在显示设备的背板上，本申请对此不做限定。

另外，显示设备200还可以包括声音再现装置(图中未示出)例如音响组件，如包括功率放大器(Amplifier，AMP)及扬声器(Speaker)的I2S接口等，用于实现声音的再现。通常音响组件至少能够实现两个声道的声音输出；当要实现全景声环绕的效果，则需要设置多个音响组件，输出多个声道的声音，这里不再具体展开说明。

需要说明的是，显示设备200可以采用OLED显示屏等具体的实现形式，这样，如图26所示的显示设备200所包含的模板发生相应的改变，此处不做过多说明。本申请对显示设备200内部的具体结构不作限定。

然而，目前显示设备通过手势信息确定的控制命令较为单一，造成了显示设备的智能化程度较低、用户体验较差。

为了提高显示的智能化程度，提高用户的体验，下面以具体地实施例，对本申请提供的显示设备的控制方法进行说明，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

在一些实施例中，本申请实施例提供的显示设备的控制方法的执行主体可以是显示设备，具体可以是显示设备中的CPU、MCU、SOC等控制器或者控制单元、处理器、处理单元等，本申请后续实施例中，以控制器为执行主体作为示例。则当控制器通过显示设备的视频采集装置获取到视频数据后，根据视频数据的连续多帧图像进行手势识别，进而根据识别到的手势信息执行对应的动作。

在一些实施例中，图27为本申请实施例提供的一种显示设备的控制方法一实施例的示意图，其中，当控制器通过视频采集装置的视频数据中获取到图27右侧的待检测图像、对该待检测图像中的手势A进行识别，能够通过手势识别算法识别出该待检测图像中包括手势信息，该手势信息中包括的“OK”形手势、以及手势的位置、大小等。随后，控制器可以根据当前显示设备的显示器上所显示的，光标位于控件“确定”上，确定该手势信息的“OK”对应的控制命令为“点击确定控件”，最终控制器可以执行该命令。

在另一些实施例中，图28为本申请实施例提供的一种显示设备的控制方法另一实施例的示意图，其中，当控制器通过视频采集装置的视频数据中每一帧图像中的手势进行识别后，根据前后两帧待检测图像相比较得出，待检测图像中用户的手势B从前一帧图像中左侧移动至了后一帧图像中的右侧，说明待检测图像中用户的手势B发生了移动。随后，控制器可以根据当前显示器上所显示的内容为，正在移动的光标C，可以确定手势信息对应的控制命令为“向右侧移动光标”，并且所移动的距离可以与待检测图像中手势信息对应的移动距离相关，本申请后续实施例将提供计算待检测图像中手势移动距离和显示器上光标移动距离的关联方式。

从上述图27和图28所示实施例可以看出，当显示设备中的控制器能够通过视频采集装置采集的视频数据，确定用户的手势信息，进而执行用户通过手势表示出的控制命令，使得用户不用依赖于遥控器、手机等控制装置即可控制显示设备，丰富了显示设备的功能、增添了控制显示设备时的趣味性，能够极大地提高显示设备的用户体验。

本申请对控制器根据一帧待检测图像确定该图像中手势信息的具体方式不做限定，例如可以采用机器学习模型基于图像识别的方式识别出待检测图像中的手势信息等。

在一些实施例中，本申请还提供一种显示设备的控制方式，可以通过定义待检测图像中人体手部的关键点坐标，进而确定手部的手势信息，能够更好地应用于显示设备的场景中。例如，图29为本申请实施例提供的手部关键点坐标的示意图，在如图29所示的示例中，将人体手部按照手指、关节、手掌的位置依次标记1-21的共21个关键点。

图30为本申请实施例提供的手部关键点的不同伸缩状态示意图，其中，控制器在对待检测图像中的手势信息进行识别时，首先通过图像识别等算法确定待检测图像中手的朝向，并在图像中包括手心一侧的关键点时，继续对所有的关键点进行标识，并判断每个关键点的位置。例如，图30中最左侧的图像中，对应于手部中指的9-12号关键点之间的距离较为稀疏且分散，说明中指处于伸展状态，图30中部的图像中，对应于手部中指的9-12号关键点之间，上部较为集中、下部较为分散，说明中指处于半弯折状态；图30右侧的图像中，对应于手部中指的9-12号关键点之间的距离较近且集中，说明中指处于完全的蜷缩状态。因此可以定义不同的关键点之间的距离、分布比例等，对图30中不同的状态进行区分，则根据图30中相同的方式，可以对图29中5个指头各自对应的每个关键点进行识别后，得到待检测图像中的手势信息。

在一些实施例中，本申请还提供一种显示设备的控制方法，控制器可以识别待检测图像中的手势信息和肢体信息，并根据这两种信息共同确定控制命令并执行。例如，图31 为本申请实施例提供的显示设备的控制方法一应用场景的示意图，在图31所示的场景中，显示设备200的具体结构与图25-图26中所示相同，此时，显示设备200的用户可以通过手势和肢体共同来表示控制命令，随后显示设备200通过其视频采集装置采集到视频数据后，显示设备200中的控制器对多帧图像中的待检测图像进行识别，同时识别出待检测图像中用户的手势信息和肢体信息。

图32为本申请实施例提供的使用手势信息和肢体信息共同确定控制命令的示意图，其中，假设图32中左侧的手势信息F为“OK”手势，肢体信息G为手肘指向左上角，则根据手势信息F和肢体信息G可以确定的控制命令为点击显示器左侧所显示的控件；图32中右侧的手势信息H为“OK”手势，肢体信息I为手肘指向右上角，则根据手势信息H和肢体信息I可以确定的控制命令为点击显示器右侧所显示的控件。

结合上述实施例可以看出，本申请实施例提供的显示设备的控制方法，控制器能够根据待检测图像中的手势信息和肢体信息共同确定不同的控制命令，丰富了用户可以使用这种交互方式向显示设备发出的控制命令的数量，进一步提高了显示设备的智能化程度以及用户体验。

在一些实施例中，若显示设备的控制器的计算能力支持，控制器可以对其从视频数据中抽取的每一帧待检测图像进行手势和肢体的信息识别，但是，由于常见的手势和肢体识别所需要的计算量较大，极大地增加了控制器所需的计算量，并且用户大多数时间内也并不是一直在控制显示设备，因此，本申请提供的显示设备设置有至少两个检测模型，记为第一检测模型和第二检测模型，其中，第二检测模型用于对待检测图像中的手势信息和肢体信息进行识别，而第一检测模型的计算量和数据量小于第二检测模型，可以用于对待检测图像中是否包括手势信息进行识别。下面通过图33对本申请实施例提供的显示设备的控制方法进行具体说明。

图33为本申请实施例提供的显示设备的控制方法的流程示意图，如图33所示的控制方法包括：

S3301：按照预设时间间隔，从显示设备的视频采集装置所采集的视频数据的连续多帧图像中，抽取一帧待检测图像。

其中，本申请可应用在如图31所示的场景中，由显示设备中的控制器执行，当显示设备处于工作状态时，其视频采集装置将采集其朝向方向的视频数据，则作为执行主体的控制器获取视频数据后，从视频数据中按照预设时间间隔抽取一帧待检测图像。例如，当视频采集装置所采集的视频数据的帧率为60帧/秒，则控制器可以按照30帧/秒的帧率进行采样，实现每间隔一帧抽取一帧待检测图像进行后续处理，此时预设时间间隔为1/30秒。

S3302：使用第一检测模型，判断待检测图像中是否包括人体的手势信息。

具体地，针对图31中的应用场景，当用户需要控制显示设备时，即可站在视频采集装置朝向的方向上，根据其希望显示设备的控制命令，做出相应的手势和肢体的动作，此时视频采集装置采集到的包括目标手势信息和肢体信息的图像；当用户不需要控制显示设备时，视频采集装置在其采集范围内采集的视频图像中不包括目标手势信息和肢体信息。

因此，如果在S3302之前的待检测图像中不包括手势信息，且没有使用第二检测模型对待检测图像进行处理时，控制器在S3302中将使用计算量较小的第一检测模型对待检测图像进行处理，通过第一检测模型判断待检测图像中是否包括手势信息。

在一些实施例中，控制器使用手势类别检测模型作为上述第一检测模型，来实现全局感知算法，进而达到对待检测图像中是否包括手势信息进行判断的目的。其中，全局感知算法是指控制器可以在开机后默认开启并保持运行状态的算法，具有计算量较小、检测类型简单的特点，可仅用于获取特定的信息，并用于开启第二检测模型进行检测等其他非全局功能。

在一些实施例中，第一检测模型是通过多个训练图像训练得到的，每个训练图像中包括不同的待训练手势信息，则控制器使用第一检测模型将学习得到的手势信息与待检测图像进行比对，从而判断待检测图像中是否包括手势信息，但第一检测模型可不用于具体识别手势信息，而第二检测模型可用于通过具体的关节等识别算法确定出手势信息。

S3303：若S3302中确定待检测图像中包括人体的手势信息，则确定用户希望对显示设备进行控制，控制器随后继续获取待检测图像，并使用第二检测模型对待检测图像中的目标手势信息和肢体信息进行识别。

在一些实施例中，当检测到待检测图像中包括人体的手势信息后，控制器可以继续按照预设时间间隔从视频采集装置采集的多帧图像中抽取待检测图像，并使用第二检测模型代替第一检测模型，对后续抽取的待检测图像进行处理，从而识别出每一帧待检测图像的目标手势信息和肢体信息。或者，控制器还可以减少预设时间间隔，以更少的时间间隔抽取待检测图像。

在一些实施例中，控制器也可以将S3302中确定包括人体的手势信息的待检测图像使用第二检测模型进行处理后，继续使用第二检测模型对后续的待检测图像进行处理，即对用户行为图像进行处理。

S3304：根据S3303中确定的预设数量帧的用户行为图像中的目标手势信息和肢体信息确定对应的控制命令，并执行该控制命令。

在一些实施例中，为了提高识别的准确性，控制器可以连续采集多帧图像进行处理，例如，当S3302中判断待检测图像中包括人体的手势信息，则在S3303中，按照预设时间间隔采集预设数量个(例如3个)用户行为图像后，分别对这3个用户行为图像进行目标手势信息识别和肢体信息的识别，最终在这3个用户行为图像中的目标手势信息和肢体信息相同时，确定根据这些相同的目标手势信息和肢体信息进行后续计算，能够防止因其他因素导致的偶发错误导致的识别不准确。

则当上述预设数量个用户行为图像中的目标手势信息和肢体信息均相同(或者部分相同，且部分相同的比例与预设数量比例大于阈值，例如阈值可以取80％等)时，控制器再根据映射关系，确定该目标手势信息和肢体信息所对应的控制命令。例如，图34为本申请实施例提供的映射关系一实施例的示意图，其中，该映射关系包括多个控制命令(控制命令1、控制命令2…)，以及每个控制命令与对应的目标手势信息和肢体信息之间的对应关系，例如：控制命令1对应于手势信息1和肢体信息1，控制命令2对应于手势信息2和肢体信息2……。其具体的实现方式可以参照图32，不同的目标手势信息和肢体信息的组合可以对应于不同的控制命令。

在一些实施例中，上述映射关系可以是预设的、也可以是显示设备的用户所指定的，并可以提前存储在控制器中，使得控制器根据其所确定的目标手势信息和肢体信息，即可从映射关系中确定对应的控制命令并继续执行。

在另一些实施例中，图35为本申请实施例提供的映射关系另一的示意图，在图35所示的映射关系中，目标手势信息和肢体信息分别与一个控制命令对应，此时，控制器可以根据目标手势信息或者肢体信息确定一个控制命令后，使用另一个信息对所确定的控制命令进行验证，从而提高所得到的控制命令的准确性，当两个信息确定的控制命令不同时，说明识别有误，则可以不执行该控制命令或者进行重新识别等处理措施，防止执行错误的控制命令。

在又一些实施例中，本申请提供的映射关系还可以包括对应于“不执行任何命令”的控制命令，例如，图36为本申请实施例提供的一种图像中目标手势信息和肢体信息的示意图，其中，图像中的用户是背部朝向显示设备，此时手部刚好朝向显示设备。虽然用户没有想控制显示设备，但通过图33所示的流程第一检测模型确定当前待检测图像中包括手势信息，随后又通过第二检测模型识别出该目标手势信息和肢体信息后，控制器可以根据映射关系确定当前目标手势信息和肢体信息不执行任何命令。此时的映射关系可以包括例如手势信息为手掌展开、肢体信息为手肘指向斜下方等。

综上，本实施例提供的显示设备的控制方法，控制器能够根据用户行为图像中的目标手势信息和肢体信息共同确定不同的控制命令，丰富了用户可以使用这种交互方式向显示设备发出的控制命令的数量，进一步提高了显示设备的智能化程度以及用户体验。进一步地，本实施例使用计算量较小的第一检测模型对待检测图像中是否包括手势信息进行识别，只有在第一检测模型确定包括手势信息后，再使用计算量较大的第二检测模型识别目标手势信息和肢体信息，从而能够减少无效的识别所带来的计算量和功耗、提高控制器的计算效率。

结合上述图33中S3301-S3304，在具体的实现方式中，当控制命令为点击显示器上显示的控件、返回主页、修改音量等一次性的控制操作时，如图S3304执行该控制命令后，即可结束该流程，停止使用第二检测模型识别目标手势信息和肢体信息，并返回S3301中继续抽取待检测图像，再次利用第一检测模型识别手势信息，从而重新执行如图33所示的整个流程。

在另一种具体的实现方式中，当控制命令为控制显示器上的鼠标等目标控件移动至手势信息对应的位置的移动命令时，则在S3304中执行完该移动命令后，应返回S3303中，重复执行S3303-S3304的过程，从而对用户连续的移动动作的检测，来实现对显示器上目标控件的持续移动。

在一些实施例中，上述重复执行S3303-S3304的过程中，如果识别到当前获取的预设数量的用户行为图像中的人体的目标手势信息和肢体信息对应于停止命令、或者通过第二检测模型确定预设数量的用户行为图像中不包括人体的目标手势信息和肢体信息时，均可以结束该流程，停止使用第二检测模型识别目标手势信息和肢体信息，并返回S3301中继续抽取待检测图像，再次利用第一检测模型识别手势信息，从而重新执行如图33所示的整个流程。

在一些实施例中，当控制命令为控制显示器上的鼠标等目标控件移动至手势信息对应的位置的移动命令时，并且控制器在不断重复执行S3303-S3304的过程中，可以理解的是，此时用户的手势应该处于连续移动的状态，一旦移动的过快，控制器在某一次检测的过程中，可能出现无法检测到多帧用户行为图像中目标手势信息和肢体信息的情况，在这个情况下，控制器可以不立即停止执行该流程，而是可以根据前一次或者多次的检测结果，对当前可能出现的目标手势信息和肢体信息进行预测，并根据预测得到的目标手势信息和肢体信息执行后续的移动命令。

例如，图37为本申请实施例提供的目标控件的移动位置的示意图，控制器第①次执行S3303检测到用户行为图像中的目标手势信息K和肢体信息L后，在S3304中，执行将目标控件移动到显示器上①位置的移动命令。控制器第②次执行S3303检测到用户行为图像中的目标手势信息K和肢体信息L后，在S3304中，执行将目标控件移动到显示器上②位置的移动命令。然而，假设用户在第②次检测之后移动的速度过快，导致控制器第③次执行S3303时，未能在用户行为图像中识别出目标手势信息和肢体信息，未能移动显示器上的目标控件，而后续控制器第④次执行S3303又能够检测到用户行为图像中的目标手势信息K和肢体信息L后，在S3304中，执行将目标控件移动到显示器上④位置的移动命令时，将目标控件从显示器上②位置直接移动至④位置的变化较大，给用户带来暂停、卡顿的观看效果，极大地影响用户体验。

因此，本实施例中，当控制器第③次执行S3303时，未能在用户行为图像中识别出目标手势信息和肢体信息时，由于显示器上仍然在控制目标控件的移动，控制器可以根据第①次和第②次所识别的目标手势信息K和肢体信息L的移动速度和移动方向，对第③次的用户行为图像中可能出现的目标手势信息K和肢体信息L进行预测，进而根据预测得到的目标手势信息和肢体信息所对应的预测位置，进而根据所预测得到的目标手势信息和肢体信息，执行将目标控件移动到显示器上③位置的移动命令。

最终，图38为本申请实施例提供的目标控件的移动位置另一示意图，当使用上述预测方法后，对于相同时间间隔所采集的用户行为图像中，按照①-②-③-④变化的目标手势信息和肢体信息，虽然第③次执行S3303时，未能在用户行为图像中识别出目标手势信息和肢体信息，但还是基于预测的目标手势信息和肢体信息对显示器上的③位置进行了预测，使得整个过程中，显示器上的目标控件将按照①-②-③-④的位置均匀变化，避免了图37中目标控件从位置②直接移动到位置④的暂停与卡顿，极大地提高了显示效果，使得用户通过手势和肢体控制显示设备时的操作效果更为流畅和顺滑，进一步提高了用户体验。

而为了实现上述过程，在一些实施例中，控制器每一次执行S3303之后，都将存储从而记录本次执行S3303所得到的目标手势信息和肢体信息，以供后续一次没有检测到目标手势信息和肢体信息时进行预测。在一些实施例中，当连续多次(例如3次)执行S3303中的过程时都没有检测到目标手势信息和肢体信息，则不再进行预测，而是停止执行本次流程，重新从S3301开始执行。

基于上述实施例，在具体的实现过程中，控制器可以根据第二检测模型的识别结果，维护一个手势移动速度v及移动方向α，根据帧率和多帧间移动距离(一般为三帧)可得到手势移动速度v和移动方向α。当出现手势检测不到的情况但是肢体可检测到的时候，会增加多帧的行动预测(一般为三帧)，防止因手势忽然检测不到而出现焦点重置、鼠标卡顿等影响用户体验的状况。根据手势移动速度v和移动方向α可得到下一帧的预测手势位置，当然，需要有一个速度阈值β，若手势移动速度超过阈值β，会固定为速度β，这是防止手势快速导致的速度过快影响体验。

在一些实施例中，上述示例中在使用第二检测模型识别用户行为图像的目标手势信息和肢体信息时，并不以一帧用户行为图像的识别结果为准，而是当将预设时间，抽取预设数量个用户行为图像，并在这些用户行为图像中均检测到目标手势信息和肢体信息后，再执行这些相同的目标手势信息和肢体信息对应的控制命令。而在具体的实现过程中，显示设备的控制器可以根据显示设备的工作参数，动态地调整上述预设时间间隔，例如，控制器根据当前负载较轻时，确定预设时间为100ms，即，每间隔100ms抽取一帧用户行为图像，假设预设数量为8，则该预设数量个用户行为图像对应于800ms的时间范围，如果在这个时间范围内，控制器在8帧用户行为图像中均检测到目标手势信息和肢体信息后，说明目标手势信息和肢体信息真实有效，即可行这些相同的目标手势信息和肢体信息对应的控制命令。而当控制器根据当前负载大于阈值时，确定负载较重，确定预设时间为200ms，即每间隔200ms抽取一帧用户行为图像，此时，控制器可以调整预设数量为4，从而同样在4帧用户行为图像对应的800ms的时间范围，确定目标手势信息和肢体信息的真实有效。因此，本实施例提供的控制方法中，控制器可以动态地根据预设时间间隔调整预设数量，并且二者呈反比例对应关系，从而既能够减少控制器在重负载时的计算量、也能够防止预设时间间隔较长时，由于预设数量较大导致识别时间的延长，最终在保证识别的准确的基础上，满足一定的识别效率。

在一些实施例中，图39为本申请实施例提供的显示设备的控制方法的流程示意图，可以作为如图33所示的控制方法一种具体的实现方式，如图39所示，包括以下步骤：

S3901、S3903：对待检测图像进行手势检测，若检测到目标手势信息，则执行S3904，否则执行S3901、S3903。

S3904-S3906：开启手势肢体控制模式，并继续进行肢体识别，确定肢体信息。

S3907-S3908：进行用户行为检测，确定是否检测到用户的点击手势，若是，则执行S3910，否则，执行S3909。

S3909：执行移动相关的控制指令。

S3910：执行点击相关的控制指令，并重置检测模式，停止肢体识别，只开启手势识别，并执行S3901-S3902。

S3901-S3902：对待检测图像进行手势检测，获取用户的目标手势信息，并执行S3907-S3908。

关于图39的具体实现方式及原理与图33所示相同，在本申请实施例中不再赘述。

在一些实施例中，控制器使用第二检测模型能够识别出用户行为图像中人体的目标手势信息，而第一检测模型也是通过包括手势信息的图像训练得到的，因此，控制器在每次执行完如图33所示的整个流程之后，都可以将本次执行时通过第二检测模型识别出的目标手势信息，用于对第一检测模型的训练和更新，从而实现根据当前检测的目标手势信息，对第一检测模型更加有效的更新，因此能够提高第一检测模型的实时性和适用性。

在本申请前述各实施例的具体实现过程中，虽然可以根据用户行为图像中的目标手势信息和肢体信息对显示器进行控制，但是由于显示设备的视频采集装置所采集的待检测图像中，人体可能只位于其中的一小部分区域内，使得当用户在完成控制显示器上控件较长距离的移动操作时，人体的手势信息移动的位置较长，给用户的使用带来不便。因此，本申请实施例还提供一种显示设备的控制方法，通过建立待检测图像中的“虚拟框”与显示器的映射关系，使得用户在控制显示设备时，可以仅通过其手势在虚拟框内的移动，即可实现指示目标控件在显示器上的移动，极大地减少了用户的动作幅度，能够提高用户体验。下面结合具体的实施例，对本申请提供的“虚拟框”以及相关的应用进行说明，其中，虚拟框仅为示例性的称呼，也可以被称为映射框、识别区域、映射区域等，本申请对其名称不做限定。

例如，图40为本申请实施例提供的显示设备的控制方法的流程示意图，如图40所示的方法可以应用于图31所示的场景中，由显示设备中的控制器执行，并用于在显示设备显示鼠标等控件的情况下，识别用户通过手势信息发出的移动该控件的移动命令，具体地，该方法包括：

S4001：当显示设备处于工作状态时，其视频采集装置将采集其朝向方向的视频数据，则作为执行主体的控制器获取视频数据后，从视频数据中按照预设时间间隔抽取一帧待检测图像。并识别待检测图像中的人体的手势信息。

其中，S4001的具体实现方式可以参照S3301-S3303，例如，控制器可以使用第一检测模型对每一次抽取的待检测图像中是否包括手势信息进行判断，并使用第二检测模型对包括手势信息的用户行为图像中的目标手势信息和肢体信息进行识别，具体实现及原理不再赘述。或者，S4001中还可以直接在显示设备显示目标控件、或者运行需要显示目标控件的应用程序时，说明此时可能需要对目标控件进行移动，因此每一次获取待检测图像后，都直接使用第二检测模型对用户行为图像中的目标手势信息和/或肢体信息进行识别，识别出的目标手势信息和/或肢体信息可用于后续确定移动命令。

S4002：当S4001中抽取的第一用户行为图像并进行识别后，控制器确定该第一用户行为图像中包括目标手势信息，则控制器根据第一用户行为图像中的该目标手势信息建立虚拟框，以及建立虚拟框与显示设备的显示器之间的映射关系，并可以在预设的第一显示位置显示目标控件，其中，第一显示位置可以是显示器的中心位置。

示例性地，图41为本申请实施例提供的虚拟框的示意图，其中，当第一用户行为图像中包括目标手势信息K和肢体信息L，且该目标手势信息和肢体信息为展开的手掌、对应于移动显示器上显示的目标控件的命令，则此时，控制器根据目标手势信息K所在的第一焦点位置P为中心，建立虚拟框，并在显示器的中心位置显示目标控件。在一些实施例中，虚拟框的形状可以是矩形，且该矩形的长宽之比与显示器的长宽之比相同，但虚拟框的面积与显示器的面积可以不同。如图41所示，虚拟框与显示器之间的映射关系通过图中虚线表示，在该映射关系中，虚拟框的中点P对应于显示器的中点Q，矩形虚拟框的四个顶点分别对应于矩形显示器的四个顶点，且由于虚拟框的长宽之比与显示器的长宽之比相同，使得矩形虚拟框内的一个焦点位置可以与显示器上的一个显示位置相对应，使得矩形虚拟框内焦点位置变化时，显示器上显示位置能够跟随焦点位置相应地变化。

在一些实施例中，上述映射关系可以通过虚拟框中的焦点位置与虚拟框内的一个目标位置之间的相对距离，与显示器上的显示位置与显示器上的同样的目标位置之间的相对距离表示。例如，以假设虚拟框左下角的顶点P0点为原点建立坐标系，P点的坐标可以表示为(x，y)；以显示器左下角的顶点Q0点为原点建立坐标系，Q点的坐标可以表示为(X，Y)。则该映射关系可以表示为：矩形长边方向的X/x和矩形宽边方向的Y/y。

上述S4001-S4002，控制器完成了矩形虚拟框及映射关系的建立，随后，可以在S4003-S4004中对虚拟框及映射而关系进行应用，使得手势信息对应的焦点位置的移动可以对应于显示器上目标控件的位置移动。

S4003：当第二用户行为图像中包括目标手势信息，且目标手势信息对应的第二焦点位置在矩形虚拟框中时，根据第二焦点位置和映射关系，确定显示器上的第二显示位置。

S4004：控制显示器上的目标控件移动到S4003中确定的第二显示位置。

具体地，图42为本申请实施例提供的虚拟框和显示器的对应关系示意图，其中，假设在第一用户行为图像中，以目标手势信息中的第一焦点位置P建立了虚拟框，此时，同时可以在显示器上的中心的第一显示位置Q点显示的目标控件“鼠标”。随后，当对于第一用户行为图像之后的第二用户行为图像中的虚拟框内，目标手势信息的第二焦点位置P’相对于第一检测图像向右上角方向了移动，此时，控制器可以根据第二焦点位置与虚拟框内左下角目标位置之间的第一相对距离，结合映射关系中的比例，确定出显示器上对应的第二显示位置Q’与显示器上左下角目标位置之间的第二相对距离。最终，控制器可以根据第二相对距离和左下角目标位置的坐标，计算出显示器上第二显示位置Q’的实际位置，并在第二显示位置Q’显示目标控件。

图43为本申请实施例提供的目标控件移动的示意图，其中，示出了如图42所示的过程中，当第一用户行为图像到第二用户行为图像之间的目标手势信息从第一焦点位置P移动到了第二焦点位置P’，控制器根据焦点位置在虚拟框内的变化，可以分别在显示器上第一显示位置Q和第二显示位置Q’显示目标控件，在这个过程中，给用户呈现出来的观感是，显示器上所显示的目标控件跟随其目标手势信息的移动而相应地移动。

可以理解的是，上述S4003-S4004的过程可以循环重复执行，可以对每一次识别的用户行为图像中，目标手势信息对应的焦点位置确定显示位置，并重复持续控制目标控件在显示器上移动。

在本实施例中，以目标手势信息所在的位置为焦点位置，例如目标手势信息中的一个关键点作为焦点位置，在其他实施例中，还可以以肢体信息的关键点作为焦点位置等，其实现方式相同，不再赘述。

此外需要说明的是，上述示例中，以第一用户行为图像和第二用户行为图像为单帧图像作为示例，如图40也可以与如图33所示的方法相结合，用户行为图像包括多帧用户行为图像，从而根据多帧用户行为图像中识别出来的目标手势信息确定对应的焦点位置。

综上，本实施例提供的显示设备的控制方法，能够通过建立用户行为图像中的“虚拟框”与显示器的映射关系，使得用户在控制显示设备时，可以仅通过其手势在虚拟框内的移动，即可实现指示目标控件在显示器上的移动，极大地减少了用户的动作幅度，能够提高用户体验。

在上述实施例的具体实现过程中，控制器在建立虚拟框时，所建立的虚拟框的大小可以与人体与视频采集装置之间的距离有关。例如，图44为本申请实施例提供的虚拟框的面积示意图，其中，当人体与视频采集装置之间的距离较远时，用户行为图像中手势信息所对应的面积较小，因此可以设置较小的虚拟框；当人体与视频采集装置之间的距离较近时，用户行为图像中手势信息所对应的面积较大，因此可以设置较大的虚拟框。虚拟框的面积可以与距离建立正比例变化的线性倍数关系，或者根据距离分为多级映射关系(即某段距离内对应某个框大小)，具体映射关系可以根据实际情况调整。在一些实施例中，控制器可以根据显示设备所设置的红外形式或者其他任意形式的测距单元等方式确定人体与显示设备(视频采集装置设置在显示设备上)之间的距离，或者，控制器还可以根据用户行为图像中手势信息对应的面积确定对应的距离，进而根据手势信息的面积确定虚拟框的面积等。

在一些实施例中，当建立的虚拟框比较靠近用户行为图像的边缘时，由于图像识别处理算法等条件的限制，会降低识别目标手势信息的准确性。因此，控制器还可以为用户行为图像建立围绕其边缘的边缘区域建立控制最佳范围。例如，图45为本申请实施例提供的边缘区域的示意图，可以看出，边缘区域指用户行为图像内、控制最佳范围之外的，与用户行为图像的一个边界之间的距离小于预设距离的区域。在图45上方的用户行为图像中，假设根据第一用户行为图像中的目标手势信息建立的虚拟框完全位于边缘区域之外、位于控制最佳范围之内，则可以继续后续计算。而当控制器根据第一用户行为图像中的目标手势信息建立的虚拟框有部分区域位于边缘区域内，在图45下方的用户行为图像中，虚拟框左侧位于边缘区域内，则控制器可以对虚拟框在横向方向上进行压缩处理，得到了横向压缩后的虚拟框。可以理解，随后根据压缩后的虚拟框也能够与显示器建立映射关系，此时，目标手势信息对应的焦点位置的移动距离，在显示器上将对应于更大的显示位置的变化距离，虽然对于用户而言在横向的体验为目标控件移动较快，但是避免了控制器从用户行为图像的边缘区域识别目标手势信息，能够提高目标手势信息的识别精度，提高整个控制过程的准确。

在上述实施例中，提供了用户行为图像中的虚拟框，使得用户可以通过手势信息在虚拟框内的移动，控制显示器上目标控件的移动，但是在一些情况下，用户由于动作较大、身体整体移动等原因，其手势信息可能移动至虚拟框之外，导致无法识别的情况，影响控制效果。例如，图46为本申请实施例提供的手势信息的状态示意图，其中，在状态S1中，第二用户行为图像中包括目标手势信息，且目标手势信息对应的第二焦点位置可以在建立好的虚拟框K1内部，此时可以正常执行前述实施例中的控制方法，通过目标手势信息在虚拟框中的焦点位置确定目标控件的显示位置。而在图46的状态S2中，第二用户行为图像中包括目标手势信息，且目标手势信息对应的第二焦点位置可能出现在用户行为图像中虚拟框K1之外，此时将无法正常通过目标手势信息在虚拟框中的焦点位置确定目标控件的显示位置。

因此，当控制器识别到第二用户行为图像中手势信息对应的第二焦点位于虚拟框之外的P2点之后，可以重新以此时第二焦点所在的P2点位置中心，重新建立虚拟框K2，并建立虚拟框K2与显示器之间的映射关系。图47为本申请实施例提供的重新建立的虚拟框的示意图，可以看出，图47中重新建立的虚拟框K2内，第二焦点位置P2位于虚拟框K2的中心，因此，控制器此时还需根据第二焦点位置P2，在显示器上控制目标控件在中心位置显示，给用户也带来重置目标控件的观看效果，从而避免了由于手势信息移除虚拟框后导致的无法控制目标控件的问题。

图48为本申请实施例提供的重新建立的虚拟框的另一示意图，其中，在这种方式中，当出现图46中S2状态所示的手势信息出现在待检测图像中虚拟框K1之外时，控制器重置虚拟框。并且此时，假设控制器根据前一个用户行为图像中目标手势信息在虚拟框K1中的位置信息，在显示器上的第一相对位置Q1显示目标控件，此时，根据显示器上第一相对位置Q1在整个显示器内的相对位置关系，重新建立虚拟框K2，使得第二焦点位置P2在虚拟框K2内的相对位置关系，与第一相对位置Q1在显示器内的相对位置关系相同。因此，控制器可以继续在第一相对位置Q1显示目标控件，在不会出现目标控件跳变到显示器位置中心位置的情况下，完成了虚拟框K2的重置。后续的用户行为图像中，目标手势信息在虚拟框K2内变化时，控制器即可根据目标手势信息在虚拟框K2中的焦点位置确定目标控件的显示位置，从而实现在用户不可知的情况下完成焦点重置，既能够避免了由于目标手势信息移除虚拟框后导致的无法控制目标控件的问题，又能够使整个过程更加流畅，进一步提高用户的使用体验。

在一些实施例中，当控制器执行上述过程，重新建立虚拟框之后，可以在显示器上显示相关的提示信息，来提示用户当前在显示器上已经重新建立了虚拟框，并提示重新建立后的虚拟框的相关信息，例如，控制器可以在显示器的边缘位置显示文字、图像等形式的信息，提示用户虚拟框已经重建。或者，当控制器在上述过程中确定要重新建立虚拟框之后，还可以在显示器上显示提示更新虚拟框的信息，并在接收到用户的确认信息之后，再执行重建虚拟框的过程，使得整个过程用户可控，并且根据用户的意图进行重建，防止因用户主动离开等情况下无效的重建。

在一些实施例中，上述控制目标控件的移动过程中，当控制器在控制过程中，在连续预设数量个用户行为图像中，都没有识别到目标手势信息，则可以停止在显示器上显示目标控件，从而结束图40所示的流程。或者，当控制器在一定预设时间段内处理的用户行为图像中都不包括目标手势信息，也可以停止显示器上显示目标控件，结束流程。又或者，当控制器在控制过程中，识别到用户行为图像中包括的目标手势信息对应于停止命令时，同样可以停止显示器上显示目标控件，结束流程。

在一些实施例中，在如图40所示的方法执行过程中，控制器将根据每一帧用户行为图像内，目标手势信息位于虚拟框内的焦点位置，确定显示器上的显示位置，并在显示位置上显示目标控件。在一种具体的实现方式中，图49为本申请实施例提供的目标控件的移动时的示意图，从图49中可以看出，假设当控制器确定用户行为图像1中目标手势信息位于虚拟框内的焦点位置P1、从而控制显示器上显示位置Q1显示目标控件，用户行为图像2中目标手势信息位于虚拟框内的焦点位置P2、从而控制显示器上显示位置Q2显示目标控件，用户行为图像3中目标手势信息位于虚拟框内的焦点位置P3、从而控制显示器上显示位置Q3显示目标控件。然而，上述过程中，由于用户在做出上述手势时，可能在P1-P2的过程中移动过快，使得显示器上所显示的目标控件在Q1-Q2之间移动过程，给用户带来移动速度不均匀、目标控件跳变的观感。

因此，当控制器确定第二焦点位置后，控制器所进行的处理可以参照图50中的状态变化，其中，图50为本申请实施例提供的目标控件的移动时的另一示意图。如图50所示，当控制器确定虚拟框中的第一焦点位置P1和第二焦点位置P2后，还对第二焦点位置与第一焦点位置之间的距离与预设时间间隔进行比较，如果P1-P2之间的距离与预设时间间隔(即抽取第一焦点位置和第二焦点位置所在用户行为图像的间隔时间)之比大于预设阈值，说明目标手势信息的移动速度过快，此时如果继续根据第二焦点位置确定目标控件的第二显示位置并显示目标控件，可能带来如图49所示的显示效果。因此，控制器在第一焦点位置和第二焦点位置之间确定第三焦点位置P2’，其中，第三焦点位置P2’与第一焦点位置P1之间的距离与预设时间间隔之比不大于预设阈值，以及，第三焦点位置P2’可以是位于P1-P2之间连接线上的一点，P1、P2’和P2呈线性连接关系。随后，控制器可以根据第三焦点位置P2’以及映射关系，确定显示器上的第二显示位置Q2’，并控制目标控件从第一显示位置Q1移动到第二显示位置Q2’。

而在上述移动过程中，由于手势信息移动至第二焦点位置P2，而显示器上所显示的目标控件并没有移动到第二焦点位置对应的显示位置Q2，而是移动到第三焦点位置P2’对应的第二显示位置Q2’，因此，在控制器在处理第二用户行为图像之后的第三用户行为图像时，若第三用户行为图像中包括目标手势信息、且目标手势信息对应的第四焦点位置P3位于矩形虚拟框中，同时，第四焦点位置P3与第三焦点位置P2’之间的距离与预设时间间隔之比不大于预设阈值时，可以根据映射关系确定第四焦点对应的第三显示位置Q3，并控制显示器上的目标控件从第二显示位置Q2’移动到第三显示位置Q3。

最终，在上述整个过程中，在P1-P2位置的目标手势信息移动过快时，在显示器上所显示的目标控件能够减少移动的长度，在P2-P3位置的目标手势信息移动速度减少时，能够将P1-P2位置过程中“减少”的距离进行补齐，从用户的感受来看，当其目标手势信息从虚拟框左侧的P1位置移动到右侧P3位置时，显示器上的目标控件也将从显示器左侧的Q1位置移动到右侧的Q3位置，从而在用户的目标手势信息在P1-P2之间移动过快时，还能够保持显示器上所显示的目标控件在P1-P3整体的移动速度变化不会太大，给用户带来移动速度均匀、目标控件连续变化的观感。

在上述各实施例的基础上，本申请实施例还提供了一种显示设备控制方法，图51为本申请实施例提供的显示设备控制过程示意图，如图51所示，该方法包括以下步骤：

S5101：获取若干帧用户行为图像。

S5102：对每一帧所述用户行为图像进行手势识别处理，获得目标手势信息。

S5103：基于所述目标手势信息，控制所述显示器显示对应的内容。

在一种实施方式中，所述基于所述目标手势信息，控制所述显示器显示对应的内容包括：

根据所述目标手势信息获取每一帧所述用户行为图像对应的光标位置；所述光标位置为所述用户行为图像中，用户的目标手势映射到所述显示器中的显示位置；

根据所述光标位置确定用户的手势移动轨迹，控制所述显示器中的光标沿着所述手势移动轨迹进行移动。

下面结合一个具体的实施例，对本申请实施例提供的显示设备控制过程进行说明，图52为本申请实施例提供的另一显示设备控制过程示意图，如图52所示，该方法包括以下步骤：

步骤5201、控制所述图像采集器采集用户的若干帧用户行为图像。

步骤5202、对所述用户行为图像进行手势识别处理，得到每一帧所述用户行为图像的目标手势信息。

步骤5203、根据所述目标手势信息获取每一帧所述用户行为图像对应的光标位置；所述光标位置为所述用户行为图像中，用户的手势映射到所述显示器中的显示位置。

步骤5204、根据所述光标位置确定用户的手势移动轨迹，控制所述显示器中的光标沿着所述手势移动轨迹进行移动。

在一种实施方式中，所述方法还包括：获取手势信息流，所述手势信息流包括连续多帧所述用户行为图像；从所述手势信息流中提取关键手势信息，所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数；使用检测模型匹配所述关键手势信息，以获得目标手势信息，所述检测模型包括多个以树形结构存储的节点；每个所述节点中设有手势姿态模板和指定的下级节点；所述目标手势信息为在每个阶段关键手势类型与手势姿态模板相同，且所述置信度参数在置信度区间内的节点组合；执行所述目标手势信息关联的控制指令。

在一种实施方式中，所述方法还包括：按照预设时间间隔，从所述显示装置显示设备的视频采集装置所采集的视频数据的连续多帧图像中，抽取一帧待检测图像；使用第一检测模型判断所述待检测图像中是否包括人体的手势信息；若是，按照所述预设时间间隔和预设数量，从所述视频数据中继续抽取预设数量的用户行为图像待检测图像，并使用第二检测模型分别识别所述预设数量的用户行为图像待检测图像中人体的目标手势信息和肢体信息；其中，所述第一检测模型计算时的数据量小于所述第二检测模型计算时的数据量；执行所述预设数量的用户行为图像待检测图像中的所述目标手势信息和所述肢体信息对应的控制命令。

在一种实施方式中，所述方法还包括：识别第一用户行为图像中的目标手势信息；在所述第一用户行为图像中以所述目标手势信息对应的第一焦点位置为中心，建立矩形虚拟框，在所述显示屏幕的第一显示位置显示目标控件，并确定所述矩形虚拟框与所述显示设备的显示器之间的映射关系；当所述第一用户行为图像之后的第二用户行为图像中包括所述目标手势信息，且所述目标手势信息对应的第二焦点位置位于所述矩形虚拟框中时，根据所述第二焦点位置和所述映射关系，确定所述显示器上的第二显示位置；控制所述显示器上目标控件移动到所述第二显示位置。

图53为本申请实施例提供的显示设备的控制方法一实施例的流程示意图，如图53所示的一种具体的实现方式中，该过程包括以下步骤：

S5301：显示设备的控制器首先进行手势检测，若手势状态正常，则执行S5302-S5306，否则，执行S5307。

S5302-S5306：根据手在虚拟框中的位置进行电视界面光标位置映射，进行手势移动控制，手势速度手势方向更新，手势点击检测，手势返回检测等。

S5307：进行多帧(一般为三帧)的行动预测。

S5308：期间若重新检测到手势，则执行S5312，否则，执行S5309。

S5309-S5310：清除电视界面中的鼠标，若长时间检测不到手势，执行S5311。

S5311：退出手势肢体识别，进入全局手势检测方案，直到检测到焦点手势。

S5312：进行焦点重置，若距离较近则继续移动，若距离较远，则重置焦点为电视中心位置。其中，在进行焦点重置的时候，需要进行虚拟框重新生成。此外，若多次检测不到手势。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

一种显示设备，包括：

显示器，被配置为显示图像；

图像输入接口，被配置为获取用户行为图像；

控制器，被配置为：

获取若干帧用户行为图像；对每一帧所述用户行为图像进行手势识别处理，获得目标手势信息；基于所述目标手势信息，控制所述显示器显示对应的内容。
根据权利要求1所述的显示设备，所述图像输入接口，具体被配置为连接图像采集器；

控制器，被配置为：

控制所述图像采集器采集用户的若干帧用户行为图像；

对所述用户行为图像进行手势识别处理，得到每一帧所述用户行为图像的所述目标手势信息；

根据所述目标手势信息获取每一帧所述用户行为图像对应的光标位置；所述光标位置为所述用户行为图像中，用户的目标手势映射到所述显示器中的显示位置；

根据所述光标位置确定用户的手势移动轨迹，控制所述显示器中的光标沿着所述手势移动轨迹进行移动。
根据权利要求2所述的显示设备，所述控制器还被进一步配置为通过下述执行对所述用户行为图像进行手势识别处理，得到每一帧所述用户行为图像的所述目标手势信息：

基于预设的动态手势识别模型对所述用户行为图像进行处理，得到每一帧所述用户行为图像的目标手势信息；

检测所述目标手势信息中是否包括虚拟位置信息，所述虚拟坐标信息为预设的目标手势在所述用户行为图像中的位置信息；

如果所述目标手势信息包括虚拟位置信息，则确定为所述用户行为图像中检测到了目标手势；

如果所述目标手势信息不包括虚拟位置信息，则确定为所述用户行为图像中没有检测到目标手势。
根据权利要求3所述的显示设备，所述控制器进一步被配置为：

在执行根据所述目标手势信息获取每一帧所述用户行为图像对应的光标位置的步骤中，

对于某一帧的目标用户行为图像，判断所述目标用户行为图像中是否检测到目标手势；

如果检测到了目标手势，则根据所述虚拟位置信息获取所述目标用户行为图像对应的光标位置；

如果没有检测到目标手势，则预测所述目标用户行为图像对应的光标位置。
根据权利要求4所述的显示设备，所述控制器进一步被配置为：

在执行根据所述虚拟位置信息获取所述目标用户行为图像对应的光标位置的步骤中，

根据所述虚拟位置信息，将所述用户行为图像的用户手势映射到所述显示器中，得到原始光标位置；

根据所述用户行为图像的上一帧用户行为图像对应的光标位置以及预设的调节阈值获取第一位置数值；根据所述原始光标位置和预设的调节阈值获取第二位置数值；

根据所述第一位置数值和所述第二位置数值获取所述目标用户行为图像对应的目标光标位置。
根据权利要求5所述的显示设备，所述预设的调节阈值的设定方法包括：

其中：

E ₁表示预设的调节阈值；k表示第一调节参数；g表示第二调节参数；

S _g表示所述目标用户行为图像的尺寸；

S _c表示所述目标用户行为图像的前一帧用户行为图像对应的光标位置处的控件的尺寸；

S _tv表示所述显示器的尺寸。
根据权利要求4所述的显示设备，所述控制器进一步被配置为：

在执行预测所述目标用户行为图像对应的光标位置的步骤中，

判断在所述目标用户行为图像之前，预设的检测数量的用户行为图像中，没有检测到目标手势的用户行为图像的数量是否超过了预设的检测阈值；

若否，则确定为所述光标应进行第一类运动，并对所述目标用户行为图像进行第一处理，得到所述目标用户行为图像对应的目标光标位置；

若是，则确定为所述光标应进行第二类运动，并对所述目标用户行为图像进行第二处理，得到所述目标用户行为图像对应的目标光标位置。
根据权利要求7所述的显示设备，所述第一类运动为直线运动，所述控制器进一步被配置为：

在执行对所述目标用户行为图像进行第一处理的步骤中，

根据所述目标用户行为图像的前两帧用户行为图像对应的光标位置获取历史光标位置偏移量；

根据所述历史光标位置偏移量和第一时间获取光标移动速度；所述第一时间为：预设的动态手势识别模型处理所述前两帧用户行为图像所间隔的时间；

根据所述光标移动速度、第二时间和预设的第一预测阈值获取所述光标的目标光标位置偏移量；所述第二时间为：预设的动态手势识别模型处理所述目标用户行为图像和前一帧用户行为图像所间隔的时间；

对所述前一帧用户行为图像对应的坐标位置和所述目标光标位置偏移量求和，得到目标光标位置。
根据权利要求8所述的显示设备，所述第一预测阈值的设定方法包括：

其中：

E ₂表示第一预测阈值；a1表示第一预测参数；a2表示第二预测参数；

D _f表示预设时间内预设的动态手势识别模型对用户行为图像的处理速率；

C _f表示预设时间内所述图像采集器231采集用户行为图像的速率；

P _f表示预设时间内光标移动的帧率。
根据权利要求7所述的显示设备，所述第一类运动为曲线运动，所述控制器进一步被配置为：

在执行对所述目标用户行为图像进行第二处理的步骤中，

根据所述目标用户行为图像的前两帧用户行为图像对应的光标位置获取历史光标位置偏移量；

根据所述历史光标位置偏移量和第一时间获取光标移动速度；所述第一时间为：预设的动态手势识别模型处理所述前两帧用户行为图像所间隔的时间；

根据所述光标移动速度、第二时间和预设的第二预测阈值获取所述光标的目标光标位置偏移量；所述第二时间为：预设的动态手势识别模型处理所述目标用户行为图像和前一帧用户行为图像所间隔的时间；

对所述前一帧用户行为图像对应的坐标位置和所述目标光标位置偏移量求差值，得到目标光标位置。
根据权利要求4所述的显示设备，所述控制器进一步被配置为：

在执行预测所述目标用户行为图像对应的光标位置的步骤前，

检测所述目标用户行为图像之前的预设阈值的用户行为图像中，是否全部没有检测到目标手势；

若是，则控制所述光标不进行移动；

若否，则执行预测所述目标用户行为图像对应的光标位置的步骤。
根据权利要求1所述的显示设备，所述控制器，具体被配置为：

获取手势信息流，所述手势信息流包括连续多帧所述用户行为图像；

从所述手势信息流中提取关键手势信息，所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数；

使用检测模型匹配所述关键手势信息，以获得目标手势信息，所述检测模型包括多个以树形结构存储的节点；每个所述节点中设有手势姿态模板和指定的下级节点；所述目标手势信息为在每个阶段关键手势类型与手势姿态模板相同，且所述置信度参数在置信度区间内的节点组合；

执行所述目标手势信息关联的控制指令。
根据权利要求12所述的显示设备，所述控制器被进一步配置为通过下述执行从所述手势信息流中提取关键手势信息：

识别所述用户行为图像中的关键点坐标，所述关键点坐标用于表征手关节在所述用户行为图像中的成像位置；

提取预设关键点标准坐标；

计算所述关键点坐标与所述关键点标准坐标的差值；

如果所述差值小于或等于预设识别阈值，确定所述关键点标准坐标对应的手势类型为目标手势类型；

根据多个连续帧用户行为图像，划分动态手势的多个阶段，每个阶段中的用户行为图像归属于相同的所述目标手势类型。
根据权利要求13所述的显示设备，所述置信度参数包括关键手势偏角，所述控制器被配置为：

根据所述关键点坐标与所述关键点标准坐标，计算手势偏角；

遍历每个阶段中多个连续帧用户行为图像对应的手势偏角，以获得每个阶段中的偏角并集；

提取每个阶段中的所述偏角并集中的极值，以作为当前阶段关键手势信息中的关键手势偏角。
根据权利要求12所述的显示设备，所述控制器被配置为：

使用检测模型匹配所述关键手势信息的步骤中，从所述多阶段关键手势信息中提取第一阶段关键手势类型；

根据第一阶段关键手势类型匹配第一节点，所述第一节点为存储的手势姿态模板与第一阶段关键手势类型相同的节点；

从所述关键手势信息中提取第二阶段关键手势类型，所述第二阶段为第一阶段的后续动作阶段；

根据第二阶段关键手势类型匹配第二节点，所述第二节点为存储的手势姿态模板与第二阶段关键手势类型相同的节点；所述第一节点指定的下级节点包括第二节点；

记录所述第一节点和所述第二节点，以获得动作分支。
根据权利要求15所述的显示设备，所述控制器被配置为：

根据第二阶段关键手势类型匹配第二节点的步骤中，遍历所述第一节点指定下级节点存储的手势姿态模板；

如果所有下级节点存储的手势姿态模板均与所述第二阶段关键手势类型不同，控制所述显示器显示录入界面；

接收用户基于所述录入界面输入的录入手势信息；

响应于所述录入手势信息，为所述检测模型设置新节点，所述新节点为所述第一节点的下级节点；

在所述新节点存储所述第二阶段手势类型，以作为所述新节点的手势姿态模板。
根据权利要求15所述的显示设备，所述控制器被配置为：

获取所述检测模型中各节点预设的置信度区间；

对比各阶段关键手势偏角与对应节点的置信度区间；

如果所述关键手势偏角不在所述置信度区间内，按照所述手势偏角修改所述置信度区间。
根据权利要求15所述的显示设备，所述置信度参数还包括关键手势维持帧数；所述控制器被配置为：

根据第二阶段关键手势类型匹配第二节点的步骤前，获取维持帧数，所述维持帧数为所述用户行为图像中与第一阶段关键手势类型相同的连续帧数；

如果第一阶段关键手势类型的维持帧数大于或等于帧数阈值，根据第二阶段关键手势类型匹配第二节点；

如果第一阶段关键手势类型的维持帧数小于所述帧数阈值，控制所述显示器显示录入界面。
根据权利要求12所述的显示设备，所述控制器被配置为：

获取中间阶段置信度参数，所述中间阶段为关键手势信息的多阶段中，位于开始阶段和结束阶段之间一个阶段；

对比所述中间阶段置信度参数与对应节点的置信度区间；

如果所述中间阶段置信度参数不在对应节点的置信度区间内，标记所述中间阶段对应的节点为预跳转节点；

按照所述检测模型对所述预跳转节点的下级节点执行匹配，以根据所述预跳转节点的下级节点匹配结果确定目标手势信息。
根据权利要求19所述的显示设备，所述控制器被配置为：

按照所述检测模型对所述预跳转节点的下级节点执行匹配的步骤中，获取所述预跳转节点的下级节点匹配结果；

如果所述匹配结果为命中任一下级节点，记录所述预跳转节点和命中的下级节点，以作为所述目标手势信息的节点；

如果所述匹配结果为未命中下级节点，舍弃所述预跳转节点。
根据权利要求1所述的显示设备，所述显示设备还包括：

视频采集装置，被配置为采集视频数据；

所述控制器，被配置为按照预设时间间隔，从所述视频采集装置所采集的视频数据的连续多帧图像中，抽取一帧待检测图像；使用第一检测模型判断所述待检测图像中是否包括人体的手势信息；若是，按照所述预设时间间隔和预设数量，从所述视频数据中继续抽取预设数量的用户行为图像，并使用第二检测模型分别识别所述预设数量的用户行为图像中人体的目标手势信息和肢体信息；其中，所述第一检测模型计算时的数据量小于所述第二检测模型计算时的数据量；执行所述预设数量的用户行为图像中的所述目标手势信息和所述肢体信息对应的控制命令。
根据权利要求21所述的显示设备，所述控制器具体被配置为：当所述预设数量的用户行为图像中的所述目标手势信息和所述肢体信息全部相同或者部分相同时，通过映射关系确定全部相同或者部分相同的所述目标手势信息和所述肢体信息对应的控制命令；其中，所述映射关系包括：多个控制命令，以及每个控制命令与目标手势信息、肢体信息之间的对应关系；执行所述控制命令。
根据权利要求21所述的显示设备，所述控制命令为控制所述显示器上目标控件移动至所述手势信息对应的位置的移动命令；

所述控制器还被配置为：重复按照所述预设时间间隔和预设数量，从所述视频数据中继续抽取预设数量的待检测图像，并使用第二检测模型分别识别所述预设数量的用户行为图像中人体的目标手势信息和肢体信息，执行将目标控件移动至每所述预设数量的用户行为图像中的所述目标手势信息对应的位置的控制命令。
根据权利要求23所述的显示设备，所述控制器还被配置为：当所述预设数量的用户行为图像中不包括所述目标手势信息，根据上一次所执行的控制命令对应的多帧用户行为图像中目标手势信息对应的移动速度和移动方向，确定所述目标手势信息在所述预设数量的用户行为图像中对应的预测位置；执行控制所述目标控件移动至所述预测位置的移动命令。
根据权利要求24所述的显示设备，所述控制器还被配置为：存储所述预设数量的用户行为图像中的所述目标手势信息和所述肢体信息。
根据权利要求21-25任一项所述的显示设备，所述控制器还被配置为：根据所述预设时间间隔，确定所述预设数量；其中，所述预设时间间隔的长度数值与所述预设数量的数值成反比例对应关系。
根据权利要求21-25任一项所述的显示设备，所述控制器还被配置为：当执行所述控制命令之后，停止使用所述第二检测模型识别所述预设数量的用户行为图像中人体的目标手势信息和肢体信息；或者，

当识别到所述预设数量的用户行为图像中人体的目标手势信息和肢体信息对应于停止命令时，停止使用所述第二检测模型识别所述预设数量的用户行为图像中人体的目标手势信息和肢体信息；或者，

当所述预设数量的用户行为图像中不包括人体的目标手势信息和肢体信息时，停止使用所述第二检测模型识别所述预设数量的用户行为图像中人体的目标手势信息和肢体信息。
根据权利要求21-25任一项所述的显示设备，所述控制器还被配置为：使用所述第二检测模型得到的预设数量的用户行为图像中人体的目标手势信息，更新所述第一检测模型。
根据权利要求21-25任一项所述的显示设备，所述控制器还被配置为：根据所述显示设备的工作参数，确定与所述工作参数对应的预设时间间隔。
根据权利要求1所述的显示设备，所述显示设备还包括：

视频采集装置，被配置为采集视频数据；

所述控制器，具体被配置为识别第一用户行为图像中的目标手势信息；在所述第一用户行为图像中以所述目标手势信息对应的第一焦点位置为中心，建立矩形虚拟框，控制所述显示器的第一显示位置显示目标控件，并确定所述矩形虚拟框与所述显示器之间的映射关系；当所述第一用户行为图像之后的第二用户行为图像中包括所述目标手势信息，且所述目标手势信息对应的第二焦点位置位于所述矩形虚拟框中时，根据所述第二焦点位置和所述映射关系，确定所述显示器上的第二显示位置；控制所述显示器上目标控件移动到所述第二显示位置。
根据权利要求30所述的显示设备，所述控制器具体被配置为：根据所述映射关系，以及所述第二焦点位置与虚拟框内目标位置的第一相对距离，确定所述第二显示位置与所述显示器上目标位置的第二相对距离；根据所述显示器上目标位置的位置和所述第二相对距离，确定所述显示器上的第二显示位置。
根据权利要求31所述的显示设备，所述控制器还被配置为：确定人体与所述视频采集装置之间的距离；根据所述距离，确定所述矩形虚拟框的面积；其中，所述距离的数值与所述面积的数值成正比例关系。
根据权利要求32所述的显示设备，所述控制器还被配置为：当所述矩形虚拟框与所述用户行为图像的边缘区域存在重合时，对所述矩形虚拟框与所述边缘区域重合方向的边界进行压缩处理，使所述矩形虚拟框停留在所述边缘区域之外；其中，所述边缘区域为与所述用户行为图像的一个边界之间的距离小于预设距离的区域。
根据权利要求30-33任一项所述的显示设备，所述控制器还被配置为：当所述第一用户行为图像之后的第二用户行为图像中包括所述目标手势信息，且所述目标手势信息对应的第二焦点位置位于所述矩形虚拟框之外，以所述第二焦点位置为中心，重新建立矩形虚拟框和映射关系；或者，当所述第一用户行为图像之后的第二用户行为图像中包括所述目标手势信息，且所述目标手势信息对应的第二焦点位置位于所述矩形虚拟框之外，根据所述第二用户行为图像前一个用户行为图像中，所述目标控件所在显示位置与所述显示器的第一相对位置，重新建立矩形虚拟框和映射关系，使重新建立后的虚拟框中的第二焦点位置与所述用户行为图像的第二相对位置与所述第一相对位置相同。
根据权利要求30-33任一项所述的显示设备，所述控制器还被配置为：当连续预设数量个用户行为图像中不包括所述目标手势信息，停止在所述显示器上显示所述目标控件；或者，当预设时间段内的用户行为图像中不包括所述目标手势信息，停止在所述显示器上显示所述目标控件；或者，当识别到用户行为图像中包括的目标手势信息对应于停止命令时，停止在所述显示器上显示所述目标控件。
根据权利要求30所述的显示设备，所述控制器还被配置为：当所述第一用户行为图像之后的第二用户行为图像中包括所述目标手势信息，所述目标手势信息对应的第二焦点位置位于所述矩形虚拟框中，且所述第二焦点位置和所述第一焦点位置之间的距离与预设时间间隔之比大于预设阈值时，在所述第一焦点位置和所述第二焦点位置之间确定第三焦点位置，其中，所述第三焦点位置和所述第一焦点位置之间的距离与所述预设时间间隔之比不大于所述预设阈值；根据所述映射关系和所述第三焦点位置与虚拟框内目标位置的第一相对距离，确定所述第二显示位置与所述显示器上目标位置的第二相对距离，并根据所述显示器上目标位置的位置和所述第二相对距离，确定所述显示器上的第二显示位置；控制所述显示器上目标控件移动到所述第二显示位置。
根据权利要求36所述的显示设备，所述控制器还被配置为：当所述第二用户行为图像之后抽取的第三用户行为图像中包括所述目标手势信息，所述目标手势信息对应的第四焦点位置位于所述矩形虚拟框中，且所述第三用户行为图像中所述目标手势信息对应的第四焦点位置和所述第三焦点位置之间的距离与所述预设时间间隔之比不大于所述预设阈值时，根据所述映射关系和所述第四焦点位置与虚拟框内目标位置的第一相对距离，确定第三显示位置与所述显示器上目标位置的第二相对距离，并根据所述显示器上目标位置的位置和所述第二相对距离，确定所述显示器上的第三显示位置；控制所述显示器上目标控件移动到所述第三显示位置。
根据权利要求34所述的显示设备，所述控制器还被配置为：当确定需要重新建立矩形虚拟框时，在所述显示器上显示建立请求信息；当重新建立所述矩形虚拟框之后，在显示器上显示重新建立后的所述矩形虚拟框的信息。
一种显示设备控制方法，所述方法包括：

获取若干帧用户行为图像；

对每一帧所述用户行为图像进行手势识别处理，获得目标手势信息；

基于所述目标手势信息，控制所述显示器显示对应的内容。
根据权利要求39所述的方法，所述基于所述目标手势信息，控制所述显示器显示对应的内容包括：

根据所述目标手势信息获取每一帧所述用户行为图像对应的光标位置；所述光标位置为所述用户行为图像中，用户的目标手势映射到所述显示器中的显示位置；

根据所述光标位置确定用户的手势移动轨迹，控制所述显示器中的光标沿着所述手势移动轨迹进行移动。
根据权利要求39所述的方法，所述方法还包括：

获取手势信息流，所述手势信息流包括连续多帧所述用户行为图像；

从所述手势信息流中提取关键手势信息，所述关键手势信息包括多个阶段的关键手势类型和每个阶段的置信度参数；

使用检测模型匹配所述关键手势信息，以获得目标手势信息，所述检测模型包括多个以树形结构存储的节点；每个所述节点中设有手势姿态模板和指定的下级节点；所述目标手势信息为在每个阶段关键手势类型与手势姿态模板相同，且所述置信度参数在置信度区间内的节点组合；

执行所述目标手势信息关联的控制指令。
根据权利要求39所述的方法，所述方法还包括：

按照预设时间间隔，从所述显示设备的视频采集装置所采集的视频数据的连续多帧图像中，抽取一帧待检测图像；

使用第一检测模型判断所述待检测图像中是否包括人体的手势信息；

若是，按照所述预设时间间隔和预设数量，从所述视频数据中继续抽取预设数量的用户行为图像，并使用第二检测模型分别识别所述预设数量的用户行为图像中人体的目标手势信息和肢体信息；其中，所述第一检测模型计算时的数据量小于所述第二检测模型计算时的数据量；

执行所述预设数量的用户行为图像中的所述目标手势信息和所述肢体信息对应的控制命令。
根据权利要求39所述的方法，所述方法还包括：

识别第一用户行为图像中的目标手势信息；

在所述第一用户行为图像中以所述目标手势信息对应的第一焦点位置为中心，建立矩形虚拟框，在所述显示屏幕的第一显示位置显示目标控件，并确定所述矩形虚拟框与所述显示设备的显示器之间的映射关系；

当所述第一用户行为图像之后的第二用户行为图像中包括所述目标手势信息，且所述目标手势信息对应的第二焦点位置位于所述矩形虚拟框中时，根据所述第二焦点位置和所述映射关系，确定所述显示器上的第二显示位置；

控制所述显示器上目标控件移动到所述第二显示位置。