WO2022001406A1

WO2022001406A1 - 一种显示方法及显示设备

Info

Publication number: WO2022001406A1
Application number: PCT/CN2021/093588
Authority: WO
Inventors: 杨鲁明; 王大勇; 王旭升; 程晋; 于文钦; 马乐; 丁佳一
Original assignee: 海信视像科技股份有限公司
Priority date: 2020-07-01
Filing date: 2021-05-13
Publication date: 2022-01-06
Also published as: US20230090916A1; CN116097120A

Abstract

本申请公开了一种显示方法及显示设备，其中的摄像头可在预设角度范围内转动，控制器被配置为获取声音采集器采集的人物声源信息并进行声源识别，确定用于标识人物所在位置的方位角度的声源角度信息；基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；按照目标转动方向和目标转动角度，调整摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。

Description

一种显示方法及显示设备

本申请要求在2020年8月21日提交中国专利局、申请号为202010848905.X、名称为“一种声像人物定位追踪方法”的中国专利申请的优先权；本申请要求在2020年7月1日提交中国专利局、申请号为202010621070.4、名称为“一种摄像头拍摄角度的调整方法及显示设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中；本申请要求在2021年1月6日提交中国专利局、申请号为202110014128.3、名称为“一种显示设备及声像人物定位追踪方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及电视软件技术领域，尤其涉及一种显示方法及显示设备。

背景技术

随着显示设备的快速发展，显示设备功能将越来越丰富，性能也越来越强大。例如，显示设备可实现网络搜索、IP电视、BBTV网视通、视频点播(VOD)、数字音乐、网络新闻、网络视频电话等功能。而在利用显示设备实现网络视频通话功能时，需在显示设备上安装摄像头，实现用户形象的采集。

发明内容

本申请实施例提供了一种显示设备，包括：

摄像头，所述摄像头被配置为采集人像以及实现在预设角度范围内的转动；

声音采集器，所述声音采集器被配置为采集人物声源信息，所述人物声源信息是指人物通过语音与显示设备交互时产生的声音信息；

与所述摄像头和所述声音采集器连接的控制器，所述控制器被配置为：获取所述声音采集器采集的人物声源信息和所述摄像头的当前拍摄角度；

对所述人物声源信息进行声源识别，确定声源角度信息，所述声源角度信息用于表征人物在语音时所处位置的方位角度；

基于所述摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；

按照所述目标转动方向和目标转动角度，调整所述摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图3中示例性示出了根据一些实施例的控制设备100的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图；

图6中示例性示出了根据一些实施例的显示设备的结构框图；

图7中示例性示出了根据一些实施例的实现摄像头转动的预设角度范围的示意图；

图8中示例性示出了根据一些实施例的在预设角度范围内摄像头转动的场景图；

图9中示例性示出了根据一些实施例的声源角度范围的示意图；

图10中示例性示出了根据一些实施例的摄像头拍摄角度的调整方法的流程图；

图11中示例性示出了根据一些实施例的唤醒文本的对比方法的流程图；

图12中示例性示出了根据一些实施例的对人物声源信息进行声源识别的方法流程图；

图13中示例性示出了根据一些实施例的确定摄像头的目标转动方向和目标转动角度的方法流程图；

图14中示例性示出了根据一些实施例的调整摄像头拍摄角度的一种场景图；

图15a中示例性示出了根据一些实施例的调整摄像头拍摄角度的另一种场景图；

图15b中示例性示出了根据一些实施例的人物语音时所处位置的场景图；

图16为本申请实施例中显示设备与摄像头布置结构示意图；

图17为本申请实施例中摄像头结构示意图；

图18a为本申请实施例中调整前显示设备场景示意图；

图18b为本申请实施例中调整后显示设备场景示意图；

图19为本申请实施例中通过声源定位场景示意图；

图20为本申请实施例中关键点示意图；

图21为本申请实施例中人像中心与图像中心示意图；

图22为本申请实施例中计算旋转角度过程的几何关系示意图；

图23a为本申请实施例中调整旋转角度过程初始状态示意图；

图23b为本申请实施例中调整旋转角度过程结果示意图；

图24a为本申请实施例中蹲姿状态示意图；

图24b为本申请实施例中站姿状态示意图；

图25a为本申请实施例中虚拟人像初始状态显示效果示意图；

图25b为本申请实施例中虚拟人像调整后显示效果示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图3所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器190、供电电源180。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

图2示出了根据示例性实施例中显示设备200的硬件配置框图。

显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器275、音频输出接口285、存储器260、供电电源290、用户接口265中的至少一种。

显示器275包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器275可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器260上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

“用户界面”可以指应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(Activity Manager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(Notification Manager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，以魔镜应用(拍照应用)为例，当遥控接收装置接收到遥控器输入操作，相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值，输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作，该确认操作所对应的控件为魔镜应用图标的控件，魔镜应用调用应用框架层的接口，启动魔镜应用，进而通过调用内核层启动摄像头驱动，实现通过摄像头捕获静态图像或视频。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

第一方面：

在一些实施例中，显示设备中需要利用到摄像头的应用程序包括“嗨见”、“照镜子”、“优学猫”、“健身”等，可实现“视频聊天”、“边看边聊”和“健身”等功能。“嗨见”是一款视频聊天应用，可实现手机与电视之间，电视与电视之间的一键聊天。“照镜子”是为用户提供镜子服务的应用，通过照镜子应用打开摄像头，用户可将智能电视作为镜子使用。“优学猫”是提供学习功能的应用。在实现“边聊边看”功能时，用户在启动“嗨见”应用进行视频通话的场景下，同时观看视频节目。“健身”功能可在显示设备的显示器上同步显示健身指导视频和摄像头拍摄的用户跟随健身指导视频做相应动作的图像，实现用户实时查看自身的动作是否标准。

由于用户在利用显示设备进行“视频聊天”、“边看边聊”或“健身”时，可能不会固定在一个位置不动，用户还可以边走边进行上述功能实现。但是现有的显示设备中，摄像头固定安装在显示设备上，摄像头的视角中心线与显示器垂直，且摄像头的可视角度有限，通常位于60°～75°之间，即摄像头的拍摄区域为以摄像头的视角中心线向左和向右同步扩散形成60°～75°角度对应的区域。

如果用户走出摄像头的拍摄区域，摄像头将无法拍摄到包含用户人像的图像，使得显示器上无法显示人像。若在视频聊天通话场景下，与本端用户进行视频聊天通话的对端用户将无法看到本端用户；若在健身场景下，显示器上将无法显示用户呈现健身动作的图像，用户看不到自己的健身动作，将无法判断是否标准，影响用户体验。

图6中示例性示出了根据一些实施例的显示设备的结构框图。为了在用户走出摄像头的拍摄区域，使得摄像头仍然可以拍摄到用户的图像，参见图6，本申请实施例提供了一种显示设备，包括摄像头232、声音采集器231和控制器250。摄像头用于采集人像，摄像头不再采用固定安装方式，而是以可转动的方式安装在显示设备上，具体地，摄像头232以转动形式安装在显示器的顶部，摄像头232可沿显示器的顶部转动。

图7中示例性示出了根据一些实施例的实现摄像头转动的预设角度范围的示意图；图8中示例性示出了根据一些实施例的在预设角度范围内摄像头转动的场景图。参见图7和图8，预设摄像头232可在预设角度范围内转动，且在水平方向上转动。在一些实施例中，预设角度范围为0°～120°，即在面对显示器的位置，以用户的左侧为0°，用户的右侧为120°。以摄像头232的视角中心线垂直于显示器时的状态为初始状态，摄像头可实现由初始状态向左转动60°，以及，由初始状态向右转动60°；摄像头的视角中心线与显示器垂直的位置为摄像头60°的位置。

本申请实施例提供的显示设备，实现利用声源信息触发摄像头的转动，能够自动识别用户的实时所处位置并调整摄像头的拍摄角度，使得摄像头始终能够拍摄到包含人像的图像。为此，在一些实施例中，显示设备通过设置声音采集器231实现人物声源信息的采集。

为保证声源采集的准确性，显示设备中可设置多组声音采集器，在一些实施例中，显示设备中设置四组声音采集器231，四组声音采集器231可以线性的位置关系进行排列设置。在一些实施例中，声音采集器可为麦克风，四组麦克风线性排列形成麦克风阵列。在声音采集时，四组声音采集器231接收同一用户通过语音与显示设备交互时产生的声音信息。

图9中示例性示出了根据一些实施例的声源角度范围的示意图。用户在语音时，产生的声音会被360°接收到，因此，在用户位于显示设备正面时，用户产生的声源角度范围为0°～180°，同样的，在用户位于显示设备背面，用户产生的声源角度范围也为0°～180°。参见图9，以用户面对显示设备的位置为例，用户位于声音采集器左侧为水平0°，用户位于声音采集器右侧为水平180°。

再次参见图7和图9，声源的30°角位置等于摄像头的0°角位置，声源的90°角位置等于摄像头的60°角位置，声源的150°角位置等于摄像头的120°角位置。

控制器250分别与摄像头232和声音采集器231连接，控制器用于接收声音采集器采集到的人物声源信息，并对人物声源信息进行识别，确定出人物所在位置的方位角度，进而确定摄像头需要转动的角度。控制器按照确定出的摄像头需要转动的角度调整摄像头的拍摄角度，使得摄像头的拍摄区域正对人物语音时的所处位置，实现根据人物的位置调整摄像头的拍摄角度以拍摄到包含人物的图像。

图10中示例性示出了根据一些实施例的摄像头拍摄角度的调整方法的流程图。本申请实施例提供的一种显示设备，在根据人物的位置调整摄像头的拍摄角度时，控制器被配置为执行图10所示的摄像头拍摄角度的调整方法，包括：

S1、获取声音采集器采集的人物声源信息和摄像头的当前拍摄角度。

在一些实施例中，显示设备中的控制器在驱动摄像头转动，以调整摄像头的拍摄角度时，需根据人物在所处位置与显示设备进行语音交互时产生的人物声源信息来确定，人物声源信息是指人物通过语音与显示设备交互时产生的声音信息。

人物声源信息可确定出人物在语音时所处位置的方位角度，而为准确确定摄像头需要进行调整的角度，需要先获取摄像头的当前状态，即当前拍摄角度。摄像头的当前拍摄角度需要在摄像头处于停止状态时才可被获取，以保证摄像头的当前拍摄角度的准确性，进而保证确定摄像头需要进行调整角度的准确性。

因此，控制器在执行获取摄像头的当前拍摄角度之前，被进一步配置为执行下述步骤：

步骤11、查询摄像头的当前运行状态。

步骤12、如果摄像头的当前运行状态为处于旋转状态，则等待摄像头旋转完毕。

步骤13、如果摄像头的当前运行状态为处于未旋转状态，则获取摄像头的当前拍摄角度。

控制器内配置有马达控制服务，马达控制服务用于驱动摄像头转动、获取摄像头的运行状态和摄像头朝向角度。

马达控制服务实时监控摄像头的运行状态，控制器通过调用马达控制服务查询摄像头的当前运行状态，摄像头的当前运行状态可表征当前摄像头的朝向角度以及摄像头是否处于旋转状态。

如果摄像头正处于旋转状态，此时不能获取摄像头的当前拍摄角度，否则无法确定准确的数值。因此，在摄像头处于旋转状态时，需先等待摄像头执行前一指令完成转动后，在停止状态下，再执行获取摄像头的当前拍摄角度的步骤。

如果摄像头正处于未旋转状态，即摄像头处于停止状态，则可执行获取摄像头的当前拍摄角度的步骤。

S2、对人物声源信息进行声源识别，确定声源角度信息，声源角度信息用于表征人物在语音时所处位置的方位角度。

在获取到人物与显示设备交互产生的人物声源信息后，控制器需对人物声源信息进行声源识别，以判断出人物在语音时的所处位置，具体为方位角度，即人物是位于声音采集器的左侧、右侧还是正对声音采集器的位置，进而根据人物的所处位置调整摄像头的拍摄角度。

由于人物在与显示设备交互时，例如在视频通话场景中，人物语音可能是在与对端用户进行对话，而自身仍位于摄像头的拍摄区域内，若此时控制器执行调整摄像头的拍摄角度的步骤，则会出现无效操作。

因此，为准确的根据人物声源信息确定是否需要对摄像头的拍摄角度进行调整，需要先对人物产生的人物声源信息进行分析，判断人物声源信息是否为触发摄像头调整的信息。

在一些实施例中，可预先在控制器内存储用于触发摄像头拍摄角度调整的唤醒文本，例如，定制“海信小聚”作为声源识别的唤醒文本。人物通过语音“海信小聚”作为识别声源，以触发调整摄像头拍摄角度的过程。唤醒文本也可定制为其他词语，本实施例中不做具体限定。

图11中示例性示出了根据一些实施例的唤醒文本的对比方法的流程图。具体地，参见图11，控制器在执行对人物声源信息进行声源识别，确定声源角度信息之前，被进一步配置为执行下述步骤：

S021、对人物声源信息进行文本提取，得到语音交互文本。

S022、对比语音交互文本和预置唤醒文本，预置唤醒文本是指用于触发声源识别过程的文本。

S023、如果语音交互文本与预置唤醒文本对比一致，则执行对人物声源信息进行声源识别的步骤。

在一些实施例中，控制器在获取到人物声源信息后，先进行文本提取，提取出人物通过语音与显示设备交互时的语音交互文本。将提取出的语音交互文本与预置唤醒文本进行对比，如果对比不一致，例如，人物语音并非“海信小聚”，而是其他交互内容，此时，说明当前人物的语音并非触发调整摄像头拍摄角度的语音，控制器无需执行调整摄像头拍摄角度的相关步骤。

如果对比一致，则说明当前人物的语音为触发调整摄像头拍摄角度的语音，例如，人物语音为预先设置的“海信小聚”，此时，控制器可继续执行后续调整摄像头拍摄角度的步骤。

在判断出人物声源信息为唤醒语音，即调整摄像头拍摄角度的触发语音时，控制器需执行后续声源识别的过程。

由于显示设备中设置多组声音采集器，多组声音采集器可采集到同一人物语音时的多组人物声源信息，那么控制器在获取声音采集器采集的人物声源信息时，可获取到每个声音采集器采集的人物在语音时产生的人物声源信息，即控制器会获取到多组人物声源信息。

图12中示例性示出了根据一些实施例的对人物声源信息进行声源识别的方法流程图。多组声音采集器采集同一唤醒文本时，由于每个声音采集器与人物之间的距离并不相同，因此，可对每个人物声源信息进行识别，以确定人物语音时的方位角度，即声源角度信息。具体地，参见图12，制器在执行对人物声源信息进行声源识别，确定声源角度信息，被进一步配置为执行下述步骤：

S21、对每个人物声源信息分别进行声源识别，计算多组声音采集器在采集对应的人物声源信息时产生的语音时间差。

S22、基于语音时间差，计算人物在语音时所处位置的声源角度信息。

每个声音采集器的频率响应一致，其采样时钟也同步，但由于每个声音采集器与人物之间的距离并不相同，因此，每个声音采集器能够采集到语音的时刻也并非相同，多组声音采集器之间会存在采集时间差。

在一些实施例中，可以通过声音采集器阵列计算声源距离阵列的角度和距离，实现对人物语音时所处位置的声源进行跟踪。基于TDOA(Time Difference Of Arrival，到达时间差)的声源定位技术，估计信号到达两两麦克风之间的时间差，从而得到声源位置坐标的方程组，然后求解方程组即可得到声源的精确方位坐标，即声源角度信息。

在一些实施例中，在步骤S21中，控制器在执行对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差，被进一步配置为执行下述步骤：

步骤211、在人物声源信息中提取环境噪声、人物语音时的声源信号和人物的语音传播至每一声音采集器的传播时间。

步骤212、根据环境噪声、声源信号和传播时间，确定每个声音采集器的接收信号。

步骤213、利用互相关时延估计算法，对每个声音采集器的接收信号进行处理，得到每两个声音采集器在采集对应的人物声源信息时产生的语音时间差。

在计算每两个声音采集器的语音时间差时，可利用声音采集器阵列实现声源到达方向估计(direction-of-arrival(DOA)estimation)，由DOA估计算法计算声音到达不同声音采集器阵列间的时间差。

在声源定位系统中，声音采集器阵列的每个阵元接收到的目标信号都来自于同一个声源。因此，各通道信号之间具有较强的相关性，通过计算每两路信号之间的相关函数，就可以确定每两个声音采集器观测信号之间的时延，即语音时间差。

人物在语音时产生的人物声源信息中包括环境噪声和人物语音时的声源信号，还可在人物声源信息中通过识别提取出人物的语音传播至每一声音采集器的传播时间，计算每个声音采集器的接收信号。

x _i(t)＝α _is(t-τ _i)+n _i(t)；

式中，x _i(t)为第i个声音采集器的接收信号，s(t)为人物语音时的声源信号，τ _i为人物的语音传播至第i个声音采集器的传播时间，n _i(t)为环境噪声，α _i为修正系数。

利用互相关时延估计算法对每个声音采集器的接收信号进行处理，进行时延估计，表示为：

式中，

为第i个声音采集器与第i+1个声音采集器之间的时延，即语音时间差。

带入每个声音采集器的接收信号模型，得到：

由于s(t)与n _i(t)互不相关，因此可简化上式为：

其中，

n _i与n _i+1为互不相关的高斯白噪声，则上式进一步简化为：

由互相关时延估计算法的性质可知，当

时，

取最大值，是两个声音采集器的时延，即语音时间差。

在声音采集器阵列信号处理实际模型中，由于存在混响和噪声影响，导致

的峰值不明显，降低了时延估计的精度。为了锐化

的峰值，可以根据信号和噪声的先验知识，在频域内对互功率谱进行加权，从而能抑制噪声和混响干扰。最后进行傅里叶逆变换，得到广义互相关函数

其中

表示频域加权函数。

最后采用PHAT加权，使得信号间的互动率谱更加平滑，得到最终的每两个声音采集器在采集对应的人物声源信息时产生的语音时间差

经过PHAT加权的互功率谱近似于单位冲激响应的表达式，突出了时延的峰值，能够有效抑制混响噪声，提高时延(语音时间差)估计的精度和准确度。

在一些实施例中，在步骤S22中，控制器在执行基于语音时间差，计算人物在语音时所处位置的声源角度信息，被进一步配置为执行下述步骤：

步骤221、获取当前环境状态下的声速、每个声音采集器的坐标和声音采集器的设置个数。

步骤222、根据声音采集器的设置个数，确定声音采集器的组合对数量，组合对数量是指声音采集器两两组合得到的组合数。

步骤223、根据每两个声音采集器对应的语音时间差、声速和每个声音采集器的坐标，建立向量关系方程组，向量关系方程组的数量与组合对数量相同。

步骤224、求解向量关系方程组，得到人物语音时所处位置的声源单位平面波传播向量的向量值。

步骤225、根据向量值，计算人物在语音时所处位置的声源角度信息。

在根据前述实施例提供的方法计算出每两个声音采集器的语音时间差后，可根据每个语音时间差计算人物在语音时所处位置的声源角度信息。

在计算声源角度信息时，需要建立多组向量关系方程组，为保证计算结果的准确性，可设定方程组的数量与声音采集器两两组合得到的组合数相同。为此，获取声音采集器的设置个数N，则所有声音采集器之间两两组合共有N(N-1)/2对组合对。

在建立向量关系方程组时，获取当前环境状态下的声速c和每个声音采集器的坐标，记第k个声音采集器的坐标为(x _k,y _k,z _k)，同时，设定人物语音时所处位置的声源单位平面波传播向量为u＝(u,v,w)，求解出人物语音时所处位置的声源单位平面波传播向量的向量值即可确定声源角度信息。

根据每两个声音采集器对应的语音时间差

声速c、每个声音采集器的坐标(x _k,y _k,z _k)和人物语音时所处位置的声源单位平面波传播向量为(u,v,w)，建立N(N-1)/2个向量关系方程组：

该式代表第i个声音采集器与第j个声音采集器之间建立的向量关系方程组。

以N＝3为例，可以建立以下方程组：

(第1个声音采集器与第2个声音采集器之间建立的向量关系方程组)；

(第1个声音采集器与第3个声音采集器之间建立的向量关系方程组)；

(第3个声音采集器与第2个声音采集器之间建立的向量关系方程组)。

将上述三个向量关系方程组，写成矩阵形式：

根据上述矩阵求解出u＝(u,v,w)，再利用正余弦关系，即可得到角度值：

即人物在语音时所处位置的方位角度的声源角度信息。

S3、基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度。

控制器通过对人物声源信息进行声源识别，以确定出用于表征人物在语音时所处位置的方位角度的声源角度信息。声源角度信息可标识人物当前的所处位置，摄像头的当前拍摄角度可标识摄像头当前的所处位置，根据两个位置之间的相差角度即可确定摄像头需要转动的目标转动角度，以及摄像头在转动时的目标转动方向。

图13中示例性示出了根据一些实施例的确定摄像头的目标转动方向和目标转动角度的方法流程图。具体地，参见图13，控制器在执行基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度，被进一步配置为执行下述步骤：

S31、将声源角度信息转换为摄像头的坐标角度。

由于声源角度信息表征人物的所处方位角度，因此，为便于准确地根据声源角度信息和摄像头的当前拍摄角度计算出摄像头需要调整的方位角度，可将人物的声源角度信息转换为摄像头的坐标角度，即用摄像头的坐标角度来代替人物的声源角度信息。

具体地，控制器在执行将声源角度信息转换为摄像头的坐标角度，被进一步配置为执行下述步骤：

步骤311、获取人物在语音时的声源角度范围和摄像头转动时的预设角度范围。

步骤312、计算声源角度范围与预设角度范围之间的角度差值，将角度差值的半值作为转换角度。

步骤313、计算声源角度信息对应的角度与转换角度的角度差，将角度差作为摄像头的坐标角度。

由于声源角度范围和摄像头的预设角度范围并不相同，预设角度范围为0°～120°，声源角度范围为0°～180°，无法直接由摄像头的坐标角度代替声源角度信息。因此，先计算声源角度范围与预设角度范围之间的角度差值，再计算角度差值的半值，将半值作为由声源角度信息转换为摄像头的坐标角度时的转换角度。

声源角度范围与预设角度范围之间的角度差值为60°，角度差值的半值为30°，将30°作为转换角度。最后，计算声源角度信息对应的角度与转换角度的角度差，即为将声源角度信息转换成的摄像头的坐标角度。

例如，如果人物位于声音采集器的左侧，控制器通过获取多个声音采集器采集的人物声源信息确定出的声源角度信息对应的角度为50°，而转换角度为30°，因此，计算角度差为20°，即实现将声源角度信息对应的50°替换为摄像头的坐标角度20°来表示。

如果人物位于声音采集器的右侧，控制器通过获取多个声音采集器采集的人物声源信息确定出的声源角度信息对应的角度为130°，而转换角度为30°，因此，计算角度差为100°，即实现将声源角度信息对应的130°替换为摄像头的坐标角度100°来表示。

S32、计算摄像头的坐标角度和摄像头的当前拍摄角度的角度差值，将角度差值作为摄像头的目标转动角度。

摄像头的坐标角度用于标识人物所处位置在摄像头坐标内的角度，因此，根据摄像头的当前拍摄角度与摄像头的坐标角度的角度差值，即可确定出摄像头需要转动的目标转动角度。

例如，如果摄像头的当前拍摄角度为100°，摄像头的坐标角度为20°，说明摄像头当前的拍摄区域并未对准人物所处位置，二者相差80°，因此，需将摄像头转动80°后，摄像头的拍摄区域才可对准人物所处位置，即摄像头的目标转动角度为80°。

S33、根据角度差值，确定摄像头的目标转动方向。

由于以面对显示设备的方向，将左侧作为摄像头0°位置，右侧作为摄像头120°位置，因此，在根据摄像头的坐标角度和摄像头的当前拍摄角度确定出角度差值后，如果当前拍摄角度大于坐标角度，则说明摄像头的拍摄角度位于人物所处位置的右侧，此时角度差值为负值；如果当前拍摄角度小于坐标角度，则说明摄像头的拍摄角度位于人物所处位置的左侧，此时角度差值为正值。

在一些实施例中，可根据角度差值的正负来确定摄像头的目标转动方向。如果角度差值为正值，说明摄像头的拍摄角度位于人物所处位置的左侧，此时，为使摄像头拍摄到人物的图像，需向右调整摄像头的拍摄角度，则确定摄像头的目标转动方向为向右转动。

如果角度差值为负值，说明摄像头的拍摄角度位于人物所处位置的右侧，此时，为使摄像头拍摄到人物的图像，需向左调整摄像头的拍摄角度，则确定摄像头的目标转动方向为向左转动。

例如，图14中示例性示出了根据一些实施例的调整摄像头拍摄角度的一种场景图。参见图14，如果人物对应的声源角度信息对应的角度为50°，则转换成的摄像头的坐标角度为20°；摄像头的当前拍摄角度为100°，即摄像头的视角中心线位于人物所处位置的右侧，计算得到角度差值为-80°。可见角度差值为负值，此时，需调整摄像头向左转动80°。

图15a中示例性示出了根据一些实施例的调整摄像头拍摄角度的另一种场景图。参见图15a，如果人物对应的声源角度信息对应的角度为120°，则转换成的摄像头的坐标角度为90°；摄像头的当前拍摄角度为40°，即摄像头的视角中心线位于人物所处位置的左侧，计算得到角度差值为50°。可见角度差值为正值，此时，需调整摄像头向右转动50°。

S4、按照目标转动方向和目标转动角度，调整摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。

控制器在确定出摄像头需要调整拍摄角度时所需的目标转动方向和目标转动角度后，即可按照目标转动方向和目标转动角度调整摄像头的拍摄角度，将摄像头的拍摄区域正对人物所处位置，使得摄像头可拍摄到包括人物的图像，实现根据人物的所处位置调整摄像头的拍摄角度。

图15b中示例性示出了根据一些实施例的人物语音时所处位置的场景图。由于摄像头的预设角度范围与人物语音时的声源角度范围不同，若体现在角度示意图中，参见图15b，预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差值，同样的，预设角度范围的120°位置与声源角度范围的180°位置之间也存在30°的角度差值。

那么，如果人物在与显示设备交互时，其所处的位置恰好位于30°的夹角区域范围内，如图15b中所示的人物(a)所处位置或人物(b)所处位置。此时，控制器在执行前述步骤S31中将声源角度信息转换为摄像头的坐标角度时，将会出现由人物的声源角度信息转换得到的摄像头的坐标角度为负值的情况，或者大于摄像头的预设角度范围最大值的情况，即转换得到的摄像头的坐标角度并未位于摄像头的预设角度范围内。

例如，若人物(a)所处位置对应的声源角度信息为20°，而转换角度为30°，则计算得到的摄像头的坐标角度为-10°。若人物(b)所处位置对应的声源角度信息为170°，而转换角度为30°，则计算得到的摄像头的坐标角度为140°。可见，根据人物(a)所处位置和人物(b)所处位置分别转换得到的摄像头的坐标角度均超出摄像头的预设角度范围。

如果摄像头的坐标角度均超出摄像头的预设角度范围，说明摄像头无法转动至摄像头的坐标角度(人物语音所处位置)对应的位置。而由于摄像头的可视角度范围位于60°～75°之间，说明在将摄像头转动到0°位置或者120°位置，摄像头的可视角度范围可覆盖预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差，以及，覆盖预设角度范围的120°位置与声源角度范围的180°位置之间存在30°的角度差。

因此，如果人物的所处位置位于预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差范围内，或者，位于预设角度范围的120°位置与声源角度范围的180°位置之间存在30°的角度差范围内，则为了能够拍摄到包含人物的图像，按照摄像头的预设角度范围的最小值或最大值对应的位置，调整摄像头的拍摄角度。

在一些实施例中，控制器被进一步配置为执行下述步骤：在人物的声源角度信息转换为摄像头的坐标角度超出摄像头的预设角度范围时，根据摄像头的当前拍摄角度与预设角度范围的最小值或最大值的角度差值，确定摄像头的目标转动方向和目标转动角度。

例如，如果人物(a)位于预设角度范围的0°位置与声源角度范围的0°位置之间存在30°的角度差范围内，即人物(a)的声源角度信息对应的声源角度为20°，摄像头的当前拍摄角度为50°时。根据摄像头的预设角度范围的最小值0°和当前拍摄角度50°计算角度差值，角度差值为-50°，则确定摄像头的目标转动方向为向左转动，目标转动角度为50°。此时，摄像头的视角中心线(a)与摄像头的0°线重合。

如果人物(b)位于预设角度范围的120°位置与声源角度范围的180°位置之间存在30°的角度差范围内，即人物(b)的声源角度信息对应的声源角度为170°，摄像头的当前拍摄角度为50°时。根据摄像头的预设角度范围的最大值120°和当前拍摄角度50°计算角度差值，角度差值为70°，则确定摄像头的目标转动方向为向右转动，目标转动角度为70°。此时，摄像头的视角中心线(b)与摄像头的120°线重合。

因此，即使人物所处位置对应的声源角度超出摄像头在转动时的预设角度范围，本申请实施例提供的显示设备，仍可依据人物的所处位置，将摄像头转动至预设角度范围对应的最小值或最大值的位置，依据摄像头的可视角度覆盖范围，拍摄到包含人物的图像。

可见，本申请实施例提供的一种显示设备，其中的摄像头可在预设角度范围内转动，控制器被配置为获取声音采集器采集的人物声源信息并进行声源识别，确定用于标识人物所在位置的方位角度的声源角度信息；基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；按照目标转动方向和目标转动角度，调整摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。可见，本申请提供的显示设备，可实现利用人物声源信息触发摄像头的转动，能够自动识别用户的实时所处位置并调整摄像头的拍摄角度，使得摄像头始终能够拍摄到包含人像的图像。

图10中示例性示出了根据一些实施例的摄像头拍摄角度的调整方法的流程图。参见图10，本申请实施例提供的一种摄像头拍摄角度的调整方法，由前述实施例提供的显示设备中的控制器执行，该方法包括：

S1、获取所述声音采集器采集的人物声源信息和所述摄像头的当前拍摄角度，所述人物声源信息是指人物通过语音与显示设备交互时产生的声音信息；

S2、对所述人物声源信息进行声源识别，确定声源角度信息，所述声源角度信息用于表征人物在语音时所处位置的方位角度；

S3、基于所述摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；

S4、按照所述目标转动方向和目标转动角度，调整所述摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。

在本申请一些实施例中，所述对人物声源信息进行声源识别，确定声源角度信息之前，还包括：对所述人物声源信息进行文本提取，得到语音交互文本；对比所述语音交互文本和预置唤醒文本，所述预置唤醒文本是指用于触发声源识别过程的文本；如果所述语音交互文本与所述预置唤醒文本对比一致，则执行对人物声源信息进行声源识别的步骤。

在本申请一些实施例中，包括多组声音采集器，所述控制器获取所述声音采集器采集的人物声源信息具体为：获取每个所述声音采集器采集的所述人物在语音时产生的人物声源信息；所述对人物声源信息进行声源识别，确定声源角度信息，包括：对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差；基于所述语音时间差，计算所述人物在语音时所处位置的声源角度信息。

在本申请一些实施例中，所述对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差，包括：在所述人物声源信息中提取环境噪声、人物语音时的声源信号和人物的语音传播至每一声音采集器的传播时间；根据所述环境噪声、声源信号和传播时间，确定每个声音采集器的接收信号；利用互相关时延估计算法，对每个声音采集器的接收信号进行处理，得到每两个声音采集器在采集对应的人物声源信息时产生的语音时间差。

在本申请一些实施例中，所述基于语音时间差，计算所述人物在语音时所处位置的声源角度信息，包括：获取当前环境状态下的声速、每个声音采集器的坐标和所述声音采集器的设置个数；根据所述声音采集器的设置个数，确定声音采集器的组合对数量，所述组合对数量是指声音采集器两两组合得到的组合数；根据每两个声音采集器对应的语音时间差、声速和每个声音采集器的坐标，建立向量关系方程组，所述向量关系方程组的数量与组合对数量相同；求解所述向量关系方程组，得到人物语音时所处位置的声源单位平面波传播向量的向量值；根据所述向量值，计算所述人物在语音时所处位置的声源角度信息。

在本申请一些实施例中，所述获取摄像头的当前拍摄角度之前，包括：查询所述摄像头的当前运行状态；如果所述摄像头的当前运行状态为处于旋转状态，则等待摄像头旋转完毕；如果所述摄像头的当前运行状态为处于未旋转状态，则获取所述摄像头的当前拍摄角度。

在本申请一些实施例中，所述基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度，包括：将所述声源角度信息转换为摄像头的坐标角度；计算所述摄像头的坐标角度和摄像头的当前拍摄角度的角度差值，将所述角度差值作为所述摄像头的目标转动角度；根据所述角度差值，确定摄像头的目标转动方向。

在本申请一些实施例中，所述将声源角度信息转换为摄像头的坐标角度，包括：获取所述人物在语音时的声源角度范围和摄像头转动时的预设角度范围；计算所述声源角度范围与所述预设角度范围之间的角度差值，将所述角度差值的半值作为转换角度；计算所述声源角度信息对应的角度与所述转换角度的角度差，将所述角度差作为摄像头的坐标角度。

在本申请一些实施例中，所述根据角度差值，确定摄像头的目标转动方向，包括：如果所述角度差值为正值，则确定摄像头的目标转动方向为向右转动；如果所述角度差值为负值，则确定摄像头的目标转动方向为向左转动。

第二方面：

本申请实施例中，如图15b所示，摄像头232作为一种检测器230可以内置或外接显示设备200上，在启动运行后，摄像头232可以检测图像数据。摄像头232可以通过接口部件与控制器250连接，从而将检测的图像数据发送给控制器250进行处理。为了检测图像，摄像头232可以包括镜头组件和云台组件。其中，镜头组件可以是基于CCD(Charge Coupled Device，电荷耦合器件)或CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)的图像采集元件，以根据用户图像生成电信号的图像数据。

镜头组件设置在云台组件上，云台组件可以带动镜头组件进行转动，以便更改镜头组件的朝向。云台组件可以包括至少两个转动部件，以分别实现带动镜头组件沿数值方向进行左右转动，以及沿水平方向进行上下转动。每个转动部件可以连接电机，以通过电机驱动其自动进行转动。

例如，如图17所示，云台组件可以包括呈竖直状态的第一转轴和呈水平状态的第二转轴，第一转轴设置在显示器275的顶部，与显示器275的顶部可转动地连接；第一转轴上还设有固定件，固定件的顶部可转动的连接有所述第二转轴，第二转轴连接镜头组件，以带动镜头组件进行转动。第一转轴和第二转轴上分别连接有电机以及传动部件。电机可以是能够支持自动控制转角的伺服电机、步进电机等。当获取控制指令后，两个电机可以分别进行旋转以驱动第一转轴和第二转轴进行转动，从而调节镜头组件的朝向。

随着镜头组件的不同朝向，镜头组件可以对位于不同位置上的用户进行视频拍摄，从而获取用户图像数据。显然，不同的朝向对应于不同区域的图像采集，当用户在相对于显示器275正前方位置偏左时，可以通过云台组件上的第一转轴带动固定件以及镜头组件向左转动，以使拍摄的图像中，用户人像位置位于画面的中心区域；而当用户躯体成像位置偏下时，可以通过云台组件中的第二转轴带动镜头组件向上转动，以抬高拍摄角度，使用户人像位置位于画面的中心区域。

为了追踪人像位置，控制器250可以通过执行人物定位追踪方法，识别用户人像在图像中所处的位置。并且在用户位置不合适时，通过控制摄像头232进行旋转，以获取合适的图像。其中，识别用户所处位置可以通过图像处理完成。例如，控制器250可以在启动摄像头232后，通过摄像头232拍摄至少一张图像，作为校对图像。并且在校对图像中进行特征分析，从而在校对图像中识别出人像区域。通过判断人像区域的位置，从而确定用户位置是否合适。

但在实际应用中，由于摄像头232的初始朝向与用户在空间中所处的位置可能具有偏移。即在部分情况下，摄像头232的拍摄范围不能覆盖用户人像，使得摄像头232无法拍摄到用户人像，或只能获取到小部分人像。这种情况下会导致在图像处理过程中无法识别出人像区域，也无法实现在用户位置不合适时摄像头232的旋转控制，即对于不在当前图像中的人物则无法进行有效调整。

因此，为了使摄像头232拍摄的校对图像中能够包括人像区域，可以在获取校对图像前先通过声音信号定位用所在的方位，并在获得方位后，先控制摄像头232旋转朝向该方位，再采集校对图像，从而使采集的校对图像中更容易包含人像区域。为此，显示设备200上还设有声音采集器231。声音采集器231可以通过多个麦克风形成阵列，同时对用户发出的声音信号进行采集，以便通过采集的声音信号确定用户方位。即如图18a、图18b所示，在本申请的部分实施例中提供一种声像人物定位追踪方法，包括以下步骤：

获取用户输入的测试音频信号。

实际应用中，控制器250可以在启动摄像头232后自动运行所述声像人物定位追踪方法，并获取用户输入的测试音频信号。其中，摄像头232的启动可以为手动启动或自动启动。手动启动即用户通过遥控器等控制装置100在操作界面中选择摄像头232对应的图标后，完成启动。自动启动可以是用户在执行某些需要调用摄像头232的交互动作后，自动启动。例如，用户在“我的应用”界面中选择“照镜子”应用，由于该应用需要调用摄像头232，因此在启动运行该应用的同时，也启动摄像头232。

摄像头232在启动后的姿态可以是默认初始姿态，例如设置默认初始姿态为摄像头232的镜头组件朝向正前方；启动后的姿态也可以是上一次使用摄像头232时所维持的姿态，例如，在上一次使用时，将摄像头232调节至抬高45度的姿态，则在此次启动摄像头232后，摄像头232的姿态也为抬高45度的姿态。

在启动摄像头232后，控制器250可以通过声音采集器231获取用户输入的测试音频信号。由于声音采集器231中包括麦克风阵列，因此在不同位置上的麦克风可以针对同一个测试音频采集到不同的音频信号。

为了能够通过麦克风阵列获取音频信号，在启动摄像头232后，还可以自动在显示器275上显示文字提示和/或通过扬声器等音频输出装置播放语音提示，以提示用户输入测试音频，例如“请输入测试音频：嗨！小聚”。

需要说明的是，测试音频可以是用户发出的多种音频信号，包括：用户通过说话方式发出的语音、用户通过拍手等肢体动作发出的声音以及用户通过其他手持终端发出的声音。例如，用户通过手机等智能终端操控显示设备200时，在需要用户输入测试音频信号时，可以向该智能终端发送用于控制其发声的控制指令，使得该智能终端可以在接收到控制该指令后，自动播放特定声音，以便声音采集器231进行检测。

为此，在一些实施例中，控制器250可以在运行应用程序后，通过声音采集组件获取声音信号，并从声音信号中提取声纹信息。再将声纹信息与预设测试声纹进行对比，如果声纹信息与预设测试声纹相同，标记声音信号为测试音频信号；如果声纹信息与预设测试声纹不同，控制显示器275显示提示界面。

例如，当设定测试音频信号为内容“嗨！小聚”的语音时，则在麦克风检测到声音信号后，可以对声音信号中的声纹信息进行提取，并判断当前声纹信息是否与“嗨！小聚”的声纹信息相同，并在确定声纹信息相同后，执行后续步骤。

显然，这种利用智能终端进行发声的方式，可以实现发出的声音具有特定的波形或响度，使其对应的音频信号具有独特的声音特点，因此便于后续对音频信号进行比较分析，缓解环境中其他声音对分析过程的影响。

根据所述测试音频信号定位目标方位。

在获取到用户输入的测试音频信号后，控制器250可以对测试音频信号进行分析，以确定用户所处的目标方位。由于声音采集器231中包括多个麦克风，并构成麦克风阵列，因此相对于一个声音源位置，不同麦克风与音源位置之间的距离不同，相应其采集到的音频信号之间具有一定的传播时延。控制器250可以通过分析至少两个麦克风之间的传播时延，结合两个麦克风之间的距离以及声音在空气中的传播速度，确定用户发出声音时所在的大致方位。

通过多个麦克风进行的时延检测，可以定位声音发出位置，即确定目标方位。由于检测目标方位的目的在于将摄像头232镜头组件朝向该方位，因此所述目标方位可以仅通过相对角度的方式进行表示，以使控制器250在定位目标方位后，直接能够确定相对角度数据，并以此来计算摄像头232需要调整的角度。其中，相对角度可以是指目标位置与摄像头232所在平面(即与显示器275屏幕平行的平面)垂线之间的相对角度，也可以是目标位置与摄像头232镜头轴线之间的相对角度。

例如，显示设备200外接的声音采集器231中，包括两个麦克风，分别设置在显示器275的两个侧边位置处，摄像头232则设置在显示器275的顶边中心位置处。当用户在任一位置输入语音信号后，两侧的麦克风可以分别检测到测试音频信号，则根据图19中的位置关系可知：

目标方位φ＝arctan(L2/D)；其中，L2为用户距离摄像头232的水平距离，D为用户距离摄像头232的垂直距离。

而根据勾股定理可以确定以下的位置关系：显示器宽度H＝L1+L2+L3；D ²+(L1+L2) ²＝S1 ²；L3 ²+D ²＝S2 ²；其中，S1为用户位置与左侧麦克风之间的距离，S2为用户位置与右侧麦克风之间的距离，并且，S2＝vt；S1＝v(t+Δt)，其中v为声音在空气中的传播速度，t为声音到达右侧麦克风所消耗的时间，Δt为左侧麦克风与右侧麦克风获取到测试音频信号的时间差。

在上述各式中，显示器宽度H、传播速度v以及获取时间差Δt是已知的，因此通过上述位置关系，可以求解出L2/D，进而求解出目标方位φ。

可见，在本实施例中，控制器250可以通过获取至少两个麦克风采集的测试音频信号再提取测试音频信号的获取时间差，从而根据获取时间差、麦克风和摄像头的安装位置数据，计算目标方位。为了获得更加准确的目标方位，还可以分别在水平方向和竖直方向上，确定位置关系，从而计算出用户位置相对于所述摄像头位置的水平偏转角度和竖直偏转角度。例如，可以增加麦克风的数量或者将麦克风设置在不同的高度上，从而确定竖直方向上的位置关系，以计算竖直偏转角度。

需要说明的是，麦克风的数量越多，越能够准确的定位用户方位，且越能够检测出不同麦克风所接收到音频信号之间的时延数值，因此在实际应用中可以通过适当增加麦克风的数量来提高目标方位检测的准确度。同时，为了增大时延数值，以减小检测误差干扰，还可以通过加大麦克风之间的距离来获得更加准确的检测结果。

根据所述目标方位与所述摄像头232的当前姿态，计算旋转角度。

在确定用户发出声音时的方位即目标方位后，可以计算摄像头232的旋转角度，以使摄像头按照旋转角度可以使镜头组件朝向目标方位。例如，如图18a、图18b所示，当前摄像头232处于默认初始姿态，而定位的目标方位与屏幕垂线之间的相对角度为向左偏移30°方向，则计算出旋转角度φ为向左30°(+30°)。

显然，无论目标方位通过哪一种相对角度的方式进行表示，都能够通过实际摄像头232按照位置与当前姿态转化计算出旋转角度。例如，当前摄像头232处于左转50°的姿态，而定位的目标方位与屏幕垂线之间的相对角度为向左偏移30°，则计算出旋转角度为向右20°(-20°)。

需要说明的是，由于通过测试音频信号检测用户方位的目的在于使摄像头232所拍摄的校对图像中能够包含有用户对应的人像区域，因此在大多数情况下，通过控制摄像头232在一个方向上的旋转即能够使拍摄的校对图像包含人像区域。但在少数情况下，例如摄像头232的当前姿态处于竖直方向最大转角的极端姿态时，通过水平方向上的旋转并不能使摄像头232拍摄到人像。

因此，在部分实施例中，还可以通过多个麦克风确定空间(包括高度方向)上的目标方位，并且在计算旋转角度时，将目标方位分解为水平方向和竖直方向上的两个角度分量，从而分别控制摄像头232的旋转角度。

根据所述旋转角度生成旋转指令，以及将所述旋转指令发送给摄像头232。

在计算获得旋转角度后，控制器250可以对旋转角度进行封装，生成旋转指令。并将旋转指令发送给摄像头232。摄像头232中的电机可以在接收到控制指令后进行转动，从而通过转轴带动镜头组件转动，调整镜头组件的朝向。

由以上技术方案可知，显示设备200可以通过接口组件外接摄像头232和声音采集器231，并在进入需要进行人像追踪的应用后，通过声音采集器231中多个麦克风采集测试音频信号，并定位用户所处的目标方位，从而控制摄像头232进行旋转，使镜头组件朝向用户所在方位，以调整摄像头232的拍摄方向至面对目标方位，便于采集到包含用户人像的图像，使得在当前屏幕中没有人像区域时也能够进行调整，实现后续人物追踪。

为了实现对人物的追踪，在摄像头232完成旋转后，控制器250还可以通过继续执行声像人物定位追踪方法，通过获取图像的方式，对图像中的人像位置进行识别，从而在人像位置发生变化时，控制摄像头232旋转以追踪用户位置，使摄像头232所采集的图像中人像始终位于合适的区域内。

具体地，在一些实施例中，当摄像头232根据旋转指令旋转至面对目标方位后，控制器250还可以通过摄像头232获取校对图像，并在校对图像中检测人像图案；再通过标记人像图案，以及在用户移动位置时向摄像头232发送追踪指令，以追踪用户位置。通过对用户位置的追踪，可以使摄像头232拍摄的图像中，人物图案始终处于合适的位置内，例如处于图像的中部区域内，从而在执行“照镜子”、“运动跟随”等功能的应用时，能够在应用界面中获得更好的显示效果。

为了实现对用户位置的追踪，在一些实施例中，控制器250可以按照设定的频率通过摄像头232获取校对图像，并检测人像图案在校对图像中的位置。根据应用所需要的图像画面布局的不同，可以根据应用类型设置不同的预设区域范围，当人像图案在预设区域内时，即代表当前采集的校对图像中，人像图案位置合适，可以保持当前的摄像头232的拍摄方向不变。当人像图案不再预设区域内时，即代表当前用户的位置移动距离较大，采集的校对图像中人像图案位置不合适，需要对摄像头232的拍摄方向进行调整。

因此，控制器250可以根据人像图案位置生成追踪指令，并将追踪指令发送给摄像头232中，以控制摄像头232调整拍摄方向。显然，在摄像头232接收到追踪指令后，调整后的拍摄方向应能够保持人像图案位于预设区域内。例如，所述声像人物定位追踪方法还包括以下步骤：

检测用户位置。

在对摄像头232进行旋转调整后，摄像头232可以实时拍摄多帧图像，并将拍摄的图像发送给显示设备200的控制器250。控制器250一方面可以根据所启动的应用程序进行图像处理，例如控制显示器275显示该图像；另一方面可以通过调用检测程序对校对图像进行分析，从而确定用户所在的位置。

其中，用户位置的检测可以通过图像处理程序完成。即通过实时抓取摄像头232拍摄的图像，检测肢体信息。肢体信息可以包含关键点和包裹肢体的外框，通过检测的关键点和肢体框位置在图像中位置信息。关键点可以是指人体图像中能够代表人体特征的一系列点。例如，眼睛、耳朵、鼻子、脖子、肩部、手肘、手腕、腰部、膝关节以及踝关节等。

关键点的确定可以通过图像识别获得，即可以通过分析画面中特征形状，并与预设的模板进行匹配从而确定关键点对应的图像，并获取图像对应的位置，从而获取各关键点对应的位置。其中，位置可以通过图像中距离边界的像素点数量进行表示。可以根据摄像头232的分辨率和可视角度，以图像的左上角为原点，以向右和向下为正方向构建平面直角坐标系，则图像中的各个像素点均能够通过这一直角坐标系进行表示。

例如，如图20所示，水平方向和垂直方向摄像头可视角度分别为HFOV和VFOV，可视角度可以根据摄像头CameraInfo获取，摄像头预览图像支持1080P，宽度为1920，高度1080像素，则图像中每个像素点的位置都可以为(x，y)，其中x的取值范围为(0，1920)；y的取值范围为(0,1080)。

通常为了能够准确表达用户所在的位置，关键点的数量可以设置为多个，并且在一次检测过程中需要对多个关键点的全部或部分进行位置提取，从而确定包裹肢体的外框区域。例如，关键点可以包括18个，即2个眼睛点、2个耳朵点、1个鼻子点、1个脖子点、2个肩部点、2个肘部点、2个腕部点、2个腰部点(或臀部点)、2个膝关节点以及2个踝关节点。显然，这些关键点在识别的过程中会根据用户的面向不同需要不同的识别方式。例如，腰部对应的位置在用户面向显示器275时识别为腰部点，而在用户背对显示器275时，识别为臀部点。

显然，当用户所处位置发生改变或者姿态发生变化时，部分关键点的位置将发生变化。随着这种变化的出现，摄像头232采集的图像中人体相对位置也将发生变化。例如，当人体向左移动位置时，将使摄像头232采集的图像中人体位置偏左，不便于进行图像分析处理和实时显示。

因此，在检测用户位置后，还需要对比用户位置与校对图像中的预设区域，从而确定当前用户位置是否在预设区域中。

在一些实施例中，用户位置可以通过肢体框中心位置进行表示，而肢体框中心位置可以通过检测的各关键点位置坐标计算获得。例如，通过获取肢体框水平左右两侧的关键点x轴位置坐标，计算肢体框中心位置，即中心位置x轴坐标x ₀＝(x ₁+x ₂)/2。

由于本申请实施例中摄像头232可以包括两个左右方向旋转和上下方向旋转，因此在计算获得中心位置的x轴坐标后，可以先对x轴坐标进行判断，确定中心位置的 x轴坐标是否位于整个图像的中心位置。例如，当校对图像为(1920,1080)的1080P图像时，校对图像的中心点水平坐标为960。

在确定人像中心位置和图像中心点后，可以通过对比确定用户位置是否位于预设判断区域中。为了避免频繁调整带来的处理负荷增加，以及允许部分检测误差。根据实际应用条件要求以及摄像头232的水平方向可视角度，可以预设一个允许坐标区间，当人像中心位置位于允许坐标区间内，则确定当前用户位置在预设区域中。例如，最大允许坐标误差为300像素，则允许坐标区间为[660，1260]，当检测获得的用户中心位置坐标在这一区间内时，确定用户则在预设判断区域中，即计算获得的人像中心位置坐标与960位置相差不大；当检测获得的用户中心位置坐标不在这一区间内时，确定当前用户位置不在预设区域中，即计算获得的人像中心位置坐标与960位置相差较大。

在对比用户位置与校对图像中的预设区域后，可以根据对比结果确定是否需要进行人像追踪，如果当前用户位置不在预设区域内，控制摄像头232旋转，以使用户成像位置位于画面中部区域。如果当前用户位置在预设区域内，则无需控制摄像头232旋转，维持摄像头朝向即可。

在当前用户位置不在预设区域内时，为了控制摄像头232进行旋转，控制器250可以根据用户位置计算旋转角度量，并根据旋转角度量生成控制指令，以控制摄像头232进行旋转。

具体地，在确定当前用户位置不在预设区域内以后，控制器250可以先计算人像区域的中心位置和图像区域的中心点之间的距离；再根据计算的距离，结合摄像头232镜头组件的最大视角以及图像尺寸计算获得旋转角度；最后将计算的旋转角度以控制指令的形式发送给摄像头232，使得摄像头232中电机带动各转轴进行转动，从而调整镜头组件的朝向。

例如，如图21、图22所示，摄像头232的预览分辨率为1920x1080，图像的水平宽度：imgWidth＝1920；图像水平中心位置坐标x＝960；人像区域中心位置坐标为(x ₀，y ₀)水平中心位置坐标为x ₀；水平视角为hfov；则人像区域和图像区域的中心距离：hd＝x–x ₀，则摄像头232在水平方向上的旋转角度则按照下式可计算获得：

通过上式，可以计算出摄像头232需要进行调节的角度，控制器250再对人像区域中心位置与图像区域中心点的坐标数值进行比较，确定人像区域中心位置相对于图像区域中心点的方位，从而确定摄像头232的旋转方向。即，如果人像区域中心水平位置比图像中心大，则向右转动摄像头232；反之向左转动摄像头232。本申请实施例中，摄像头232可以采用后置摄像头模式，使得屏幕显示图像与摄像头拍摄图像是左右镜像关系，即水平角度旋转是左右相反的。

在确定旋转角度和方向以后，控制器250可以将旋转角度和方向数据进行封装，生成控制指令，并将控制指令发送给摄像头232。摄像头232中的电机可以在接收到控制指令后进行转动，从而通过转轴带动镜头组件转动，调整镜头组件的朝向。

需要说明的是，在上述实施例中，是以水平方向坐标为例进行判断、调整，实际应用中还可以通过比较人像区域中心位置与图像区域中心点位置之间的竖直方向差异，对镜头组件也进行同样的调整，具体的调整方法与水平方向的调整方法相同，即在确定当前用户位置不在预设区域内以后，控制器250可以先计算人像区域的中心位置和图像区域的中心点之间的竖直距离；再根据计算的竖直距离，结合摄像头232镜头组件的竖直方向最大视角以及图像尺寸计算获得旋转角度；最后将计算的旋转角度以控制指令的形式发送给摄像头232，使得摄像头232中电机带动第二转轴进行转动，从而调整镜头组件的朝向。

但在实际应用中，由于受到用户姿态的影响，以及不同应用程序中的需求不同，在部分应用场景下使用中心位置作为用户位置判断的方式并不能获得较好的显示、检测、跟踪效果。因此在一些实施例中，控制摄像头232旋转，以使用户成像位置位于画面中部区域还可以按照以下步骤进行。

在校对图像中检测第一识别点。

其中，第一识别点为识别出关键点中的一个或多个，用于表征用户的部分肢体位置。例如，第一识别点可以为2个眼睛点(或2个耳朵点)，用以表示用户的头部位置。通过在校对图像中匹配眼睛图案(或耳朵图案)所对应的区域，检测出当前图像中是否含有第一识别点，即是否含有眼睛点(或耳朵点)。

如果所述校对图像中不含有第一识别点，在所述校对图像中检测第二识别点。

第二识别点是与第一识别点间隔一定距离并且能够具有相对位置关系的关键点。例如，第二识别点可以为胸部点，由于在常规使用状态下，胸部点位于眼睛点的下方，并且胸部点与眼睛点之间间隔20-30cm的距离，因此可以通过对胸部点的检测确定需要调整的方向。

如果在所述校对图像中检测到所述第二识别点，则按照第二识别点与第一识别点的位置关系确定转动方向。

例如，当在校对图像中未检测到第一识别点，即眼睛点；而检测到第二识别点，即胸部点，则确定当前校对图像中，未能够显示完全用户的头部图像，需要将摄像头232向上抬起，以使人像头部进入图像的预设区域中。

显然，在实际应用中，根据第二识别点与第一识别点的相对方位不同，在校对图像中未检测到第一识别点，而检测到第二识别点时，所确定的旋转方向也是不同的。例如，第一识别点为腰部点，第二识别点为胸部点时，当未检测到腰部点而检测到胸部点，则说明拍摄的图像太靠人像的上半部，因此可以通过降低拍摄角度，使人像下半部进入图像的预设区域中。

按照所述旋转方向以及预设调节步长控制摄像头232转动，以使人像位于图像预设区域中。

例如，在眼部/耳部等关键点(第一识别点)没有检测到，而肩部等关键点(第二识别点)检测到时，可以上抬起摄像头232，使第一识别点位置每次调整100像素点，直到第一识别点处于1/7-1/5位置处。

如果校对图像中含有第一识别点，则获取第一识别点相对于图像区域所在的位置。

通过对校对图像中画面的识别，如果识别出第一识别点，则可以进一步对第一识别点所在的位置进行提取，从而确定第一识别点相对于在整个图像区域中所处的位置。例如，如图23a所示，在获得校对图像后，如果识别出眼睛点，即确定检测到第一识别点，则可以获取眼睛点当前坐标P(x ₁，y ₁)。再将当前坐标中的x轴坐标值和/或y轴坐标值与图像的整体宽度imgWidth和/或高度imgHeight进行对比，从而确定第一识别点相对于图像区域所在的位置。

其中，在水平方向和竖直方向两个方向上可以确定第一识别点相对于图像区域在两个方向上所在的位置。即水平方向上，所述第一识别点相对于图像区域所在的位置为x ₁/imgWidth；在竖直方向上，所述第一识别点相对于图像区域所在的位置为y ₁/imgHeight。

在获取第一识别点相对于图像区域所在的位置后，还可以对第一识别点对应位置所在区间进行判断，并根据所在的不同区间，确定不同的调整方式。

例如，如图23a所示，通过检测在竖直方向上，第一识别点相对于图像区域所在的位置时，检测到眼睛(或耳部)在图像画面高度的1/5之下，此时，眼睛位置过低，需要将摄像头232下压，以使眼睛位置升高至合适的区域内，在将摄像头232下压的过程中，如果检测到眼睛的点在图像画面的1/5位置处，则停止下压，完成摄像头232的调整，如图23b所示。当检测到眼睛(或耳部)位置在图像画面高度的1/7以下、1/5以上，则确定当前第一识别点位置合适，因此摄像头232的高度不需要进行调整，防止抖动造成摄像头频繁变动。

上述实施例通过图像识别相结合的方式，可以实现对摄像头232的朝向进行实时控制，实现对人像目标的追踪。显然，在实际应用中，还可以通过声源定位实现对人像目标的追踪。因此在本申请的部分实施例中，对人像目标的追踪可以采用声源定位与图像识别相结合的方式，对人像目标进行更加准确的定位。

例如，在运行部分运动幅度较大、动作较快的健身类应用时，可以预先通过统计等方式获得哪些时刻容易出现难于确定用户位置的特殊时段，并在这一时段中通过获取音频信号辅助判断用户所处的位置，并按照此时图像识别和音频定位两者的结果进行综合定位，以提高对人像目标进行追踪的准确率。

另外，在部分使用场景中，通过图像识别检测到的人像可能存在多个，这将对摄像头232的追踪过程造成影响。因此在本申请的部分实施例中，还可以通过锁定程序在多个人像中锁定一个人像进行追踪。例如，可以在屏幕中心一定区域内查找离屏幕中心最近人像，作为最优的人脸信息(中心屏幕大小1/3区域，出现次数最多)，从而记录该人物信息并进行锁定。而如果没有检测到人脸信息，说明声音信息误差较大，则锁定离屏幕最近的人物。

在锁定其中一个人像后，摄像头232的调节可以仅受到被锁定人物的位置影响。即摄像头232所拍摄图像内其他人的移动将不会调节摄像头232，摄像头232依然保持不动状态。只有锁定状态的人物移动，通过图像检测侦测到之后，驱动摄像头232跟随锁定人物进行转动。

由以上技术方案可知，显示设备200可以通过摄像头232获取校对图像，并在校对图像中检测人像图案，从而标记所述人像图案，以及在用户移动位置时向所述摄像头发送追踪指令，以追踪用户位置，实现摄像头232跟随用户移动的效果。通过对用户位置的追踪，可以使摄像头232拍摄的图像中，人像图案始终处于合适的位置中，便于应用进行显示、调用以及分析处理。

在一些实施例中，在标记所述人像图案的步骤中，如果所述校对图像中包括多个人像图案查找位于校对图像中心区域的人像图案；如果校对图像中心区域位置含有人像图案，标记处于图像中心区域的人像图案；如果校对图像中心区域位置不含有人像图案，标记校对图像中，面积最大的人像图案。

例如，控制器250可以实时查询摄像头232状态，如果摄像头232根据测试音频信号旋转结束，则启动AI图像检测算法。在屏幕中心一定区域内查找离屏幕中心位置的人脸信息，记录该人物信息并进行锁定。如果没有检测到人脸信息，说明声音信息误差较大，则锁定离屏幕最近的人物。

在一些实施例中，获取用户输入的测试音频信号之前，还可以先对摄像头232所拍摄的图像进行一次图像识别，确定当前摄像头232能否拍摄到带有人像的画面。如果从拍摄的图像中识别出具有人像，则无需通过声源定位，而直接通过后续图像处理进行目标追踪。即在启动摄像头232后，可以先获取用于识别人像的初始图像，并在初始图像中识别人像区域。人像区域是识别方法可以与上述实施例相同，即通过识别关键点的方式完成。

如果所述初始图像中含有人像区域，则直接执行检测用户位置以及后续步骤，通过图像处理的方式对人像目标进行追踪。如果所述初始图像中不含有人像区域，则通过执行获取用户输入的测试音频信号以及后续步骤，通过声源定位的方式调整摄像头232至朝向用户位置的区域，再执行检测用户位置以及后续步骤。

为了获得更加准确的人像位置判断，在一些实施例中，如图24a、图24b所示，识别出多个关键点以后，还可以根据识别出的关键点建立骨骼线示意图形，从而根据骨骼线图形进一步确定人像所在位置。其中，骨骼线可以通过连接多个关键点进行确定。在用户不同的姿态下，骨骼线所呈现的形状也不同。

需要说明的是，通过绘制的骨骼线还可以对根据骨骼线的运动变化规律来动态调整摄像头的拍摄位置。例如，在判断骨骼线运动状态变化过程为从蹲姿状态变化到站立状态，则可以抬高摄像头232的视角，以使处于站姿状态的人像也能够处于图像中的合适区域内，即从图24a过渡到图24b所示的效果。在判断骨骼线运动状态变化过程为从站立状态变化到蹲姿状态，这可以降低摄像头232的视角，以使处于蹲姿状态的人像也能够处于图像中的合适区域内，即从图24b过渡到图24a所示的效果。

上述实施例以人像位置处于图像中心为例说明摄像头232对人像的追踪，应当理解的是，根据实际需要，预想拍摄的图像中，人像位置可能位于中心区域以外的其他区域中。例如，如图25a所示，对于运动跟随类应用，显示设备200可以根据摄像头232拍摄的视频，渲染虚拟教练影像，从而使用户通过显示设备200观看到的场景音像中，包括用户人像和虚拟教练人像。此时，为了随场景渲染，需要摄像头232拍摄的人像位于图像的一侧，而另一侧用于渲染虚拟教练影像。

例如，如图25a、图25b所示，当通过校对图像确定当前人像位置位于图像中心区域时，同样需要向摄像头232发送旋转指令，使摄像头232旋转，以使人像位于图像的右侧区域。

由以上技术方案可知，相对于单纯通过图像处理以及单纯通过声源定位的人物追踪方式，本申请实施例提供的声像人物定位追踪方法可以改进声源定位精确度较低，无法有效定位人物具体位置的缺陷。以及图像处理空间感知较差，只能对摄像头232对准的拍摄区域进行定位的缺陷。所述声像人物定位追踪方法通过对声源定位和摄像头232图像分析进行综合利用，利用声源定位空间感知能力较强的优势，首先确认人物的大致位置，驱动摄像头232朝向声源方向。同时利用摄像头232图像分析精准度高的优点，对拍摄图像进行人物检测确定具体位置，驱动摄像头进行微调，以此达到精准定位，使摄像头232拍摄人物能够在图像中聚焦显示。

基于上述声像人物定位追踪方法，在一些实施例中，本申请还提供一种显示设备200，包括：显示器275、接口组件以及控制器250。

其中，所述显示器275被配置为显示用户界面，接口组件被配置为连接摄像头232和声音采集器231，摄像头232可转动拍摄角度，被配置为拍摄图像；声音采集器231包括多个麦克风组成的麦克风阵列，被配置为采集音频信号。

控制器250被配置为获取用户输入的测试音频信号，并响应于测试音频信号，定位目标方位，目标方位根据声音采集组件采集的测试音频信号时间差计算获得，从而向摄像头发送旋转指令，以调整摄像头的拍摄方向至面对目标方位。

在上述实施例中，可以通过接口组件外接摄像头232和声音采集器231，并结合显示设备200完成上述声像人物定位追踪方法。在一些实施例中，还可以直接将摄像头232和声音采集器231内置在显示设备200中，即显示设备200包括显示器275、摄像头232、声音采集器231以及控制器250，其中，摄像头232、声音采集器231可以直接连接控制器250，从而直接通过声音采集器231获取测试音频信号，并直接控制摄像头232进行旋转，从而完成上述声像人物定位追踪方法。

具体实现中，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的摄像头拍摄角度的调整方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

一种显示设备，其特征在于，包括：

摄像头，所述摄像头被配置为采集人像以及实现在预设角度范围内的转动；

声音采集器，所述声音采集器被配置为采集人物声源信息，所述人物声源信息是指人物通过语音与显示设备交互时产生的声音信息；

与所述摄像头和所述声音采集器连接的控制器，所述控制器被配置为：获取所述声音采集器采集的人物声源信息和所述摄像头的当前拍摄角度；

对所述人物声源信息进行声源识别，确定声源角度信息，所述声源角度信息用于表征人物在语音时所处位置的方位角度；

基于所述摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；

按照所述目标转动方向和目标转动角度，调整所述摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。
根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述对人物声源信息进行声源识别，确定声源角度信息之前，被进一步配置为：

对所述人物声源信息进行文本提取，得到语音交互文本；

对比所述语音交互文本和预置唤醒文本，所述预置唤醒文本是指用于触发声源识别过程的文本；

如果所述语音交互文本与所述预置唤醒文本对比一致，则执行对人物声源信息进行声源识别的步骤。
根据权利要求1所述的显示设备，其特征在于，包括多组声音采集器，所述控制器获取所述声音采集器采集的人物声源信息具体为：获取每个所述声音采集器采集的所述人物在语音时产生的人物声源信息；

所述控制器在执行所述对人物声源信息进行声源识别，确定声源角度信息，被进一步配置为：

对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差；

基于所述语音时间差，计算所述人物在语音时所处位置的声源角度信息。
根据权利要求3所述的显示设备，其特征在于，所述控制器在执行所述对每个所述人物声源信息分别进行声源识别，计算多组所述声音采集器在采集对应的人物声源信息时产生的语音时间差，被进一步配置为：

在所述人物声源信息中提取环境噪声、人物语音时的声源信号和人物的语音传播至每一声音采集器的传播时间；

根据所述环境噪声、声源信号和传播时间，确定每个声音采集器的接收信号；

利用互相关时延估计算法，对每个声音采集器的接收信号进行处理，得到每两个声音采集器在采集对应的人物声源信息时产生的语音时间差。
根据权利要求3所述的显示设备，其特征在于，所述控制器在执行所述基于语音时间差，计算所述人物在语音时所处位置的声源角度信息，被进一步配置为：

获取当前环境状态下的声速、每个声音采集器的坐标和所述声音采集器的设置个数；

根据所述声音采集器的设置个数，确定声音采集器的组合对数量，所述组合对数量是指声音采集器两两组合得到的组合数；

根据每两个声音采集器对应的语音时间差、声速和每个声音采集器的坐标，建立向量关系方程组，所述向量关系方程组的数量与组合对数量相同；

求解所述向量关系方程组，得到人物语音时所处位置的声源单位平面波传播向量的向量值；

根据所述向量值，计算所述人物在语音时所处位置的声源角度信息。
根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述获取摄像头的当前拍摄角度之前，被进一步配置为：

查询所述摄像头的当前运行状态；

如果所述摄像头的当前运行状态为处于旋转状态，则等待摄像头旋转完毕；

如果所述摄像头的当前运行状态为处于未旋转状态，则获取所述摄像头的当前拍摄角度。
根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述基于摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度，被进一步配置为：

将所述声源角度信息转换为摄像头的坐标角度；

计算所述摄像头的坐标角度和摄像头的当前拍摄角度的角度差值，将所述角度差值作为所述摄像头的目标转动角度；

根据所述角度差值，确定摄像头的目标转动方向。
根据权利要求7所述的显示设备，其特征在于，所述控制器在执行所述将声源角度信息转换为摄像头的坐标角度，被进一步配置为：

获取所述人物在语音时的声源角度范围和摄像头转动时的预设角度范围；

计算所述声源角度范围与所述预设角度范围之间的角度差值，将所述角度差值的半值作为转换角度；

计算所述声源角度信息对应的角度与所述转换角度的角度差，将所述角度差作为摄像头的坐标角度。
根据权利要求7所述的显示设备，其特征在于，所述控制器在执行所述根据角度差值，确定摄像头的目标转动方向，被进一步配置为：

如果所述角度差值为正值，则确定摄像头的目标转动方向为向右转动；

如果所述角度差值为负值，则确定摄像头的目标转动方向为向左转动。
一种摄像头拍摄角度的调整方法，其特征在于，所述方法包括：

获取所述声音采集器采集的人物声源信息和所述摄像头的当前拍摄角度，所述人物声源信息是指人物通过语音与显示设备交互时产生的声音信息；

对所述人物声源信息进行声源识别，确定声源角度信息，所述声源角度信息用于表征人物在语音时所处位置的方位角度；

基于所述摄像头的当前拍摄角度和声源角度信息，确定摄像头的目标转动方向和目标转动角度；

按照所述目标转动方向和目标转动角度，调整所述摄像头的拍摄角度，以使摄像头的拍摄区域正对人物语音时的所处位置。