WO2019206186A1

WO2019206186A1 - 唇语识别方法及其装置、增强现实设备以及存储介质

Info

Publication number: WO2019206186A1
Application number: PCT/CN2019/084109
Authority: WO
Inventors: 武乃福; 马希通; 寇立欣; 冯莎
Original assignee: 京东方科技集团股份有限公司
Priority date: 2018-04-26
Filing date: 2019-04-24
Publication date: 2019-10-31
Also published as: US20200058302A1; CN108596107A; US11527242B2

Abstract

一种唇语识别方法及其装置、增强现实设备以及存储介质。该唇语识别方法包括：获取待识别对象的人脸图像序列；基于人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的待识别对象讲话内容的语义信息；所述语义信息用于展示。该唇语识别方法可将识别出的待识别对象的唇语转换成文字或者音频，实现对唇语的翻译；另外，可利用已有AR设备的部件，不需要单独增加硬件，在不增加成本的基础上扩展了AR设备的功能，进一步提升用户体验。

Description

唇语识别方法及其装置、增强现实设备以及存储介质

本申请要求于2018年4月26日递交的中国专利申请第201810384886.2号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本公开至少一实施例涉及一种唇语识别方法及其装置、增强现实设备以及存储介质。

背景技术

增强现实(Augmented Reality，简称AR)技术是一种将真实环境中的实物和虚拟信息进行融合的新技术，其特点是将虚拟信息应用到真实环境中，可将真实环境中的实物和虚拟信息融合到同一个画面或者是空间中，从而达到超越现实的感官体验。

现有的虚拟现实系统主要是通过带有中央处理器的高性能运算系统模拟一个虚拟的三维世界，并提供给使用者视觉、听觉等的感官体验，从而让使用者犹如身临其境，同时还可以进行人机互动。

发明内容

本公开至少一实施例提供一种唇语识别方法，包括：获取待识别对象的人脸图像序列；基于所述人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的所述待识别对象讲话内容的语义信息；将所述语义信息用于展示。

例如，在本公开至少一实施例提供的方法中，基于所述人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的所述待识别对象讲话内容的语义信息，包括：将所述人脸图像序列发送给服务器，由所述服务器进行唇语识别确定出所述人脸图像中的唇部动作对应的待识别对象讲话内容的语义信息。

例如，在本公开至少一实施例提供的方法中，在将所述语义信息用于展示之前，所述唇语识别方法还包括：接收所述服务器发送的所述语义信息。

例如，在本公开至少一实施例提供的方法中，所述语义信息为语义文字信息和/或语义音频信息。

例如，本公开至少一实施例提供的方法，还包括展示所述语义信息。展示所述语义信息包括：根据展示模式指令将所述语义文字信息显示在佩戴增强现实设备的用户视野范围内或播放所述语义音频信息。

例如，在本公开至少一实施例提供的方法中，获取所述待识别对象的人脸图像序列，包括：获取包括所述待识别对象的图像序列；定位所述待识别对象的方位；根据定位出的待识别对象的方位确定所述待识别对象的人脸区域在所述图像序列中各帧图像中的位置，从所述各帧图像中截取所述待识别对象的人脸区域的图像生成所述人脸图像序列。

例如，在本公开至少一实施例提供的方法中，定位所述待识别对象的方位，包括：根据所述待识别对象讲话时发出的语音信号定位所述待识别对象的方位。

例如，在本公开至少一实施例提供的方法中，在获取所述待识别对象的人脸图像序列之后，还包括：保存所述人脸图像序列。

例如，在本公开至少一实施例提供的方法中，将所述人脸图像序列发送给服务器，包括：在接收到发送指令时将保存的所述人脸图像序列发送给所述服务器。

本公开至少一实施例还提供一种唇语识别装置，包括：人脸图像序列获取单元、发送单元和接收单元。人脸图像序列获取单元配置为获取所述待识别对象的人脸图像序列；发送单元配置为将所述人脸图像序列发送给服务器，由所述服务器进行唇语识别确定出人脸图像中的唇部动作对应的语义信息；接收单元配置为接收服务器发送的所述语义信息。

例如，本公开至少一实施例提供的唇语识别装置，还包括：展示单元，配置为展示所述语义信息。

例如，在本公开至少一实施例提供的唇语识别装置中，所述展示单元包括：展示模式指令生成子单元，配置为生成展示模式指令，所述展示模式指令包括显示模式指令和音频模式指令。

例如，在本公开至少一实施例提供的唇语识别装置中，所述语义信息为语义文字信息和/或语义音频信息，所述展示单元还包括显示子单元和播放子单元。显示子单元，配置为在接收到所述显示模式指令时，将所述语义文字信息显示在佩戴增强现实设备的用户视野范围内；播放子单元，配置为在接收到所述音频模式指令时，播放所述语义音频信息。

例如，在本公开至少一实施例提供的唇语识别装置中，所述人脸图像序列获取单元包括图像序列获取子单元、定位子单元和人脸图像序列生成子单元；图像序列获取子单元，配置为获取所述待识别对象的图像序列；定位子单元，配置为定位所述待识别对象的方位；人脸图像序列生成子单元，配置为根据定位出的待识别对象的方位确定所述待识别对象的人脸区域在所述图像序列各帧图像中的位置，从所述各帧图像中截取所述待识别对象的人脸区域的图像生成所述人脸图像序列。

本公开至少一实施例还提供一种唇语识别装置，包括：处理器；机器可读存储介质，存储有一个或多个计算机程序模块；所述一个或多个计算机程序模块被存储在所述机器可读存储介质中并被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行实现本公开任一实施例提供的唇语识别方法的指令。

本公开至少一实施例还提供一种增强现实设备，包括本公开任一实施例提供的唇语识别装置。

例如，在本公开至少一实施例提供的增强现实设备，还包括摄像装置、显示装置或播放装置。所述摄像装置配置为采集所述待识别对象的图像；所述显示装置配置为显示所述语义信息；所述播放装置配置为播放所述语义信息。

本公开至少一实施例还提供一种唇语识别方法，包括：接收增强现实设备发送的待识别对象的人脸图像序列；基于所述人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的所述待识别对象讲话内容的语义信息；向增强现实设备发送所述语义信息。

本公开至少一实施例还提供一种存储介质，非暂时性地存储计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时可以执行本公开任一实施例提供的唇语识别方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1是本公开至少一实施例提供的一种唇语识别方法的流程图；

图2A是本公开至少一实施例提供的另一种唇语识别方法的流程图；

图2B是本公开至少一实施例提供的再一种唇语识别方法的流程图；

图2C是本公开至少一实施例提供的一种唇语识别方法的系统流程图；

图3A是本公开至少一实施例提供的一种唇语识别装置的示意框图；

图3B是图3A中所示的展示单元304的示意框图；

图3C是图3A中所示的人脸图像序列获取单元301的示意框图；

图3D是本公开至少一实施例提供的另一种唇语识别装置的示意框图；

图3E是本公开至少一实施例提供的一种增强现实设备的示意框图；

图3F是本公开至少一实施例提供的一种增强现实设备的示意框图；以及

图4是本公开至少一实施例提供的一种增强现实设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

例如，AR设备中可以设置有摄像装置，摄像装置可实时地采集真实环境中的实物，并通过计算实物的位置及角度等，再加上相应地图像处理，进而实现与虚拟信息的融合。常规的增强现实设备的功能还存在较大的可扩展空间。

本公开至少一实施例提供一种唇语识别方法，包括：获取待识别对象的人脸图像序列；基于人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的待识别对象讲话内容的语义信息；将所述语义信息用于展示。

本公开至少一实施例还提供一种对应于上述唇语识别方法的唇语识别装置、增强现实设备以及存储介质。

本公开至少一实施例提供的唇语识别方法，一方面，可确定出待识别对象的讲话内容，将待识别对象的唇语进行展示，实现了对将待识别对象的唇语翻译；另一方面，在本公开至少一实施例提供该唇语识别方法中，可利用已有AR设备的部件实现上述唇语识别方法，不需要单独增加硬件，从而可以在不增加成本的基础上扩展AR设备的功能，进一步提升用户体验。

下面结合附图对本公开的实施例进行详细说明。

本公开至少一实施例提供一种唇语识别方法，可进一步扩展增强现实设备的功能，提升设备的用户体验。例如，该唇语识别方法可用于AR设备或VR(Virtual Reality，简称VR)装置等，本公开的实施例对此不作限制。例如，该唇语识别方法可以至少部分以软件的方式实现，并由AR设备中的处理器加载并执行，或至少部分以硬件或固件等方式实现，以扩展增强现实设备的功能，提升设备的用户体验。

图1为本公开至少一实施例提供的一种唇语识别方法的流程图。如图1所示，该唇语识别方法包括步骤S10至步骤S30。下面对该唇语识别方法的步骤S10至步骤S30以及它们各自的示例性实现方式分别进行介绍。

步骤S10：获取待识别对象的人脸图像序列。

步骤S20：基于人脸图像序列进行唇语识别确定出人脸图像中的唇部动作对应的语义信息。

步骤S30：将语义信息用于展示。

例如，增强现实AR设备为一种头戴式可穿戴智能设备，其利用增强现实技术可增强可达到超越现实的感官体验。

例如，AR设备结合了图像显示、图像处理、多传感器融合及三维建模等技术，可应用在医疗、游戏、网络视频通信、展览等领域。

目前的AR设备中通常包括摄像装置(例如摄像头)、光学投影装置(由各种透镜等光学元件组成的装置，可将图像投影到佩戴AR设备的用户视野内)和声音采集装置(例如扬声器或者麦克等)等，在功能上具有可扩展的空间。

该摄像装置例如可以包括CMOS(互补金属氧化物半导体)传感器、CCD(电荷耦合器件)传感器、红外摄像头等。例如，摄像装置可以设置在OLED显示屏所在的平面内，例如设置在AR设备的边框上。

例如，可利用AR设备中的摄像装置采集图像。用户佩戴AR设备后，摄像装置可采集到其视场范围内的图像，如果用户需要与其他对象进行交流，例如，在开会时或者用户与其他对象谈话时，通常会面对需要交流的对象，此时摄像装置可采集到位于其视场范围内的交流对象的图像，该图像中包括交流对象的图像。

对于步骤S10，例如，上述的待识别对象指利用AR设备的摄像装置采集的图像中的对象。例如，该对象可以是与其交流的人，也可以是处于视频中的人等，本公开的实施例对此不作限制。例如，可将摄像装置连续采集的多帧图像组成图像序列。由于摄像装置采集的图像中包含待识别对象，也会包括待识别对象的人脸所在区域，可将包括待识别对象的人脸所在区域的多帧图像作为待识别对象的人脸图像序列。

例如，获取人脸图像序列的具体实现示例在下面进行详细地介绍，在此不再赘述。

例如，可以提供人脸图像序列获取单元，并通过该人脸图像序列获取单元来获取待识别对象的人脸图像序列；例如，通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现人脸图像序列获取单元。例如，该处理单元可以为通用处理器或专用处理器，可以是基于X86或ARM架构的处理器等。

对于步骤S20，例如，在一个示例中，可以通过AR设备中的中央处理单元(CPU)、图像处理器(GPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元来对人脸序列进行处理以进行唇语识别。例如，在另一个示例中，还可以将人脸图像序列发送给服务器。例如，服务器可以为本地服务器，或者设置在局域网的服务器，或者为云端服务器，从而可以由服务器(例如，服务器中的处理单元等)对人脸序列进行处理以进行唇语识别，以确定出人脸图像中的唇部动作对应的待识别对象讲话内容的语义信息。例如，可以通过蓝牙、Wi-Fi等无线通信方式将人脸图像序列发送给服务器。

例如，服务器可根据接收到的人脸图像序列进行唇语识别，人脸图像序列中各帧人脸图像包括待识别对象的人脸所在区域，而人脸所在区域包括人的唇部，服务器可利用人脸识别算法从各帧人脸图像中识别出人脸，由于人脸图像序列中多个多帧连续的图像，可根据识别出的人脸进一步的提取待识别对象(即人)讲话时的唇形变化特征，可将该些唇部变化特征输入到唇语识别模型中，识别出对应的发音，根据识别出的各发音进一步确定由各发音组成的能够表达语义的语句或词组等，语句或者词语可作为语义信息发送增强现实设备，增强现实设备接收到该语义信息后可进行展示，进而佩戴AR设备的用户可根据展示的语义信息获知待识别对象讲话的内容或者含义。

需要注意的是，人脸识别算法可采用本领域的常规算法实现，在此不再赘述。

例如，上述的唇语识别模型可以基于深度学习的网络模型，例如为卷积神经网络CNN(Convolutional Neural Network，简称CNN)模型或者多层反馈神经网络RNN(Recurrent Neural Network，循环神经网络)模型等，并利用该网络模型根据待识别对象讲话时的唇形变化特征，识别出对应的各发音，在利用预先设置的多个发音与语句或词组对应关系的数据库，对各发音进行匹配，确定由各发音组成的能够表达语义的语句或词组。

例如，上述语义信息不一定要识别出待识别对象讲话时唇形变化所代表的所有发音，可以识别出待识别对象讲话内容的重点语义信息或者关键语义信息。例如，将发音组成的语句或词组，可以为确定出的可能性最大的语句或词组。

例如，可以提供发送单元，并通过该发送单元将人脸图像序列发送至服务器，以由服务器来进行唇语识别；例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现发送单元。

例如，也可以在AR设备中直接设置识别单元，由该识别单元进行唇语识别；例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现识别单元。

对于步骤S30，例如，在基于该唇语识别方法确定出待识别对象的讲话内容后，可以将待识别对象的唇语进行展示，从而实现了对待识别对象的唇语翻译。

在本公开至少一实施例提供的唇语识别方法中，可利用已有AR设备的部件，不需要单独增加硬件，在不增加成本的基础上扩展了AR设备的功能，进一步提升用户体验。

需要说明是，对唇语进行识别的算法和模型等需要具有复杂数据处理能力和运算速度的芯片或者硬件支持，因此，上述的唇语识别的算法和模型等可以不设置在AR设备上，例如通过服务器处理，这样不影响AR设备的便携性，也不会增加AR设备的硬件成本。当然，随着科技水平的提高，在不影响AR设备的便携性和硬件成本的条件下，AR设备中的处理单元也可以实现上述唇语识别的算法和模型等，从而提高了AR设备的市场竞争力，本公开的实施例对此不作限制。下面以通过服务器实现该唇语识别方法为例进行介绍，但是本公开的实施例对此不作限制。

例如，该语义信息可以为文字形式的语义文字信息或者音频形式的语义音频信息，或者同时包括语义文字信息和语义音频信息。例如，该唇语识别方法还包括展示语义信息。例如，服务器可将语音文字信息和/或发送给AR设备，在AR设备上可设置展示模式按钮或者菜单等。例如，展示模式可包括显示模式和音频模式，用户可根据需要选择展示模式，用户选择展示模式后会生成对应的展示模式指令。例如，当展示模式指令为显示模式指令时，AR设备可根据该指令将语义言文字信息显示在佩戴增强现实设备的用户视野范围内；当展示模式指令为音频模式指令时，增强现实设备播放该语义音频信息。

例如，可以提供展示单元，并通过该展示单元来展示语义信息；例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现展示单元。

本公开至少一实施例提供的唇语设别方法，可以将识别出的待识别对象的唇语转换成文字或者音频，实现对唇语的翻译，可帮助有特殊需要的人士与他人更好地交流。例如，对于有听力障碍的人士或者老年人等，无法听到他人讲话时的声音，或不方便与他人进行交流时，给其生活带来了不便，但通过佩戴该AR设备可将他人的讲话内容转换成文字，帮助与别人交流。

或者，对于特殊场景下，例如，需要安静的场合(例如需要保密的会议室等)，参会人员讲话声音可能较小，其他人不能较为清楚的听到讲话人的讲话内容；或者在面积较大的报告厅，距离讲话人距离较远的参会人员不能较为清楚的听到讲话人的讲话内容；或者，在周围噪声较大的场所交流时，交流人员之间不能较为清楚的听到讲话人的讲话内容。例如，在上述这些情况下，需要的人员可佩带该AR设备，将作为待识别对象的讲话人的唇语转换成文字或者音频，实现对唇语的翻译，有效改善交流的流畅性。

图2A为本公开至少一实施例提供的一种获取人脸图像序列的流程图，也就是说，图2A为图1中所示的步骤S10的一些示例的流程图。在一些实施方式中，如图2A所示，上述步骤S10所述的获取待识别对象的人脸图像序列，包括步骤S11至步骤S13。

步骤S11：获取包括待识别对象的图像序列。

步骤S12：定位待识别对象的方位。

步骤S13：根据定位出的待识别对象的方位确定待识别对象的人脸区域在图像序列中各帧图像中的位置，从各帧图像中截取待识别对象的人脸区域的图像生成人脸图像序列。

例如，本公开实施例对步骤S11和步骤S12的顺序不作限制。例如，可以先执行步骤S12再执行步骤S11，即先确定待识别对象的方位，然后采集该方位上的待识别对象的图像序列，例如，可直接采集人脸图像序列。例如，也可以先执行步骤S11再执行步骤S12，即先获取包括待识别对像的图像序列，再根据确定的待识别对象的方位，准确快速的获取待识别对象的人脸图像序列。

例如，可通过AR设备的摄像装置采集待识别对象的视频，视频由连续的多帧图像组成，或者摄像装置连续抓拍多帧待识别对象的图像，多帧图像可组成该图像序列，各帧图像均包括待识别对象，也会包括待识别对象的人脸区域，可直接将该图像序列作为人脸图像序列。例如，该图像序列中的图像可以是摄像装置直接采集得到的原始图像，也可以是对原始图像进行预处理之后获得的图像，本公开的实施例对此不作限制。

例如，图像预处理操作可以消除原始图像中的无关信息或噪声信息，以便于更好地对采集的图像进行人脸检测。例如，该图像预处理操作可以包括对采集的图像进行图像缩放、压缩或格式转换、色域转换、伽玛(Gamma)校正、图像增强或降噪滤波等处理。

例如，对于唇语识别而言，只需要包含待识别对象的人脸区域即可，为了进一步提高识别速度，可从各帧图像中截取待识别对象的人脸区域的该部分图像，生成人脸图像序列。例如，该人脸图像序列包括多帧人脸图像，每帧人脸图像为从待识别对象的整个图像中截取的部分图像，该部分图像包括人脸区域。

例如，在从图像中截取人脸图像时，需要定位待识别对象的方位，即待识别对象的人脸区域在佩戴该AR设备的用户所在空间的方位。例如，佩戴该AR设备的用户在一会议室内，待识别对象位于会议室内的某个位置，相对于AR设备的摄像装置的视场范围而言，待识别对象所在的位置可以以AR 设备的摄像装置的视场范围的中心轴线为参考位置，待识别对象所在位置与中心轴线的夹角作为待识别对象的方位，再根据待识别对象的方位进一步的定位待识别对象的人脸区域的在图像中的位置。

例如，佩戴该AR设备的用户面对待识别对象，待识别对象与AR设备的摄像装置的视场范围的中心轴线的夹角为右侧30度，该30度即为待识别对象的方位，根据该方位可以初步确定待识别对象在图像中的位置为距离图像中心一定距离的某一区域内，然后可对该区域进行人脸识别，进一步的定位出人脸区域，截取该部分图像作为人脸图像。

例如，可以预先搜集大量的(例如，10000张或更多张)包括人脸的图像作为样本库，并对样本库中的图像进行特征提取。然后，使用样本库中的图像和提取的特征点通过机器学习(例如深度学习，或者基于局部特征的回归算法)等算法对分类模型进行训练和测试，以得到获取用户的人脸图像的分类模型。例如，该分类模型也可以通过本领域内的其他常规算法例如支持向量机(Support Vector Machine，SVM)等实现，本公开的实施例对此不作限制。需要注意的是，该机器学习算法可以采用本领域内的常规方法实现，在此不再赘述。例如，该分类模型的输入为采集的图像，输出为用户的人脸的图像，从而可以实现人脸识别。

例如，对于定位待识别对象的方位的方式，可以有多种，本公开的实施例不限于上述定位方式。例如，AR设备上可设置红外传感器，红外传感器可以感应待识别对象，进而定位待识别对象的方位，当待识别对象有多个时，通过红外传感器可以感应多个待识别对象的方位，但如果只有其中一个待识别对象正在讲话，对于唇语识别而言，只需要对该正在讲话的待识别对象的人脸图像进行识别即可，不需要其他没有讲话的待识别对象。

由于通过红外传感器不能定位正在讲话的待识别对象，为此，可通过声音定位的方式，即根据待识别对象讲话时发出的语音信号定位待识别对象的方位。具体而言，可在AR设备上设置麦克风阵列，麦克风阵列是麦克风的集群，是由多个麦克风组成的集合，通过麦克风阵列可以定位发声声源的位置。例如，待识别对象(人)讲话的语音信号也为一种发声声源，因此，可据此识别正在讲话的待识别对象的方位。如果有多个待识别对象同时讲话，也可以定位多个正在讲话的待识别对象的方位，上述定位并不要求准确定位待识别对象的准确位置，只要定位出大致的方位即可。

当然，即使不对正在讲话的待识别对象进行定位，该唇语识别方法也是可行的，后续在进行唇语识别时，没有讲话的待识别对象的唇形基本是不变的，因此，对于该待识别对象而言，也不会确定出语义信息，从而只会确定出讲话的待识别对象的语义信息。

例如，用户可选择实时的对唇语进行识别，AR设备的摄像装置可实时的采集待识别对象的图像。例如，AR设备获取人脸图像序列，将人脸图像序列实时的发送给服务器，服务器据此进行唇语识别后返回语义信息，AR设备接收后展示该语义信息。

例如，用户也可以根据需要选择不实时进行唇语识别，AR设备的摄像装置仍然实时的采集待识别对象的图像。例如，获取人脸图像序列后，该人脸图像序列可以为根据摄像装置直接采集的视频(视频由连续的多帧图像组成)进行解析后生成的，或者由摄像装置采用抓拍方式抓拍的多帧人脸图像生成。例如，获取该人脸图像序列后，保存人脸图像序列。例如，可将该人脸图像序列保存在AR设备中(例如，保存在AR设备的寄存器中)。例如，在AR设备上可设置发送按钮或者菜单等，用户可根据需要选择针对保存的人脸图像序列进行唇语识别的时机，此时，用户操作发送按钮或者菜单，据此生成发送指令，根据该发送指令AR设备将保存的人脸图像序列发送给服务器，服务器据此进行唇语识别后返回语义信息，AR设备接收该语义信息后并进行展示。

例如，上述不进行实时唇语识别的方式，可适用于佩戴AR设备的用于不需要与待识别对象实时地进行双向交流的场景。例如，在参加某些演讲或者报告时，在会场的用户没有听力障碍，可以正常的听到演讲人或者报告主讲人的讲话，为了后续整理或者回顾讲话内容，可佩戴该AR设备，AR设备可先保存获取的人脸图像序列，后续需要时再发送给服务器进行唇语识别。

本公开至少一实施例还提供一种唇语识别方法，例如，该唇语识别方法由服务器实现。例如，该唇语识别方法可以至少部分以软件的方式实现，并由服务器中的处理器加载并执行，或至少部分以硬件或固件等方式实现，以扩展增强现实设备的功能，提升设备的用户体验。

图2B为本公开至少一实施例提供的再一种唇语识别方法的流程图。如图2B所示，该唇语识别方法包括步骤S100至步骤S300。下面对该唇语识别方法的步骤S100至步骤S300以及它们各自的示例性实现方式分别进行介绍。

步骤S100：接收增强现实设备发送的待识别对象的人脸图像序列。

例如，服务器接收例如AR设备发送的待识别对象的人脸图像序列。该人脸图像序列的具体获取方法可参考步骤S10的相关描述，在此不再赘述。

步骤S200：基于人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的待识别对象讲话内容的语义信息。

例如，可以由服务器中的处理单元基于人脸图像序列进行唇语识别。例如，该唇语识别的具体实现方法可参考步骤S20的相关描述，在此不再赘述。

步骤S300：向增强现实设备发送语义信息。

例如，语义信息为语义文字信息和/或语义音频信息。由服务器将该语义信息发送至例如AR设备，从而可在AR设备上显示或播放该语义信息。

本公开实施例中的唇语识别方法的技术效果可以参考本公开上述实施例中提供的唇语识别方法的技术效果，这里不再赘述。

图2C为本公开至少一实施例提供的一种唇部识别方法的系统流程图。下面参考图2C对本公开至少一实施例提供的唇部识别方法进行系统地介绍。

首先，可根据红外传感器或麦克风定位待识别对象(例如，讲话的人)的方位以及通过摄像头可采集人脸图像。例如，采集的人脸图像可以实时上传以进行唇部识别，也可以非实时上传，例如，非实时上传时，可将人脸图像序列线保存至AR设备中的寄存器中，并根据发送指令读取人脸图像序列以将其发送至服务器中。

例如，将人脸图像信息发送至服务器后，可基于位于在该方位的人脸图像，在人脸图像中定位唇部的位置，从而可以根据识别唇部的动作获取语义信息。例如，可在服务器端进行唇部动作匹配，从而将与唇部动作对应的语义信息进行文字转换或音频转换以分别获取语义文字信息或语义音频信息。例如，语义文字信息可以在AR设备上显示或进行语音播放；该语义音频信息可进行语音播放。

本公开至少一实施例还提供了一种唇语识别装置。图3A为本公开至少一实施例提供的一种唇语识别装置的示意框图。如图3A所示，在一些示例中，该唇语识别装置03包括人脸图像序列获取单元301、发送单元302、接收单元303。在另一些示例中，该唇语识别装置03还包括展示单元304。

人脸图像序列获取单元301配置为获取待识别对象的人脸图像序列。例如，该人脸图像序列获取单元301可以实现步骤S10，其具体实现方法可以参考步骤S10的相关描述，在此不再赘述。

发送单元302配置为配置为将人脸图像序列发送给服务器，由服务器进行唇语识别确定出人脸图像中的唇部动作对应的语义信息。例如，可以通过蓝牙、Wi-Fi等无线通信方式将人脸图像序列发送给服务器。例如，该发送单元302可以实现步骤S20，其具体实现方法可以参考步骤S20的相关描述，在此不再赘述。

接收单元303配置为接收服务器发送的语义信息；展示单元304配置为展示语义信息。例如，该接收单元303和展示单元304可以实现步骤S30，其具体实现方法可以参考步骤S30的相关描述，在此不再赘述。

例如，在一些实施方式中，语义信息为语义文字信息和/或语义音频信息。例如，在一些示例中展示单元304可以包括展示模式指令生成子单元3041；在另一些示例中，展示单元304还可以包括显示子单元3042和播放子单元3043。

展示模式指令生成子单元3041配置为生成展示模式指令。例如，该展示模式指令包括显示模式指令和音频模式指令。

显示子单元3042配置为在接收到显示模式指令时，将语义文字信息显示在佩戴增强现实设备的用户视野范围内。

播放子单元3043配置为在接收到音频模式指令时，播放语义音频信息。

例如，在一些示例中，如图3C所示，人脸图像序列获取单元301包括图像序列获取子单元3011、定位子单元3012和人脸图像序列生成子单元3013。

图像序列获取子单元3011配置为获取待识别对象的图像序列。

定位子单元3012配置为定位待识别对象的方位。

人脸图像序列生成子单元3013配置为根据定位出的待识别对象的方位确定待识别对象的人脸区域在图像序列各帧图像中的位置，从各帧图像中截取待识别对象的人脸区域的图像生成人脸图像序列。

与前述基于AR设备的唇语识别方法的实施例相对应，本公开实施例提供的基于AR设备的识别装置，可确定出待识别对象的讲话内容，将待识别对象的唇语进行展示，实现了对将待识别对象的唇语的翻译，并且，可利用已有AR设备的部件，不需要单独增加硬件，在不增加成本的基础上扩展了AR设备的功能，进一步提升用户体验。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上；上述各单元可以合并为一个单元，也可以进一步拆分成多个子单元。

例如，本实施例的装置中的各个单元可借助软件的方式实现，或者通过软件和硬件的方式来实现，当然也可以通过通用硬件实现。基于这样的理解，本公开实施例提供的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，以软件实现为例，作为一个逻辑意义上的装置，是通过应用该装置的AR设备所包括的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

需要注意的是，在本公开的实施例提供的唇语识别装置可以包括更多或更少的电路，并且各个电路之间的连接关系不受限制，可以根据实际需求而定。各个电路的具体构成方式不受限制，可以根据电路原理由模拟器件构成，也可以由数字芯片构成，或者以其他适用的方式构成。

图3D为本公开至少一实施例提供的另一种唇语识别装置的示意框图。如图3D所示，该唇语识别装置200包括处理器210、机器可读存储介质220以及一个或多个计算机程序模块221。

例如，处理器210与机器可读存储介质220通过总线系统230连接。例如，一个或多个计算机程序模块221被存储在机器可读存储介质220中。例如，一个或多个计算机程序模块221包括用于执行本公开任一实施例提供的唇语识别方法的指令。例如，一个或多个计算机程序模块221中的指令可以由处理器210执行。例如，总线系统230可以是常用的串行、并行通信总线等，本公开的实施例对此不作限制。

例如，该处理器210可以是中央处理单元(CPU)、图像处理器(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，可以为通用处理器或专用处理器，并且可以控制唇语识别装置200中的其它组件以执行期望的功能。

机器可读存储介质220可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器210可以运行该程序指令，以实现本公开实施例中(由处理器210实现)的功能以及/或者其它期望的功能，例如唇语识别方法等。在该计算机可读存储介质中还可以存储各种应用程序和各种数据，例如人脸图像序列以及应用程序使用和/或产生的各种数据等。

需要说明的是，为表示清楚、简洁，本公开实施例并没有给出该唇语识别装置200的全部组成单元。为实现唇语识别装置200的必要功能，本领域技术人员可以根据具体需要提供、设置其他未示出的组成单元，本公开的实施例对此不作限制。

关于不同实施例中的唇语识别装置100和唇语识别装置200的技术效果可以参考本公开的实施例中提供的唇语识别方法的技术效果，这里不再赘述。

本公开至少一实施例还提供一种增强现实设备。图3E-图4分别为本公开至少一实施例提供的一种增强现实设备的示意框图。

如图3E所示，在一个示例中，该增强现实设备1包括本公开任一实施例提供的唇语识别装置100/200，唇语识别装置100/200具体可参考图3A至图3D的相关描述，在此不再赘述。例如，该增强现实设备1还包括摄像装置、显示装置或播放装置。例如，摄像头，用于采集待识别对象的图像；显示装置，用于显示语义文字信息；播放装置，用于播放语义音频信息。例如，播放装置可以是扬声器、音箱等，且下面以播放装置为扬声器为例进行介绍，本公开的实施例对此不作限制。

如图3F所示，该增强现实设备1可以配带在人的眼部，从而根据需要实现对待识别对象的唇语识别功能。

例如，在另一个示例中，参见图4，该AR设备1包括摄像装置101、(例如摄像头，用于采集待识别对象的图像)、显示装置102(用于显示语义文字信息)、扬声器103(用于播放语义音频信息)等输入/输出(I/O)装置。

例如，该AR设备1还包括：机器可读存储介质104、处理器105、通信接口106和总线107。例如，摄像装置101、显示装置102、扬声器103、机器可读存储介质104、处理器105和通信接口106通过总线107完成相互间的通信。处理器105通过读取并执行机器可读存储介质104中与唇语识别方法的控制逻辑对应的机器可执行指令，可执行上文描述的唇语识别方法。

例如，该通信接口106与通信装置(图中未示出)连接。该通信装置可以通过无线通信来与网络和其他设备进行通信，该网络例如为因特网、内部网和/或诸如蜂窝电话网络之类的无线网络、无线局域网(LAN)和/或城域网(MAN)。无线通信可以使用多种通信标准、协议和技术中的任何一种，包括但不局限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi(例如基于IEEE 802.11a、IEEE 802.11b、IEEE 802.11g和/或IEEE 802.11n标准)、基于因特网协议的语音传输(VoIP)、Wi-MAX，用于电子邮件、即时消息传递和/或短消息服务(SMS)的协议，或任何其他合适的通信协议。

本公开实施例中提到的机器可读存储介质104可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

非易失性介质108可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的非易失性存储介质，或者它们的组合。

需要说明的是，为表示清楚、简洁，本公开实施例并没有给出该AR设备1的全部组成单元。为实现AR设备1的必要功能，本领域技术人员可以根据具体需要提供、设置其他未示出的组成单元，本公开的实施例对此不作限制。

本公开一实施例还提供一种存储介质。例如，该存储介质非暂时性地存储计算机可读指令，当非暂时性计算机可读指令由计算机(包括处理器)执行时可以执行本公开任一实施例提供的唇语识别方法。

例如，该存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含获取待识别对象的人脸图像序列的计算机可读的程序代码，另一个计算机可读存储介质包含展示语义信息的计算机可读的程序代码。例如，当该程序代码由计算机读取时，计算机可以执行该计算机存储介质中存储的程序代码，执行例如本公开任一实施例提供的唇语识别方法。

例如，存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。

有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅是本公开的示范性实施方式，而非用于限制本公开的保护范围，本公开的保护范围由所附的权利要求确定。

Claims

一种唇语识别方法，包括：

获取待识别对象的人脸图像序列；

基于所述人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的所述待识别对象讲话内容的语义信息；

将所述语义信息用于展示。
根据权利要求1所述的方法，其中，基于所述人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的所述待识别对象讲话内容的语义信息，包括：

将所述人脸图像序列发送给服务器，由所述服务器进行唇语识别确定出所述人脸图像中的唇部动作对应的待识别对象讲话内容的语义信息。
根据权利要求2所述的方法，其中，将所述语义信息用于展示之前，所述唇语识别方法还包括：

接收所述服务器发送的所述语义信息。
根据权利要求1-3任一所述的方法，其中，所述语义信息为语义文字信息和/或语义音频信息。
根据权利要求4所述的方法，还包括展示所述语义信息，其中，展示所述语义信息包括：

根据展示模式指令将所述语义文字信息显示在佩戴增强现实设备的用户视野范围内或播放所述语义音频信息。
根据权利要求1-5任一所述的方法，其中，获取所述待识别对象的人脸图像序列，包括：

获取包括所述待识别对象的图像序列；

定位所述待识别对象的方位；

根据定位出的待识别对象的方位确定所述待识别对象的人脸区域在所述图像序列中各帧图像中的位置，从所述各帧图像中截取所述待识别对象的人脸区域的图像生成所述人脸图像序列。
根据权利要求6所述的方法，其中，定位所述待识别对象的方位，包括：

根据所述待识别对象讲话时发出的语音信号定位所述待识别对象的方位。
根据权利要求2-7任一项所述的方法，其中，在获取所述待识别对象的人脸图像序列之后，还包括：

保存所述人脸图像序列。
根据权利要求8所述的方法，其中，将所述人脸图像序列发送给服务器，包括：

在接收到发送指令时将保存的所述人脸图像序列发送给所述服务器。
一种唇语识别装置，包括：

人脸图像序列获取单元，配置为获取所述待识别对象的人脸图像序列；

发送单元，配置为将所述人脸图像序列发送给服务器，由所述服务器进行唇语识别确定出人脸图像中的唇部动作对应的语义信息；

接收单元，配置为接收服务器发送的所述语义信息。
根据权利要求10所述的唇语识别装置，还包括：

展示单元，配置为展示所述语义信息。
根据权利要求11所述的唇语识别装置，其中，所述展示单元包括：

展示模式指令生成子单元，配置为生成展示模式指令，所述展示模式指令包括显示模式指令和音频模式指令。
根据权利要求12所述的唇语识别装置，其中，所述语义信息为语义文字信息和/或语义音频信息，所述展示单元还包括：

显示子单元，配置为在接收到所述显示模式指令时，将所述语义文字信息显示在佩戴增强现实设备的用户视野范围内；

播放子单元，配置为在接收到所述音频模式指令时，播放所述语义音频信息。
根据权利要求10-13任一所述的唇语识别装置，其中，所述人脸图像序列获取单元包括：

图像序列获取子单元，配置为获取所述待识别对象的图像序列；

定位子单元，配置为定位所述待识别对象的方位；

人脸图像序列生成子单元，配置为根据定位出的待识别对象的方位确定所述待识别对象的人脸区域在所述图像序列各帧图像中的位置，从所述各帧图像中截取所述待识别对象的人脸区域的图像生成所述人脸图像序列。
一种唇语识别装置，包括：

处理器；

机器可读存储介质，存储有一个或多个计算机程序模块；

其中，所述一个或多个计算机程序模块被存储在所述机器可读存储介质中并被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行实现权利要求1-9任一所述的唇语识别方法的指令。
一种增强现实设备，包括如权利要求10-15任一所述的唇语识别装置。
根据权利要求16所述的增强现实设备，还包括摄像装置、显示装置或播放装置；其中，

所述摄像装置配置为采集所述待识别对象的图像；

所述显示装置配置为显示所述语义信息；

所述播放装置配置为播放所述语义信息。
一种唇语识别方法，包括：

接收增强现实设备发送的待识别对象的人脸图像序列；

基于所述人脸图像序列进行唇语识别以确定出人脸图像中的唇部动作对应的所述待识别对象讲话内容的语义信息；

向增强现实设备发送所述语义信息。
一种存储介质，非暂时性地存储计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时可以执行根据权利要求1-9任一所述的唇语识别方法或权利要求18所述的唇语识别方法的指令。