WO2022226919A1

WO2022226919A1 - 与乘客交流的方法及相关装置

Info

Publication number: WO2022226919A1
Application number: PCT/CN2021/091121
Authority: WO
Inventors: 兰睿东; 王頔; 于佳鹏; 黄为; 徐文康
Original assignee: 华为技术有限公司
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-11-03
Also published as: CN113330394A

Abstract

一种与乘客的交流方法，具体包括：获取座舱内目标乘客的手语信息(S201)；根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息(S202)；通过多媒体设备播放目标乘客的手语信息对应的文本信息，向座舱内目标人员告知目标乘客的手语所表达的内容(S203)。采用该方法，解决了与特殊乘客，比如听障乘客等语言障碍乘客或者不方便讲话的乘客之间交流障碍的问题。

Description

与乘客交流的方法及相关装置

技术领域

本申请涉及智能车领域，具体涉及一种与乘客交流的方法及相关装置。

背景技术

信息的接收与传递是人类和整个世界基本的沟通方式，而对于听障人士来说，他们失去了认识世界最重要之一的感知途径—声音。目前，听障人群数量巨大，但无障碍设施整体普及率仅为40.6％。更重要的是，听障人士除了使用手语交流外，正常生活中与普通人无异，导致听障人群的真正需求时常被忽略。听障乘客等语言障碍乘客乘车是一个更加特殊的场景，主要包含两点：一是大多数驾驶员无法直接阅读手语，导致其和听障乘客交流十分困难；二是听障乘客除非使用特殊的装置进行发声，不然只能通过写字的方式传达信息，会直接影响驾驶员的注意力集中。

发明内容

本申请实施例提供了一种与乘客交流的方法及相关装置，可解决乘车情景下的与听障乘客或者不方便讲话的乘客交流障碍问题，帮助听障乘客或者不方便讲话的乘客与司机或者其他乘客可以正常无障碍交流。

第一方面，本申请实施例提供了一种与乘客交流的方法，该方法包括：

获取座舱内目标乘客的手语信息；根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息；通过多媒体设备播放目标乘客的手语信息对应的文本信息，以向座舱内目标人员告知目标乘客的手语所表达的内容。

其中，目标乘客可以为听障乘客或者不方便讲话的乘客。目标人员为座舱内除了目标乘客之外的人员，比如司机或者其他乘客。

与乘客交流具体是指座舱内听障乘客与司机之间的交流、或者听障乘客与无障乘客之间的交流，或者无障乘客与司机之间的交流等多种场景。

在一个示例中，在听障模式下，获取座舱内目标乘客的手语信息；根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息；通过多媒体设备播放目标乘客的手语信息对应的文本信息。

其中，由于通过手语表达一句话或者多句话的意思，目标用户需要表达一段时间的手语，因此上述获取座舱内目标乘客的手语信息是实时获取的，才能保证不遗漏目标乘客通过手语所要表达的意思。

通过将目标乘客的手语信息转换成文本信息，然后通过多媒体设备播放目标乘客的手语信息转换得到的文本信息，以向目标人员告知目标乘客的手语所表达的意思，解决了目标乘客与目标人员之间交流障碍的问题。

其中，上述多媒体设备可以是车载的，也可以加装的设备，还可以是座舱内乘客的终端设备，比如智能手机、智能手表或者智能手环。

在一个可行的实施例中，多媒体设备包括目标人员的显示屏和/或扬声器，通过多媒体设备播放目标乘客的手语信息对应的文本信息，包括：

通过目标人员的显示屏显示目标乘客的手语信息对应的文本信息，和/或；通过扬声器播放第一音频信号，以向目标人员告知目标乘客的手语信息所表达的内容，第一音频信号是基于目标乘客的手语信息对应的文本心得到的。

可选地，上述目标人员或目标乘客的显示屏可以为位于前挡风玻璃上；或者对于位于前排的乘客(包括目标人员和目标乘客)，其显示屏位于中控台上；对于后排的乘客，其显示屏位于前排座椅上。

通过显示屏显示目标乘客的手语信息对应的文本信息或者通过扬声器播放第一音频信号，方便座舱内目标人员知晓目标乘客所表达的意思；并且对于司机来说，通过扬声器播放第一音频信号，可避免司机因分心查看目标乘客的手语信息对应的文本信息而造成危险驾驶。

在一个可行的实施例中，多媒体设备包括目标乘客的显示屏，通过多媒体设备播放目标乘客的手语信息对应的文本信息之前，本实施例的方法还包括：

将目标乘客的手语信息对应的文本信息显示在目标乘客的显示屏上，供目标乘客确认目标乘客的手语信息对应的文本信息是否正确；根据目标乘客针对显示屏的操作指令和目标乘客的手语信息对应的文本信息得到目标文本；

多媒体设备还包括目标人员的显示屏和/或扬声器，通过多媒体设备播放目标乘客的手语信息对应的文本信息，包括：

通过目标人员的显示屏显示目标文本，和/或；通过扬声器播放第二音频信号，以向目标人员告知目标乘客的手语信息所表达的内容，第二音频信号是基于目标文本得到的。

由于基于目标乘客的手语信息得到的文本信息可能与目标乘客所表达的不一致，因此在基于目标乘客的手语信息得到的文本信息后，将该文本信息显示在目标乘客的显示屏上，供目标乘客确认是否有误；若确认有误，目标乘客可以对文本进行修改，得到目标文本，提高了系统的实用性。

在一个可行的实施例中，根据目标乘客的手语信息，确定目标乘客手语信息对应的文本信息之前，本申请的方法还包括：

根据目标乘客的身体姿态信息确定目标乘客是否进行手语操作，或者，根据目标乘客的身体姿态信息和手势信息确定目标乘客是否进行手语操作；其中，目标乘客的身体姿态信息和手势信息是根据目标乘客的图像信息得到的；在确定目标乘客进行手语操作时，进入听障模式。

在判断目标乘客进行手语操作时，进入听障模式，避免了目标乘客在做手语时却没有进入听障模式而忽视了目标乘客所做的手语，提高了系统的用户体验。

在一个可行的实施例中，本申请的方法还包括：

在检测到乘客上车后，获取座舱内乘客的图像信息；根据座舱内乘客的图像信息确定出座舱内的目标乘客，目标乘客为基于座舱内乘客的图像信息确定做出预设动作的乘客，或者；在检测到目标人员针对目标乘客按键的指令后，确定座舱内有目标乘客。采用此方式，可以准确地确定座舱内是否有目标乘客，从而避免目标乘客与目标人员无法沟通的问题。

可选地，目标乘客按键可以为座舱内的实体案件、触摸案件等；上述目标人员针对目标乘客按键的指令可以为按压指令，触摸指令、手势指令或者语音指令等。

在一个可行的实施例中，本申请的方法还包括：在确定座舱内有目标乘客时，进入听障模式，不需要判断目标乘客是否进行手语操作，从而可以避免因执行“判断目标乘客是否进行手语操作”而遗漏目标乘客手语。

在一个可行的实施例中，多媒体设备包括目标乘客的显示屏，本申请的方法还包括：

获取通过麦克风采集的目标人员针对目标乘客的手语信息的第三音频信号；通过目标乘客的显示屏显示第一文本，第一文本是根据第三音频信号得到的。通过该方式，可以让目标乘客知晓目标人员的回复。

在一个可行的实施例中，本申请的方法还包括：

在目标乘客的显示屏上显示第三文本信息时，在该显示屏上显示乘客标识，乘客标识用于指示发出第三音频信号的乘客。通过该方式，可以让目标乘客知晓座舱内与其进行沟通的乘客具体是哪位。

第二方面，本申请实施例提供了一种用于与乘客交流的车载装置，该车载装置包括：

获取单元，用于获取座舱内目标乘客的手语信息；

确定单元，用于根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息；

控制单元，用于控制多媒体设备播放目标乘客的手语信息对应的文本信息，以向座舱内目标人员告知目标乘客的手语所表达的内容。

可选的，获取单元，用于在听障模式下，获取座舱内目标乘客的手语信息，

在一个可行的实施例中，多媒体设备包括目标人员的显示屏和/或扬声器，在控制多媒体设备播放目标乘客的手语信息对应的文本信息的方面，控制单元具体用于：

控制目标人员的显示屏显示目标乘客的手语信息对应的文本信息，和/或；控制扬声器播放第一音频信号，以向座舱内目标人员告知目标乘客的手语所表达的内容，该第一音频信号是基于目标乘客的手语信息对应的文本信息得到的。

在一个可行的实施例中，多媒体设备包括目标乘客的显示屏，在控制单元控制多媒体设备播放目标乘客的手语信息对应的文本信息之前，

控制单元，还用于控制将目标乘客的手语信息对应的文本信息显示在目标乘客的显示屏上，供目标乘客确认目标乘客的手语信息对应的文本信息是否正确；

获取单元，还用于根据目标乘客针对显示屏的操作指令和目标乘客的手语信息对应的文本信息得到目标文本；

多媒体设备还包括目标人员的显示屏和/或扬声器，在控制多媒体设备播放目标乘客额的手语信息对应的文本信息的方面，控制单元具体用于：

控制目标人员的显示屏显示目标文本，和/或；通过扬声器播放第二音频信号，以向座舱内目标人员告知目标乘客的手语所表达的内容，第二音频信号是基于目标文本得到的。

在一个可行的实施例中，在根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息之前，确定单元还用于：

根据目标乘客的身体姿态信息确定目标乘客是否进行手语操作，或者，

根据目标乘客的身体姿态信息和手势信息确定目标乘客是否进行手语操作；其中，目标乘客的身体姿态信息和手势信息是根据目标乘客的图像信息得到的；在确定目标乘客进行手语操作时，进入听障模式。

在一个可行的实施例中，获取单元，还用于在检测到乘客上车后，获取座舱内乘客的图像信息；

确定单元，还用于根据座舱内乘客的图像信息确定出座舱内的目标乘客，目标乘客为基于座舱内乘客的图像信息确定做出预设动作的乘客；或者，

确定单元，还用于在检测到目标人员针对目标乘客按键的指令后，确定座舱内有目标乘客。

在一个可行的实施例中，多媒体设备包括目标乘客的显示屏，获取单元，还用于获取通过麦克风采集的目标人员针对目标乘客的手语信息的第三音频信号；

控制单元，还用于控制目标乘客的显示屏显示第一文本，第一文本是根据第三音频信号得到的。

在一个可行的实施例中，控制单元还用于：

控制目标乘客的显示屏显示第三文本信息时，在该显示屏上显示乘客标识，乘客标识用于指示发出第三音频信号的乘客。

在一个可行的实施例中，目标乘客为听障乘客，或者不方便讲话的乘客。

第三方面，本申请实施例提供一种车载装置，包括处理器和存储器，其中，处理器和存储器相连，其中，存储器用于存储程序代码，处理器用于调用程序代码，以执行如第一方面所述方法的部分或全部。

第四方面，本申请实施例提供一种芯片系统，芯片系统应用于电子设备；芯片系统包括一个或多个接口电路，以及一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，电子设备执行如第一方面所述方法的部分或全部。

第五方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现如第一方面所述方法的部分或全部。

可以看出，在本申请的实施例中，在听障模式下，获取座舱内目标乘客的手语信息，对目标乘客的手语信息进行识别，得到目标乘客的手语信息对应的文本信息，并通过多媒体设备播放目标乘客的手语信息对应的文本信息，以向座舱内目标人员告知目标乘客的手语所表达的意思，解决了座舱内听障乘客或者不方便讲话的人员与其他人员之间交流的问题；在得到目标乘客的手语信息对应的文本信息，将该文本信息显示在目标乘客的显示屏上，供目标乘客确认文本信息是否正确；在确定文本信息未表达出其手语所表示的意思，目标乘客可通过显示屏修改文本信息，得到目标文本，提高了系统的实用性；在判断目标乘客进行手语操作时，进入听障模式，避免了目标乘客在做手语时却没有进入听障模式而忽视了目标乘客所做的手语，提高了系统的用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1a为本申请实施例提供的一种系统架构示意图；

图1b为本申请实施例提供的与乘客交流方法的流程示意图；

图1c为本申请实施例提供的另一种系统架构示意图；

图1d为本申请实施例提供的一种手语识别模型的架构示意图；

图2为本申请实施例提供的一种与乘客交流方法的流程示意图；

图3为本申请实施例提供的一种界面显示示意图；

图4为本申请实施例提供的目标乘客交流方法的流程示意图；

图4a为本申请实施例提供的前排乘客的显示屏设置位置示意图；

图4b为本申请实施例提供后排乘客的显示屏设置位置示意图；

图5为语音转换成文本的原理图；

图6为本申请实施例提供的一种听障乘客交流方法的流程示意图；

图7为本申请实施例提供的一种用于与乘客交流的车载装置的结构示意图；

图8为本申请实施例提供的一种车载装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

首先需要说明的是，本申请中的目标乘客为座舱内的听障乘客，或者不方便讲话的乘客，目标人员为座舱内除了目标乘客之外的人员，比如无障乘客或者司机等。

参见图1a，图1a为本申请实施例提供的一种系统架构示意图。如图1a所示，该系统架构包括：车载装置101、动作采集器102、音频采集器103、显示屏104和扬声器105。

其中，车载装置102是整个系统的控制中心，包括多个模块，该多个模块包括中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、神经网络处理器(neural network processing unit,NPU)中的一种或多种，该车载装置101还包括存储器。车载装置101主要包括以下功能：

对动作采集器102进行控制，操控采集的各个环节，包括动作采集器102的多个成像指标，比如亮度、光照、曝光时间等，并将采集的图像数据处理成后续算法需要的格式；

对音频采集器103进行控制，控制采集的各个环节，包括音频采集器103采集的音频信号的指标，比如频率、音量等，并将采集的音频信号处理成后续算法需要的格式；

对采集的图像进行特征提取，得到目标乘客的手语信息；基于深度学习算法对目标乘客的手语信息确定目标乘客的手语语义，并将目标乘客的手语语义转换为文本信息，在显示屏104上显示，供目标人员理解目标乘客的手语。可选地，将目标乘客的手语语义转换为音频信号，通过扬声器105播放该音频信号，以方便目标人员理解目标乘客的手语；可选地，将目标乘客的手语语义转换为文本信息，在显示屏104上显示供目标乘客修改，在目标乘客确认文本信息无误后，将该文本信息通过显示屏104显示，或者将该文本信息转换为音频信号，并通过扬声器105播放该音频信号，以便目标人眼理解目标乘客的手语；

动作采集器102，用于采集座舱内乘客的手语信息；可选地，动作采集器包括图像摄像头、飞行时间(time of flight,TOF)摄像头或者毫米波雷达；其中，图像摄像头用于采集座舱内的平面图、红绿蓝(red green blue，RGB)成像或者红外线(infrared radiation,IR)图像；本申请的方法可以基于图像摄像头采集的图像获取座舱内乘客的手语信息；TOF摄像头用于采集深度图像，该深度图像包含平面图像以及深度信息，在拥有深度信息的条件下，可以基于深度图像获取更加精确的手语信息；通过毫米波雷达发射的高频信号，对乘客的动作不断的扫描，可得到乘客的手语信息。

音频采集器103，包括安装在座舱内不同位置的麦克风，可以准确采集座舱内的音频信号，然后通过车载装置101将采集的音频信号语音转译为文本，并显示在显示屏104上，供目标乘客阅读。该音频采集器103可以是车辆自带的，也可以是加装的。

显示屏104，可以为普通显示屏或者触摸显示屏，该显示屏104可以是车辆自带的，也可以是加装的；可以用于显示文本信息，该文本信息为经音频采集器103采集的音频信号转换得到的文本信息，或者为表示目标乘客的手语语义的文本信息；若为触摸显示屏，还可以供目标乘客修改经基于目标乘客的手势信息确定的手语语义得到的文本信息，方便正确表达目标乘客的手语；显示屏104的数量和位置在此均不作限定；

扬声器105可以为车辆自带的扬声器，也可以为加装的扬声器，用于播放基于，以使司机或者其他无障乘客理解目标乘客的手语含义。扬声器105的数量和位置在此均不作限定。

图1a所示的系统架构中各设备配合实现如图1b所示的方法流程：在目标乘客进入座舱后，动作采集器102对目标乘客的身体姿态和手部动作进行持续检测，车载装置101利用深度学习算法对检测到的身体姿态及手语动作进行准确识别，将手语实时翻译成文本；翻译成文本后在显示屏104上给目标乘客提供可逐字修改的界面，目标乘客确认文本无误后，将文本进行语音合成，并将得到的语音通过扬声器105播放；车载装置101利用深度学习算法对座舱内音频采集器103采集的无障乘客或司机的语音进行实时识别并得到文本，将该文本实时显示在显示屏104上供目标乘客查阅。

参见附图1c，本申请实施例提供了另一种系统架构100。如所述系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括记录有手语信息的视频或者图像和该手语信息对应的文本信息；并将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到手语识别模型113，该手语识别模型113能够用于实现本申请实施例所公开的手语识别方法，即，将记录有目标乘客的手语信息的图像或视频通过相关预处理后输入该手语识别模型113，即可得到目标乘客的手语信息对应的文本信息。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行手语识别模型113的训练，也有可能从云端或其他地方获取训练数据进行模型训练，例如，训练设备120直接根据记录有目标乘客的手语信息的图像或视频及目标乘客的手语信息对应的文本信息进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的手语识别模型113可以应用于不同的系统或设备中，如应用于图1c所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，台式电脑，AR/VR，车载终端等，还可以是服务器或者云端等。在附图1c中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，可以通过采集设备170向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括记录目标乘客的手语信息的视频或图像，以使手语识别模型113对记录目标乘客的手语信息的视频或图像进行手语识别，此时，采集设备170可以是图像采集设备，如相机，可以参见上述动作采集器102。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如上述计算模块111得到的待测产品的检测结果和/或热力图返回给多媒体设备140，从而提供给用户，此时，多媒体设备140可以为显示器。

值得说明的是，训练设备120可以针对不同的目标或者不同的任务，基于不同的训练数据生成相应的手语识别模型113，该相应的手语识别模型113即可以用于实现上述目标或完成上述任务，从而输出手语信息对应的文本信息。

在附图1c中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，用户的终端设备可以自动地向I/O接口112发送输入数据，如果要求用户的终端设备自动发送输入数据需要获得用户的授权，则用户可以在用户的终端设备中设置相应权限。用户可以在终端设备查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。采集设备170也可以作为数据采集端，采集如图1c所示的I/O接口112的输入数据及I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过采集设备170进行采集，而是由I/O接口112直接将如图1c所示I/O接口112的输入数据及I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1c仅是本发明实施例提供的一种系统架构的示意图，图1c中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1c中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。另外，训练设备120和执行设备110可以为同一个设备。

如图1c所示，根据训练设备120训练得到手语识别模型113，具体的，参考图1d，图1d是本申请实施例提供的手语识别模型的结构示意图；本申请实施例提供的手语识别模型可以包括：检测模块、特征提取模块、语义识别模块和文本合成模块，手语识别模型的具体描述过程参考实施例一中关于图2的描述。

在一个可行的实施例中，本申请提供一种交流方法，包括：

S1：接收乘客的手势/肢体信息。

其中，该乘客为座舱内任一乘客，可以为听障乘客或者不方便讲话的乘客，也可以为无障乘客。

可选地，手势/肢体信息可以是预设的，也可以是周期性更新。比如座舱内的摄像头、激光雷达或者其他传感器采集上述乘客的图像信息或者其他形式的信息，然后基于该乘客的图像信息或者其他形式的信息提取手势/肢体信息。

可选地，在接收乘客的手势/肢体信息之前，需要判断该乘客是否为听障乘客或者不方面讲话的乘客；一种方式是：在该乘客进入座舱后是否做出预设手势或者预设肢体动作；在确定该乘客做出预设手势或者预设的肢体动作时，确定该乘客为听障乘客或者不方面讲话的乘客；另一种方式是：在座舱内每个座位上或者附近设置有一个按键，可以是实体按键，也可以是虚拟触摸按键；在乘客进入座舱后，是否检测到乘客针对该按键的指令，在检测到乘客针对该按键的指令时，确定该乘客为听障乘客或者不方面讲话的乘客。

S2：根据该乘客的手势/肢体信息，通过多媒体设备表达或者播放该乘客的手语信息对应的文本信息。

具体地，根据该乘客的手势/肢体信息判断该乘客是否在进行手语操作；在确定该乘客在进行手语操作时，实时获取该乘客的手语信息，并根据该乘客的手语信息，确定该乘客的手语信息对应的文本信息，并通过多媒体设备播放该乘客的手语信息对应的文本信息。

其中，根据该乘客的手势/肢体信息判断该乘客是否在进行手语操作，包括：

根据该乘客的手势信息判断该乘客是否在进行手语操作，或者根据该乘客的手势信息和肢体信息判断该乘客是否在进行手语操作。

在此需要指出的是，本实施的具体实现过程参见下图2所示实施例的相关描述，在此不再叙述。

需要指出的是，上述实施例和图2所示实施例的执行主体，可以是车载中控台，也可以是加装的具有处理能力的设备，也可是司机或者乘客的终端设备，比如司机或乘客的智能手机、智能手表、平板电脑等。但在执行上述方法之前，这些设备需要与车载传感器、多媒体设备建立有线或者无线连接。

参见图2，图2为本申请实施例提供的一种目标乘客交流方法的流程示意图。如图2所示，该方法包括：

S201、在听障模式下，获取座舱内目标乘客的手语信息。

在一个可行的实施例中，本申请的方法还包括：

当检测到乘客上车后，获取座舱内乘客的视频，根据座舱内乘客的视频确定出座舱内的目标乘客，该目标乘客为基于座舱内乘客的视频确定做出预设动作的乘客。可选地，该预设动作可以为预设身体动作或者预设手势动作。当然，在预设身体动作和预设手势动作是可以周期性更新的。

具体地，通过动作采集器获取座舱内乘客的视频，基于该座舱内乘客的视频确定座舱内每个乘客的动作信息；基于每个乘客的动作信息判断该乘客是否做出预设动作，该预设动作可以为预设手势动作或者预设身体动作；若该乘客做出预设动作，则确定该乘客为目标乘客；若该乘客未做出预设动作，则确定该乘客为无障乘客。

可选地，动作采集器包括摄像头、激光雷达或者毫米波雷达。这些设备可以是车辆自带的，也可以是加装的。可选地，上述摄像头可以为用于采集平面图像、RGB图像或者红外图像的摄像头，还可以为TOF摄像头。激光雷达或者毫米波雷达可以采集具有深度信息的点云图像。

在一个可行的实施例中，座舱内每个座位上都安装有听障按键，可以是实体按键，也可以是虚拟触摸按键，在乘客上车后，检测到针对任一听障按键的操作指令时，确定该听障按键对应的座位上的乘客为目标乘客。可选地，上述操作指令可以为按压操作指令、触摸操作指令或者手势操作指令。

可选地，按照上述方法确定座舱内有目标乘客时，为了避免误判，向目标乘客发送确认信息，以请求确认该乘客是否为真正的目标乘客；接收该乘客的反馈信息，基于该反馈信息确定该乘客是否目标乘客。

在一个可行的实施例中，在乘客进入座舱后，乘客座位对应的显示屏上显示一个标签，如图3所示，该标签用于提示坐在该座位上的乘客是否为目标乘客；根据乘客的针对该标签的反馈信息确定坐在该位置的乘客是否为目标乘客。其中，对于无障乘客来说，该反馈信息可以是语音信息；对于目标乘客，显示屏上同时显示有两个功能按键，该两个功能按键分别指示坐在该座位上的乘客为目标乘客和不为目标乘客，此时反馈信息可以针对该两个功能按键的按压指令或触摸指令。进一步地，车载装置可以通过反馈信息的来源确定目标乘客在座舱内的位置信息。

在另一个可行的实施例中，在乘客进入座舱后，司机可通过与乘客的沟通确定乘客是否为目标乘客；在确定乘客为目标乘客时，司机向车载装置发送指令，该指令可以是语音指令、手势指令或者其他指令；车载装置接收到司机的指令时，确定座舱内有目标乘客。

在一个可行的实施例中，根据目标乘客的手语信息确定目标乘客的手语信息对应的文本信息之前，需要确定出目标乘客是否在进行手语操作，在确定目标乘客在进行手语操作时，实时获取座舱内目标乘客的手语信息，根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息。其中，确定目标乘客是否在进行手语操作，具体可采用如下方式：

从目标乘客的视频中提取出目标乘客的身体姿态信息，然后基于目标乘客的身体姿态信息确定目标乘客是否在进行手语操作。为了提高判断精度，还可以从目标乘客的视频中提取出目标乘客的手势信息，再基于目标乘客的身体姿态信息和手势信息确定目标乘客是否在进行手语操作。

可选地，基于目标乘客的身体姿态信息确定目标乘客是否在进行手语操作，包括：

将目标乘客的身体姿态信息，或者将目标乘客的身体姿态信息和手势信息输入到二分类的深度神经网络中进行处理，得到一个输出结果，该输出结果包括第一标识，该第一标识的不同取值表征目标乘客在进行手语操作或者表征目标乘客在未进行手语操作。比如，第一标识为1或true时表征目标乘客在进行手语操作，第一标识为0或false时，表征目标乘客在未进行手语操作。

可选地，目标乘客的身体姿态信息和手势信息是根据目标乘客的视频得到的，具体地，利用深度学习算法，并结合上下文信息，对目标乘客的当前图像信息进行处理，得到目标乘客的人体关键点信息和手部关键点信息，其中，上述上下文信息包括采集时间位于当前图像之前的图像及基于该之前的图像得到的目标乘客的人体关键点信息和手部关键点信息；上述身体姿态信息包括人体关键点信息，上述手势信息包括手部关键点信息。人体关键点信息和手部关键点信息均包含2维(2dimension，2d)平面信息和3维(2dimension，3d)平面信息，可选地，人体关键点信息是尺度较大的关键点信息，包括18关键点信息或者32关键点信息。

需要指出的是，目标乘客在利用手语表示一句话时，是需要连续做出多个手语的，因此在进入听障模式后，需要实时获取目标乘客的视频，该视频包括目标乘客的手语信息。

在一个可行的实施例中，在确定座舱内有目标乘客时，不执行步骤“判断目标乘客是否做出手语”，直接进入听障模式，实时获取目标乘客的手语信息。

其中，手语信息用于表征手语的信息，由于表示手语不仅需要手势信息，还需借助手臂和身体部分部位，因此手语信息包括手势信息和身体姿态信息。

S202、根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息。

具体地，目标乘客在利用手语表达一句话的意思时，需要连续做出多个手语，其中，一个手语或多个连续的手语表示上述一句话中的一个字或者一个词，可选地，一个手语或多个连续的手语表示上述一句话中的一个词语；因此，从实时获取的目标乘客的视频中实时提取目标乘客的手语信息，以得到目标乘客的一个或多个手语信息；可选地，在获取包含目标乘客的完整手语信息的视频后，再对该视频中的目标乘客的手语信息进行提取，得到一个或多个手语信息；在得到一个或多个手语信息后，基于一个或多个手语信息得到一个或多个短语，该短语可以为一个字，也可以为词语；将多个短语组合成一个拥有完整意向的语句，该语句可以表示目标乘客手语，该语句即为上述目标乘客的手语信息对应的文本信息。

可选地，将上述多个短语输入一个神经网络模型中进行处理，以将多个短语组成一句拥有完整意向的语句，在实现过程中，可以采用循环神经网络(recurrent neural network，RNN)模型，如长短期记忆(long short term memory，LSTM)神经网络模型来实现。

下面结合附图具体说明，在进入听障模式后，车载装置通过座舱内的摄像头实时采集目标乘客的图像，输入到手语识别模型中；可选地，在实时采集目标乘客的图像后，按照第一预设频率从实时采集的图像中进行采样，并将采样结果输入到手语识别模型中，可选地，车载装置按照第二预设频率通过座舱内的摄像头采集目标乘客的图像，并输入到手语识别模型中；如图4所示，该手语识别模型包括检测模块、特征提取模块、语义识别模块和文本合成模块；由于在进行手语表示时，需要借助手部，双臂及部分身体部位，因此在进行手语识别时，需要在输入的图像中确定目标乘客的手部、双臂和身体的位置信息；具体地，检测模块对输入的图像进行检测，确定目标乘客的图像中目标乘客的手部、双臂和身体的位置信息，检测模块输出包含一个或多个检测框的图像，该检测框中的内容包含目标乘客的手部、双臂和身体部位；然后将包含一个或多个检测框的图像输入到特征提取模块；特征提取模块提取输入的图像中一个或多个检测框内目标乘客的手部关键点信息和人体关键点信息，其中，人体关键点信息包含双臂的特征信息；其中，手部关键点信息和人体关键点信息是以向量的方式表示的，因此特征提取模块输出的是目标乘客的手部特征向量和身体姿态特征向量。

由于目标乘客表示一句话的意思时，需要用手语表达一段时间，因此若要确定目标乘客所表达的意思，需要实时获取目标乘客进行手语表达的图像，通过检测模块确定从第一张到第N张图像中目标乘客的手语、双臂和部分身体部位的位置信息后，后续可以采用跟踪技术确定后续图像中目标乘客的手语、双臂和部分身体部位的位置信息；其中，N大于或者等于1。

按照上述方式获取第1张图像到第M张图像中目标乘客的手部特征向量和身体姿态特征向量后，将在第1张图像之前获取的图像中目标乘客的手部特征向量和身体姿态特征向量及将第1张图像到第M张图像中目标乘客的手部特征向量和身体姿态特征向量输入到语义识别模块中进行手语识别，得到一个或多个第一短语，其中，多个第一短语可以存在相同的短语，多个第一短语也可以为均互不相同的短语；在获取第M+1张图像中目标乘客的手部特征向量和身体姿态特征向量后，将在第2张图像之前获取的图像(包括上述第1张图像)中目标乘客的手部特征向量和身体姿态特征向量及第2张图像和第M+1张图像中目标乘客的手部特征向量和身体姿态特征向量输入语义识别模块中进行处理，得到一个或多个第二短语，其中，多个第二短语存在相同的短语，多个第二短语也可以为均互不相同的短语；在一个或多个第一短语中，可以存在与一个或多个第二短语相同的短语。其中，M为预设值；可选地，M可以为1,2,3,5或者其他值。按照该方式得到一个或多个第一短语、一个或多个第二短语、……一个或多个第T短语后，将该一个或多个第一短语、一个或多个第二短语、……一个或多个第T短语输入到文本合成模块中进行处理，得到文本信息；其中，该文本合成模型可以是神经网络模型。例如，在实现过程中，可以采用RNN网络，如基于attention机制的transformer-RNN网络来合成文本。上述文本信息即为上述手语识别模型的输出，T为正整数。第T短语是在第T张图像之前获取的图像(包括上述第1张图像、第2张图像……第T张图像)中目标乘客的手部特征向量和身体姿态特征向量及该第T张图像至第T+M-1张图像中目标乘客的手部特征向量和身体姿态特征向量输入到语义识别模块中进行处理得到的。

在一个可选地示例中，特征提取模块在提取目标乘客的手部特征和身体姿态特征时，可以是同时进行的，也可以是分开进行的。

在一个可行的实施例中，车载装置可以通过空中下载技术(over-the-air technology，OAT)按照预设周期从训练设备中获取手语识别模型，从而到达定期更新手语识别模型的目的，进而提高手语识别模型的精度。

S203、通过多媒体设备播放目标乘客的手语信息对应的文本信息，以向座舱内目标人员告知目标乘客的手语所表达的内容。

在一个可选地实施例中，多媒体设备包括每个座位对应设置的显示屏，在获取目标乘客的手语信息对应的文本信息后，通过目标人员的显示屏显示目标乘客的手语信息对应的文本信息，以向座舱内目标人员告知目标乘客的手语所表达的内容。

如图4a所示，对于前排的乘客的显示屏，可以设置于其前方的挡风玻璃上，还可以设置在前面操作台上，还可以设置在该乘客侧面的玻璃(即旁边车门上的玻璃)上。可选地，可以是通过投射的方式，类似于投影仪，将所要显示的内容投射到前面挡风玻璃上，或者侧面的玻璃上。

如图4b所示，对于后排乘客的显示屏，可以设置在其前面座椅的靠背上，或者设置在还可以设置在该乘客侧面的玻璃(即旁边车门上的玻璃)上。

在一个可选地实施例中，多媒体设备包括扬声器，在获取目标乘客的手语信息对应的文本信息后，根据目标乘客的手语信息对应的文本信息得到第一音频信号，通过扬声器播放第一音频信号，以向座舱内目标人员告知目标乘客的手语所表达的内容。

在一个可选地实施例中，多媒体设备包括扬声器和每个座位对应设置的显示屏，在获取目标乘客的手语信息对应的文本信息后，根据目标乘客的手语信息对应的文本信息得到第一音频信号，通过目标人员的显示屏显示目标乘客的手语信息对应的文本信息，同时通过扬声器播放第一音频信号，以向座舱内目标人员告知目标乘客的手语所表达的内容；此时，目标乘客的手语信息对应的文本信息可以看成第一音频信号对应的字幕。

在一个可选的实施例后，多媒体设备包括目标乘客的显示屏，通过多媒体设备播放目标乘客的手语信息对应的文本信息之前，本申请的方法还包括：

将目标乘客的手语信息对应的文本信息显示在目标乘客的显示屏上，以供目标乘客确认目标乘客的手语信息对应的文本信息是否正确；根据目标乘客针对目标乘客的显示屏的操作指令和目标乘客的手语信息对应的文本信息得到目标文本；

多媒体设备还包括扬声器和/或目标人员的显示屏，通过多媒体设备播放目标乘客的手语信息对应的文本信息，包括：

通过目标人员的显示屏显示目标文本，和/或；通过扬声器播放第二音频信号，以向目标人员告知目标乘客的手语所表达的内容，该第二音频信号是基于目标文本得到的。

具体地，由于存在因为前期采集的目标乘客做手语时的视频精度低，或者其他原因导致确定的目标乘客的手语信息对应的文本信息所表示手语所表达的内容不准确情况，为了避免这样的情况，更加精确地向目标人员告知目标乘客的手语所表达的内容，在基于听障乘的手语信息得到目标乘客的手语信息对应的文本信息，并将目标乘客的手语信息对应的文本信息显示在目标乘客的显示屏上，以供目标乘客确认目标乘客的手语信息对应的文本信息是否能够表征目标乘客通过手语想表达的意思；目标乘客在确认目标乘客的手语信息对应的文本信息能够表征目标乘客通过手语想表达的意思时，目标乘客做出预设手势，该预设手势可以为“OK”的手势；可选地，该显示屏可以为触控屏，目标乘客在确认目标乘客的手语信息对应的文本信息能够表征目标乘客通过手语想表达的意思时，点击上述显示屏上显示的“确认”功能按键；在接收到目标乘客的确认指令后，将目标乘客的手语信息对应的文本信息作为目标文本，其中，目标乘客的确认指令包括目标乘客做出预设手势或者目标乘客点击显示屏上显示的“确认”功能按键；在目标乘客在确认目标乘客的手语信息对应的文本信息不能够表征目标乘客通过手语想表达的意思时，目标乘客可以直接在显示屏上修改目标乘客的手语信息对应的文本信息，得到目标文本，或者目标乘客点击显示屏上的“修改”功能键，进入修改模式，目标乘客在显示屏上修改目标乘客的手语信息对应的文本信息，得到目标文本，其中，目标文本能够表征目标乘客通过手语想表达的意思；

可选地，将目标乘客的手语信息对应的文本信息发送至目标乘客的终端设备上，以供目标乘客确认目标乘客的手语信息对应的文本信息是否能够表征目标乘客通过手语想表达的意思；然后按照上述方法得到目标文本，在此不再叙述。

在一个可选地实施例中，在得到目标文本后，将目标文本和记录目标乘客的身体姿态和/或手语的视频进行保存；可选地，对记录目标乘客的身体姿态和/或手语的视频进行脱敏操作，比如去掉目标乘客的人脸信息，得到脱敏操作后的视频，并将该视频与目标文本作为后续训练样本进行保存，以便后续对手语识别模型进行训练，提高手语识别模型的精度。

在一个可选的实施例中，在向目标人员告知目标乘客的手语所表达的内容后，目标人员可以直接通过普通说话的方式针对目标乘客的手语信息作出回应，此时座舱内麦克风采集该目标人员的第三音频信号，车载装置将第三音频信号转换为第一文本，并在目标乘客的显示屏上显示第一文本，以便目标乘客知晓目标人员作出的回应。

具体地，车载装置将第三音频信号转换为第一文本具体是采用了语音识别技术，其中，通过语音识别技术实现将第三音频信号转换为第一文本的过程如图5所示：

车载装置对第三音频信号进行特征提取，得到第三音频信号的特征向量；利用声学模型、语言模型和字典，并根据语音解码和搜索算法对第三音频信号的特征向量进行处理，得到第一文本；在此之前，车载装置获取声学模型、语言模型和字典，可以是从训练设备中获取声学模型和语言模型，也可以是车载装置采用如下方式训练得到：

车载装置从语言数据库中获取音频信号，对该音频信号进行特征提取，得到该音频信号的特征向量，根据该音频信号的特征向量训练得到声学模型；从文本数据库中获取文本信息，对该文本信息进行特征提取，得到该文本信息的特征向量，根据该文本信息的特征向量训练得到语言模型。具体训练过程在此不再叙述。

可选地，车载装置还获取发声目标人员在座舱内的位置信息，具体可以采集座舱内目标人员的图像或者视频，通过唇语识别技术对目标人员的图像或视频进行分析，确定发声目标人员的位置信息；或者在获取座舱内目标人员的音频信号时，通过座舱内的麦克风阵列获取第三音频信号，再对该第三音频信号进行分析，确定发声目标人员在座舱内的位置信息；在获取座舱内目标人员的位置信息后，在目标乘客的显示屏上显示第一文本时，同时显示第一标签，该第一标签用于指示上述发声目标人员的位置信息，以使目标乘客知晓是座舱内哪位乘客在说话。

可选地，车载装置在获取第一文本后，可以将第一文本发送至目标乘客的终端设备，以便目标乘客知晓目标人员作出的回应；车载装置还可以按照上述方式获取发声目标人员在座舱内的位置信息，并向目标乘客的终端设备发送该位置信息，以使目标乘客知晓是座舱内哪位乘客在说话。

可以看出，本申请实施例的方案中，目标乘客进入座舱乘车，进行手语的表述，在显示屏上短暂确认后，实时播报给司机和其他乘客。司机和其他乘客进行语音的回复，不同的声音经过的转译分别实时显示在屏幕上，供目标乘客进行查阅。目标乘客在整个乘车过程中，可以完全无碍的和座舱内的其他人员进行交流。

以听障乘客为例进行具体说明，参见图6，图6为本申请实施例提供的一种听障乘客交流方法的流程示意图。如图6所示，该方法包括：

在听障乘客上车后，也就是进入座舱后，车载装置进入听障乘客检测模式，对听障乘客的身体姿态与手部进行实时检测，具体地，座舱内的动作采集器实时采集听障乘客的视频或者图像，车载装置根据采集的听障乘客的视频或者图像获取听障乘客的身体姿态和/或手势，比如将采集的听障乘客的视频或者图像输入到检测网络中进行处理，得到听障乘客的手部、双臂和身体的位置信息，再利用特征提取网络基于听障乘客的手部、双臂和身体的位置信息对听障乘客的视频或图像进行特征提取，得到听障乘客的身体姿态信息和/或手部信息；然后根据听障乘客的身体姿态信息和/或手部信息判断听障乘客是否在进行手语表达；可选地，具体当获取的听障乘客的身体姿态信息所指示的身体姿态为预设身体姿态和/或听障乘客的手部信息所指示的手势为预设手势时，车载装置确定听障乘客在进行手语表达；当获取的听障乘客的身体姿态信息所指示的身体姿态不为预设身体姿态或听障乘客的手部信息所指示的手势不为预设手势时，车载装置确定听障乘客未进行手语表达；车载装置根据实时采集的听障乘客的视频或图像获取听障乘客的身体姿态信息和/或手部信息，并重新基于获取的听障乘客的身体姿态信息和/或手部信息判断听障乘客是否在进行手语表达；

在确定听障乘客在进行手语表达时，按照上述方式获取听障乘客的手势和身体姿态，并将获取的听障乘客的手势信息和身体姿态信息输入到语义识别网络中进行处理，得到多个短语，并将多个短语输入到文本合成网络中，得到听障乘客的手语信息对应的文本信息；在此需要指出的是，上述检测网络、特征提取网络、语义识别网络和文本合成网络可以看成上述手语识别模型；其中，检测网络、特征提取网络和语义识别网络可以是基于卷积神经网络实现的，文本合成网络是基于LSTM网络实现。

由于翻译的文本可能存在一些误差，因此车载装置将听障乘客的手语信息对应的文本信息显示听障乘客的显示屏上且提供逐字修改的能力，该显示屏为触摸屏；当听障乘客的手语信息对应的文本信息有误，未正确表达出听障乘客通过手语表达的意思时，听障乘客可以对该显示屏进行操作，实现对显示屏上显示的文本进行修改，得到目标文本，该目标文本能够正确表示听障乘客通过手语表达的意思；当听障乘客的手语信息对应的文本信息全部表达正确时，将正确的文本合成语音，并通过座舱内的扬声器播放；

座舱内的麦克风实时聆听座舱内的无障人员(包括司机和乘客)针对听障乘客手语所表达意思的回应的语音，在检测到启动词后，确定该语音是针对听障乘客手语所表达意思的回应的语音，获取该语音，并将该语音转换成文本，；在听障乘客的显示屏上实时显示该文本；

至此，系统完成一次听障乘客与无障人员的交流，并且之后系统持续进行检测，并可按照上述方式进行处理，实现听障乘客与无障人员的交流，直至听障乘客离开座舱。

在得到正确的文本后，将该正确的文本与记录听障乘客的手语和身体姿态的视频进行保存，作为标注数据进入后续对新的手语识别模型训练部分，以实现对手语识别模型训练，从而提高手语识别模型的精度。

需要指出的是，图6所示实施例的具体实现过程参见图2所示实施例中的相关描述，在此不再叙述。

在此需要指出的是，本申请公开的交流方法不仅仅可用于驾驶环境，还可以用于家居环境，比如家庭成员包含听障人士，听障人士和无障人士之间可以按照上述交流方法进行交流沟通，或者在家居环境中，有人(比如婴幼儿等)在休息，此时其他人不方便讲话交流，就可以按照上述方法进行交流沟通。比如室内摄像头采集听障人士的手语信息，然后将该听障人士的手语信息发送至智能电视或者室内某个用户的智能手机，智能电视或者智能手机根据听障人士的手语信息，确定听障人士的手语信息对应的文本信息，然后通过智能电视或者智能手机显示听障人士的手语信息对应的文本信息，或者将该文本信息转换为语音信号，并通过智能电视或者智能手机等设备播放该语音信号；智能手机或者智能电视可采集无障人士的语音信号，将语音信号转换为文本信息，并将该文本信息显示在智能电视或者智能手机上。

参见图7，图7为本申请实施例提供的一种用于与乘客交流的车载装置的结构示意图。如图7所示，该车载装置700包括：

获取单元701，用于获取座舱内目标乘客的手语信息；

确定单元702，用于根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息；

控制单元703，用于控制多媒体设备播放目标乘客的手语信息对应的文本信息，以向座舱内目标人员告知目标乘客的手语所表达的内容。

在一个可行的实施例中，多媒体设备包括目标人员的显示屏和/或扬声器，在控制多媒体设备播放目标乘客的手语信息对应的文本信息的方面，控制单元703具体用于：

在一个可行的实施例中，多媒体设备包括目标乘客的显示屏，在控制单元703控制多媒体设备播放目标乘客的手语信息对应的文本信息之前，

控制单元703，还用于控制将目标乘客的手语信息对应的文本信息显示在目标乘客的显示屏上，供目标乘客确认目标乘客的手语信息对应的文本信息是否正确；

获取单元701，还用于根据目标乘客针对显示屏的操作指令和目标乘客的手语信息对应的文本信息得到目标文本；

多媒体设备还包括目标人员的显示屏和/或扬声器，在控制多媒体设备播放目标乘客的手语信息对应的文本信息的方面，控制单元703具体用于：

通过目标人员的显示屏显示目标文本，和/或；通过扬声器播放第二音频信号，向座舱内目标人员告知目标乘客的手语所表达的内容，第二音频信号是基于目标文本得到的。

在一个可行的实施例中，在根据目标乘客的手语信息，确定目标乘客的手语信息对应的文本信息之前，确定单元702还用于：

在一个可行的实施例中，获取单元701，还用于在检测到乘客上车后，获取座舱内乘客的图像信息；

确定单元702，还用于根据座舱内乘客的图像信息确定出座舱内的目标乘客，目标乘客为基于座舱内乘客的图像信息确定做出预设动作的乘客；或者；

确定单元702，还用于在检测到目标人员针对目标乘客按键的指令后，确定座舱内有目标乘客。

在一个可行的实施例中，多媒体设备包括目标乘客的显示屏，

获取单元701，还用于获取通过麦克风采集的目标人员针对目标乘客的手语信息的第三音频信号；

控制单元703，还用于控制目标乘客的显示屏显示第一文本，第一文本是根据第三音频信号得到的。

在一个可行的实施例中，控制单元703还用于：

需要说明的是，上述各单元获取单元701、确定单元702和控制单元703)用于执行上述方法的相关步骤。比如获取单元701用于执行S201的相关内容，确定单元702用于执行步骤S202的相关内容、控制单元703用于执行S203的相关内容。

在本实施例中，车载装置700是以单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。此外，以上获取单元701、确定单元702和控制单元703可通过图8所示的车载装置的处理器801来实现。

参考图8，图8是本申请实施例提供的一种车载装置的结构示意图；图8所示的车载装置800(该装置800具体可以是一种计算机设备)包括存储器802、处理器801、显示屏803以及通信接口804。其中，存储器802、处理器801、显示屏803和通信接口804通过总线实现彼此之间的通信连接。

存储器802可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器802可以存储程序，当存储器802中存储的程序被处理器801执行时，处理器801、显示屏803和通信接口804用于执行本申请实施例的目标乘客交流方法的各个步骤。

处理器801可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的车载装置中的单元所需执行的功能，或者执行本申请方法实施例的目标乘客交流方法。

处理器801还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的目标乘客交流方法的各个步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802，处理器801读取存储器802中的信息，结合其硬件完成本申请实施例的车载装置中包括的单元所需执行的功能，或者执行本申请方法实施例的与乘客交流的方法。

显示屏803可以是LCD显示屏、LED显示屏、OLED显示屏、3D显示屏或者其他显示屏。

通信接口804使用例如但不限于收发器一类的收发装置，来实现车载装置800与其他设备或通信网络之间的通信。例如，可以通过通信接口804获取目标乘客的手语信息等。

总线可包括在车载装置800各个部件(例如，存储器802、处理器801、显示屏803、通信接口804)之间传送信息的通路。

应理解，用于目标乘客交流的车载装置中的获取单元701、确定单元702和控制单元703可以相当于处理器801。显示屏803用于显示上述实施例中的文本信息。

应注意，尽管图8所示的车载装置800仅仅示出了存储器、处理器、显示屏、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置800还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置800还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置800也可仅仅包括实现本申请实施例所必须的器件，而不必包括图8中所示的全部器件。

可以理解，所述车载装置800相当于图1c中的所述执行设备110。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可以实现包括上述方法实施例中记载的任何与乘客的交流方法的部分或全部步骤。前述的存储介质包括：U盘、只读存储器(英文：read-only memory)、随机存取存储器(英文：random access memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种与乘客交流的方法，其特征在于，包括：

获取座舱内目标乘客的手语信息；

根据所述目标乘客的手语信息，确定所述目标乘客的手语信息对应的文本信息；

通过多媒体设备播放所述目标乘客的手语信息对应的文本信息。
根据权利要求1所述的方法，其特征在于，所述多媒体设备包括目标人员的显示屏和/或扬声器，所述目标人员为所述座舱内除了所述目标乘客之外的人员，所述通过多媒体设备播放所述目标乘客的手语信息对应的文本信息，包括：

通过所述目标人员的显示屏显示所述目标乘客的手语信息对应的文本信息，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，和/或；

通过所述扬声器播放第一音频信号，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，其中，所述第一音频信号是基于所述目标乘客的手语信息对应的文本信息得到的。
根据权利要求1所述的方法，其特征在于，所述多媒体设备包括目标乘客的显示屏，所述通过多媒体设备播放所述目标乘客的手语信息对应的文本信息之前，所述方法还包括：

将所述目标乘客的手语信息对应的文本信息显示在所述目标乘客的显示屏上，供所述目标乘客确认所述目标乘客的手语信息对应的文本信息是否正确；

根据所述目标乘客针对所述目标乘客的显示屏的操作指令和所述目标乘客的手语信息对应的文本信息得到目标文本；

所述多媒体设备还包括所述目标人员的显示屏和/或扬声器，所述通过多媒体设备播放所述目标乘客的手语信息对应的文本信息，包括：

通过所述目标人员的显示屏显示所述目标文本，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，和/或；

通过所述扬声器播放第二音频信号，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，所述第二音频信号是基于所述目标文本得到的。
根据权利要求1-3任一项所述的方法，其特征在于，所述根据目标乘客的手语信息，确定所述目标乘客的手语信息对应的文本信息之前，所述方法还包括：

根据所述目标乘客的身体姿态信息确定所述目标乘客是否进行手语操作，或者，

根据所述目标乘客的身体姿态信息和手势信息确定所述目标乘客是否进行手语操作；其中，所述目标乘客的身体姿态信息和手势信息是根据所述目标乘客的图像信息得到的；

在确定所述目标乘客进行手语操作时，获取所述座舱内所述目标乘客的手语信息。
根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

在检测到乘客上车后，获取所述座舱内乘客的图像信息；根据所述座舱内乘客的图像信息确定出所述座舱内的目标乘客，所述目标乘客为基于所述座舱内乘客的图像信息确定做出预设动作的乘客，或者；

在检测到所述目标人员针对目标乘客按键的指令后，确定所述座舱内有目标乘客。
根据权利要求1-5任一项所述的方法，其特征在于，所述多媒体设备包括所述目标乘客的显示屏，所述方法还包括：

获取通过麦克风采集的所述目标人员针对所述目标乘客的手语信息的第三音频信号；

通过所述目标乘客的显示屏显示第一文本，所述第一文本是根据所述第三音频信号得到的。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述目标乘客的显示屏上显示所述第三文本信息时，在该显示屏上显示乘客标识，所述乘客标识用于指示发出所述第三音频信号的乘客。
根据权利要求1-7任一项所述的方法，其特征在于，所述目标乘客为听障乘客或者不方便讲话的乘客。
一种用于与乘客交流的装置，其特征在于，包括：

获取单元，用于获取座舱内目标乘客的手语信息；

确定单元，用于根据所述目标乘客的手语信息，确定所述目标乘客的手语信息对应的文本信息；

控制单元，用于控制多媒体设备播放所述目标乘客的手语信息对应的文本信息。
根据权利要求9所述的装置，其特征在于，所述多媒体设备包括目标人员的显示屏和/或扬声器，所述目标人员为所述座舱内处理所述目标乘客之外的人员，在所述控制多媒体设备播放所述目标乘客的手语信息对应的文本信息的方面，所述控制单元具体用于：

控制所述目标人员的显示屏显示所述目标乘客的手语信息对应的文本信息，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，和/或；

通过控制所述扬声器播放第一音频信号，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，所述第一音频信号是基于所述目标乘客的手语信息对应的文本信息得到的。
根据权利要求9所述的装置，其特征在于，所述多媒体设备包括目标乘客的显示屏，所述控制单元控制多媒体设备播放所述目标乘客的手语信息对应的文本信息之前：

所述控制单元单元，还用于控制将所述目标乘客的手语信息对应的文本信息显示在所述目标乘客的显示屏上，供所述目标乘客确认所述目标乘客的手语信息对应的文本信息是否正确；

所述获取单元，还用于根据所述目标乘客针对所述显示屏的操作指令和所述目标乘客的手语信息对应的文本信息得到目标文本；

所述多媒体设备还包括所述目标人员的显示屏和/或扬声器，在所述控制多媒体设备播放所述目标乘客的手语信息对应的文本信息的方面，所述控制单元具体用于：

控制所述目标人员的显示屏显示所述目标文本，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，和/或；

控制所述扬声器播放第二音频信号，以向所述目标人员告知所述目标乘客的手语信息所表达的内容，其中，所述第二音频信号是基于所述目标文本得到的。
根据权利要求9-11任一项所述的装置，其特征在于，所述根据目标乘客的手语信息得到所述目标乘客的手语信息对应的文本信息之前，所述确定单元还用于：

根据所述目标乘客的身体姿态信息确定所述目标乘客是否进行手语操作，或者，

根据所述目标乘客的身体姿态信息和手势信息确定所述目标乘客是否进行手语操作；其中，所述目标乘客的身体姿态信息和手势信息是根据所述目标乘客的图像信息得到的；

在确定所述目标乘客进行手语操作时，所述获取单元获取所述目标乘客的手语信息。
根据权利要求9-12任一项所述的装置，其特征在于，

所述获取单元，还用于在检测到乘客上车后，获取所述座舱内乘客的图像信息；

所述确定单元，还用于根据所述座舱内乘客的图像信息确定出所述座舱内的目标乘客，所述目标乘客为基于所述座舱内乘客的图像信息确定做出预设动作的乘客，

或者，

所述确定单元，还用于在检测所述目标人员针对目标乘客按键的指令后，确定座舱内有目标乘客。
根据权利要求9-13任一项所述的装置，其特征在于，所述多媒体设备包括所述目标乘客的显示屏，

所述获取单元，还用于获取通过麦克风采集的所述目标人员针对所述目标乘客的手语信息的第三音频信号；

控制单元，还用于控制所述目标乘客的显示屏显示第一文本，所述第一文本是根据所述第三音频信号得到的。
根据权利要求13所述的装置，其特征在于，所述控制单元还用于：

控制所述目标乘客的显示屏显示所述第三文本信息时，在该显示屏上显示乘客标识，所述乘客标识用于指示发出所述第三音频信号的乘客。
根据权利要求9-15任一项所述的装置，其特征在于，所述目标乘客为听障乘客或者不方便讲话的乘客。
一种用于与乘客交流的车载装置，其特征在于，包括处理器和存储器，其中，所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至8任一项所述的与乘客交流的方法。
一种芯片系统，其特征在于，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1-8中任意一项所述的与乘客交流的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至8任一项所述的与乘客交流的方法。