WO2022127826A1

WO2022127826A1 - 一种实现同声传译的方法、装置及系统

Info

Publication number: WO2022127826A1
Application number: PCT/CN2021/138353
Authority: WO
Inventors: 夏禹
Original assignee: 华为云计算技术有限公司
Priority date: 2020-12-15
Filing date: 2021-12-15
Publication date: 2022-06-23
Also published as: EP4246962A4; CN114638237A; US20230326448A1; EP4246962A1

Abstract

本申请公开了一种实现同声传译的方法，涉及会议通信领域。媒体服务器接收会议发言人的音频流以及根据该音频流翻译后的音频流，然后将该翻译后的音频流发送给AI设备以识别该翻译后的音频流的语种，最后再根据识别的结果将翻译后的音频流转发给相应的终端。该种同声传译的方法减少了人工的参与，提高了同声传译的效率。

Description

一种实现同声传译的方法、装置及系统

技术领域

本申请涉及会议通信领域，尤其涉及一种实现同声传译的方法、装置及系统。

背景技术

随着全球化进程的加快，国际会议数量明显增加，各个国家的语言丰富多样，因此也产生了在会议中进行同声传译的需求。同声传译，是指翻译员在不打断演讲者讲话的情况下，不间断地将内容口译给听众的一种翻译方式。一场大型的研讨会和国际会议，通常由两名到三名翻译员接替进行。

在实际的应用场景中，一场会议的发言人是不断切换的，来自不同国家的发言人会使用不同类型的语种。进而，翻译员也需要跟随发言人的切换调整翻译输出的语种。例如，一个翻译员的工作内容为中英双向翻译，当发言人更换，且发言的语种由汉语切换成英语时，翻译员也将由中翻英切换成英翻中。同时，翻译员在更换自己的输出语种时需要在相关设备上手动设置自己输出语种由英语变成汉语，以便于机器将该翻译后的音频流发送给属于同一语种的听众。此外，如果会议现场还需要配有专门的会议管理人员设置当前发言人的语种，以便于媒体服务器识别当前发言人的语种并将翻译后的音频流返回到会议现场的大屏终端。

然而，这样的操作方式及其容易出错。对于高强度的翻译员而言，在切换自己输出语种的同时需要在相关设备上设置自己新的输出语种，容易发生遗漏，导致最终效果异常。对于会议管理人员，需要集中精力关注发言语种的切换、辨别发言人的语种，如果切换不及时或者切换错误也会导致错乱。总体而言，这样的方式操作难度较大，用户体验不佳。

发明内容

本申请提供了一种实现同声传译的方法、装置及系统，减少人工在同声传译中的参与度，提高了会议同声传译的效率。

第一方面，本申请提供一种实现同声传译的方法。媒体服务器接收第一音频流以及根据第一音频流翻译而成的第二音频流；然后向AI设备发送第二音频流以识别第二音频流的语种；再根据第二音频流语种向第一终端发送该第二音频流，其中，第二音频流的语种为第一终端期望接收的音频流的语种。媒体服务器利用AI设备识别翻译后的音频流(第二音频流)的语种，翻译员无需再通过翻译终端手动设置自己翻译后的语种，减轻了翻译人员的压力，降低了会议语言系统的出错率，提高了同声传译的效率。

在一种可能的实现方式中，媒体服务器向AI设备发送第一音频流以识别该第一音频流的语种，然后根据该第一音频流的语种向第二终端发送该第一音频流，其中，第一音频流的语种为第二终端期望接收的音频流的语种。媒体服务利用AI设备识别发言人的原声音频流(第一音频流)的语种，无需会议管理人员再通过会议室终端手动设置发言人的语种，在整个的同声传译过程中减少了人工的参与，提高了同声传译的效率。

在另一种可能的实现方式中，媒体服务器根据AI设备返回的第二音频流的语种识别结果确定所述第二音频流的语种。在该种实现方式中，AI设备直接返回语种识别结果，媒体服务器无需再对结果进行任何处理，然后根据该语种识别结果将第二音频流转发给第一终端。

在另一种可能的实现方式中，媒体服务器接收AI设备返回的与第二音频流对应的文本，然后根据该文本确定第二音频流的语种。AI设备将音频流转换成了文本发给媒体服务器，媒体服务器根据文本确定第二音频流的语种类型。在该实现方式下，媒体服务器接收了AI设备返回的文本后，还可以根据各个终端的设置将该文本转发到对应的终端，以实现实时字幕。

在另一种可能的实现方式中，媒体服务器向所有翻译员使用的翻译终端发送第一音频流，然后接收第二音频流，该第二音频流是所有翻译终端返回的音频流中的一个。在该实现方式下，媒体服务器向翻译员发送发言人原声音频流时采用全员发送策略，无需考虑翻译员的翻译能力，减少对媒体服务器计算资源的占用，降低了同声传译的出错率。

在另一种可能的实现方式中，第一音频流的语种为第一语种，第二音频流的语种为第二语种，媒体服务器根据AI设备对第一音频流的语种识别结果以及第一翻译能力参数向第三终端发送第一音频流，其中，第一翻译能力参数用于指示使用第三终端的第一翻译员的翻译能力包括将第一语种翻译成第二语种；然后媒体服务器接收第三终端发送的第二音频流。在该实现方式下，媒体服务器在向翻译员转发发言人原声音频流时考虑了翻译员的翻译能力，即只向涉及到该第一音频流语种相关业务的翻译员转发原声音频流，减少了冗余信息的传递，减少了对网络传输资源的占用。

在另一种可能的实现方式中，媒体服务器接收第三终端发送的第一翻译能力参数。第一翻译员通过第三终端向媒体服务器反馈自身的翻译能力参数，例如中英双向翻译、英法双向翻译等等。

在另一种可能的实现方式中，媒体服务器在会议开始前指定第三终端对应的翻译能力参数，翻译员根据自身的翻译能力选择第三终端接收发言人的原声音频流以及发送翻译之后的音频流。

在另一种可能的实现方式中，第一音频流的语种为第一语种，第二音频流的语种为第二语种，媒体服务器根据AI设备对第一音频流的语种识别结果、第二翻译能力参数和第三翻译能力参数确定第四终端和第五终端，所述第二翻译能力参数用于指示使用所述第四终端的第二翻译员的翻译能力包括将所述第一语种翻译成第三语种，所述第三翻译能力参数用于指示使用所述第五终端的第三翻译员的翻译能力包括将所述第三语种翻译成所述第二语种；媒体服务器向所述第四终端发送所述第一音频流；媒体服务器接收所述第四终端发送的第三音频流，所述第三音频流的语种为第三语种；媒体服务器向第五终端发送所述第三音频流；媒体服务器接收所述第五终端发送的所述第二音频流。媒体服务器根据第一音频流的语种识别结果以及翻译员的翻译能力参数信息确定翻译接力策略，以确保会议翻译服务的正常运行。

在另一种可能的实现方式中，媒体服务器在向第一终端发送第二音频流之前，媒体服务器还存储第二音频流，在确定时刻之后，媒体服务器从确定时刻前存储的所述第二音频流开始向第一终端发送第二音频流，所述确定时刻为所述媒体服务确定所述第二音频流的语种为所述第一终端期望接收的语种的时刻。在向第一终端发送第二音频流之前进行对第二音频流进行缓存，当确认语种信息之后再进行转发，减少了会场串音的概率，提升用户体验。

在另一种可能的实现方式中，媒体服务器接收所述第一终端发送的第一语种设置信息，所述第一语种设置信息用于指示所述第一终端期望接收的音频流的语种；媒体服务器接收所述第二终端发送的第二语种设置信息，所述第二语种设置信息用于指示所述第二终端期望接收的音频流的语种。媒体服务器根据各个终端的语种设置信息确定各个终端期望接收的音频流的语种。

在另一种可能的实现方式中，AI设备和媒体服务器部署在同一个服务器中。当AI设备和媒体服务器部署在同一个服务器中时，AI设备和媒体服务器之间的通信延迟降低，降低了网络对同声传译服务的影响。

通过上述描述，本申请提供的同声传译方法通过AI设备对各个音频流进行语种识别以实现高效率的会议同传服务。对于会议管理人员来说，无需在发言人更换语种时通过会议终端手动更改当前发言人的语种，减少了人工在同声传译过程中的参与度；对于翻译员来说，也无需在执行翻译工作之前通过翻译终端设置自己即将输出的语种，缓解了翻译员的工作压力，减少了会议语言出错的概率。总之，该同声传译方法缓解了工作人员的压力，提高了会议同声传译的效率。

第二方面，本申请提供一种实现同声传译的装置，所述装置包括用于执行第一方面或第一方面任一种可能实现方式中的实现同声传译方法的各个模块。

第三方面，本申请提供一种实现同声传译的系统，所述系统包括媒体服务器和AI设备。媒体服务器用于接收第一音频流和第二音频流，所述第二音频流为根据所述第一音频流翻译后的音频流，还用于向AI设备发送所述第二音频流；AI设备用于接收所述第二音频流，并向所述媒体服务器发送第一语种识别信息；媒体服务器还用于根据所述第一语种识别信息确定所述第二音频流的语种，并向第一终端发送所述第二音频流。

在另一种可能的设计中，媒体服务器还用于向所述AI设备发送所述第一音频流；AI设备还用于接收所述第一音频流，并向所述媒体服务器发送第二语种识别信息；媒体服务器还用于根据所述第二语种识别信息确定所述第二音频流的语种，并向第一终端发送所述第二音频流。

在另一种可能的设计中，第一语种识别信息包括第一音频流的语种识别结果或者第一音频流对应的文本。

上述第三方面任一种可能的设计所能达到的技术效果可参照上述第一方面所能达到的技术效果，这里不再重复赘述。

第四方面，本申请提供一种同声传译设备，所述同声传译设备包括处理器、存储器、通信接口、总线，所述处理器、存储器和通信接口之间通过总线连接并完成相互间的通信，所述存储器中用于存储计算机执行指令，所述同声传译设备运行时，所述处理器执行所述存储器中的计算机执行指令以利用所述设备中的硬件资源执行第一方面或第一方面任一种可能实现方式中所述方法中媒体服务器所执行的操作步骤。

第五方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第六方面，本申请提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1为本申请提供的手工设置输出语种以实现会议同声传译的系统架构图。

图2为本申请提供的手工设置输出语种以实现会议同声传译的方法示意图。

图3为本申请提供的实现会议同声传译的系统架构图。

图4为本申请提供的实现会议同声传译的整体流程图。

图5为本申请提供的实现会议同声传译的某一方法示意图。

图6为本申请提供的实现会议同声传译的某一方法流程图。

图7为本申请提供的实现会议同声传译的另一方法流程图。

图8为本申请提供的会议同声传译设备的结构示意图。

图9为本申请提供的另一会议同声传译设备的结构示意图。

具体实施方式

为了增强本申请的可读性，在介绍本申请提供的实施例之前，首先对一些名词术语进行解释：

多媒体控制单元(Multimedia Control Unit，MCU)：一种基于中心式架构的媒体处理服务器，可对音视频码流进行解码、混流、编码等操作。用于接入多个终端以进行多点的音视频通信。

选择转发单元(Selective Forwarding Unit，SFU)：一种基于中心式架构的媒体处理服务器，对音视频码流只做转发，不做解码、混流、编码等操作。用于接入多个终端以进行多点的音视频通信。

脉冲编码调制(Pulse Code Modulation，PCM)：数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。在一个会议系统中，一般先由麦克风等收音设备采集发言人的声音形成模拟信号，再由会议终端将该模拟信号编码为PCM数字码流，然后再将PCM码流编码成AAC-LD(Advanced Audio Coding-Low Delay，低延迟高级音频编码)等协议下的音频流发送给媒体服务器。也就是说，一般情况下，从会议室向外发送的原声音频流是对模拟信号进行两次编码后的音频流。

随着全球化进程的不断推进，各国之间的协作关系也是空前密切。在这样的大环境下，国际会议的数量也不断增加。由于各国语言的多样性，也引申出了在会议中对同声传译服务的需求。同声传译作为一种翻译方式，其最大特点在于效率高，原文与译文翻译的平均间隔时间是三至四秒因此可以保证讲话者作连贯发言，而不会影响或中断讲话者的思路，有利于听众对发言全文的通篇理解。

在会议进行的时候，翻译员会坐在隔音较好的狭小房间(俗称“箱子”)内，使用专业的设备，将其从耳机中听到的内容同步口译为目标语言，并通过话筒输出。需要同声传译服务的与会者，可以通过接收音频流的装置，设置自己需要的语种，然后获得翻译后的信息。

如图1所示，一个同声传译系统主要包括翻译终端11、会议室终端12、用户终端13、媒体服务器14。

翻译终端11为翻译员接收发言人音频流的设备或者为输出自己翻译的音频流的设备，该设备可以是手持移动终端，例如手机，或者该设备可以是个人电脑。此外，作为一个国际会议的翻译员，其翻译业务一般是双向的，例如为中英两个语种的双向翻译。在会议中该翻译员会根据发言人的语种变化而随时变更自己输出的语种。

会议室终端12一般处于发言人所在的会议室中，与发言人的话筒相连，采集发言人的原声。同时，会议终端12还包括信号收发模块，用于向媒体服务器发送压缩后的原声音频流，还用于接收翻译后的音频流。此外，会议室终端12还可以包括扬声器单元，例如喇叭或者音响，用于广播发言人原声以及翻译后的音频流。会议终端在向媒体服务器发送音频流之前需要首先将话筒采集到的模拟信号编码成PCM码流，再将PCM码流编码成ACC-LD等协议下的音频流，然后发送给媒体服务器。会议系统中对音频流编解码属于现有技术，本发明对此不多做赘述。为了便于描述，本申请下文中出现的各种音频流(原声音频流、翻译后的音频流)主要强调的是音频流的语种，并不限定该音频流是否编解码。会议室终端12有多种形态，可以是大屏终端，也可以是一台与音响相连的电脑，本申请对会议终端的具体形态不做限定。

用户终端13包括终端1、2、3，对应的使用者为用户1、2、3。用户1、2、3的语种可以相同也可以不同。用户可以选择只接收一种语种的音频流，也可以选择接收原声音频流和另外一个语种的音频流。用户1、2、3可以在会议室中，也可以在其他任何地方。用户终端可以是手持移动终端，也可以是个人电脑等各种可以输出音频的设备。

媒体服务器14是一种媒体处理服务器，可以是MCU或者SFU。媒体服务器可以部署在云端也可以部署在本地机房。媒体服务器在本发明实施例中主要用于根据各终端(用户终端或者会议室终端)配置的语种转发发言人的音频流以及翻译员输出的音频流。

各个终端与媒体服务器14之间可以通过网络进行通信。其中，网络包括以有线和/或无线传输的方式，其中，有线的传输方式包括利用以太、光纤等形式进行数据传输。无线传输方式包括3G(Third generation)、4G(Fourth generation)、或5G(Fifth generation)等宽带蜂窝网络传输方式。

如图2所示，假设该场会议支持中、英两种语言。通过手工设置输出的语种以实现同声传译的流程包括如下步骤：

步骤1：汉语用户A、英语用户B、英语用户C在加入会议时通过终端设置自己想接收的音频流的语种分别为汉语、英语、英语，以便于媒体服务器识别各个用户期望的语种，然后将对应的音频流转发给相应的终端。

步骤2：假设当前发言人的语种是汉语，会议管理员需要手动将会议室的语种设置为汉语，以便于媒体服务器识别发言人的语种为汉语。即会议管理员的手动操作可以帮助媒体服务器识别会议室终端发送的原声音频流的语种。

步骤3：会议室终端向媒体服务器发送原声音频流，媒体服务器接收到该原声音频流之后转发给翻译员。在另一种实现方式中，会议室终端还可以将原声音频流直接发送给翻译终端。

步骤4：中英翻译员的翻译能力参数为中英双向翻译，在接收到原声音频流之后通过话筒或者麦克风等收音设备输出自己翻译后的音频流。且在翻译之前，该翻译员必须要在翻译终端上手动设置自己输出的语种为英语，以便于媒体服务器识别翻译后的音频流的语种。

步骤5：媒体服务器根据用户A、B、C设置的语种将原声音频流以及翻译后的音频流发送给相应的用户终端。

步骤6：当更换发言人，且更换后的发言人使用英语发言时，会议管理员需要手动再将会议室的语种设置为英语以便于媒体服务器识别发言人的语种。同时，在翻译员接收到英语原声音频流以后，在正式翻译之前，还需要重新通过翻译终端将自己的输出语种更改设置为汉语，以便于媒体服务器识别翻译后音频流的语种。然后，媒体服务器再根据用户以及会议室的设置重新转发相对应的音频流。

上述同声传译的方法，效率较低且容易出错。对于会议管理员而言，需要一直紧跟会议的进程，在发言人更换语种的时候及时切换会议室的输出语种，如果管理员走神或者切换错误将会导致媒体服务器无法识别会议室输出的音频流的语种，进而导致会议语言错乱。对于翻译员而言，在接收到发言人的原声音频流之后必须首先设置自己的输出语种。然而翻译员的工作强度本身就很高，如果还需要在翻译前设置自己的输出语种，很容易忘记更改设置或者切换错误，这依旧会使得会议的语言发生错乱，影响会议人员的体验，甚至导致会议中断。

为了解决上述问题，本申请提供了一种实现同声传译的方法。其对应的系统架构如图3所示，在图1架构的基础上增加了一个AI(Artificial Intelligence，人工智能)服务器15。AI设备15可以部署在云端，也可以部署在本地机房。从服务器的硬件架构来看，AI设备一般是采用异构形式的服务器，在异构方式上可以根据应用的范围采用不同的组合方式，如CPU+GPU、CPU+TPU、CPU+其他的加速卡等。目前，AI设备普遍采用CPU+GPU的形式，GPU与CPU不同，采用的是并行计算的模式，擅长梳理密集型的数据运算，如图形渲染、机器学习等。为了保证通信效率，在一种可能的实现方式中，AI设备15和媒体服务器14集成在一起，部署在云端。在另一种可能的实现方式中，媒体服务器14部署客户机房，AI设备部署在云端。在另一种可能的实现方式中，AI设备15和媒体服务器14集成在一起，部署在客户机房。

在图3所示的系统架构中会议室终端的功能包括发送发言人的原声音频流以及接收翻译后的音频流。在另一种可能的实现方式中，会议室终端可能只广播原声音频，不广播翻译后的音频流。在这样的情况下，媒体服务器无需将翻译后的音频流转发给会议室终端，只需将翻译后的音频流发送给用户终端即可。即翻译后的音频流的流向主要取决于会议管理员的设置以及用户的设置。另外，在一些情况下，发言人的原声也可以直接传输给翻译员进行翻译而无需经过媒体服务器转发。但在接下来的描述中，本申请实施例仍以需要通过媒体服务器转发发言人的原声给翻译员为例，即，由媒体服务器进行整体的调控转发。

在介绍本申请实施例具体的实施方法之前，先对同声传译的会议场景进行一些补充描述。在实际的国际会议场景中，一个会议往往包括对应于两个以上语种的参会人。然而，出于现场的体验考虑，一般会议现场只会广播两种语言。该广播的两种语言由会议管理员提前预置。示例性的，一个标准的联合国国际会议一般包括阿拉伯语、汉语、英语、法语、俄语和西班牙语这6种语言，对应的，会议现场也包括这6个国家的领导人以及记者或者相关的工作人员。如果发言人每说一句话都将对应的其余5种语言广播出来的话会导致现场语言杂乱，影响用户体验。所以，在现场一般只会广播会议管理员设定的两种语言。假设会议管理员设定的语言是中英语，当中国发言人发言时，现场会先广播中国发言人的原声音频流，同时，会场的大屏终端也会广播翻译后的英语。而来自阿、法、俄、西这四个国家的现场观众就需要佩戴耳机接收对应语种的音频，即来自这四个国家的现场观众就相当于图3中的用户终端1、2、3对应的用户1、2、3。需要说明的是，上述对会议现场的描述只是为了增加方案的完整性，不对本发明构成任何限定。

下面将结合图4介绍本申请实施例提供的整体方法流程。

步骤S41：媒体服务器接收用户、会议管理员通过各自终端发送的会议加入请求，该请求中包括语种设置信息。用户、会议管理员在加入会议时通过各自的终端生成语种设置信息并发送给媒体服务器。语种设置信息用于表示用户或者会议室期望接收的音频流的语种。

对于用户来说，其可以设置只接收某一语种的音频流，或者可以设置接收原声音频流以及另一种语种的音频流。对于会议管理员来说，其可以设置不接收翻译后的音频流，即会议室内只广播原声音频流；或者还可以设置接收某一种或者两种语种的音频流。

在一种实现方式中，媒体服务器在接收到用户或者会议管理员发送的会议加入请求之后，会为用户终端以及会议终端分配不同的UDP(User Datagram Protocol，用户数据报协议)端口。媒体服务器只需监听对应的UDP端口，即可对各个终端(用户终端、会议室终端)进行音频流的收发。在另一种实现方式中，各个终端(用户终端、会议室终端)通过该会议加入请求分别和媒体服务器协商自己的SSRC(synchronization source identifier，同步信源标识符)，之后各个终端在发送音频流报文时在报文中携带预先协商的SSRC以便于媒体服务器区分来自各个终端的音频流。

步骤S42：媒体服务器接收翻译员通过终端发送的会议加入请求。例如，翻译员可以和步骤S41中的用户以及会议管理员输入同一个会议ID以加入同一个会议。在一种可能的实现方式中，翻译员的会议加入请求中还包括翻译能力参数，该翻译能力参数用于指示翻译员的业务范围，例如是中英双向翻译或者英法双向翻译等等。同步骤S42，媒体服务器在接收到翻译员通过翻译终端发送的会议加入请求之后为翻译员终端分配UDP端口，之后会通过该UDP端口对翻译员终端进行音频流的收发。

步骤S43：媒体服务器接收会议室终端发送的原声音频流。会议正式开始后，发言人上台发言，会议室终端将原声音频流转发给媒体服务器。

步骤S44：媒体服务器将原声音频流转发给AI设备以识别原声音频流的语种。媒体服务器根据AI设备返回的语种识别信息识别原声音频流的语种。语种识别信息可以直接是AI设备语种识别的结果，也可以是AI设备生成的与原声音频流对应的文本。

步骤S45：媒体服务器将原声音频流转发给翻译终端。

在一种实现方式中，媒体服务器将音频流转发给所有的翻译终端。也就是说，无论翻译员的业务范围是什么，都将原声音频流转发给所有翻译员使用的翻译终端。

在另一种可能的实现方式中，媒体服务器根据翻译员的翻译能力参数转发原声音频流给相应的翻译终端。示例性的，翻译员1的翻译能力参数为中英双向翻译，翻译员2的翻译能力参数为英法双向翻译，当根据步骤S44识别出原声音频流为汉语时，则只将原声音频流转发给翻译员1，不转发给翻译员2。在该实现方式下，步骤S44必须在步骤S45之前执行，同时，媒体服务器也必须在会议开始前获取翻译员的翻译能力参数。有多种方式可以获取翻译员的翻译能力参数，例如，步骤S42中翻译终端发送的加入请求中可以携带翻译能力参数；又或者媒体服务器给各个翻译终端提前设置该终端对应的翻译员的翻译能力参数，然后翻译员根据各个终端的设置选择对应的终端开展翻译工作。

步骤S46：媒体服务器接收翻译终端发送的翻译后的音频流。

步骤S47：媒体服务器将翻译后的音频流发送给AI设备以识别翻译后的音频流。识别的方法同步骤44，在此不多做赘述。

步骤S48：媒体服务器根据原声音频流的语种、翻译后的音频流的语种将原声音频流以及翻译后的音频流转发给各个终端(用户终端或会议室终端或翻译终端)。

步骤S41-S48描述了一个较为完整的实现同声传译的方法流程，需要说明的是，上述步骤的序号并不代表执行的先后顺序，例如，在一些情况下步骤S46可以在步骤S44之前执行。此外，根据AI设备以及媒体服务器的部署形态，部分步骤也可以直接省略。例如，当AI设备和媒体服务器部署在一起时，向AI设备转发待识别音频流以及从AI设备接收返回的信息这类步骤可以省略，由媒体服务器直接识别音频流的语种。

在一种可能的实现方式中，所有用户的语种设置都包括接收原声音频流，也就是说不管是任何语种的发言人发言，用户都期望接收发言人的原声音频流。在这样的情况下，媒体服务器也无需将原声音频流送至AI设备进行识别，即无需执行步骤S44。同时，由于没有识别原声音频流的语种，媒体服务器在转发原声音频流给翻译员的时候(步骤S45)也需要采用全员转发的策略，即每个翻译员都接收原声音频流。

在上述实现同声传译的方法中，对于会议管理人员而言，无需再跟随发言人的变化而手动切换会议室输出的语种，减少了会场语言出错的概率；对于翻译员而言，也无需在每次切换翻译方向时在终端上更改自己输出的语种，减轻了翻译人员的压力。整个会议过程都由媒体服务器进行调控转发，减少了人工参与，提高了会场同声传译的效率。

下面以图5、图6为例具体介绍本申请实施例提供的实现同声传译的方法。为了方便描述，假设整个会议涉及汉语、英语、俄语三种语言。假设中国用户、英国用户、俄罗斯用户通过自己的移动终端向媒体服务器发送会议加入请求时，分别设置了自己期望接收的音频流语种为汉语、英语、俄语。同时，会议管理员通过会议室终端发送的加入会议的请求中也设定会议室接收的翻译后的音频流的语种是汉语或者英语。在本申请实施例中，会场的翻译员有中英翻译员和英俄翻译员。用户终端、会议室终端、翻译终端对应的用户、会议管理员、翻译员可以通过输入同一个会议ID(Identification)以加入同一个会议。下面将直接从发言人开始发言这一阶段进行介绍。

步骤S51：假设英语发言人首先上台发言，会议室终端通过话筒等收音设备采集发言人的原声音频流并发送给媒体服务器。

步骤S52：媒体服务器将原声音频流发送到AI设备以识别原始视频流的语种。AI设备可以直接返回语种识别的结果，也可以返回原声音频流对应的文本以使媒体服务器根据文本判断原声音频流的语种。需要说明的是，如果AI设备与媒体服务器部署在同一服务器集群上，则该步骤可以直接省去，即媒体服务器可以直接识别原声音频流的语种。

步骤S53：媒体服务器将发言人的原声音频流发送给翻译员。翻译员通过移动终端或者电脑等设备接收该音频流。在该步骤中，媒体服务器可以将原声音频流选择性地转发给具有不同翻译能力参数的翻译员，也可以选择将原声音频流转发给所有翻译员，这主要取决于会议设置或者翻译员的设置。当进行有选择地转发时，需要提前收集翻译员的翻译能力参数。在本申请实施例中，媒体服务器向翻译员的翻译终端发送原声音频流时实行全员转发策略，即，将原声音频流转发送给所有的翻译员(如图5所示的中英、英俄翻译员)。

步骤S54：翻译员根据原声音频进行翻译，翻译终端将翻译后的音频码流发送给媒体服务器。在本申请提供的实施例中，翻译员无需再关注自己输出的语种，只需要根据职业本能将听到的内容翻译成另一个语言即可。假设中英翻译员翻译后的音频流为音频流A，英俄翻译员翻译后的音频流为音频流B。

步骤S55：媒体服务器将翻译员通过翻译终端发送的翻译后的音频流(音频流A、B)发送给AI设备以识别翻译后音频流的语种。同步骤S52，媒体服务器可以接收AI设备范围的语种识别结果或者音频流对应的文本以确定音频流的语种。另外，如果AI设备与媒体服务器部署在同一服务器集群上则发送音频流与接收语种识别结果的动作可以直接省去。

步骤S56：媒体服务器根据会议室设定的语种发送翻译后的音频流。出于用户体验的考虑，一个会议室至多广播两种类型的语言。如前所述，会议管理员已经设定接收的翻译后的音频流的语种为英语或汉语，广播时以英语为主。在这种设定规则下，如果是汉语发言人发言则会场会播放发言人原声以及跟英语翻译；如果是俄语发言人发言，则会场会播放发言人原声以及英语翻译；如果是英语发言人发言，则会场会播放发言人原声以及汉语翻译。媒体服务器在步骤S52中根据AI设备返回结果已经确定了当前会议室的发言人的语种为英语，在步骤S55中已经确定音频流A为汉语，音频流B为俄语。根据会议管理员设定的规则(期望接收的音频流的语种包括汉语、英语)，媒体服务器中英翻译员输出的音频流A发送给会议室终端。

步骤S57：媒体服务器根据用户的语种设置转发对应的音频流。媒体服务器将原声音频流转发给英国用户，将音频流A转发给中国用户，将音频流B转发给俄罗斯用户。

需要说明的是，本申请对于步骤S52-S55的先后顺序不做具体限定。可以是接收到原声音频流之后就发给AI设备进行识别，然后再将原声音频流发给翻译终端；也可以是接收到原声音频流之后就转发给翻译终端，然后再将原声音频流和翻译后的音频流发送给AI设备进行识别。

需要补充说明的是，语种识别的频率也可以采用不同的策略。在一种实现方式中，需要将发言人的原声音频流不间断地传送给AI设备进行识别，以便于能快速识别发言人语种的变化，进而实现准确地转发。而AI设备可以在识别出的语种发生变化时，再向媒体服务器发送语种识别结果。在另一种实现方式中，媒体服务器可以间断发送原声音频流以节省网络传输资源或者向媒体服务器，间隔的大小可以根据经验设定。

上述实施例中，会场涉及的语言较少。然而，在实际的情况中，会议涉及的语种较多，且出于会议成本的考虑，翻译员的数量可能不足，进而无法实现针对每个语种的发言人都有对应的其他所有语种的翻译员。示例性的，假设发言人的语种是俄语，而会议支持的语种包括汉语(即可能存在汉语听众)，而现场并不存在俄中翻译员，此时就需要进行翻译接力。也就是需要一个翻译员先将俄语翻译成英语，再由另一个翻译员将英语翻译成汉语。在这样的情况下，媒体服务器向翻译员转发原声音频流的策略仍然同上面一样，可以是全员转发也可以是只转发给涉及相关语种的翻译员。但是，不同的是，在翻译接力时，媒体服务器还需再将俄英翻译员输出的英语流转发给英中翻译员以获取汉语音频流。出于翻译效果的考虑，一般情况下只会接力一次。媒体服务器可以根据发言人的语种，翻译员的翻译能力，以及会议最终需要的音频流的语种来确定最优的接力策略。其中，会议最终需要的音频流的语种可以由会议管理员统一设置，也可以根据用户上报的期望获取的音频流语种来确定。在翻译接力的情况下，媒体服务器需要根据计算出来的接力策略实现翻译终端之间的音频流转发。

当发言人切换时，本申请实施例的优势将体现得更加明显。假设更换发言人，发言的语种由英语切换成为俄语。基于场上的翻译员的翻译能力，可以确定需要进行翻译接力。在需要翻译接力的情况下，媒体服务器需要提前获取场上各个翻译员的翻译能力参数，以便于实行各翻译终端之间的音频流转发。结合图7，切换后的同声传译流程如下：

步骤S71：俄语发言人发言，会议室终端向媒体服务器发送原声音频流。

步骤S72：媒体服务器向AI设备转发原声音频流以识别该原声音频流的语种为俄语。

步骤S73：媒体服务器向翻译终端发送原声音频流。假设在本申请实施例中，依旧实行全员发送策略，即所有的翻译员(中英翻译员、英俄翻译员)使用的翻译终端都会接收到原声音频流。

步骤S74：英俄翻译员接收到原声音频流之后，直接将听到的俄语翻译成英语，并将翻译后的音频流1发送给媒体服务器而无需在终端上设置自己输出的语种。

步骤S75：媒体服务器向AI设备发送英俄翻译员输出的音频流，以识别该翻译后的音频流类型为英语。

步骤S76：媒体服务器确定需要翻译接力，计算翻译接力策略。媒体服务器根据会议管理员的设定或者接入的用户情况确定当前会议需要中、英、俄三种语种的音频流。根据步骤S72可以确定原声音频流为俄语，根据步骤S75可以确定有一个翻译员输出的翻译后的音频流为英语，从而可以确定此时缺少汉语音频流。根据翻译员提供的翻译能力参数确定场上存在一个中英翻译员，因此可以将英语翻译音频流转发给该翻译员以获取汉语翻译音频流。

步骤S77：媒体服务器向中英翻译员发送翻译后的音频流1。根据步骤S75媒体服务器已经确定音频流流1为英语音频流，再根据步骤S76计算的接力策略，将翻译后的音频流1转发给中英翻译员。

步骤S78：媒体服务器接收中英翻译员发送的翻译后的音频流2。在该步骤中，中英翻译员接收到英语音频流之后，直接根据职业本能将英语翻译成汉语即可，无需再在终端上手动设置自己输出的音频流的语种。

步骤S79：媒体服务器将接收到的翻译后的音频流2发送给AI设备以识别该音频流的语种为汉语。

步骤S710：媒体服务器根据会议管理员的设置转发相应的音频流。假设会议管理员设定会议终端接收的翻译后的音频流的语种为汉语和英语，则媒体服务器将翻译后的音频流1和2都转发给会议终端。

步骤S711：媒体服务器根据用户的设置转发相应的音频流。根据用户的设置，媒体服务器将原声音频流转发给俄语用户，将翻译后的音频流1转发给英语用户，将翻译后的音频流2转发给汉语用户。

需要说明的是，上述步骤序号并不一定代表执行的先后顺序。而且，在一些情况下，有些步骤可以省略。比如步骤S79，由于这是一个接力翻译的场景，媒体服务器已经确定了翻译员的翻译能力，那么向中英翻译员转发英语音频流后，收到的应该是汉语音频流，此时媒体服务器也无需再向AI服务发送音频流2以确定音频流2的语种。但是出于准确率的考虑，为了确保会议翻译万无一失，一般情况下还是需要将获得的音频流都发送到AI设备以识别语种。

除了上面描述的方法流程以外，在具体的实现本方案时，为了减少串音情况，媒体服务器还需要在向用户终端或者会议室终端发送音频流之前，对音频流进行缓存。在一种实现方式中，音频流传输以时间为维度形成音频流的传输单位，假设每100ms形成一个音频包。即会议终端或者翻译终端每100ms向媒体服务器发送一次音频流报文。媒体服务器每接收到一个音频包就将该音频包发送给AI设备以识别该音频包的语种。假设AI设备识别一个音频包的语种需要300ms，忽略媒体服务器与AI设备之间的传输时延，则媒体服务器在收到三个音频包之后才能收到第一个音频包的语种识别结果，进而将第一个音频包转发给相应的用户终端或者会议室终端。如果媒体服务器不缓存，则媒体服务器在接收到第三个音频包的时候才发现第一个音频包已经改变了语种，那么第一个音频包和第二个音频包会错发给用户或者会议室，形成串音的情况，影响用户体验。在另外一种实现方式中，媒体服务器将待识别音频流发送给AI设备，由AI设备根据预设的规则将接收到的音频流进行划分，进而再向媒体服务器反馈划分后各段音频流的语种识别信息。示例性的，AI设备的预设规则包括根据发言人的断句识别语种类型。也就是说，AI设备要首先识别音频流中的断句情况，然后以每一个断句为单位划分接收到的音频流，进而向媒体服务器返回每一句话的语种识别信息。总之，本申请实施例对于缓存以及识别的音频流的单位、大小、时长等不做具体限定，视情况而定。

上述实现同声传译的方法减少了人工的参与度，提高了翻译效率。该方法无需配备专门的会议管理人员设置会议室的语种(当前发言人的语种)，减少了对人力的占用以及出错的几率。翻译员也无需每次在切换语种时设置自己输出的语种，减轻了翻译员的压力。由AI设备统一对发言人语种以及翻译员输出的语种进行识别，提高了语言切换的准确度，减少人为因素对同声传译的影响。

随着时代的进步，翻译员的翻译工作还可以由AI设备代替，即由AI设备实现会议全程的同声传译工作。

图8为本申请实施例提供的一种实现同声传译的装置80，该装置80可以通过软件、硬件或者两者的结合实现成为装置中的部分或者全部。本申请实施例提供的装置可以实现本申请实施例图4-7所述的流程，装置80包括：接收模块81、发送模块82，其中，

接收模块81用于接收第一音频流和第二音频流，所述第二音频流为根据所述第一音频流翻译后的音频流；

发送模块82用于向人工智能AI设备发送所述第二音频流以识别所述第二音频流的语种；还用于根据所述第二音频流的语种向第一终端发送所述第二音频流，其中，所述第二音频流的语种为所述第一终端期望接收的音频流的语种。

可选的，发送模块82还用于向所述AI设备发送所述第一音频流以识别所述第一音频流的语种；还用于根据所述第一音频流的语种向所述第二终端发送所述第一音频流，其中，所述第一音频流的语种为所述第二终端期望接收的音频流的语种。

可选的，实现同声传译的装置80还包括处理模块83，该处理模块83用于根据所述AI设备返回的对第二音频流的语种识别结果确定所述第二音频流的语种。

可选的，接收模块81还用于接收AI设备返回的与所述第二音频流对应的文本；处理模块83还用于根据所述文本确定所述待第二音频流的语种。

可选的，发送模块82还用于向所有翻译员使用的翻译终端发送所述第一音频流；接收模块81还用于接收所述第二音频流，所述第二音频流为所述所有翻译员使用的翻译终端返回的音频流中的一个。

可选的，所述第一音频流的语种为第一语种，所述第二音频流的语种为第二语种，发送模块82还用于根据所述AI设备对第一音频流的语种识别结果和第一翻译能力参数向第三终端发送所述第一音频流，所述第一翻译能力参数用于指示使用所述第三终端的第一翻译员的翻译能力包括将所述第一语种翻译成所述第二语种；接收模块81还用于接收所述第三终端发送的所述第二音频流。

可选的，接收模块81还用于接收所述第三终端发送的所述第一翻译能力参数。

可选的，所述第一音频流的语种为第一语种，所述第二音频流的语种为第二语种，处理模块83，还用于根据所述AI设备对第一音频流的语种识别结果、第二翻译能力参数和第三翻译能力参数确定第四终端和第五终端，所述第二翻译能力参数用于指示使用所述第四终端的第二翻译员的翻译能力包括将所述第一语种翻译成第三语种，所述第三翻译能力参数用于指示使用所述第五终端的第三翻译员的翻译能力包括将所述第三语种翻译成所述第二语种；发送模块82，还用于向所述第四终端发送所述第一音频流；接收模块81，还用于接收所述第四终端发送的第三音频流，所述第三音频流的语种为第三语种；发送模块82，还用于向第五终端发送所述第三音频流；接收模块81，还用于接收所述第五终端发送的所述第二音频流。

可选的，实现同声传译的装置80还包括存储模块84，所述存储模块84用于存储所述第二音频流；发送模块82还用于在确定时刻之后，所述媒体服务器从所述确定时刻前存储的所述第二音频流开始向第一终端发送所述第二音频流，所述确定时刻为所述媒体服务确定所述第二音频流的语种为所述第一终端期望接收的语种的时刻。

可选的，接收模块81还用于接收所述第一终端发送的第一语种设置信息，所述第一语种设置信息用于指示所述第一终端期望接收的音频流的语种；还用于接收所述第二终端发送的第二语种设置信息，所述第二语种设置信息用于指示所述第二终端期望接收的音频流的语种。

图9为本申请实施例提供的一种实现同声传译的设备90，如图所示，所述设备90包括处理器91、存储器92、通信接口93。其中，处理器91、存储器92、通信接口93通过有线或者无线传输等手段实现通信连接。该存储器92用于存储指令，该处理器91用于执行该指令。该存储器92存储程序代码，且处理器91可以调用存储器92中存储的程序代码执行以下操作：

接收第一音频流和第二音频流，所述第二音频流为根据所述第一音频流翻译后的音频流；向AI设备发送所述第二音频流以识别所述第二音频流的语种；根据所述第二音频流的语种向第一终端发送所述第二音频流，其中，所述第二音频流的语种为所述第一终端期望接收的音频流的语种。

应理解，在本申请实施例中，该处理器91可以是CPU，或者其他可执行存储的程序代码的通用处理器。

该存储器92可以包括只读存储器和随机存取存储器，并向处理器91提供指令和数据。存储器92还可以包括非易失性随机存取存储器。例如，存储器92还可以存储设备类型的信息。该存储器92可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM)。通过示例性但不是限制性说明，许多形式的RAM可用，例如动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。

该总线94除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线94。

作为一种可能的实施例，本申请还提供一种实现同声传译的系统。该系统包括实现同声传译的装置80以及AI设备。在一种可能的实现方式中，实现同声传译的装置80和AI设备部署在同一个服务器中。该实现同声传译的系统中的各个装置执行如各图4-7中所示的方法，为了简洁，在此不再赘述。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

一种实现同声传译的方法，其特征在于，所述方法包括：

媒体服务器接收第一音频流和第二音频流，所述第二音频流为根据所述第一音频流翻译后的音频流；

所述媒体服务器向人工智能AI设备发送所述第二音频流以识别所述第二音频流的语种；

所述媒体服务器根据所述第二音频流的语种向第一终端发送所述第二音频流，其中，所述第二音频流的语种为所述第一终端期望接收的音频流的语种。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述媒体服务器向所述AI设备发送所述第一音频流以识别所述第一音频流的语种；

所述媒体服务器根据所述第一音频流的语种向所述第二终端发送所述第一音频流，其中，所述第一音频流的语种为所述第二终端期望接收的音频流的语种。
根据权利要求1或2所述的方法，其特征在于，所述媒体服务器向所述AI设备发送所述第二音频流以识别所述第二音频流的语种包括：

所述媒体服务器根据所述AI设备返回的对第二音频流的语种识别结果确定所述第二音频流的语种。
根据权利要求1或2所述的方法，其特征在于，所述媒体服务器向所述AI设备发送所述第二音频流以识别所述第二音频流的语种包括：

所述媒体服务器接收所述AI设备返回的与所述第二音频流对应的文本；

所述媒体服务器根据所述文本确定所述第二音频流的语种。
根据权利要求2-4任一所述的方法，其特征在于，所述媒体服务器接收所述第二音频流包括：

所述媒体服务器向所有翻译员使用的翻译终端发送所述第一音频流；

所述媒体服务器接收第二音频流，所述第二音频流来自所述所有翻译员使用的翻译终端中的一个。
根据权利要求2-5任一所述的方法，其特征在于，所述第一音频流的语种为第一语种，所述第二音频流的语种为第二语种，所述媒体服务器接收所述第二音频流包括：

所述媒体服务器根据所述AI设备对第一音频流的语种识别结果和第一翻译能力参数向第三终端发送所述第一音频流，所述第一翻译能力参数用于指示使用所述第三终端的第一翻译员的翻译能力包括将所述第一语种翻译成所述第二语种；

所述媒体服务器接收所述第三终端发送的所述第二音频流。
根据权利要求6所述的方法，其特征在于，在所述媒体服务器向第三终端发送所述第一音频流之前，所述方法还包括：

所述媒体服务器接收所述第三终端发送的所述第一翻译能力参数。
根据权利要求2-5任一项所述的方法，其特征在于，所述第一音频流的语种为第一语种，所述第二音频流的语种为第二语种，所述媒体服务器接收所述第二音频流包括：

所述媒体服务器根据所述AI设备对第一音频流的语种识别结果、第二翻译能力参数和第三翻译能力参数确定第四终端和第五终端，所述第二翻译能力参数用于指示使用所述第四终端的第二翻译员的翻译能力包括将所述第一语种翻译成第三语种，所述第三翻译能力参数用于指示使用所述第五终端的第三翻译员的翻译能力包括将所述第三语种翻译成所述第二语种；

所述媒体服务器向所述第四终端发送所述第一音频流；

所述媒体服务器接收所述第四终端发送的第三音频流，所述第三音频流为根据所述第一音频流翻译后的音频流，所述第三音频流的语种为所述第三语种；

所述媒体服务器向第五终端发送所述第三音频流；

所述媒体服务器接收所述第五终端发送的所述第二音频流。
根据权利要求1-8任一项所述的方法，其特征在于，所述媒体服务器向第一终端发送所述第二音频流之前，所述方法还包括：

所述媒体服务器存储所述第二音频流；

在确定时刻之后，所述媒体服务器从所述确定时刻前存储的所述第二音频流开始向第一终端发送所述第二音频流，所述确定时刻为所述媒体服务确定所述第二音频流的语种为所述第一终端期望接收的语种的时刻。
根据权利要求1-9任一所述的方法，其特征在于，所述方法还包括：

所述媒体服务器接收所述第一终端发送的第一语种设置信息，所述第一语种设置信息用于指示所述第一终端期望接收的音频流的语种；

所述媒体服务器接收所述第二终端发送的第二语种设置信息，所述第二语种设置信息用于指示所述第二终端期望接收的音频流的语种。
根据权利要求1-10任一项所述的方法，其特征在于，所述AI设备和所述媒体服务器部署在同一服务器中。
一种实现同声传译的装置，其特征在于，所述装置包括接收模块和发送模块，

所述接收模块，用于接收第一音频流和第二音频流，所述第二音频流为根据所述第一音频流翻译后的音频流；

所述发送模块，用于向人工智能AI设备发送所述第二音频流以识别所述第二音频流的语种；还用于根据所述第二音频流的语种向第一终端发送所述第二音频流，其中，所述第二音频流的语种为所述第一终端期望接收的音频流的语种。
根据权利要求12所述的装置，其特征在于，

所述发送模块，还用于向所述AI设备发送所述第一音频流以识别所述第一音频流的语种；还用于根据所述第一音频流的语种向所述第二终端发送所述第一音频流，其中，所述第一音频流的语种为所述第二终端期望接收的音频流的语种。
根据权利要求12或13所述的装置，其特征在于，所述装置还包括处理模块，

所述处理模块用于根据所述AI设备返回的对第二音频流的语种识别结果确定所述第二音频流的语种。
根据权利要求12或13所述的装置，其特征在于，所述装置还包括处理模块，

所述接收模块还用于接收所述AI设备返回的与所述第二音频流对应的文本；

所述处理模块还用于根据所述文本确定所述待第二音频流的语种。
根据权利要求13-15任一项所述的装置，其特征在于，

所述发送模块，还用于向所有翻译员使用的翻译终端发送所述第一音频流；

所述接收模块，还用于接收所述第二音频流，所述第二音频流来自所述所有翻译员使用的翻译终端中的一个。
根据权利要求13-16任一项所述的装置，其特征在于，所述第一音频流的语种为第一语种，所述第二音频流的语种为第二语种，

所述发送模块，还用于根据所述AI设备对第一音频流的语种识别结果和第一翻译能力参数向第三终端发送所述第一音频流，所述第一翻译能力参数用于指示使用所述第三终端的第一翻译员的翻译能力包括将所述第一语种翻译成所述第二语种；

所述接收模块，还用于接收所述第三终端发送的所述第二音频流。
根据权利要求17所述的装置，其特征在于，所述接收模块还用于：接收所述第三终端发送的所述第一翻译能力参数。
根据权利要求13-16任一项所述的装置，其特征在于，所述第一音频流的语种为第一语种，所述第二音频流的语种为第二语种，

所述处理模块，还用于根据所述AI设备对第一音频流的语种识别结果、第二翻译能力参数和第三翻译能力参数确定第四终端和第五终端，所述第二翻译能力参数用于指示使用所述第四终端的第二翻译员的翻译能力包括将所述第一语种翻译成第三语种，所述第三翻译能力参数用于指示使用所述第五终端的第三翻译员的翻译能力包括将所述第三语种翻译成所述第二语种；

所述发送模块，还用于向所述第四终端发送所述第一音频流；

所述接收模块，还用于接收所述第四终端发送的第三音频流，所述第三音频流为根据所述第一音频流翻译后的音频流，所述第三音频流的语种为第三语种；

所述发送模块，还用于向第五终端发送所述第三音频流；

所述接收模块，还用于接收所述第五终端发送的所述第二音频流。
根据权利要求12-19任一项所述的装置，其特征在于，所述装置还包括存储模块，

所述存储模块，用于存储所述第二音频流；

所述发送模块，还用于在确定时刻之后，所述媒体服务器从所述确定时刻前存储的所述第二音频流开始向第一终端发送所述第二音频流，所述确定时刻为所述媒体服务确定所述第二音频流的语种为所述第一终端期望接收的语种的时刻。
根据权利要求12-20任一项所述的装置，其特征在于，

所述接收模块，还用于接收所述第一终端发送的第一语种设置信息，所述第一语种设置信息用于指示所述第一终端期望接收的音频流的语种；还用于接收所述第二终端发送的第二语种设置信息，所述第二语种设置信息用于指示所述第二终端期望接收的音频流的语种。
根据权利要求12-21任一项所述的装置，其特征在于，所述装置和所述AI设备部署在同一服务器中。
一种实现同声传译的系统，其特征在于，所述系统包括媒体服务器和AI设备，

所述媒体服务器用于接收第一音频流和第二音频流，所述第二音频流为根据所述第一音频流翻译后的音频流，还用于向人工智能AI设备发送所述第二音频流；

所述AI设备用于接收所述第二音频流，并向所述媒体服务器发送第一语种识别信息；

所述媒体服务器还用于根据所述第一语种识别信息确定所述第二音频流的语种，并向第一终端发送所述第二音频流。
根据权利要求23所述的系统，其特征在于：

所述媒体服务器还用于向所述AI设备发送所述第一音频流；

所述AI设备还用于接收所述第一音频流，并向所述媒体服务器发送第二语种识别信息；

所述媒体服务器还用于根据所述第二语种识别信息确定所述第一音频流的语种，并向第二终端发送所述第一音频流。
根据权利要求23或24所述的系统，其特征在于，所述第一语种识别信息包括第二音频流的语种识别结果或者第二音频流对应的文本。
一种同声传译设备，其特征在于，所述同声传译设备包括处理器和存储器，所述存储器存储有计算机指令，所述处理器执行所述存储器中的计算机指令以执行权利要求1-11中任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得所述计算机执行如权利要求1-11任一项所述的方法。