WO2019214359A1

WO2019214359A1 - 基于同声传译的数据处理方法、计算机设备和存储介质

Info

Publication number: WO2019214359A1
Application number: PCT/CN2019/080027
Authority: WO
Inventors: 白晶亮; 欧阳才晟; 刘海康; 陈联武; 陈祺; 张宇露; 罗敏; 苏丹
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-05-10
Filing date: 2019-03-28
Publication date: 2019-11-14
Also published as: CN110444196A; CN108615527B; EP3792916A4; CN110444196B; EP3792916C0; EP3792916A1; CN108615527A; US20200357389A1; EP3792916B1; CN110444197A; CN110444197B

Abstract

本申请涉及一种基于同声传译的数据处理方法、计算机设备和存储介质，所述方法应用于同声传译系统中的服务器，所述同声传译系统还包括同声传译设备和用户终端，包括：获取所述同声传译设备发送的音频；通过同声传译模型处理所述音频得到初始文本；将所述初始文本发送至所述用户终端；接收所述用户终端反馈的修改文本，所述修改文本是所述用户终端对所述初始文本进行修改后得到的；根据所述初始文本和所述修改文本更新所述同声传译模型。本申请提供的方案可以提高由处理音频得到的文本的准确性。

Description

基于同声传译的数据处理方法、计算机设备和存储介质

本申请要求于2018年05月10日提交的申请号为201810443090.X、发明名称为“基于同声传译的数据处理方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及同声传译技术领域，特别是涉及一种基于同声传译的数据处理方法、计算机设备和存储介质。

背景技术

SI(Simultaneous Interpretation，同声传译)，简称“同传”，是指在不打断演讲者演讲的情况下，不间断地将演讲内容翻译给观众的翻译方式。目前，世界上95％的国际会议都采用同声传译的方式。

相关技术的同声传译技术方案中，常用的同声传译方法为：同声传译设备采集演讲者发出的音频，将采集到的音频上传到服务器。服务器对接收到的音频进行处理得到相应的文本，并将该文本展示在同声传译系统的显示屏。

然而，在相关技术的同声传译技术方案中，服务器处理音频得到的文本很有可能会出错，这会严重影响同声传译中文本内容的准确性。

发明内容

本申请实施例提供了一种基于同声传译的数据处理方法、计算机设备和存储介质，能够解决相关技术在同声传译中文本内容的准确性偏低的问题。

本申请实施例提供了一种基于同声传译的数据处理方法，所述方法应用于同声传译系统中的服务器，所述同声传译系统中还包括同声传译设备和用户终端，包括：

获取所述同声传译设备发送的音频；

通过同声传译模型处理所述音频得到初始文本；

将所述初始文本发送至所述用户终端；

接收所述用户终端反馈的修改文本，所述修改文本是所述用户终端对所述初始文本进行修改后得到的；

根据所述文本和所述修改文本更新所述同声传译模型。

本申请实施例提供了一种基于同声传译的数据处理装置，所述装置应用于同声传译系统中的服务器，所述同声传译系统中还包括同声传译设备和用户终端，包括：

获取模块，用于获取所述同声传译设备发送的音频；

处理模块，用于通过同声传译模型处理所述音频得到初始文本；

发送模块，用于将所述初始文本发送至所述用户终端；

接收模块，用于接收所述用户终端反馈的修改文本，所述修改文本是所述用户终端对所述初始文本进行修改后得到的；

更新模块，根据所述初始文本和所述修改文本更新所述同声传译模型。

本申请实施例提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述基于同声传译的数据处理方法的步骤。

本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述基于同声传译的数据处理方法的步骤。

上述基于同声传译的数据处理方法、装置和存储介质，通过接收用户终端反馈的对初始文本修改后得到的修改文本，实现了当处理音频得到的初始文本发生修改时，能及时地获得相应的反馈。另外，根据初始文本和修改文本更新同声传译模型，再通过更新后的同声传译模型对后续的音频进行处理，从而提高了由处理音频得到的文本的准确性。

本申请实施例提供了一种基于同声传译的数据处理方法，所述方法应用于同声传译系统中的用户终端，所述同声传译系统中还包括同声传译设备和服务器，包括：

展示同声传译辅助页面；

接收所述服务器发送的初始文本；所述初始文本是所述服务器通过同声传译模型处理所述同声传译设备发送的音频得到的；

在所述同声传译辅助页面中展示所述初始文本；

当检测到修改指令时，获取与所述初始文本对应的修改文本；

将所述修改文本发送至所述服务器；所述修改文本，用于指示所述服务器根据所述初始文本和所述修改文本更新所述同声传译模型。

本申请实施例提供了一种基于同声传译的数据处理装置，所述装置应用于同声传译系统中的用户终端，所述同声传译系统中还包括同声传译设备和服务器，包括：

第一展示模块，用于展示同声传译辅助页面；

接收模块，用于接收所述服务器发送的初始文本；所述初始文本是所述服务器通过同声传译模型处理所述同声传译设备发送的音频得到的；

第二展示模块，用于在所述同声传译辅助页面中展示所述初始文本；

获取模块，用于当检测到修改指令时，获取与所述初始文本对应的修改文本；

发送模块，用于将所述修改文本发送至所述服务器；所述修改文本，用于指示所述服务器根据所述初始文本和所述修改文本更新所述同声传译模型。

上述基于同声传译的数据处理方法、装置和存储介质，通过同传辅助展示页面展示由服务器处理音频得到的初始文本，当检测到修改指令时，获得对应的修改文本，实现了当由服务器处理音频得到的文本出错时，用户终端可以进行相应的修改，将获得的修改文本同步至服务器，以指示服务器根据初始文本和修改文本更新同声传译模型，从而提高了由处理音频得到的文本的准确性。

附图说明

图1为一个实施例中基于同声传译的数据处理方法的应用环境图；

图2为一个实施例中基于同声传译的数据处理方法的流程示意图；

图3为一个实施例中音频处理和语音识别的步骤的流程示意图；

图4为一个实施例中合并文本与视频，并将合并的内容发送用户终端展示的步骤的流程示意图；

图5为一个实施例中将会议号同步至用户终端的步骤的流程示意图；

图6为一个实施例中更新存储的文本，并向用户终端反馈更新后的文本的步骤的流程示意图；

图7为一个实施例中调整与用户终端标识对应的权重的步骤的流程示意图；

图8为另一个实施例中基于同声传译的数据处理方法的流程示意图；

图9为一个实施例中同声传译辅助页面的页面示意图；

图10为一个实施例中构建同声传译辅助页面的步骤的流程示意图；

图11为一个实施例中对本地存储的文本进行更新的步骤的流程示意图；

图12为另一个实施例中基于同声传译的数据处理方法的流程示意图；

图13为又一个实施例中基于同声传译的数据处理方法的流程示意图；

图14为一个实施例中传统同声传译系统的结构示意图；

图15为一个实施例中应用于基于同声传译的数据处理方法的同声传译系统的结构示意图；

图16为一个实施例中基于同声传译的数据处理方法的时序图；

图17为一个实施例中基于同声传译的数据处理装置的结构框图；

图18为另一个实施例中基于同声传译的数据处理装置的结构框图；

图19为另一个实施例中基于同声传译的数据处理装置的结构框图；

图20为另一个实施例中基于同声传译的数据处理装置的结构框图；

图21为一个实施例中计算机设备的结构框图；

图22为另一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中基于同声传译的数据处理方法的应用环境图。参照图1，该基于同声传译的数据处理方法应用于同声传译系统。该同声传译系统包括用户终端110、服务器120和同声传译设备130。用户终端110和同声传译设备130与服务器120通过网络连接。

用户终端110可以是台式终端或移动终端，该移动终端可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者由多个服务器组成的服务器集群来实现，本申请实施例对此不进行具体限定。作为一个示例，当服务器120为多个服务器时，可以包括语音服务器和翻译服务器。同声传译设备130可以是具有音频采集功能的终端，如笔记本电脑、携带麦克风的台式电脑等。

如图2所示，在一个实施例中，提供了一种基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2，该基于同声传译的数据处理方法包括如下步骤：

S202，服务器获取同声传译设备发送的音频。

其中，音频指的是在同声传译过程中，演讲者在演讲过程中所发出的音频。

在一个实施例中，S202之前，该方法还包括：当接收到用户终端发送的携带用户标识的连接请求时，服务器判断该用户标识是否具有访问同声传译会议的权限。若判定该用户标识具有访问同声传译会议的权限时，则服务器建立与用户终端的通信连接。若判定该用户标识不具有访问同声传译会议的权限，则服务器拒绝建立与用户终端的通信连接。

其中，该通信连接可以是TCP(Transmission Control Protocol，传输控制协议)连接、UDP(User Datagram Protocol，用户数据报协议)或websocket连接等，本申请实施例对此不进行具体限定。

在一个实施例中，获取音频的方法可以包括：同声传译设备采集外界发出的音频，并由同声传译设备将采集的音频发送至服务器，从而服务器获取到音频。或者，当同声传译设备采集到外界发出的音频时，对音频进行降噪处理，之后，对降噪的音频进行功率放大，并对放大的音频进行语音活动性检测，将非语音部分的音频进行滤除，然后将滤除非语音部分后的音频发送至服务器，从而服务器获取到音频。

S204，服务器通过同声传译模型处理获取到的音频，得到初始文本。

其中，同声传译模型用于对获取到的音频进行处理，如语音识别以及对识别的结果进行翻译等。作为一个示例，同声传译模型可以包括语音模型和翻译模型。语音模型包括通用语音模型和辅助语音模型。

通用语音模型用于对音频进行语音识别，获得对应的识别文本。辅助语音模型用于对识别文本进行矫正，即当识别文本出现与上次一样的错误时，对出错的地方进行矫正。翻译模型用于对识别文本进行翻译，得到翻译文本。

作为一个示例，初始文本指的是识别文本和翻译文本。即，处理音频得到的初始文本包括：识别文本和翻译文本。其中，识别文本为对音频进行语音识别得到的文本。翻译文本为对识别文本进行翻译得到的目标语种的文本，也可称为译文。

此外，初始文本中还可以包括对识别文本进行修改后的识别更新文本，识别更新文本也可称为更新后的识别文本。

在一个实施例中，服务器通过同声传译模型，对获取到的音频进行语音识别，获得语音识别后的识别文本。服务器通过同声传译模型，对识别文本进行翻译，获得目标语种的翻译文本，将识别文本和翻译文本确定为处理音频得到的初始文本。

在一个实施例中，服务器对接收的一段完整语音进行处理，得到初始文本。其中，一段完整语音可以是预设时长的语音，也可以是演讲者从演讲到语句停顿之间的语音。例如，演讲者演讲道：“先生们，女士们，大家晚上好。……”。在该语音中，演讲者在说完“大家晚上好”后有一个停顿，那么，该完整语音可以是“先生们，女士们，大家晚上好”。

S206，服务器将初始文本发送至用户终端。

作为一个示例，服务器将文本发送至用户终端，发送的文本用于指示该用户终端将接收到的文本展示于同声传译辅助页面，以便同声传译会议中的观众可以通过用户终端观看同声传译的文本内容。

在一个实施例中，每当服务器处理完一段音频得到相应的文本之后，服务器将得到的文本发送至用户终端。其中，上述的一段音频可以是：演讲者演讲的一段话，且该段话的时长在一定时间范围内，如一分钟或半分钟等。

在一个实施例中，每当服务器处理完一段音频得到相应的文本之后，若确定出该文本的字数达到预设字数阈值，则服务器将该文本发送至用户终端。

S208，服务器接收用户终端反馈的修改文本，该修改文本是用户终端对初始文本进行修改后得到的。

其中，由于服务器发送的文本中可以既包括识别文本也包括翻译文本，因此修改文本既可以是基于识别文本修改得到的文本，也可以是基于翻译文本修改得到的文本。需要说明的是，对文本进行修改可以是对文本中的一个字、或一个词语、或一句话、或该文本整体进行修改。

即，服务器接收用户终端反馈的、对识别文本修改后得到的修改文本。或者，服务器接收用户终端反馈的、对翻译文本修改后得到的修改文本。

S210，服务器根据初始文本和修改文本更新同声传译模型。

在一个实施例中，由于同声传译模型包括语音模型和翻译模型，因此当加权累积值达到阈值、且修改文本为基于识别文本修改得到时，服务器可以根据识别文本和修改文本更新语音模型。当加权累积值达到阈值、且修改文本为基于翻译文本修改得到时，服务器可以根据翻译文本和修改文本更新翻译模型。

其中，加权累计值达到阈值指的是加权累积值大于或等于阈值。在一个实施例中，当服务器按照与用户终端标识对应的权重，确定修改文本的加权累积值之后，服务器判断加权累积值与预设的阈值之间的大小。

上述基于同声传译的数据处理方法，服务器通过接收用户终端反馈的对初始文本修改后得到的修改文本，实现了当初始文本发生修改时，能及时地获得相应的反馈。另外，根据初始文本和修改文本更新同声传译模型后，再通过更新后的同声传译模型对后续音频进行处理，从而提高了由处理音频得到的文本的准确性。

在一个实施例中，S204可以包括：

S302，服务器对获取到的音频进行降噪处理。

在一个实施例中，服务器通过降噪算法对获取到的音频进行降噪处理，其中，降噪算法可以包括维纳滤波降噪算法、基本谱减法或LMS的自适应陷波算法等。

在一个实施例中，对获取到的音频进行降噪处理之后，服务器还可以对降噪后的音频进行功率放大处理。

S304，服务器获取降噪处理后的音频包括的语音部分。

其中，音频可以包含语音部分和非语音部分。

在一个实施例中，服务器还可以对降噪处理后的音频，或对降噪和功放处理后的音频进行语音活动性检测，以判断音频中是否存在非语音部分。当确定音频中存在非语音部分时，将非语音部分进行删除，从而获取到音频中的语音部分。

S306，服务器从获取到的语音部分中获取能量值大于或等于能量阈值的音频部分。

由于演讲者在演讲的过程中，可能会有其他人讲话。那么，已删除非语音部分的音频中，除了演讲者的音频之外，还可能包含他人的音频。其中，他人的音频的能量相对演讲者的能量要小。因此，可以对获取到的语音部分进行能量检测，从获取的语音部分中获取能量值大于或等于能量阈值的音频部分。

S308，服务器通过同声传译模型处理该音频部分获得初始文本。

在一个实施例中，服务器通过语音识别算法，对步骤s306得到的音频部分进行语音识别，获得初始文本。

上述基于同声传译的数据处理方法，服务器对获得的音频进行降噪，有利于提高语音识别的正确率。另外，获取降噪处理后的音频中的语音部分，有利于在语音识别的过程中，避免服务器对整个音频进行编解码，提高了服务器的计算效率。另外，从获取到的语音部分中获取能量大于或等于能量阈值的音频部分，避免了语音识别过程中，他人的语音对演讲者的语音产生干扰，从而避免了获得非演讲者的语音对应的文本。

在一个实施例中，同声传译模型包括通用语音模型和辅助语音模型；初始文本包括识别文本和识别更新文本中的至少一种。

其中，识别文本是通过通用语音模型对获取到的音频进行语音识别得到的；识别更新文本是通过辅助语音模型更新识别文本得到的；换一种表达方式，通过同声传译模型处理音频得到初始文本，包括：通过通用语音模型对音频进行语音识别，得到识别文本；通过辅助语音模型对识别文本进行更新，得到识别更新文本。S210可以包括：根据初始文本和修改文本更新辅助语音模型。

其中，通用语音模型用于对获取到的音频进行语音识别，获得识别文本。辅助语音模型用于对识别文本进行更新，例如，在服务器根据初始文本和修改文本对辅助语音模型进行更新之后，当辅助语音模型检测到识别文本出现错误、且该错误有对应的修改文本时，服务器通过辅助语音模型将出错的识别文本进行更新，即把出错的识别文本替换为修改文本。当辅助语音模型未检测到识别文本出现错误时，服务器将不对识别文本进行更新。

在一个实施例中，在根据初始文本和修改文本更新辅助语音模型之后，该方法还包括：服务器将获得新的音频输入通用语音模型，通过通用语音模型将输入的音频识别为对应的识别文本。服务器将识别得到的识别文本输入辅助语音模型，通过辅助语音模型检测该识别文本是否包含有与修改文本对应的内容，若该识别文本包含有与修改文本对应的内容，则将上述对应的内容更新为修改文本。

上述基于同声传译的数据处理方法，服务器根据初始文本和修改文本更新辅助语音模型，以通过更新的辅助语音模型对后续的文本进行更新处理，即若后续的文本包含有与修改文本对应的内容时，将对应的内容替换为修改文本，避免再次出现更新之前的错误，从而提高了同声传译中获得的文本的准确性。

在一个实施例中，同声传译模型包括翻译模型；初始文本包括翻译文本；修改文本包括修改的翻译文本；S210可以包括：根据翻译文本和修改的翻译文本更新翻译模型。

在一个实施例中，在根据翻译文本和修改的翻译文本更新翻译模型之后，该方法还包括：服务器将识别文本或识别更新文本输入翻译模型，当通过翻译模型检测到识别文本或识别更新文本包含有与修改的翻译文本对应的内容时，将该对应的内容更新为修改的翻译文本。

在一个实施例中，翻译模型可以包括通用翻译模型和辅助翻译模型；根据翻译文本和修改的翻译文本更新翻译模型的步骤，可以包括：根据翻译文本和修改的翻译文本更新辅助翻译模型。在辅助翻译模型更新之后，服务器将识别文本或识别更新文本输入通用翻译模型，通过通用翻译模型将识别文本或识别更新文本翻译为翻译文本。之后，服务器将翻译文本输入辅助翻译模型，通过辅助翻译模型检测翻译文本是否包含有与修改的翻译文本匹配的内容，若翻译文本包含有与修改的翻译文本匹配的内容，则将该匹配的内容更新为修改的翻译文本，得到最终的翻译文本。

上述基于同声传译的数据处理方法，服务器根据翻译文本和修改的翻译文本更新翻译模型，以通过更新的翻译模型对后续的文本进行翻译，避免出现更新之前出现的错误，从而提高了同声传译中获得的文本的准确性。

在一个实施例中，如图4所示，该方法还包括：

S402，服务器接收同声传译设备发送的与音频匹配的视频。

其中，该视频可以是演讲者的视频，也可以是演讲者的PPT(Power Point，演示文稿)。

在一个实施例中，同声传译设备采集与获取到的音频匹配的视频，并将采集到的视频发送至服务器。服务器接收同声传译设备采集的视频。

S404，服务器将初始文本嵌入视频。

在一个实施例中，服务器可以根据处理音频得到的文本在视频中的出现时间，将该文本嵌入视频。其中，该出现时间指的是当用户终端在播放视频时，该文本以字幕的形式出现在视频中的时间。

在一个实施例中，服务器可以将初始文本嵌入视频的底部、中部或顶部。服务器还可以设置初始文本嵌入在视频中的行数，如大于或等于两行。

S406，服务器将已嵌入初始文本的视频发送至用户终端。

在一个实施例中，服务器通过与用户终端之间建立的连接通道，将已嵌入文本的视频发送至用户终端。其中，该连接通道可以是TCP连接通道或UDP连接通道。

需要说明的是，将文本嵌入至视频之后，用户终端展示嵌入文本的视频时，用户可以通过用户终端对嵌入的文本进行修改。

上述基于同声传译的数据处理方法，服务器将同声传译过程中得到的文本嵌入视频中，将嵌入文本的视频发送至用户终端，一方面，文本与视频的结合，有利于提高观众对文本的理解；另一方面，观众除了可以观看到同声传译中的文本之外，还可以观看到视频内容，丰富了用户终端展示的内容。

在一个实施例中，服务器获取到的音频与群组标识对应；作为一个示例，该群组标识指代会议号。如图5所示，S206可以包括：

S502，服务器将初始文本发送至通过会议号接入的用户终端。

其中，会议号指的是同声传译会议中的编号。在同声传译的软件系统中，可以同时支持多个同声传译会议，不同的同声传译会议具有不同的会议号。

在一个实施例中，当用户终端扫描会议室中的二维码或条形码之后，服务器建立与用户终端的通信连接，并将同声传译列表发送至用户终端，以便持有用户终端的观众选择同声传译列表中的会议编号，进入对应的同声传译会议。

在一个实施例中，服务器接收用户终端携带有会议号和用户标识的访问请求，根据用户标识确定用户是否具有访问与会议号对应的同声传译会议的权限。若具有访问与会议号对应的同声传译会议的权限时，服务器允许用户终端的访问。若不具有访问与会议号对应的同声传译会议的权限时，服务器则拒绝用户终端的访问。其中，用户标识可以是手机号或社交账号。

S504，服务器接收用户终端反馈的评论信息。

其中，评论信息指的是观众在观看演讲者的演讲内容过程中发起的评论。演讲内容包括处理音频得到的文本和对应的翻译文本。

S506，服务器在通过会议号接入的用户终端间同步评论信息。

在一个实施例中，服务器根据会议号确定连接的用户终端，将接收到的评论信息同步至确定的所有用户终端，以指示用户终端将接收到的评论信息以弹幕的形式展示于同声传译辅助页面。

上述基于同声传译的数据处理方法，服务器根据会议号确定接收评论信息的用户终端，一方面，观众可以通过用户终端发起评论，提升用户与同声传译系统之间的交互性；另一方面，可以有效地避免将评论信息发送至其它同声传译会议的用户终端。

在一个实施例中，服务器获取到的音频与群组标识对应；作为一个示例，该群组标识指代会议号。S206可以包括：将初始文本发送至通过会议号接入的用户终端；如图6所示，该方法还包括：

S602，服务器将初始文本与会议号对应存储。

在一个实施例中，当服务器开始处理某个演讲者的音频得到相应的文本之后，创建目标格式的文档，将初始文本添加入该文档中，并建立文档与会议号之间的映射关系，以及将建立映射关系的文档和会议号进行存储。之后，当服务器处理新采集到的音频得到相应的文本之后，将该文本直接添加入创建的文档中。

S604，当修改文本的加权累积值达到阈值时，服务器将与会议号对应存储的文本更新为修改文本。

S606，当接收到通过会议号接入的用户终端发送的同步请求时，服务器向发起同步请求的用户终端反馈与会议号对应的更新后的文本。

对于同声传译的观众而言，可以及时下载到正确版本的文本内容。

上述基于同声传译的数据处理方法，服务器根据修改文本更新存储的文本，从而保证了原先出现错误的文本能够被及时的纠正。当服务器接收到用户终端的同步请求时，即可将更新后的文本发送至用户终端，保证了用户终端获得的文本为更新后的正确文本，提高了文本的准确性。

在一个实施例中，如图7所示，该方法还包括：

S702，服务器统计各个用户终端标识对应的文本修改次数。

其中，文本修改次数指的是携带用户终端的用户对观看的文本进行修改的次数。观看的文本可以是服务器处理不同的音频得到的文本，作为一个示例，观看的文本包括识别文本、识别更新文本和翻译文本。用户终端标识用于表示携带该用户终端的用户。

在一个实施例中，服务器根据接收的修改文本和对应的用户终端标识，确定归属于同一个用户终端标识的修改文本数量，将该数量作为同一个用户终端标识对应的文本修改次数。

S704，服务器检测各个用户终端标识对应的文本修改正确率。

其中，文本修改正确率指的是在预设时间内，该用户终端标识对应的用户终端修改对应文本的修改正确率，也即预设时间内得到的修改文本的正确率。

由于对文本进行修改得到的修改文本，可能会出现错误，因此，在一个实施例中，服务器检测用户终端标识对应的修改文本，判断修改文本是否正确，统计正确率，从而得到用户终端标识对应的文本修改正确率。

S706，对于任意一个用户终端标识，当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时，服务器调高与该用户终端标识对应的权重。

其中，权重指的是每个用户终端对接收的文本进行修改具有的修改权重。不同级别的用户终端标识，对应的权重可以不同。例如，普通用户级别的用户终端标识，对应的权重较小。具有管理者权限用户级别的用户终端标识，对应的权重较大。

在一个实施例中，服务器根据文本修改次数和文本修改正确率，调整与用户终端标识对应的权重。其中，调整与用户终端标识对应的权重包括：当文本修改次数小于修改次数阈值、且文本修改正确率小于文本修改正确率阈值时，调低与用户终端标识对应的权重。当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时，调高与用户终端标识对应的权重。

上述基于同声传译的数据处理方法，服务器判断文本修改次数和文本修改正确率达到预设的条件时，调高与用户终端标识对应的权重，实现了对修改文本贡献度大的用户赋予更大的权重，有利于提高文本的准确性。

在一个实施例中，S210可以包括：按照与各个用户终端标识对应的权重，确定修改文本的加权累积值；当加权累积值达到阈值时，根据初始文本和修改文本更新同声传译模型。

加权累积值是对权重进行累加或累积所得。其中，累加指的是将各个权重相加。累积指的是：当某个用户终端对同一个文本进行了多次修改，则将修改次数与对应的权重进行相乘，再与其它的权重进行相加。

例如，用户终端A、用户终端B和用户终端C对某个文本进行了修改，用户终端标识对应的权重分别为q1、q2和q3，用户终端A修改了两次，用户终端B和用户终端C修改了1次，那么，加权累积值S＝2×q1+q2+q3。

在一个实施例中，服务器接收到用户终端发送的修改文本时，确定该用户终端的用户终端标识对应的级别，根据确定的级别获得对应的权重。之后，服务器将获得的权重进行累加或累积计算，将计算结果确定为修改文本的加权累积值。

在一个实施例中，当服务器接收到某个用户终端发送的多个修改文本、且该多个修改文本基于同一个文本修改得到时，服务器将最后接收到的修改文本作为该用户终端的最终修改版本。

上述基于同声传译的数据处理方法，根据反馈的修改文本，统计用户终端对修改文本的加权累积值，当加权累积值达到阈值时，根据初始文本和修改文本更新同声传译模型，而使用更新后的同声传译模型对后续的音频进行处理，可以提高由处理音频得到的文本的准确性。此外，由于加权累积值达到阈值时，才对同声传译模型进行更新，因此可以有效地避免因无效修改而影响同声传译模型，进一步保证了由处理音频得到的文本的准确性。

如图8所示，在一个实施例中，提供了一种基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的用户终端110来举例说明。参照图8，该基于同声传译的数据处理方法包括如下步骤：

S802，用户终端展示同声传译辅助页面。

其中，同声传译辅助页面可用于展示文本，或者展示嵌入文本的视频。此外，同声传译辅助页面还可以展示同声传译列表。

在一个实施例中，用户终端通过社交应用扫描同声传译会议中的条形码或二维码，根据条形码或二维码中的链接地址进入社交应用中的小程序。用户终端在小程序中展示同声传译辅助页面，并在该同声传译辅助页面中展示同声传译列表，该同声传译列表中包含有不同会议号的同声传译会议。根据输入的选择指令，进入同声传译列表中对应的同声传译会议。

在一个实施例中，在该同声传译辅助页面中展示同声传译列表的步骤可以包括：用户终端向服务器发送携带手机号或社交账号的获取请求，接收服务器发送的具有访问权限的同声传译列表。

在一个实施例中，图9示出了进入和展示同声传译辅助页面的示意图。图9中，在首次进入同声传译辅助页面时，用户终端首先会显示同声传译列表，根据选择指令展示对应的同声传译会议。若非首次进入同声传译辅助页面，则将直接进入同声传译会议。

S804，用户终端接收服务器发送的初始文本；该初始文本是服务器通过同声传译模型处理同声传译设备发送的音频得到的。

S806，用户终端在同声传译辅助页面中展示初始文本。

在一个实施例中，在同声传译辅助页面中展示文本时，用户终端根据展示的文本合成对应语种的语音，并将该语音播报出来。

图9中还示出了同声传译辅助页面中展示的文本。此外，用户终端可以切换不同的语种选择性展示文本，还可以使用不同的音色对文本进行语音合成，并播报出来。

S808，当检测到修改指令时，用户终端获取与初始文本对应的修改文本。

在一个实施例中，用户终端实时检测输入的针对初始文本的修改指令，根据修改指令获得与初始文本对应的修改文本。

S810，用户终端将修改文本发送至服务器；修改文本，用于指示服务器根据初始文本和修改文本更新同声传译模型。

作为一个示例，用户终端还会将本地的用户终端标识发送给服务器，相应地，修改文本用于指示服务器按照与该用户终端标识对应的权重，确定修改文本的加权累积值；在加权累积值达到阈值时，根据初始文本和修改文本更新同声传译模型。

上述基于同声传译的数据处理方法，用户终端通过同传辅助展示页面展示由服务器处理音频得到的文本，当检测到修改指令时，用户终端获得对应的修改文本，实现了当处理音频得到的文本出错时，用户终端可以进行相应的修改。另外，用户终端还会将获得的修改文本同步至服务器，指示服务器当修改文本的加权累积值到阈值时，根据处理音频得到的文本和修改文本更新同声传译模型，从而提高了文本的准确性。

在一个实施例中，如图10所示，展示同声传译辅助页面包括：

S1002，用户终端通过母应用程序获取子应用程序标识。

其中，母程序是承载子应用程序的应用程序，为子应用程序的实现提供环境。母应用程序是原生应用程序，可直接运行于操作系统。该母程序可以包括社交应用程序或直播应用。子应用程序则是可在母应用程序提供的环境中实现的应用程序。作为一个示例，子应用程序可以是同声传译小程序。

在一个实施例中，用户终端可通过母应用程序展示子应用程序列表，接收针对子应用程序列表中选项的选择指令，根据该选择指令确定子应用程序列表中被选中的选项，从而获取被选中的选项对应的子应用程序标识。

S1004，用户终端根据子应用程序标识获取相应的同声传译辅助页面配置文件。

用户终端可通过母应用程序，从本地或者服务器获取与子应用程序标识相应的同声传译辅助页面配置文件。进一步地，用户终端可根据子应用程序标识在本地或者服务器确定相应的文件夹，进而从该文件夹中获取同声传译辅助页面配置文件。或者，用户终端可根据子应用程序标识和页面标识的对应关系，获取与该子应用程序标识相应的同声传译辅助页面配置文件。

其中，页面标识用于唯一标识一个子应用程序包括的一个同声传译辅助页面，而不同的子应用程序可以采用相同的页面标识。

其中，同声传译辅助页面配置文件是对子应用程序呈现的页面进行配置的文件。该配置文件可以是源代码或者是将源代码编译后得到的文件。子应用程序呈现的页面称为同声传译辅助页面，子应用程序可以包括一个或多个同声传译辅助页面。

S1006，用户终端从同声传译辅助页面配置文件中获取公共组件标识。

用户终端可解析同声传译辅助页面配置文件，从而从同声传译辅助页面配置文件中获取公共组件标识。

其中，公共组件标识用于唯一标识相应的公共组件。公共组件是母应用程序提供的组件，该组件可供不同的子应用程序共用。公共组件具有视觉形态，是同声传译辅助页面的组成单元。公共组件还可以封装有逻辑代码，该逻辑代码用于处理针对该公共组件的触发事件。不同的子应用程序共用公共组件，具体可以是同时或者在不同时刻调用相同的公共组件。在一个实施例中，公共组件还可由母应用程序和子应用程序所共用。

S1008，用户终端在母应用程序提供的公共组件库中，选择与公共组件标识对应的公共组件。

其中，公共组件库是母应用程序提供的公共组件构成的集合。公共组件库中的每个公共组件具有唯一的公共组件标识。公共组件库可由母应用程序在运行时从服务器下载到本地，或者可由母应用程序在被安装时从相应的应用程序安装包中解压缩得到。

S1010，用户终端根据选择的公共组件构建同声传译辅助页面。

用户终端可获取选择的公共组件自带的默认组件样式数据，从而按照该默认组件样式数据组织选择的公共组件并渲染，形成同声传译辅助页面。

其中，默认组件样式数据是描述公共组件默认的展示形式的数据。默认组件样式数据可以包括公共组件默认在同声传译辅助页面中的位置、尺寸、颜色、字体和字号等属性。用户终端可通过母应用程序集成的浏览器控件并根据选择的公共组件构建同声传译辅助页面。

上述基于同声传译的数据处理方法，用户终端运行母应用程序，母应用程序提供公共组件库，通过母应用程序可以获取到子应用程序标识，从而获取相应的同声传译辅助页面配置文件，从而依据该同声传译辅助页面配置文件，从公共组件库中选择公共组件构建出同声传译辅助页面。其中，子应用程序标识可以标识出不同的子应用程序，母应用程序可以依据不同子应用程序标识对应的同声传译辅助页面配置文件实现不同的子应用程序。当母应用程序在运行时，便可以利用母程序提供的公共组件快速构建同声传译辅助页面，缩短了应用程序安装时长，提高了应用程序使用效率。

在一个实施例中，如图11所示，该方法还包括：

S1102，用户终端接收由服务器同步的修改文本和对应的排序序号；接收的修改文本和修改前的相应文本共用排序序号。

其中，排序序号用于表示某个文本在文档中的排列位置，或者表示某个文本在某个存储区的存储位置。文档指的是用于保存和编辑文本的一种文本文件，包括TEXT文档、WORD文档和XML文档等。

在一个实施例中，当服务器确定加权累积值达到阈值时，将修改文本和对应的排序序号同步至用户终端。用户终端在接收到修改文本和对应的排序序号后执行S1104。

S1104，用户终端在本地查找与接收到的排序序号对应的文本。

在一个实施例中，用户终端在存储区中查找与接收到的排序序号对应的文本。或者，由于文本可以保存于文档中，而文档与会议号具有映射关系并存储于用户终端，因此用户终端还可根据会议号查找保存文本的文档，在该文档中根据接收到的排列序号查找对应的文本。

S1106，用户终端将本地查找到的文本替换为接收到的修改文本。

上述基于同声传译的数据处理方法，用户终端根据接收到的排列序号查找对应的文本，并将查找到的文本替换为接收到的修改文本，确保了当某文本出现错误时，各个用户终端均可以同步进行修改，提高了获得的文本的准确性。

如图12所示，在一个实施例中，提供了一种基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图12，该基于同声传译的数据处理方法包括如下步骤：

S1202，服务器获取音频。

S1204，服务器对获取到的音频进行降噪处理。

S1206，服务器获取降噪处理后的音频中的语音部分。

S1208，服务器从语音部分中获取能量值大于或等于能量阈值的音频部分。

S1210，服务器通过同声传译模型处理该音频部分获得初始文本。

S1212，服务器将该初始文本发送至用户终端。

S1214，服务器接收与获取到的音频匹配的视频。

S1216，服务器将初始文本嵌入视频。

S1218，服务器将已嵌入初始文本的视频发送至用户终端。

在一个实施例中，服务器还可将初始文本发送至通过会议号接入的用户终端。

S1220，服务器接收用户终端反馈的修改文本，该修改文本是用户终端对初始文本进行修改后得到的。

S1222，服务器按照与用户终端标识对应的权重，确定修改文本的加权累积值。

S1224，当加权累积值达到阈值时，服务器根据初始文本和修改文本更新同声传译模型。

S1226，服务器接收用户终端反馈的评论信息。

S1228，服务器在通过会议号接入的用户终端间同步评论信息。

S1230，服务器将初始文本与会议号对应存储。

S1232，当加权累积值达到阈值时，服务器将与会议号对应存储的文本更新为修改文本。

S1234，当接收到通过会议号接入的用户终端所发送的同步请求时，服务器向发起同步请求的用户终端反馈与会议号对应的更新后的文本。

如图13所示，在一个实施例中，提供了另一种基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的用户终端110来举例说明。参照图13，该基于同声传译的数据处理方法包括如下步骤：

S1302，用户终端展示同声传译辅助页面。

S1304，用户终端接收服务器发送的初始文本；该文本是服务器通过同声传译模型处理同声传译设备发送的音频得到的。

S1306，用户终端在同声传译辅助页面中展示初始文本。

S1308，当检测到修改指令时，用户终端获取与初始文本对应的修改文本。

S1310，用户终端将本地的用户终端标识和修改文本发送至服务器；修改文本，用于指示服务器按照与该用户终端标识对应的权重确定修改文本的加权累积值；在加权累积值达到阈值时，根据初始文本和修改文本更新同声传译模型。

S1312，用户终端接收由服务器同步的修改文本和对应的排序序号；接收的修改文本和修改前的相应文本共用排序序号。

S1314，用户终端在本地查找与接收到的排序序号对应的文本。

S1316，用户终端将本地查找到的文本替换为接收到的修改文本。

相关技术的同声传译方案中，同声传译设备采集音频并进行相应的处理，然后将处理后的音频上传到语音服务器做语音识别，语音服务器识别完成后将识别文本发给翻译服务器，翻译服务器将识别文本翻译为目标语种，并将翻译文本返回给同声传译客户端，最后同声传译设备将返回结果展示到显示屏。一个典型的大会同声传译系统如图14所示。

相关技术的同声传译系统中，主要采用以下两种显示文本的方式：一种是分屏展示，演讲者的图像或者PPT占屏幕的一部分，同声传译的文本占屏幕的另一部分。第二种是字幕展示，演讲者的图像或者PPT占满屏幕，同声传译的文本则在屏幕底部以字幕的方式显示出来。

但上述两种展示方式均存在以下问题：1)看不清，对于参会人数较多的会议，后排及视角不佳的观众将看不清会议显示屏展示的文本。此外，对于因故无法参加会议的观众更无法获取会议内容。2)无互动，观众只能被动获取同声传译文本。3)无法优化同声传译模型，观众不能对识别文本和/或翻译文本进行即时修改，无法对同声传译中的语音模型和翻译模型进行优化。

对于上述问题，本申请实施例中提出了一种解决方案，其中，本申请实施例的同声传译系统如图15所示。如图15所示，同声传译系统包括服务器、同声传译设备、麦克风、用户终端和显示屏。其中，上述服务器可以是由服务器集群组成，例如可以包括语音服务器和翻译服务器。

如图16所示，在一个实施例中，提供了又一种基于同声传译的数据处理方法。参照图16，该基于同声传译的数据处理方法包括如下步骤：

S1602，麦克风将采集到的音频输出至同声传译设备。

S1604，同声传译设备对接收到的音频进行降噪、增益和语音活动性检测处理。

同声传译设备通过前端处理算法，对麦克风采集到的音频进行降噪、增益和语音活动性检测处理。作为一个示例，前端处理算法可采用“DNN(Deep Neural Network，深层神经网络)+能量”双重检测的方式。其中，DNN可用于抑制噪音。能量检测可用于将音频中能量小于阈值的部分滤除。

S1606，同声传译设备将音频发送至语音服务器。

S1608，同声传译设备将接收到的视频发送至语音服务器。

本申请实施例中，除了采集语音作为输入源，还会获取视频作为输入源。该视频可以是演讲者的PPT，也可以是演讲者本人的视频。

同声传译客户端通过上传“会议号”等字段来唯一标识本次同声传译会议和相应的演讲内容(包括识别文本和翻译文本)。

S1610，语音服务器通过通用语音模型识别音频，获得识别文本；通过辅助语音模型对识别文本进行检测更新，获得更新后的识别文本。

S1612，语音服务器将识别文本发送至翻译服务器。

S1614，翻译服务器对接收到的识别文本进行翻译，获得目标语种的翻译文本。

S1616，翻译服务器将翻译文本发送至语音服务器。

S1618，语音服务器将识别文本和翻译文本合并，将合并后的文本发送至同声传译设备。

S1620，语音服务器将识别文本、翻译文本和视频进行合并，将合并后的文本和视频发送至用户终端。

语音服务器将合并后的文本和视频推送给所有已经激活的用户终端。

S1622，同声传译设备将合并后的文本和视频发送至显示屏展示。

这里，同声传译设备将识别文本、翻译文本和视频发送至同声传译会议的显示屏中进行展示。

S1624，用户终端对识别文本进行修改，将得到的修改文本发送至语音服务器。

在同声传译的过程中，用户可通过社交应用扫描二维码或点击相应的链接进入网页或小程序，用户终端会通过手机号或微信号选择具有访问权限的同声传译列表，用户点击其中某个条目进入同声传译辅助页面。进入同声传译辅助页面后，该用户终端将被激活。用户终端的同声传译辅助页面默认显示当前正在演讲的文本。用户终端还可以自行切换不同的语种展示文本，根据显示的文本合成不同对应音色的语音，并播报出来。

作为一个示例，同声传译辅助页面中设置有一键保存的功能按键，当该功能按键被触发时，用户终端将接收到的识别文本和翻译文本进行保存，形成同声传译全文。此外，用户在用户终端可以对识别文本和翻译文本做修改，修改文本可上传到服务器。

S1626，语音服务器根据识别文本和修改文本更新辅助语音模型。

S1628，用户终端对翻译文本进行修改，将得到的修改文本通过语音服务器发送至翻译服务器。

S1630，翻译服务器根据翻译文本和修改文本更新翻译模型。

语音服务器或翻译服务器接收到修改文本时，通过对应的算法使用修改文本实时更新语音模型和翻译模型，更新的语音模型和翻译模型用于本次同声传译的后面演讲中。在实时更新语音模型方面，语音模型包括通用语言模型和辅助语言模型。其中，通用语言模型在程序开始运行时完成一次加载。当接到用户修改的指令后，会对辅助语言模型进行更新，并重新热加载，在整个过程中实现无缝切换。需要说明的是，辅助语音模型可在程序运行过程中多次热加载，每次更新辅助语音模型后，对辅助语音模型进行一次热加载。

热加载指代的是：在运行时重新加载class(开发环境)，基于字节码的更改，不释放内存开发可用,上线不可用，热加载不重启tomcat,不重新打包。

对音频的声学符号序列的解码过程中，服务器将音频的声学符号序列输入通用语言模型进行语音识别，获得识别文本。然后将识别文本输入辅助语言模型，通过辅助语音模型将之前出现错误的文本替换为修改文本。

服务器对修改文本做合理性检测，检测合理的修改文本用于更新语音模型和/或翻译模型。举例来说：如果发现有错误翻译、且多人对错误翻译进行修改，服务器根据携带用户终端的用户具有的权重，确定修改文本的加权累积值。当加权累积值达到阈值时，服务器对翻译模型进行优化。

服务器根据文本修改次数和文本修改正确率确定用户修改的贡献度，并适应性的调整对应的权重。

观众通过用户终端对演讲者或演讲内容发表评论。用户终端将评论信息发送至服务器，通过服务器中转至会议显示屏和各个已激活的用户终端，评论信息以弹幕的形式展示于显示屏和用户终端。

通过实施上述基于同声传译的数据处理方法，可以具有以下有益效果：

1)可以通过用户终端观看语音识别后的文本和翻译后的文本，避免了因后排及视角不佳而看不清的问题。

2)具有互动效果，通过用户终端进入同声传译辅助页面，观众可对演讲者或演讲内容发表评论并提交，提交的评论将由服务器下发到会议显示屏和各个用户终端。

3)可实时更新同声传译模型(包括语音模型和翻译模型)，可以通过用户终端对识别文本和/或翻译文本进行修改，若大量用户同时修改或拥有管理员权限的人修改某个文本或其中某个词，则服务器会对语音模型和/或翻译模型进行更新，更新后的语音模型和翻译模型用于后续的语音识别和翻译，避免再次出现错误。

4)可随时切换目标语种，在社交应用的小程序中，用户可以设置翻译的语种和选择个性化音色合成对应的语音。

5)很便捷地获取同声传译全文内容，同声传译辅助页面设置有一键保存会议演讲记录的功能。

图2和图8为一个实施例中基于同声传译的数据处理方法的流程示意图。应该理解的是，虽然图2和图8的流程图中各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者子阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者子阶段的执行顺序也不必然是依次进行，而是可以与其它步骤、或者其它步骤的子步骤或者子阶段的至少一部分，轮流或者交替地执行。

如图17所示，在一个实施例中，提供了一种基于同声传译的数据处理装置，该基于同声传译的数据处理装置1700包括：获取模块1702、处理模块1704、发送模块1706、接收模块1708、确定模块1712和更新模块1710；其中：

获取模块1702，用于获取同声传译设备发送的音频；

处理模块1704，用于通过同声传译模型处理音频得到初始文本；

发送模块1706，用于将初始文本发送至用户终端；

接收模块1708，用于接收用户终端反馈的修改文本，修改文本是用户终端对初始文本进行修改后得到的；

更新模块1710，根据初始文本和修改文本更新同声传译模型。

上述基于同声传译的数据处理装置，通过接收用户终端反馈的对初始文本修改后得到的修改文本，实现了当初始文本发生修改时，能及时地获得相应的反馈。另外，根据初始文本和修改文本更新同声传译模型，再通过更新后的同声传译模型对后续的音频进行处理，提高了由处理音频得到的文本的准确性。

在一个实施例中，如图18所示，该装置还可以包括：确定模块1712；

其中：确定模块1712，用于按照与各个用户终端标识对应的权重，确定修改文本的加权累积值；

更新模块1710还用于当加权累积值达到阈值时，根据初始文本和修改文本更新同声传译模型。

在一个实施例中，处理模块1704还用于对音频进行降噪处理；获取降噪处理后的音频包括的语音部分；从语音部分中获取能量值大于或等于能量阈值的音频部分；通过同声传译模型处理音频部分获得初始文本。

在一个实施例中，同声传译模型包括通用语音模型和辅助语音模型；

处理模块1704，还用于通过通用语音模型对音频进行语音识别，得到识别文本；通过辅助语音模型对识别文本进行更新，得到识别更新文本；其中，初始文本包括识别文本和识别更新文本中的至少一种；

更新模块1710还用于根据初始文本和修改文本更新辅助语音模型。

在一个实施例中，同声传译模型包括翻译模型；初始文本包括翻译文本；修改文本包括修改的翻译文本；

更新模块1710还用于根据翻译文本和修改的翻译文本更新翻译模型。

在一个实施例中，如图18所示，该装置还包括：嵌入模块1714；其中，

接收模块1708还用于接收同声传译设备发送的与音频匹配的视频；

嵌入模块1714，用于将初始文本嵌入视频；

发送模块1706还用于将已嵌入初始文本的视频发送至用户终端。

在一个实施例中，该装置还包括：同步模块1716；

其中，音频与群组标识对应；

发送模块1706还用于将初始文本发送至通过群组标识接入的用户终端；

接收模块1708还用于接收用户终端反馈的评论信息；

同步模块1716，用于在通过群组标识接入的用户终端间同步评论信息。

在一个实施例中，如图18所示，该装置还包括：存储模块1718和反馈模块1720；其中，音频与群组标识对应；

存储模块1718，用于将初始文本与群组标识对应存储；

更新模块1710还用于当修改文本的加权累积值达到阈值时，将与群组标识对应存储的文本更新为修改文本；

反馈模块1720，用于当接收到通过群组标识接入的用户终端所发送的同步请求时，向发起同步请求的用户终端反馈与群组标识对应的更新后的文本。

在一个实施例中，如图18所示，该装置还包括：统计模块1722、检测模块1724和调整模块1726；其中，

统计模块1722，用于统计与各个用户终端标识对应的文本修改次数；

检测模块1724，用于检测各个用户终端标识对应的文本修改正确率；

调整模块1726，用于对于任意一个用户终端标识，当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时，调高与该用户终端标识对应的权重。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例。

如图19所示，在一个实施例中，提供了一种基于同声传译的数据处理装置，该基于同声传译的数据处理装置1900包括：第一展示模块1902、接收模块1904、第二展示模块1906、获取模块1908和发送模块1910；其中：

第一展示模块1902，用于展示同声传译辅助页面；

接收模块1904，用于接收服务器发送的初始文本；初始文本是服务器通过同声传译模型处理同声传译设备发送的音频得到的；

第二展示模块1906，用于在同声传译辅助页面中展示初始文本；

获取模块1908，用于当检测到修改指令时，获取与初始文本对应的修改文本；

发送模块1910，用于将修改文本发送至服务器；修改文本，用于指示服务器根据初始文本和修改文本更新同声传译模型。

上述基于同声传译的数据处理装置，通过同传辅助展示页面展示由服务器处理音频得到的初始文本，当检测到修改指令时，获得对应的修改文本，实现了当由服务器处理音频得到的文本出错时，用户终端可以进行相应的修改，将获得的修改文本同步至服务器，以指示服务器根据初始文本和修改文本更新同声传译模型，从而提高了由处理音频得到的文本的准确性。

在一个实施例中，展示同声传译辅助页面，第一展示模块1902还用于通过母应用程序获取子应用程序标识；根据子应用程序标识，获取相应的同声传译辅助页面配置文件；从同声传译辅助页面配置文件中获取公共组件标识；在母应用程序提供的公共组件库中，选择与公共组件标识对应的公共组件；根据选择的公共组件构建同声传译辅助页面。

在一个实施例中，如图20所示，该装置还包括：查找模块1912和替换模块1914；其中，

接收模块1904还用于接收由服务器同步的修改文本和对应的排序序号；接收的修改文本和修改前的相应文本共用排序序号；

查找模块1912，用于在本地查找与排序序号对应的文本；

替换模块1914，用于将本地查找到的文本替换为接收到的修改文本。

图21示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是图1中的服务器120。如图21所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于同声传译的数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于同声传译的数据处理方法。

本领域技术人员可以理解，图21中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于同声传译的数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图21所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于同声传译的数据处理装置的各个程序模块，比如，图17所示的获取模块1702、处理模块1704、发送模块1706、接收模块1708、确定模块1712和更新模块1710。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于同声传译的数据处理方法中的步骤。

例如，图21所示的计算机设备可以通过如图17所示的基于同声传译的数据处理装置中的获取模块1702执行S202。计算机设备可通过处理模块1704执行S204。计算机设备可通过发送模块1706执行S206。计算机设备可通过接收模块1708执行S208。计算机设备可通过更新模块1710执行S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被该计算机设备的处理器执行时，使得处理器能够执行前述由图1中服务器120执行的基于同声传译的数据处理方法。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被该计算机设备的处理器执行时，使得处理器能够执行前述由图1中服务器120执行的基于同声传译的数据处理方法。

图22示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是图1中的用户终端110。如图22所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于同声传译的数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于同声传译的数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图22中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于同声传译的数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图22所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于同声传译的数据处理装置的各个程序模块，比如，图19所示的第一展示模块1902、接收模块1904、第二展示模块1906、获取模块1908和发送模块1910。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于同声传译的数据处理方法中的步骤。

例如，图22所示的计算机设备可以通过如图19所示的基于同声传译的数据处理装置中的第一展示模块1902执行S802。计算机设备可通过接收模块1904执行S804。计算机设备可通过第二展示模块1906执行S806。计算机设备可通过获取模块1908执行S808。计算机设备可通过发送模块1910执行S810。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被该计算机设备的处理器执行时，使得处理器能够执行前述由图1中用户终端110执行的基于同声传译的数据处理方法。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被该计算机设备的处理器执行时，使得处理器能够执行前述前述由图1中用户终端110执行的基于同声传译的数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种基于同声传译的数据处理方法，所述方法应用于同声传译系统中的服务器，所述同声传译系统还包括同声传译设备和用户终端，包括：

获取所述同声传译设备发送的音频；

通过同声传译模型处理所述音频得到初始文本；

将所述初始文本发送至所述用户终端；

接收所述用户终端反馈的修改文本，所述修改文本是所述用户终端对所述初始文本进行修改后得到的；

根据所述初始文本和所述修改文本更新所述同声传译模型。
根据权利要求1所述的方法，其特征在于，所述通过同声传译模型处理所述音频得到初始文本，包括：

对所述音频进行降噪处理；

获取降噪处理后的音频包括的语音部分；

从所述语音部分中获取能量值大于或等于能量阈值的音频部分；

通过所述同声传译模型处理所述音频部分获得所述初始文本。
根据权利要求1所述的方法，其特征在于，所述同声传译模型包括通用语音模型和辅助语音模型；

所述通过同声传译模型处理所述音频得到初始文本，包括：

通过所述通用语音模型对所述音频进行语音识别，得到识别文本；

通过所述辅助语音模型对所述识别文本进行更新，得到识别更新文本；

其中，所述初始文本包括所述识别文本和所述识别更新文本中的至少一种；

所述根据所述初始文本和所述修改文本更新所述同声传译模型，包括：

根据所述初始文本和所述修改文本更新所述辅助语音模型。
根据权利要求1所述的方法，其特征在于，所述同声传译模型包括翻译模型；所述初始文本包括翻译文本；所述修改文本包括修改的翻译文本；

所述根据所述初始文本和所述修改文本更新所述同声传译模型，包括：

根据所述翻译文本和所述修改的翻译文本更新所述翻译模型。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述同声传译设备发送的与所述音频匹配的视频；

将所述初始文本嵌入所述视频；

所述将所述初始文本发送至所述用户终端，包括：

将已嵌入所述初始文本的视频发送至所述用户终端。
根据权利要求1所述的方法，其特征在于，所述音频与群组标识对应；

所述将所述初始文本发送至所述用户终端，包括：将所述初始文本发送至通过所述群组标识接入的所述用户终端；

所述方法还包括：

接收所述用户终端反馈的评论信息；

在通过所述群组标识接入的所述用户终端间同步所述评论信息。
根据权利要求1所述的方法，其特征在于，所述音频与群组标识对应；

所述将所述初始文本发送至所述用户终端，包括：将所述初始文本发送至通过所述群组标识接入的所述用户终端；

所述方法还包括：

将所述初始文本与所述群组标识对应存储；

当所述修改文本的加权累积值达到阈值时，将与所述群组标识对应存储的文本更新为所述修改文本；

当接收到通过所述群组标识接入的用户终端发送的同步请求时，向发起所述同步请求的用户终端反馈与所述群组标识对应的更新后的文本。
根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

统计各个用户终端标识对应的文本修改次数；

检测所述各个用户终端标识对应的文本修改正确率；

对于任意一个用户终端标识，当所述文本修改次数达到修改次数阈值、且所述文本修改正确率达到文本修改正确率阈值时，调高与所述用户终端标识对应的权重。
根据权利要求1至7中任一项所述的方法，其特征在于，所述根据初始文本和所述修改文本更新所述同声传译模型，包括：

按照与各个用户终端标识对应的权重，确定所述修改文本的加权累积值；

当所述加权累积值达到阈值时，根据所述初始文本和所述修改文本更新所述同声传译模型。
一种基于同声传译的数据处理方法，所述方法应用于同声传译系统中的用户终端，所述同声传译系统还包括同声传译设备和服务器，包括：

展示同声传译辅助页面；

接收所述服务器发送的初始文本；所述初始文本是所述服务器通过同声传译模型处理所述同声传译设备发送的音频得到的；

在所述同声传译辅助页面中展示所述初始文本；

当检测到修改指令时，获取与所述初始文本对应的修改文本；

将所述修改文本发送至所述服务器；所述修改文本，用于指示所述服务器根据所述初始文本和所述修改文本更新所述同声传译模型。
根据权利要求10所述的方法，其特征在于，所述展示同声传译辅助页面，包括：

通过母应用程序获取子应用程序标识；

根据所述子应用程序标识，获取相应的同声传译辅助页面配置文件；

从所述同声传译辅助页面配置文件中获取公共组件标识；

在所述母应用程序提供的公共组件库中，选择与所述公共组件标识对应的公共组件；

根据选择的公共组件构建所述同声传译辅助页面。
根据权利要求10或11所述的方法，其特征在于，所述方法还包括：

接收由所述服务器同步的修改文本和对应的排序序号；接收的所述修改文本和修改前的相应文本共用排序序号；

在本地查找与所述排序序号对应的文本；

将本地查找到的文本替换为接收到的所述修改文本。
一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

获取所述同声传译设备发送的音频；

通过同声传译模型处理所述音频得到初始文本；

将所述初始文本发送至所述用户终端；

接收所述用户终端反馈的修改文本，所述修改文本是所述用户终端对所述初始文本进行修改后得到的；

根据所述初始文本和所述修改文本更新所述同声传译模型。
一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

展示同声传译辅助页面；

接收所述服务器发送的初始文本；所述初始文本是所述服务器通过同声传译模型处理所述同声传译设备发送的音频得到的；

在所述同声传译辅助页面中展示所述初始文本；

当检测到修改指令时，获取与所述初始文本对应的修改文本；

将所述修改文本发送至所述服务器；所述修改文本，用于指示所述服务器根据所述初始文本和所述修改文本更新所述同声传译模型。
一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤，或，使得所述处理器执行如权利要求11至12中任一项所述方法的步骤。