WO2021077333A1

WO2021077333A1 - 同声传译方法及装置、存储介质

Info

Publication number: WO2021077333A1
Application number: PCT/CN2019/112790
Authority: WO
Inventors: 郝杰
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2021-04-29
Also published as: CN114303187A

Abstract

一种同声传译方法、装置及存储介质。其中，方法包括：对待同传语音数据进行语音识别，得到语音识别结果（S101）；识别待同传语音数据对应的实际应用场景（S102）；基于实际应用场景确定翻译合成模型；翻译合成模型为与原语种和目标语种对应的模型，原语种为待同传语音数据的语种类别（S103）；利用翻译合成模型，对语音识别结果进行翻译合成处理，得到同声传译结果（S104）。

Description

同声传译方法及装置、存储介质

技术领域

本申请实施例涉及语音处理技术领域，尤其涉及一种同声传译方法及装置、存储介质。

背景技术

人工智能(Artificial Intelligence，AI)同传，可以将采集到的语音进行识别，得到语音识别结果，之后，利用翻译模型将语音识别结果翻译成待同传语音数据，得到目标翻译结果，最后，利用语音合成模型将目标翻译结果合成相应的语音。

目前，AI同传，不仅仅可以应用于国际会议、产品发布会等会议中，还可以应用于人们的日常生活中。例如，在工作中，可以利用AI同传进行技术分享或视频会议，在生活中，可以利用AI同传满足社交或旅游场景中的相关需求。然而，AI同传过程中，同声传译方式固定且单一，同声传译结果准确性较低。

发明内容

为解决相关技术问题，本申请实施例期望提供一种同声传译方法及装置、存储介质。

本申请实施例的技术方案可以如下实现：

一种同声传译方法，包括：

对待同传语音数据进行语音识别，得到语音识别结果；

识别所述待同传语音数据对应的实际应用场景；

基于所述实际应用场景确定翻译合成模型；所述翻译合成模型为与原语种和目标语种对应的模型，所述原语种为所述待同传语音数据的语种类别；

利用所述翻译合成模型，对所述语音识别结果进行翻译合成处理，得到同声传译结果。

在上述方案中，所述识别所述待同传语音数据对应的实际应用场景，包括：

接收目标指令；

将所述目标指令指示的应用场景确定为所述实际应用场景。

对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果；

所述场景表征信息包含以下至少之一：所述语音识别结果和图像视频信息；所述处理结果包含以下至少之一：文本分类结果和场景对象识别结果；

根据所述处理结果，识别出所述实际应用场景。

在上述方案中，所述场景表征信息包含所述语音识别结果，所述对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果，包括：

按照预设分类体系或标准对所述语音识别结果进行分类，得到所述文本分类结果。

在上述方案中，所述场景表征信息包含所述图像视频信息，所述对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果之前，还包括：

获取所述待同传语音数据对应的所述图像视频信息；所述图像视频信息包含以下至少之一：场景视频和场景图像；

相应的，所述对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果，包括：

对所述图像视频信息进行对象识别，得到所述场景对象识别结果。

在上述方案中，所述处理结果包含所述文本分类结果和所述场景对象识别结果，所述根据所述处理结果，识别出所述实际应用场景，包括：

根据所述文本分类结果，识别出第一应用场景；

根据所述场景对象识别结果，识别出第二应用场景；

从所述第一应用场景和所述第二应用场景中，确定出所述实际应用场景。

在上述方案中，所述翻译合成模型包括目标翻译模型和目标合成模型，所述基于所述实际应用场景确定翻译合成模型，包括：

根据所述实际应用场景，以及多个翻译模型与不同应用场景的对应关系，确定所述目标翻译模型；所述多个翻译模型中的每一个模型为用于实现所述原语种与所述目标语种之间文本转换的模型；

根据所述实际应用场景，以及多个语音合成模型与不同应用场景的对应关系，确定所述目标合成模型；所述多个语音合成模型中的每一个模型为用于对所述目标语种的文本进行语音合成的模型。

在上述方案中，所述利用所述翻译合成模型，对所述语音识别结果进行翻译合成处理，得到同声传译结果，包括：

利用所述目标翻译模型，将所述语音识别结果从所述原语种翻译至所述目标语种，得到目标翻译结果；

利用所述目标合成模型对所述目标翻译结果进行语音合成，得到所述同声传译结果。

本申请实施例提供了一种同声传译装置，所述装置包括：

第一识别模块，配置为对待同传语音数据进行语音识别，得到语音识别结果；

第二识别模块，配置为识别所述待同传语音数据对应的实际应用场景；

模型确定模块，配置为基于所述实际应用场景确定翻译合成模型；所述翻译合成模型为与原语种和目标语种对应的模型，所述原语种为所述待同传语音数据的语种类别；

翻译合成模块，配置为利用所述翻译合成模型，对所述语音识别结果进行翻译合成处理，得到同声传译结果。

在上述装置中，所述第二识别模块，配置为接收目标指令；将所述目标指令指示的应用场景确定为所述实际应用场景。

在上述装置中，所述第二识别模块，配置为对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果；所述场景表征信息包含以下至少之一：所述语音识别结果和图像视频信息；所述处理结果包含以下至少之一：文本分类结果和场景对象识别结果；根据所述处理结果，识别出所述实际应用场景。

在上述装置中，所述场景表征信息包含所述语音识别结果，所述第二识别模块，配置为按照预设分类体系或标准对所述语音识别结果进行分类，得到所述文本分类结果。

在上述装置中，所述场景表征信息包含所述图像视频信息，所述第二识别模块，配置为获取所述待同传语音数据对应的所述图像视频信息；所述图像视频信息包含以下至少之一：场景视频和场景图像；对所述图像视频信息进行对象识别，得到所述场景对象识别结果。

在上述装置中，所述处理结果包含所述文本分类结果和所述场景对象识别结果，所述第二识别模块，配置为根据所述文本分类结果，确定第一应用场景；根据所述场景对象识别结果，确定第二应用场景；从所述第一应用场景和所述第二应用场景中，确定出所述实际应用场景。

在上述装置中，所述翻译合成模型包括目标翻译模型和目标合成模型，所述模型确定模块，配置为根据所述实际应用场景，以及多个翻译模型与不同应用场景的对应关系，确定所述目标翻译模型；所述多个翻译模型中的每一个模型为用于实现所述原语种与所述目标语种之间文本转换的模型；根据所述实际应用场景，以及多个语音合成模型与不同应用场景的对应关系，确定所述目标合成模型；所述多个语音合成模型中的每一个模型为用于对所述目标语种的文本进行语音合成的模型。

在上述装置中，所述翻译合成模块，配置为利用所述目标翻译模型，将所述语音识别结果从所述原语种翻译至所述目标语种，得到目标翻译结果；利用所述目标合成模型对所述目标翻译结果进行语音合成，得到所述同声传译结果。

本申请实施例提供了一种同声传译装置，所述装置包括处理器和存储器；

所述处理器，配置为执行所述存储器中存储的同声传译程序，以实现上述同声传译方法。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述同声传译方法。

在本申请实施例的技术方案中，对待同传语音数据进行语音识别，得到语音识别结果；识别待同传语音数据对应的实际应用场景；基于实际应用场景确定翻译合成模型；翻译合成模型为与原语种和目标语种对应的模型，原语种为待同传语音数据的语种类别；利用翻译合成模型，对语音识别结果进行翻译合成处理，得到同声传译结果。本申请实施例提供的技术方案，对待同传语音数据的应用场景进行识别，从而根据确定的应用场景利用相应的模型进行同声传译，提高了同声传译结果的准确性和灵活性。

附图说明

图1为本申请实施例提供的一种同声传译方法的流程示意图一；

图2为本申请实施例提供的一种同声传译方法的流程示意图二；

图3为本申请实施例提供的一种示例性的语音处理的过程示意图；

图4为本申请实施例提供的一种同声传译装置的结构示意图一；

图5为本申请实施例提供的一种同声传译装置的结构示意图二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅仅用于解释相关申请，而非对该申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关申请相关的部分。

本申请实施例提供了一种同声传译方法，通过同声传译装置实现。图1为本申请实施例提供的一种同声传译方法的流程示意图一。如图1所示，同声传译方法主要包括以下步骤：

S101、对待同传语音数据进行语音识别，得到语音识别结果。

在本申请的实施例中，同声传译装置可以先对待同传语音数据进行语音识别，从而得到语音识别结果。

需要说明的是，在本申请的实施例中，待同传语音数据可以为需要进行语音翻译的任何语音，例如，在应用场景中实时采集到的语音。此外，待同传语音数据可以为任意类型语言的语音。具体的待同传语音数据本申请实施例不作限定。

需要说明的是，在本申请的实施例中，待同传语音数据可以为通过特定的语音采集装置采集到之后，传输至同声传译装置以进行语音翻译处理。此外，同声传译装置可以配置有语音采集器件，从而直接采集到待同传语音数据。具体的待同传语音数据的来源本申请实施例不作限定。

需要说明的是，在本申请的实施例中，同声传译装置可以采用语音识别技术，即通过识别和理解将待同传语音数据进行转换，从而得到语音识别结果。其中，语音识别结果实际上就是待同传语音数据的语言文本，本申请实施例不作限定。具体的语音识别过程为现有技术，在此不再赘述。

S102、识别待同传语音数据对应的实际应用场景。

在本申请的实施例中，同声传译装置可以识别待同传语音数据对应的实际应用场景。

需要说明的是，在本申请的实施例中，应用场景可以划分为大型国际会议、小型工作会议、公共服务场所、公共社交场所、社交类应用，以及通用场景等。其中，公共服务场所可以为候车厅、政府办公大厅等，公共社交场所可以为咖啡厅、音乐厅等。待同传语音数据对应的实际应用场景，实际上就是采集待同传语音数据具体所处的应用场景。具体的实际应用场景本申请实施例不作限定。

在本申请的实施例中，同声传译装置识别待同传语音数据对象的实际应用场景，包括：接收目标指令；将目标指令指示的应用场景确定为实际应用场景。

需要说明的是，在本申请的实施例中，用户在需要同声传译装置对待同传语音数据进行翻译时，可以根据采集待同传语音数据的环境，自主确定待同传语音数据对应的实际应用场景，从而通过特定的交互界面或触控按键，将用于指示实际应用场景的目标指令发送至同声传译装置，语音翻译即可接收到该目标指标，以根据该目标指令确定实际应用场景。

示例性地，在本申请的实施例中，用户观察到获取待同传语音数据的应用场景为大型国际会议，因此，可以向同声传译装置发送指示实际应用场景为大型国际会议的目标指令。相应地，同声传译装置接收到目标指令，即可确定出实际应用场景为大型国际会议。

图2为本申请实施例提供的一种识别实际应用场景的流程示意图。如图2所示，在本申请的实施例中，同声传译装置识别待同传语音数据对应的实际应用场景，还可以包括以下步骤：

S201、对待同传语音数据对应的场景表征信息进行信息处理，得到处理结果。

在本申请的实施例中，同声传译装置可以对待同传语音数据对应的场景表征信息进行信息处理，得到处理结果。

需要说明的是，在本申请的实施例中，待同传语音数据对应的场景表征信息包含以下至少之一：语音识别结果和图像视频信息，相应的，处理结果包含以下至少之一：文本分类结果和场景对象识别结果。

具体地，在本申请的实施例中，场景表征信息包含语音识别结果，同声传译装置对待同传语音数据对应的场景表征信息进行信息处理，得到处理结果，包括：按照预设分类体系或标准对语音识别结果进行分类，得到文本分类结果。

需要说明的是，在本申请的实施例中，同声传译装置中存储有预设分类体系或标准，从而可以按照预设分类体系或标准对语音识别结果进行分类，得到文本分类结果。具体的预设分类体系或标准，可以根据实际需求预先确定，本申请实施例不作限定。

可以理解的是，在本申请的实施例中，同声传译装置具体可以对语音识别结果进行检索，从而进行特定的关键字的标记和统计，得到文本分类结果。

示例性地，在本申请的实施例中，同声传译装置从语音识别结果中，检索关键字“科室”，并进行标记和统计，得到文本分类结果。

具体地，在本申请的实施例中，场景表征信息包含图像视频信息，同声传译装置对待同传语音数据对应的场景表征信息进行信息处理，得到处理结果之前，还包括：获取待同传语音数据对应的图像视频信息；图像视频信息包含以下至少之一：场景视频和场景图像。相应的，同声传译装置对待同传语音数据对应的场景表征信息进行信息处理，得到处理结果，包括：对图像视频信息进行对象识别，得到场景对象识别结果。

需要说明的是，在本申请的实施例中，待同传语音数据对应的场景图像即为采集待同传语音数据时所处应用场景的图像，待同传语音数据对应的场景视频即为采集待同传语音数据时所处应用场景的视频。待同传语音数据对应的场景图像和/或场景视频，可以通过特定的图像采集装置获取，并进一步通过图像采集装置传输至语音合成装置，语音合成装置即可获取到场景图像和/或场景视频。此外，语音合成装置还可以配置有图像采集器件，从而直接采集待同传语音数据对应的场景图像和/或场景视频。当然，待同传语音数据对应的场景图像和/或场景视频还可以通过其他方式获取，具体的获取方式本申请实施例不作限定。

需要说明的是，在本申请的实施例中，同声传译装置可以从场景图像和/或场景视频中，利用特定的识别算法识别出人和物体，并标记出人和物体的名称、相应的置信度等，从而得到场景对象识别结果。识别的具体对象以及用于识别的具体算法，可以根据实际需求预先设置，本申请实施例不作限定。

示例性的，在本申请的实施例中，同声传译装置可以针对场景图像和/或场景视频，识别其中的人物和文字，并进行标记，从而得到场景对象识别结果。

S202、根据处理结果，识别出实际应用场景。

在本申请的实施例中，同声传译装置在对待同传语音数据对应的场景表征信息进行信息处理，得到处理结果的情况下，可以根据处理结果，识别出实际应用场景。

需要说明的是，在本申请的实施例中，同声传译装置在得到的处理结果包含文本分类结果和场景对象识别结果的情况下，可以根据这两种结果进行分析，从而识别出实际应用场景。此外，同声传译装置可以针对两种结果分别进行分析，识别出两个应用场景，并进一步结合两个应用场景，确定实际应用场景。具体的确定实际应用场景的方式本申请实施例不作限定。

示例性地，在本申请的实施例中，文本分类结果为待同传语音数据的语音识别结果中包括关键字“科室”，且出现次数达到第一阈值，此外，场景对象识别结果中包括多个人物，且均穿着医护服装，因此，同声传译装置根据这两种结果，可以识别出实际应用场景为医院。

具体地，在本申请的实施例中，处理结果包含文本分类结果和场景对象识别结果，同声传译装置根据处理结果，识别出实际应用场景，可以包括：根据文本分类结果，识别出第一应用场景；根据场景对象识别结果，识别出第二应用场景；从第一应用场景和第二应用场景中，确定出实际应用场景。

需要说明的是，在本申请的实施例中，同声传译装置在得到的处理结果包含文本分类结果和场景对象识别结果的情况下，可以根据文本分类结果识别出第一应用场景，并根据场景对象识别结果，识别出第二应用场景，从而从第一应用场景和第二应用场景中，确定实际应用场景。

可以理解的是，在本申请的实施例中，如果第一应用场景和第二应用场景为相同的应用场景，同声传译装置即可将第一应用场景和第二应用场景确定为实际应用场景。如果第一应用场景与第二应用场景为两个不同的应用场景，同声传译装置即可根据预设的选取规则，从第一应用场景和第二应用场景中选取出一个应用场景作为实际应用场景。

需要说明的是，在本申请的实施例中，同声传译装置中可以存储有预设的选取规则，该选取规则可以根据文本分类结果以及场景对象识别结果各自确定应用场景的准确性进行确定，当然，也可以根据其他实际需求确定，本申请实施例不作限定。

示例性地，在本申请的实施例中，预设的选取规则可以为：如果根据文本分类结果识别出的第一应用场景，与根据场景对象识别结果识别出的第二应用场景不同，选取应用场景范围较大的应用场景作为实际应用场景。

示例性地，在本申请的实施例中，同声传译装置获取到的文本分类结果为，语音识别结果中包括关键字“工作总结”，且出现次数大于第一阈值，因此，识别出第一应用场景确定为小型工作会议，此外，同声传译装置获取到的场景对象识别结果为，场景视频中包括办公桌、办公椅以及佩戴工牌的人物，识别出第二应用场景为小型工作会议，即同声传译装置利用文本分类结果和场景对象识别结果确定的应用场景相同，因此，将实际应用场景确定为小型工作会议。

需要说明的是，在本申请的实施例中，同声传译装置得到的处理结果也可以包括文本分类结果和场景对象识别结果中的任意一种，从而根据该结果识别实际应用场景。具体的，同声传译装置仅获取到文本分类结果的情况下，根据文本分类结果识别出的第一应用场景实际上就是实际应用场景，同声传译装置仅获取场景对象识别结果的情况下，根据场景对象识别结果识别出的第二应用场景实际上就是实际应用场景。

需要说明的是，在本申请的实施例中，上述关于同声传译装置根据处理结果，识别实际应用场景的方案，仅为示例性的方案，还可以按照其它特定的方案进行实际应用场景的识别，本申请实施例不作限定。

需要说明的是，在本申请的实施例中，同声传译装置执行上述步骤S101和步骤S102的先后顺序本申请实施例不作限定。

S103、基于实际应用场景，确定翻译合成模型；翻译合成模型为与原语种和目标语种对应的模型，原语种为待同传语音数据的语种类别。

在本申请的实施例中，同声传译装置在识别出待同传语音数据对应的实际应用场景的情况下，可以基于实际应用场景，确定相应的翻译合成模型。

需要说明的是，在本申请的实施例中，原语种为待同传语音数据的语种类别。目标语种为用户需要将待同传语音数据同声传译成的语种，可以根据实际需求预先设置。

具体地，在本申请的实施例中，翻译合成模型包括目标翻译模型和目标合成模型，同声传译装置基于实际应用场景，确定翻译合成模型，包括：根据实际应用场景，以及多个翻译模型与不同应用场景的对应关系，确定目标翻译模型；多个翻译模型中的每一个模型为用于实现原语种与目标语种之间文本转换的模型；根据实际应用场景，以及多个语音合成模型与不同应用场景的对应关系，确定目标合成模型；多个语音合成模型中的每一个模型为用于对目标语种的文本进行语音合成的模型。

需要说明的是，在本申请的实施例中，针对原语种与目标语种之间进行同声传译的转换，同声传译装置中存储多个语言翻译模型和多个语音合成模型，每一种翻译模型和语音合成模型对应一种应用场景。具体多个语言翻译模型和多个语音合成模型，本申请实施例不作限定。

示例性地，在本申请的实施例中，多个翻译模型与不同应用场景之间的对应关系可以如以下表1所示：

应用场景	翻译模型
大型国际会议	翻译模型1
小型工作会议	翻译模型2
公共服务场所	翻译模型3
公共社交场所	翻译模型4
社交类应用	翻译模型5
通用场景	翻译模型6

表1

其中，不同的应用场景对应不同的翻译模型。同声传译装置在识别出待同传语音数据对应的实际应用场景之后，即可从表1中查找对应的翻译模型，从而将查找到的翻译模型确定为目标翻译模型。

需要说明的是，在本申请的实施例中，针对不同的应用场景，可以预先训练对应的翻译模型。具体的，可以使用大规模的语音样本，训练通用场景的翻译模型，其中，通用场景为不具备较强特征的场景，因此，使用的语音样本可以来源于各种应用场景。之后，再收集不同具备较强特征的应用场景，如大型国际会议下的语音样本，在通用场景对应的翻译模型的基础上，分别进行自适应训练，得到对应的翻译模型，从而使得不同的翻译模型具备不同的翻译模式和风格。

示例性地，在本申请的实施例中，多个语音合成模型与不同应用场景之间的对应关系可以如以下表2所示：

应用场景	语音合成模型
大型国际会议	语音合成模型1
小型工作会议	语音合成模型2
公共服务场所	语音合成模型3
公共社交场所	语音合成模型4
社交类应用	语音合成模型5
通用场景	语音合成模型6

表2

其中，不同的应用场景对应不同的语音合成模型。同声传译装置在识别出待同传语音数据对应的实际应用场景之后，即可从表2中查找对应的语音合成模型，从而将查找到的语音合成模型确定为目标合成模型。

需要说明的是，在本申请的实施例中，针对不同的应用场景，可以预先训练对应的语音合成模型。每一种语音合成模型都具备不同的语音合成风格。例如，针对大型国际会议，训练出语音合成模型1，语音合成模型1可以合成语调严肃、低沉的语音，针对公共服务场所，训练出合成模型3，合成模型3可以合成语调甜美、活泼的语音。

需要说明的是，在本申请的实施例中，针对多个翻译模型和多个语音合成模型还可以存储在服务器中，服务器可以定期对这些模型进行迭代更新。

S104、利用翻译合成模型，对语音识别结果进行翻译合成处理，得到同声传译结果。

在本申请的实施例中，同声传译装置在确定出目标翻译模型和目标合成模型之后，即可利用翻译合成模型，对语音识别结果进行翻译合成处理，得到同声传译结果。

具体地，在本申请的实施例中，同声传译装置利用翻译合成模型，对语音识别结果进行翻译合成处理，得到同声传译结果，包括：利用目标翻译模型，将语音识别结果从原语种翻译至目标语种，得到目标翻译结果；利用目标合成模型对目标翻译结果进行语音合成，得到同声传译结果。

可以理解的是，在本申请的实施例中，目标翻译模型可以将语音识别结果翻译成目标语种的语言文本，且该语言文本符合实际应用场景的风格，该语言文本即为目标翻译结果。具体的目标翻译结果本申请实施例不作限定。

示例性地，在本申请的实施例中，同声传译装置确定出实际应用场景为大型国际会议，从而从表1中查找出目标翻译模型为语言翻译模型1。之后，同声传译装置可以利用语言翻译模型1对待同传语音数据的语音识别结果从原语种翻译至目标语种，从而得到目标翻译结果。目标翻译结果为语音识别结果对应的目标语种的语言文本，且具备正式、书面化的风格，适用于实际应用场景。

需要说明的是，在本申请的实施例中，同声传译装置在确定出目标翻译结果之后，即可利用目标合成模型对目标翻译结果进行语音合成，得到同声传译结果。

可以理解的是，目前，语音合成方式固定且单一，而在本申请的实施例中，同声传译装置根据实际应用场景确定出目标语种的目标合成模型，目标合成模型可以将目标翻译结果合成为目标语种的语音，且该语音更加适合实际应用场景。

图3为本申请实施例提供的一种示例性的语音处理的过程示意图。如图3所示，同声传译装置可以将待同传语音数据先进行语音识别，并进一步文本分类，得到文本分类结果，此外，可以将待同传语音数据对应的场景视频进行对象识别，得到场景对象识别结果，之后，结合文本分类结果和场景对象识别结果，确定实际应用场景，并根据实际应用场景确定与翻译合成模型，即确定出目标翻译模型和目标合成模型，从而利用目标翻译模型对待同传语音数据的语音识别结果进行翻译，最后，利用目标合成模型对翻译结果进行语音合成，得到同声传译结果。

本申请实施例提供的同声传译方法，对待同传语音数据进行语音识别，得到语音识别结果；识别待同传语音数据对应的实际应用场景；基于实际应用场景确定翻译合成模型；翻译合成模型为与原语种和目标语种对应的模型，原语种为待同传语音数据的语种类别；利用翻译合成模型，对语音识别结果进行翻译合成处理，得到同声传译结果。本申请实施例提供的技术方案，对待同传语音数据的应用场景进行识别，从而根据确定的应用场景利用相应的模型进行同声传译，提高了同声传译结果的准确性和灵活性。

本申请实施例提供了一种同声传译装置。图4为本申请实施例提供的一种同声传译装置的结构示意图一。如图4所示，同声传译装置包括：

第一识别模块401，配置为对待同传语音数据进行语音识别，得到语音识别结果；

第二识别模块402，配置为识别所述待同传语音数据对应的实际应用场景；

模型确定模块403，配置为基于所述实际应用场景确定翻译合成模型；所述翻译合成模型为与原语种和目标语种对应的模型，所述原语种为所述待同传语音数据的语种类别；

翻译合成模块404，配置为利用所述翻译合成模型，对所述语音识别结果进行翻译合成处理，得到同声传译结果。

在一实施例中，所述第二识别模块402，配置为接收目标指令；将所述目标指令指示的应用场景确定为所述实际应用场景。

在一实施例中，所述第二识别模块402，配置为对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果；所述场景表征信息包含以下至少之一：所述语音识别结果和图像视频信息；所述处理结果包含以下至少之一：文本分类结果和场景对象识别结果；根据所述处理结果，识别出所述实际应用场景。

在一实施例中，所述场景表征信息包含所述语音识别结果，所述第二识别模块402，配置为按照预设分类体系或标准对所述语音识别结果进行分类，得到所述文本分类结果。

在一实施例中，所述场景表征信息包含所述图像视频信息，所述第二识别模块402，配置为获取所述待同传语音数据对应的所述图像视频信息；所述图像视频信息包含以下至少之一：场景视频和场景图像；对所述图像视频信息进行对象识别，得到所述场景对象识别结果。

在一实施例中，所述处理结果包含所述文本分类结果和所述场景对象识别结果，所述第二识别模块402，配置为根据所述文本分类结果，确定第一应用场景；根据所述场景对象识别结果，确定第二应用场景；从所述第一应用场景和所述第二应用场景中，确定出所述实际应用场景。

在一实施例中，所述翻译合成模型包括目标翻译模型和目标合成模型，所述模型确定模块403，配置为根据所述实际应用场景，以及多个翻译模型与不同应用场景的对应关系，确定所述目标翻译模型；所述多个翻译模型中的每一个模型为用于实现所述原语种与所述目标语种之间文本转换的模型；根据所述实际应用场景，以及多个语音合成模型与不同应用场景的对应关系，确定所述目标合成模型；所述多个语音合成模型中的每一个模型为用于对所述目标语种的文本进行语音合成的模型。

在一实施例中，所述翻译合成模块404，配置为利用所述目标翻译模型，将所述语音识别结果从所述原语种翻译至所述目标语种，得到目标翻译结果；利用所述目标合成模型对所述目标翻译结果进行语音合成，得到所述同声传译结果。

需要说明的是，实际应用时，所述第一识别模块401、所述第二识别模块402、所述模型确定模块403和所述翻译合成模块404可由处理器实现。

需要说明的是：上述实施例提供的同声传译装置在进行同声传译时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者模块处理。另外，上述实施例提供的同声传译装置与同声传译方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现申请实施例的方法，本申请实施例还提供了一种同声传译装置。图5为本申请实施例提供的一种同声传译装置的结构示意图二。如图5所示，同声传译装置包括：处理器501、存储器502和通信总线503；

所述通信总线503，配置为实现所述处理器501和所述存储器502之间的通信连接；

所述处理器501，配置为执行所述存储器502中存储的同声传译程序，以实现上述同声传译方法。

本申请实施例提供了一种同声传译装置，对待同传语音数据进行语音识别，得到语音识别结果；识别待同传语音数据对应的实际应用场景；基于实际应用场景确定翻译合成模型；翻译合成模型为与原语种和目标语种对应的模型，原语种为待同传语音数据的语种类别；利用翻译合成模型，对语音识别结果进行翻译合成处理，得到同声传译结果。本申请实施例提供的同声传译装置，对待同传语音数据的应用场景进行识别，从而根据确定的应用场景利用相应的模型进行同声传译，提高了同声传译结果的准确性和灵活性。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被一个或者多个处理器执行时实现上述同声传译方法。计算机可读存储介质可以是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；也可以是包括上述存储器之一或任意组合的各自设备，如移动电话、计算机、平板设备、个人数字助理等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本实用申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种同声传译方法，包括：

对待同传语音数据进行语音识别，得到语音识别结果；

识别所述待同传语音数据对应的实际应用场景；

基于所述实际应用场景确定翻译合成模型；所述翻译合成模型为与原语种和目标语种对应的模型，所述原语种为所述待同传语音数据的语种类别；

利用所述翻译合成模型，对所述语音识别结果进行翻译合成处理，得到同声传译结果。
根据权利要求1所述的方法，其中，所述识别所述待同传语音数据对应的实际应用场景，包括：

接收目标指令；

将所述目标指令指示的应用场景确定为所述实际应用场景。
根据权利要求1所述的方法，其中，所述识别所述待同传语音数据对应的实际应用场景，包括：

对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果；

所述场景表征信息包含以下至少之一：所述语音识别结果和图像视频信息；所述处理结果包含以下至少之一：文本分类结果和场景对象识别结果；

根据所述处理结果，识别出所述实际应用场景。
根据权利要求3所述的方法，其中，所述场景表征信息包含所述语音识别结果，所述对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果，包括：

按照预设分类体系或标准对所述语音识别结果进行分类，得到所述文本分类结果。
根据权利要求3所述的方法，其中，所述场景表征信息包含所述图像视频信息，所述对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果之前，还包括：

获取所述待同传语音数据对应的所述图像视频信息；所述图像视频信息包含以下至少之一：场景视频和场景图像；

相应的，所述对所述待同传语音数据对应的场景表征信息进行信息处理，得到处理结果，包括：

对所述图像视频信息进行对象识别，得到所述场景对象识别结果。
根据权利要求3所述的方法，其中，所述处理结果包含所述文本分类结果和所述场景对象识别结果，所述根据所述处理结果，识别出所述实际应用场景，包括：

根据所述文本分类结果，识别出第一应用场景；

根据所述场景对象识别结果，识别出第二应用场景；

从所述第一应用场景和所述第二应用场景中，确定出所述实际应用场景。
根据权利要求1所述的方法，其中，所述翻译合成模型包括目标翻译模型和目标合成模型，所述基于所述实际应用场景确定翻译合成模型，包括：

根据所述实际应用场景，以及多个翻译模型与不同应用场景的对应关系，确定所述目标翻译模型；所述多个翻译模型中的每一个模型为用于实现所述原语种与所述目标语种之间文本转换的模型；

根据所述实际应用场景，以及多个语音合成模型与不同应用场景的对应关系，确定所述目标合成模型；所述多个语音合成模型中的每一个模型为用于对所述目标语种的文本进行语音合成的模型。
根据权利要求7所述的方法，其中，所述利用所述翻译合成模型，对所述语音识别结果进行翻译合成处理，得到同声传译结果，包括：

利用所述目标翻译模型，将所述语音识别结果从所述原语种翻译至所述目标语种，得到目标翻译结果；

利用所述目标合成模型对所述目标翻译结果进行语音合成，得到所述同声传译结果。
一种同声传译装置，所述装置包括：

第一识别模块，配置为对待同传语音数据进行语音识别，得到语音识别结果；

第二识别模块，配置为识别所述待同传语音数据对应的实际应用场景；

模型确定模块，配置为基于所述实际应用场景确定翻译合成模型；所述翻译合成模型为与原语种和目标语种对应的模型，所述原语种为所述待同传语音数据的语种类别；

翻译合成模块，配置为利用所述翻译合成模型，对所述语音识别结果进行翻译合成处理，得到同声传译结果。
一种同声传译装置，所述装置包括处理器和存储器；

所述处理器，配置为执行所述存储器中存储的同声传译程序，以实现权利要求1至8任一项所述的同声传译方法。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1至8任一项所述的同声传译方法。