WO2016101571A1

WO2016101571A1 - 一种语音翻译方法、通讯方法及相关装置

Info

Publication number: WO2016101571A1
Application number: PCT/CN2015/082390
Authority: WO
Inventors: 尚国强
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-12-22
Filing date: 2015-06-25
Publication date: 2016-06-30
Also published as: CN105786801A

Abstract

一种语言翻译方法、通讯方法及相关装置，涉及终端应用领域。方法包括：获取第一语音；提取所述第一语音的语音特征；对所述第一语音进行转换，得到翻译后的语音数据；根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音。采用本发明方案，经翻译后的第二语音能够保留说话者的语音特征，因此在应用到终端通讯时，为收听一方带来更真实的体验效果。

Description

一种语音翻译方法、通讯方法及相关装置

技术领域

本文涉及语音翻译技术领域，特别是一种语音翻译方法、通讯方法及相关装置。

背景技术

随着硬件技术的发展和软件的发展，包括云计算技术的快速发展，使得人工智能模式识别的算法得到了很大应用环境，对于收录的各种数据可以经过云计算平台的大量快速计算，容易得到较好的训练结果，使得各种语音特征库更加符合实际使用环境。

苹果公司的siri应用的使用，激发了社会上的各种语音技术的使用热潮，语音技术的发展进一步解放了使用智能终端者的双手，对社会生产力的发展也是一种很大的促进。

目前的手机不具备即时翻译功能，当通信双方的语种不同或存在方言时，存在沟通障碍。因此，当前亟需一种基于云计算平台上的语音技术，实现通讯时的即时翻译。

发明内容

本发明要解决的技术问题是提供一种语音翻译方法、通讯方法及相关装置，能够将翻译后的第二语音能够保留有说话者的语音特征，提高接听者的体验。

为解决上述技术问题，采用如下技术方案：

一种语音翻译方法，包括：

获取第一语音；

提取所述第一语音的语音特征；

对所述第一语音进行转换，得到翻译后的语音数据；

根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音。

可选地，所述对所述第一语音进行转换，得到翻译后的语音数据的步骤包括：

基于语言数据库，对所述第一语音进行转换，得到翻译后的语音数据。

可选地，所述语音特征包括：所述第一语音的基音，或所述第一语音的基音和泛音。

可选地，所述获取第一语音的的步骤包括：

在终端启动通讯应用后，基于该通讯应用，获取待翻译的所述第一语音。

可选地，所述根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音的步骤之后，该方法还包括：

输出所述第二语音。

可选地，所述基于该通讯应用，获取待转换语言的第一语音的步骤包括：

基于该通讯应用，获取对端用户发送过来的待转换语言的第一语音；

可选地，所述基于该通讯应用，获取待转换语言的第一语音的步骤还包括：

基于该通讯应用，获取本端用户输入的待转换语言的第一语音；

可选地，所述输出所述第二语音的步骤包括：

向本端用户输出所述第二语音。

可选地，所述输出所述第二语音的步骤还包括：

基于该通讯应用，向对端用户输出所述第二语音。

一种语音翻译装置，包括第一获取模块、提取模块、第一转换模块和第一拟合模块，其中：

所述第一获取模块设置成：获取第一语音；

所述提取模块设置成：提取所述第一语音的语音特征；

所述第一转换模块设置成：对所述第一语音进行转换，得到翻译后的语音数据；

所述第一拟合模块设置成：根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音。

可选地，所述第一获取模块设置成按照如下方式获取第一语音：

在终端启动通讯应用后，基于该通讯应用，获取待转换语言的第一语音。

可选地，该装置还包括输出模块，其中

所述输出模块设置成：输出所述第二语音。

可选地，所述第一获取模块包括第一获取子单元，其中

所述第一获取子模块设置成：基于该通讯应用，获取对端用户发送过来的待转换语言的第一语音。

可选地，所述第一获取模块还包括第二获取子模块，其中：

所述第二获取子模块设置成：基于该通讯应用，获取本端用户输入的待翻译的第一语音。

本发明的上述技术方案的有益效果如下：

本发明的方案能够地对通讯应用所传输的语音进行翻译，从而方便用户之间的沟通。由于经翻译后的第二语音能够保留说话者的语音特征，因此在应用到终端通讯时，为收听一方带来更真实的体验效果。

附图概述

图1为本发明实施例的语音翻译方法的步骤示意图；

图2为本发明实施例的通讯方法的步骤示意图；

图3为本发明实施例的通讯方法应用于语音通话的流程示意图；

图4为本发明实施例的通讯方法应用于通讯软件的流程示意图；

图5为本发明实施例的语音翻译装置的结构示意图；

图6为本发明实施例的终端的结构示意图。

本发明的较佳实施方式

下面将结合附图及具体实施例进行详细描述。

本发明的目的是提供给一种能够在通讯时，实现即时翻译的方案。而相关的语音翻译技术，并不能保留说话者的语音特征，因此翻译后的语音数据在音调上存在违和感，不利于用户去理解。为解决这一问题，本发明实施例提出了一种语音翻译方法，如图1所示，包括：

步骤11，获取第一语音；

步骤12，提取所述第一语音的语音特征；

步骤13，对所述第一语音进行转换，得到翻译后的语音数据；

步骤14，根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音。

根据上述步骤11至步骤14可以知道：本实施例在进行翻译前，提取原语音的语音特征，并在翻译后，根据提取到的语音特征将已翻译的语音数据还原成说话者的音调，使接听者得到更真实体验效果，利于理解。

具体地，在上述步骤13中，基于语言数据库，对所述第一语音进行转换，得到翻译后的语音数据。

示例性地，语言数据库可以保存在本地，在获取到第一语音后，根据本地的语言数据库对第一语音进行语言识别并翻译。此外，语言数据库还可以设置在服务端，实现在线翻译。需要给予说明的是，本实施例的翻译可以是语种之间的转换，或者是同一语种不同方言之间的转换。

具体地，本实施例所述语音特征包括：所述第一语音的基音，或所述第一语音的基音和泛音。

基音是发音体整体振动产生的声音，基音决定音高。发音体部分振动产生的声音叫做泛音，泛音决定音色。本实施例通过基音特征即可将翻译出的语音数据恢复回说话人原来的音调。作为优选方案，也可以再结合泛音特征，对翻译后的语音数据进行还原，实现更好的效果。

此外，本发明的另一实施例提供一种应用于终端的通讯方法，能够实时地将通讯一方的语音翻译给通讯另一方，如图2所示，所述通讯方法包括：

步骤21，在终端启动通讯应用后，基于该通讯应用，获取待翻译的第一语音；

步骤22，提取所述第一语音的语音特征；

步骤23，对所述第一语音进行转换，得到翻译后的语音数据；

步骤24，根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音；

步骤25，输出所述第二语音。

具体地，翻译过程可以在接收侧的终端进行，即在上述步骤21中，基于终端所运行的通讯应用，获取对端用户发送过来的待翻译的第一语音；在上述步骤25中，向本端用户输出所述第二语音。

在实际应用中，用户可在自己的终端上对接收到的来自对端所发送的语音进行翻译。

此外，翻译过程可以在发送侧的终端进行，即在上述步骤21中，基于终端所运行的通讯应用，获取本端用户输入的待翻译的第一语音；在上述步骤25中，基于终端所运行的通讯应用，向对端用户输出所述第二语音。

在实际应用中，用户可将说出语音在自己的终端上进行翻译，之后再发送给对端。即便对端设备未采用本实施例的方案，也能接收到翻译后的语音，从而实现正常交流。

下面对本发明实施例的通讯方法的应用场景进行介绍。

<应用场景一>

在应用场景一中，通讯双方为语音通话，主叫终端用于将主叫用户说出的粤语转换为沪语后，再发送至被叫端，如图2所示，具体过程包括：

A1，主叫终端上配置翻译系统，配置翻译系统的语言特征库，如配置闽粤语与沪语的混合特征库；

A2，主叫终端与被叫终端建立语音通话，通过主叫终端麦克风获取主叫用户输入的第一语音；

A3，主叫终端提取第一语音的基音(也可以包括泛音)；

A4，主叫终端基于混合特征库，对第一语音进行转换，得到翻译后的语音数据；

A5，主叫终端根据提取到的基音对翻译后的语音数据进行语音拟合，得到符合主叫用户说话音调的第二语音。

A6，主叫端对第二语音进行语音处理并调制；

A7，主叫终端将调制信号发送至被叫终端，被叫终端接收调至信号后进行解调处理，得到并播放第二语音。此时在被叫终端播放的第二语音已经是翻译后的沪语。

在应用场景一中，被叫终端不需要进行额外配置，因此本方案的具有较高的实用性。此外，主叫终端可以只向被叫终端发送已翻译后的第二语音，避免第一语音对被叫用户带来干扰。

<应用场景二>

在应用场景二中，通讯双方基于即时通讯软件进行通话，被叫终端在接收到主叫用户发送的日语语音文件后，将其翻译为汉语，并播放给被叫用户，具体过程包括：

B1，在被叫终端上设置日语翻译软件，并允许即时通讯软件调用日语翻译软件；

B2，被叫用户通过即时通讯软件获取并保存来自主叫用户发送的日语语音文件；

B3，即时通讯软件提取所述日语语音文件的基音，并调用日语翻译软件对该日语语音文件进行翻译，得到汉语语音文件；

B4，即时通讯软件通过提取到的基音，对汉语语音文件进行语音拟合，使汉语语音文件还原为主叫用户的音调；

B5，即时通讯软件可以但不一定将拟合后的汉语语音文件代替翻译前的日语语音文件进行保存，并通过被叫用户操作或自动将已保存的汉语语音文播放给被叫用户。

在应用场景二中，翻译步骤可以由第三方提供的语音翻译软件来执行，而即时通讯软件只需要调用语音翻译软件即可进行实时的语音翻译。在实际应用中，被叫用户可根据自己的翻译需求下载并安装对应的翻译APP，之后将即时通讯软件与翻译APP进行关联绑定。

此外，本发明的另一实施例还提供一种语音翻译装置，如图5所示，包括：

第一获取模块501，设置成：获取第一语音；

提取模块502，设置成：提取所述第一语音的语音特征；

第一转换模块503，设置成：对所述第一语音进行转换，得到翻译后的语音数据；

第一拟合模块504，设置成：根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音。

其中，所述语音特征包括：所述第一语音的基音，或所述第一语音的基音和泛音。

可选地，所述第一获取模块501设置成按照如下方式获取第一语音：

可选地，该装置还包括输出模块，其中

所述输出模块设置成：输出所述第二语音。

可选地，所述第一获取模块501包括第一获取子单元，其中

可选地，所述第一获取模块501还包括第二获取子模块，其中：

可选地，所述输出模块包括第一输出子模块，其中：

所述第一输出子模块设置成：向本端用户输出所述第二语音。

可选地，所述输出模块还包括第二输出子模块，其中：

所述第二输出子模块设置成：基于该通讯应用，向对端用户输出所述第二语音。

本实施例的语音翻译装置在进行翻译前，提取原语音的语音特征，并在翻译后，根据提取到的语音特征将已翻译的语音数据还原成说话者的音调，使接听者更方便理解。

显然，本实施例的语音翻译装置与上文所述语音翻译方法相对应，均能够实现同样的技术效果。

此外，本发明的实施例还提供一种终端，如图6所示，包括：

第二获取模块601，设置成：在终端启动通讯应用后，基于该通讯应用，获取待转换语言的第一语音；

第二提取模块602，设置成：提取所述第一语音的语音特征；

第二转换模块603，设置成：对所述第一语音进行转换，得到翻译后的语音数据；

第二拟合模块604，设置成：根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音；

输出模块605，设置成：输出所述第二语音。

其中，所述第二获取模块601包括：

第一获取子模块，设置成：基于该通讯应用，获取对端用户发送过来的待转换语言的第一语音；

所述输出模块605包括：

第一输出子模块，设置成：向本端用户输出所述第二语音。

此外，在上述基础之上，所述第二获取模块601还包括：

第二获取子模块，设置成：基于该通讯应用，获取本端用户输入的待翻译的第一语音；

所述输出模块605还包括：

第二输出子模块，设置成：基于该通讯应用，向对端用户输出所述第二语音。

本发明实施例还公开了一种计算机程序，包括程序指令，当该程序指令被终端执行时，使得该终端可执行上述任意的检测无线网络接入安全的方法。

本发明实施例还公开了一种载有所述的计算机程序的载体。

显然，本实施例的终端与上文所述的通讯方法相对应，均能够达到相同的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

工业实用性

采用本发明方案，经翻译后的第二语音能够保留说话者的语音特征，因此在应用到终端通讯时，为收听一方带来更真实的体验效果。因此本发明具有很强的工业实用性。

Claims

一种语音翻译方法，包括：

获取第一语音；

提取所述第一语音的语音特征；

对所述第一语音进行转换，得到翻译后的语音数据；

根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音。
根据权利要求1所述的语音翻译方法，其中，所述对所述第一语音进行转换，得到翻译后的语音数据的步骤包括：

基于语言数据库，对所述第一语音进行转换，得到翻译后的语音数据。
根据权利要求1所述的语音翻译方法，其中，

所述语音特征包括：所述第一语音的基音，或所述第一语音的基音和泛音。
根据权利要求1所述的语音翻译方法，其中，所述获取第一语音的的步骤包括：

在终端启动通讯应用后，基于该通讯应用，获取待翻译的所述第一语音。
根据权利要求1所述的语音翻译方法，其中，所述根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音的步骤之后，该方法还包括：

输出所述第二语音。
根据权利要求4所述的语音翻译方法，其中，所述基于该通讯应用，获取待转换语言的第一语音的步骤包括：

基于该通讯应用，获取对端用户发送过来的待转换语言的第一语音。
根据权利要求6所述的语音翻译方法，其中，所述基于该通讯应用，获取待转换语言的第一语音的步骤还包括；

基于该通讯应用，获取本端用户输入的待转换语言的第一语音。
根据权利要求4所述的语音翻译方法，其中，所述输出所述第二语音的步骤包括：

向本端用户输出所述第二语音。
根据权利要求8所述的语音翻译方法，其中，所述输出所述第二语音的步骤还包括：

基于该通讯应用，向对端用户输出所述第二语音。
一种语音翻译装置，包括第一获取模块、提取模块、第一转换模块和第一拟合模块，其中：

所述第一获取模块设置成：获取第一语音；

所述提取模块设置成：提取所述第一语音的语音特征；

所述第一转换模块设置成：对所述第一语音进行转换，得到翻译后的语音数据；

所述第一拟合模块设置成：根据所述语音特征对所述翻译后的语音数据进行语音拟合，得到第二语音。
根据权利要求10所述的语音翻译装置，其中，

所述语音特征包括：所述第一语音的基音，或所述第一语音的基音和泛音。
根据权利要求10所述的语音翻译装置，其中，所述第一获取模块设置成按照如下方式获取第一语音：

在终端启动通讯应用后，基于该通讯应用，获取待转换语言的第一语音。
根据权利要求10所述的语音翻译装置，其中，该装置还包括输出模块，其中

所述输出模块设置成：输出所述第二语音。
根据权利要求10所述的语音翻译装置，其中，所述第一获取模块包括第一获取子单元，其中

所述第一获取子模块设置成：基于该通讯应用，获取对端用户发送过来的待转换语言的第一语音。
根据权利要求14所述的语音翻译装置，其中，所述第一获取模块还包括第二获取子模块，其中：

所述第二获取子模块设置成：基于该通讯应用，获取本端用户输入的待翻译的第一语音。