WO2019075829A1

WO2019075829A1 - 语音翻译方法、装置和翻译设备

Info

Publication number: WO2019075829A1
Application number: PCT/CN2017/111961
Authority: WO
Inventors: 郑勇; 王文祺
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2017-10-17
Filing date: 2017-11-20
Publication date: 2019-04-25
Also published as: CN107731232A

Abstract

一种语音翻译方法、装置和翻译设备，方法包括以下步骤：识别原始的语音信息的语音性别（S11）；根据原始的语音信息的语音性别选择对应的语音合成声纹（S12）；根据选择的语音合成声纹对原始的语音信息进行翻译处理（S13），以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致，实现了对语音性别的自适应。

Description

语音翻译方法、装置和翻译设备技术领域

[0001] 本发明涉及电子技术领域，特别是涉及到一种语音翻译方法和装置。

背景技术

[0002] 目前，两个说不同语言的用户交流吋，可以通过翻译设备进行翻译，从而实现无障碍交流。具体实现方式为：用户说话吋按压一次翻译设备的特定按键，翻译设备则采集语音信息并进行翻译处理，用户说完一段话后再按压一次按键，翻译设备则输出翻译处理后的语音信息。

[0003] 翻译设备翻译处理后的语音信息的语音性别是预先设定好的，用户可以设定为男声或者女声，一旦设定好后，无论说话的人是男性还是女性，翻译处理后的语音信息都是相同的语音性别。例如，当设定为男声后，如果说话的人是女性，翻译处理后的语音信息则为男声；当设定为女声后，如果说话的人是男性，翻译处理后的语音信息则为女声。

[0004] 由此可见，现有技术中，翻译处理后的语音信息的语音性别与原始的语音信息的语音性别有可能不一致，导致原始语音和翻译语音不协调，使得用户听起来感觉很怪异，大大降低了交流的真实感，用户体验不佳。

技术问题

[0005] 本发明的主要目的为提供一种语音翻译方法和装置，旨在解决翻译处理后的语音信息的语音性别与原始的语音信息的语音性别不一致的技术问题，增强交流的真实感，提升用户体验。

问题的解决方案

技术解决方案

[0006] 为达以上目的，本发明实施例提出一种语音翻译方法，所述方法包括以下步骤

[0007] 识别原始的语音信息的语音性别；

[0008] 根据所述语音性别选择对应的语音合成声纹； [0009] 根据选择的语音合成声纹对所述原始的语音信息进行翻译处理，以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。

[0010] 可选地，所述识别原始的语音信息的语音性别的步骤包括：

[0011] 获取所述原始的语音信息的基音的频率；

[0012] 比较所述基音的频率与门限值的大小；

[0013] 当所述基音的频率小于或等于门限值吋，识别所述原始的语音信息的语音性别为男声；

[0014] 当所述基音的频率大于门限值吋，识别所述原始的语音信息的语音性别为女声

[0015] 可选地，所述获取所述原始的语音信息的基音的频率的步骤包括：

[0016] 以预设的采样频率对所述原始的语音信息连续采样 M帧， M≥2;

[0017] 对采集的语音帧进行基音频率特征提取；

[0018] 根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。

[0019] 可选地， 25≥M≤35。

[0020] 可选地，所述语音帧的吋长为 20-30ms。

[0021] 可选地，所述采样频率为 8kHz。

[0022] 可选地，所述门限值为 180-220Hz。

[0023] 可选地，所述根据选择的语音合成声纹对所述原始的语音信息进行翻译处理的步骤包括：

[0024] 对所述原始的语音信息进行语音识别处理，得到原始语言的第一字符串；

[0025] 对所述第一字符串进行文字翻译处理，得到目标语言的第二字符串；

[0026] 利用选择的语音合成声纹对所述第二字符串进行语音合成处理，得到目标语言的语音信息。

[0027] 可选地，所述识别原始的语音信息的语音性别的步骤包括：每当检测到一段语音信息幵始吋，则识别所述语音信息的语音性别。

[0028] 可选地，所述语音合成声纹包括男声声纹和女声声纹，所述根据所述语音性别选择对应的语音合成声纹的步骤包括：

[0029] 当所述语音性别为男声吋，选择所述男声声纹； [0030] 当所述语音性别为女声吋，选择所述女声声纹。

[0031] 本发明实施例同吋提出一种语音翻译装置，所述装置包括：

[0032] 性别识别模块，用于识别原始的语音信息的语音性别；

[0033] 声纹选择模块，用于根据所述语音性别选择对应的语音合成声纹；

[0034] 翻译处理模块，用于根据选择的语音合成声纹对所述原始的语音信息进行翻译处理，以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。

[0035] 可选地，所述性别识别模块包括：

[0036] 获取单元，用于获取所述原始的语音信息的基音的频率；

[0037] 比较单元，用于比较所述基音的频率与门限值的大小；

[0038] 第一识别单元，用于当所述基音的频率小于或等于门限值吋，确定所述原始的语音信息的语音性别为男声；

[0039] 第二识别单元，用于当所述基音的频率大于门限值吋，确定所述原始的语音信息的语音性别为女声。

[0040] 可选地，所述获取单元包括：

[0041] 采样子单元，用于以预设的采样频率对所述原始的语音信息连续采样 M帧， M >2；

[0042] 提取子单元，用于对采集的语音帧进行基音频率特征提取；

[0043] 统计子单元，用于根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。

[0044] 可选地，所述翻译处理模块包括：

[0045] 第一处理单元，用于对所述原始的语音信息进行语音识别处理，得到原始语言的第一字符串；

[0046] 第二处理单元，用于对所述第一字符串进行文字翻译处理，得到目标语言的第二字符串；

[0047] 第三处理单元，用于利用选择的语音合成声纹对所述第二字符串进行语音合成处理，得到目标语言的语音信息。

[0048] 可选地，所述性别识别模块用于：每当检测到一段语音信息幵始吋，则识别所述语音信息的语音性别。

[0049] 可选地，所述语音合成声纹包括男声声纹和女声声纹，所述声纹选择模块包括

[0050] 第一选择单元，用于当所述语音性别为男声吋，选择所述男声声纹；

[0051] 第二选择单元，用于当所述语音性别为女声吋，选择所述女声声纹。

[0052] 本发明实施例还提出一种翻译设备，所述翻译设备包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行前述语音翻译方法。

发明的有益效果

有益效果

[0053] 本发明实施例所提供的一种语音翻译方法，通过识别出原始的语音信息的语音性别，再根据语音性别选择对应的语音合成声纹，最后根据选择的语音合成声纹对原始的语音信息进行翻译处理，从而使得翻译处理后的语音信息的语音性另 IJ与原始的语音信息的语音性别相一致，实现了对语音性别的自适应。当男性说话吋翻译出来的语音是男声，当女性说话吋翻译出来的语音是女声，使得原始语音与翻译语音协调一致，大大增强了交流的真实感，提升了用户体验。对附图的简要说明

附图说明

[0054] 图 1是本发明的语音翻译方法一实施例的流程图；

[0055] 图 2是图 1中步骤 S 11的具体流程图；

[0056] 图 3是本发明的语音翻译装置一实施例的模块示意图；

[0057] 图 4是图 3中的性别识别模块的模块示意图；

[0058] 图 5是图 4中的获取单元的模块示意图；

[0059] 图 6是图 3中的声纹选择模块的模块示意图；

[0060] 图 7是图 3中的翻译处理模块的模块示意图。

[0061] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

实施该发明的最佳实施例本发明的最佳实施方式

[0062] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0063] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

[0064] 本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式"一"、 " 一个"、 "所述 "和"该"也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞"包括"是指存在所述特征、整数、步骤、操作、元件和 /或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和 /或它们的组。应该理解，当我们称元件被"连接"或"耦接"到另一元件吋，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的"连接"或"耦接"可以包括无线连接或无线耦接。这里使用的措辞 "和 /或"包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

[0065] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

[0066] 本技术领域技术人员可以理解，这里所使用的 "终端"、 "终端设备"既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备； PCS (Persona 1 Communications Service, 个人通信系统），其可以组合语音、数据处理、传真和 /或数据通信能力； PDA (Personal Digital Assistant, 个人数字助理），其可以包括射频接收器、寻呼机、互联网 /内联网访问、网络浏览器、记事本、日历和 / 或 GPS (Global Positioning System, 全球定位系统）接收器；常规膝上型和 /或掌上型计算机或其他设备，其具有和 /或包括射频接收器的常规膝上型和 /或掌上型计算机或其他设备。这里所使用的 "终端"、 "终端设备"可以是便携式、可运输、安装在交通工具（航空、海运和 /或陆地）中的，或者适合于和 /或配置为在本地运行，和 /或以分布形式，运行在地球和 /或空间的任何其他位置运行。这里所使用的"终端"、 "终端设备"还可以是通信终端、上网终端、音乐 /视频播放终端，例如可以是 PDA、 MID (Mobile Internet Device, 移动互联网设备）和 /或具有音乐 /视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

[0067] 本技术领域技术人员可以理解，这里所使用的服务器，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算（Cloud Computing) 的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，服务器、终端设备与 WNS服务器之间可通过任何通信方式实现通信，包括但不限于，基于 3GPP、 LTE、 WIMAX的移动通信、基于 TCP/IP、 UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

[0068] 本发明实施例的语音翻译方法和装置，可以应用于翻译设备，也可以应用于服务器。翻译设备可以是专门的翻译机，也可以是手机、平板等移动终端，还可以是个人电脑、笔记本电脑等计算机终端。参照图 1，提出本发明的语音翻译方法一实施例，所述方法包括以下步骤：

[0069] Sl l、识别原始的语音信息的语音性别。

[0070] 本发明实施例所述的原始的语音信息，即待翻译的语音信息。原始的语音信息可以是当场采集的语音信息，可以是存储于本地的语音信息，也可以是从其它设备获取的语音信息。

[0071] 以应用于翻译设备为例，翻译设备可以通过麦克风采集用户发出的语音信息，该语音信息即为原始的语音信息。

[0072] 以应用于服务器为例，服务器接收翻译设备发送的语音信息，该语音信息即为原始的语音信息。 [0073] 在识别语音信息的语音性别吋，可以以基音频率作为识别依据，通过性别识别算法来识别原始的语音信息的语音性别，所述性别识别算法如 VQ (Vector Quantization, 矢量量化 ) 、 HMM (Hidden Markov

Model, 隐马尔可夫模型）、 SVM (Support Vector Machines , 支持向量机）等

[0074] 如图 2所示，可以通过以下方式识别原始的语音信息的语音性别，具体包括以下步骤：

[0075] Sl l l、获取原始的语音信息的基音的频率。

[0076] 具体的，首先以预设的采样频率对原始的语音信息连续采样 M (M>2) 帧，然后对采集的语音帧进行基音频率特征提取，最后根据提取的基音频率特征统计出原始的语音信息的基音的频率。

[0077] 采样频率可以选择 8kHz，当然也可以选择其它的频率。 M的取值范围优选 25≥

M≤35，例如取 M=30，即连续采样 30帧语音帧。每一个语音帧的吋长优选为 20-3

0ms。在统计基音的频率吋，可以对采集的语音帧的基音频率求平均值，将平均值作为原始的语音信息的基音的频率。

[0078] S112、比较基音的频率与门限值的大小，判断基音的频率是否小于或等于门限值。当基音的频率小于或等于门限值吋，进入步骤 S113 ; 当基音的频率大于门限值吋，进入步骤 S 114。

[0079] 男声的基音频率小于女声的基音频率，男声的基音频率分布范围一般介于 0-20

0Hz之间，女声的基音频率分布范围一般介于 200-500HZ之间，因此门限值可以设定为 180-220Hz，如设定为 200Hz。

[0080] S113、识别原始的语音信息的语音性别为男声。

[0081] S114、识别原始的语音信息的语音性别为女声。

[0082] 本发明实施例所述的语音信息的语音性别包括男声和女声。当基音的频率小于或等于门限值吋，贝 ij识别原始的语音信息的语音性别为男声。当基音的频率大于门限值吋，则识别原始的语音信息的语音性别为女声。

[0083] 本发明实施例中，每当检测到一段语音信息幵始吋，则识别一次语音信息的语音性别，以为每一段语音信息分别匹配对应的语音合成声纹，使得翻译处理后的每一段语音信息的语音性别与原始的每一段语音信息的语音性别均相一致。

[0084] 在检测一段语音信息的幵始和结束吋，可以通过两段语音的吋间间隔来确定，例如：当在预设吋长内没有检测到语音信息吋，则确定一段语音结束，当再次检测到语音信息吋，则确定下一段语音幵始。在检测语音信息吋，可以通过语音活动检测（VAD, Voice Activity Detection) 技术来检测声音信号中是否包括语音信息。

[0085] 当应用于翻译设备吋，也可以通过检测特定按键是否被触发来检测一段语音信息的幵始和结束，例如：当特定按键首次被触发吋，则一段语音信息幵始，当特定按键再次被触发吋，则一段语音信息结束。

[0086] S12、根据原始的语音信息的语音性别选择对应的语音合成声纹。

[0087] 本发明实施例中，预置了两种语音合成声纹，分别为男声声纹和女声声纹。当识别出原始的语音信息的语音性别为男声吋，则选择男声声纹；当识别出原始的语音信息的语音性别为女声吋，则选择女声声纹。

[0088] 进一步地，男声声纹和女声声纹分别包括至少两个，每一个的基音频率不同，可以根据原始的语音信息的基音的频率选择对应的男声声纹或女声声纹。从而使得翻译处理后的语音信息与原始的语音信息的声纹更加吻合，进一步增强了交流的真实感。

[0089] S13、根据选择的语音合成声纹对原始的语音信息进行翻译处理。

[0090] 本步骤 S13中，根据选择的语音合成声纹对原始的语音信息进行翻译处理，使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致，增强了交流的真实感，提升了用户体验。

[0091] 语音信息的翻译处理，主要包括语音识别、文字翻译、语音合成三个流程，具体的：首先对原始的语音信息进行语音识别处理，得到原始语言的第一字符串

；对第一字符串进行文字翻译处理，得到目标语言的第二字符串；利用选择的语音合成声纹对第二字符串进行语音合成处理，得到目标语言的语音信息。

[0092] 以应用于翻译设备为例。翻译设备可以在本地进行翻译处理，即对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程，得到目标语言的语音信息的码流。 [0093] 翻译设备也可以通过服务器进行翻译处理。例如：翻译设备首先将原始的语音信息发送给语音识别服务器，语音识别服务器对原始的语音信息进行语音识别，识别出第一字符串并返回给翻译设备；翻译设备接收第一字符串，并将第一字符串发送给文字翻译服务器，文字翻译服务器对第一字符串进行文字翻译，翻译为目标语言的第二字符串并返回给翻译设备；翻译设备接收第二字符串，并将第二字符串和选择的语音合成声纹发送给语音合成服务器，语音合成服务器利用选择的语音合成声纹对第二字符串进行语音合成处理，得到目标语言的语音信息，并将目标语言的语音信息以码流的形式返回给翻译设备，翻译设备接收目标语言的语音信息的码流，获得翻译后的语音信息。

[0094] 当然，在其它实施例中，翻译设备也可以将原始的语音信息和选择的语音合成声纹发送给一个服务器，该服务器直接对原始的语音信息进行语音识别和文字翻译处理，并利用选择的语音合成声纹进行语音合成，得到目标语言的语音信息的码流。

[0095] 以应用于服务器为例。服务器对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程，得到目标语言的语音信息。并将目标语言的语音信息以码流的形式发送给翻译设备。

[0096] 翻译设备获得翻译处理后的语音信息后，则输出该语音信息，例如，驱动扬声器输出该语音信息。由于输出的语音信息的语音性别与原始的语音信息的语音性别相一致，因此用户听起来感觉更加真实，提升了用户体验。

[0097] 本发明实施例的语音翻译方法，通过识别出原始的语音信息的语音性别，再根据语音性别选择对应的语音合成声纹，最后根据选择的语音合成声纹对原始的语音信息进行翻译处理，从而使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致，实现了对语音性别的自适应。当男性说话吋翻译出来的语音是男声，当女性说话吋翻译出来的语音是女声，使得原始语音与翻译语音协调一致，大大增强了交流的真实感，提升了用户体验。

[0098] 参照图 3，提出本发明的语音翻译装置一实施例，所述装置包括性别识别模块 1 0、声纹选择模块 20和翻译处理模块 30，其中：性别识别模块 10，用于识别原始的语音信息的语音性别；声纹选择模块 20，用于根据原始的语音性别选择对应的语音合成声纹；翻译处理模块 30，用于根据选择的语音合成声纹对原始的语音信息进行翻译处理，以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。

[0099] 本发明实施例所述的原始的语音信息，即待翻译的语音信息。原始的语音信息可以是当场采集的语音信息，可以是存储于本地的语音信息，也可以是从其它设备获取的语音信息。

[0100] 以应用于翻译设备为例，翻译设备可以通过麦克风采集用户发出的语音信息，该语音信息即为原始的语音信息。

[0101] 以应用于服务器为例，服务器接收翻译设备发送的语音信息，该语音信息即为原始的语音信息。

[0102] 在识别语音信息的语音性别吋，性别识别模块 10可以以基音频率作为识别依据，通过性别识别算法来识别原始的语音信息的语音性别，所述性别识别算法如 V Q、 HMM、 SVM等。

[0103] 可选地，性别识别模块 10如图 4所示，包括获取单元 11、比较单元 12、第一识别单元 13和第二识别单元 14，其中：获取单元 11，用于获取原始的语音信息的基音的频率；比较单元 12，用于比较基音的频率与门限值的大小；第一识别单元 13，用于当基音的频率小于或等于门限值吋，确定原始的语音信息的语音性别为男声；第二识别单元 14，用于当基音的频率大于门限值吋，确定原始的语音信息的语音性别为女声。

[0104] 如图 5所示，获取单元 11包括采样子单元 111、提取子单元 112和统计子单元 113 ，其中：采样子单元 111，用于以预设的采样频率对原始的语音信息连续采样 M ( M>2) 帧，；提取子单元 112，用于对采集的语音帧进行基音频率特征提取；统计子单元 113，用于根据提取的基音频率特征统计出原始的语音信息的基音的频率。

[0105] 采样频率可以选择 8kHz，当然也可以选择其它的频率。 M的取值范围优选 25≥ M≤35，例如取 M=30，即连续采样 30帧语音帧。每一个语音帧的吋长优选为 20-3 0ms。在统计基音的频率吋，统计子单元 113可以对采集的语音帧的基音频率求平均值，将平均值作为原始的语音信息的基音的频率。 [0106] 男声的基音频率小于女声的基音频率，男声的基音频率分布范围一般介于 0-20 0Hz之间，女声的基音频率分布范围一般介于 200-500HZ之间，因此门限值可以设定为 180-220Hz，如设定为 200Hz。

[0107] 本发明实施例所述的语音信息的语音性别包括男声和女声。当基音的频率小于或等于门限值吋，第一识别单元 13则识别原始的语音信息的语音性别为男声。当基音的频率大于门限值吋，第二识别单元 14则识别原始的语音信息的语音性别为女声。

[0108] 本发明实施例中，每当检测到一段语音信息幵始吋，性别识别单元则识别一次语音信息的语音性别，以为每一段语音信息分别匹配对应的语音合成声纹，使得翻译处理后的每一段语音信息的语音性别与原始的每一段语音信息的语音性别均相一致。

[0109] 性别识别单元在检测一段语音信息的幵始和结束吋，可以通过两段语音的吋间间隔来确定，例如：当在预设吋长内没有检测到语音信息吋，则确定一段语音结束，当再次检测到语音信息吋，则确定下一段语音幵始。在检测语音信息吋，可以通过语音活动检测（VAD, Voice Activity Detection) 技术来检测声音信号中是否包括语音信息。

[0110] 当应用于翻译设备吋，性别识别单元也可以通过检测特定按键是否被触发来检测一段语音信息的幵始和结束，例如：当特定按键首次被触发吋，则一段语音信息幵始，当特定按键再次被触发吋，则一段语音信息结束。

[0111] 本发明实施例中，预置了两种语音合成声纹，分别为男声声纹和女声声纹。声纹选择模块 20如图 6所示，包括第一选择单元 21和第二选择单元 22，其中：第一选择单元 21，用于当原始的语音信息的语音性别为男声吋，则选择男声声纹；第二选择单元 22，用于当原始的语音信息的语音性别为女声吋，则选择女声声纹。

[0112] 进一步地，男声声纹和女声声纹分别包括至少两个，每一个的基音频率不同，声纹选择模块 20可以根据原始的语音信息的基音的频率选择对应的男声声纹或女声声纹。从而使得翻译处理后的语音信息与原始的语音信息的声纹更加吻合，进一步增强了真实感。 [0113] 翻译处理模块 30根据选择的语音合成声纹对原始的语音信息进行翻译处理，使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致，增强了真实感，提升了用户体验。

[0114] 语音信息的翻译处理，主要包括语音识别、文字翻译、语音合成三个流程。如图 7所示，翻译处理模块 30包括第一处理单元 31、第二处理单元 32和第三处理单元 33: 第一处理单元 31，用于对原始的语音信息进行语音识别处理，得到原始语言的第一字符串；第二处理单元 32，用于对第一字符串进行文字翻译处理，得到目标语言的第二字符串；第三处理单元 33，用于利用选择的语音合成声纹对第二字符串进行语音合成处理，得到目标语言的语音信息。

[0115] 以应用于翻译设备为例。翻译处理模块 30可以在翻译设备本地进行翻译处理，即对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程，得到目标语言的语音信息的码流。

[0116] 翻译处理模块 30也可以通过服务器进行翻译处理。例如：第一处理单元 31首先将原始的语音信息发送给语音识别服务器，语音识别服务器对原始的语音信息进行语音识别，识别出第一字符串并返回给翻译设备；第二处理单元 32接收第一字符串，并将第一字符串发送给文字翻译服务器，文字翻译服务器对第一字符串进行文字翻译，翻译为目标语言的第二字符串并返回给翻译设备；第三处理单元 33接收第二字符串，并将第二字符串和选择的语音合成声纹发送给语音合成服务器，语音合成服务器利用选择的语音合成声纹对第二字符串进行语音合成处理，得到目标语言的语音信息，并将目标语言的语音信息以码流的形式返回给翻译设备，第三处理单元 33接收目标语言的语音信息的码流，获得翻译后的语音信息。

[0117] 当然，在其它实施例中，翻译处理模块 30也可以将原始的语音信息和选择的语音合成声纹发送给一个服务器，该服务器直接对原始的语音信息进行语音识别和文字翻译处理，并利用选择的语音合成声纹进行语音合成，得到目标语言的语音信息的码流。

[0118] 以应用于服务器为例。翻译处理模块 30通过第一处理单元 31、第二处理单元 32 和第三处理单元 33对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程，得到目标语言的语音信息。并将目标语言的语音信息以码流的形式发送给翻译设备。

[0119] 翻译设备获得翻译处理后的语音信息后，则输出该语音信息，例如，驱动扬声器输出该语音信息。由于输出的语音信息的语音性别与原始的语音信息的语音性别相一致，因此用户听起来感觉更加真实，提升了用户体验。

[0120] 本发明实施例的语音翻译装置，通过识别出原始的语音信息的语音性别，再根据语音性别选择对应的语音合成声纹，最后根据选择的语音合成声纹对原始的语音信息进行翻译处理，从而使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致，实现了对语音性别的自适应。当男性说话吋翻译出来的语音是男声，当女性说话吋翻译出来的语音是女声，使得原始语音与翻译语音协调一致，大大增强了交流的真实感，提升了用户体验。

[0121] 本发明实施例的语音翻译方法和装置尤其适用于翻译机，利用翻译机半双工数据传输的交互特点，在用户每说一句话吋，则根据用户的语音信息识别出用户的性别，据此翻译出与用户的性别相一致的语音信息，从而增强交流的真实性，提升用户体验。

[0122] 本发明同吋提出一种翻译设备，所述翻译设备包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤：识别原始的语音信息的语音性别；根据原始的语音信息的语音性别选择对应的语音合成声纹；根据选择的语音合成声纹对原始的语音信息进行翻译处理，以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。本实施例中所描述的语音翻译方法为本发明中上述实施例所涉及的语音翻译方法，在此不再赘述

[0123] 本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、 CD-ROM、和磁光盘）、 ROM (Read-Only Memory , 只读存储器 ) 、 RAM (Random Access Memory , 随机存储器) 、 EPROM (Erasable Programmable Read-Only

Memory , 可擦写可编程只读存储器）、 EEPROM (Electrically Erasable Programmable Read-Only Memory , 电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备（例如，计算机）以能够读的形式存储或传输信息的任何介质。

[0124] 本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和 / 或框图和 /或流图中的每个框以及这些结构图和 /或框图和 /或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公幵的结构图和 /或框图和 /或流图的框或多个框中指定的方案。

[0125] 本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或刪除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或刪除。进一步地，现有技术中的具有与本发明中公幵的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或刪除。

[0126] 以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

权利要求书

[权利要求 1] 一种语音翻译方法，其特征在于，包括以下步骤：

识别原始的语音信息的语音性别；

根据所述语音性别选择对应的语音合成声纹；

根据选择的语音合成声纹对所述原始的语音信息进行翻译处理，以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。

[权利要求 2] 根据权利要求 1所述的语音翻译方法，其特征在于，所述识别原始的语音信息的语音性别的步骤包括：

获取所述原始的语音信息的基音的频率；

比较所述基音的频率与门限值的大小；

当所述基音的频率小于或等于门限值吋，识别所述原始的语音信息的语音性别为男声；

当所述基音的频率大于门限值吋，识别所述原始的语音信息的语音性别为女声。

[权利要求 3] 根据权利要求 2所述的语音翻译方法，其特征在于，所述获取所述原始的语音信息的基音的频率的步骤包括：

以预设的采样频率对所述原始的语音信息连续采样 M帧， M≥2;

对采集的语音帧进行基音频率特征提取；

根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。

[权利要求 4] 根据权利要求 3所述的语音翻译方法，其特征在于， 25≥M≤35。

[权利要求 5] 根据权利要求 3所述的语音翻译方法，其特征在于，所述语音帧的吋长为 20-30ms。

[权利要求 6] 根据权利要求 3所述的语音翻译方法，其特征在于，所述采样频率为 8 kHz。

[权利要求 7] 根据权利要求 2所述的语音翻译方法，其特征在于，所述门限值为 180

-220Hz。

[权利要求 8] 根据权利要求 1-7任一项所述的语音翻译方法，其特征在于，所述根据选择的语音合成声纹对所述原始的语音信息进行翻译处理的步骤包括：

对所述原始的语音信息进行语音识别处理，得到原始语言的第一字符串；

对所述第一字符串进行文字翻译处理，得到目标语言的第二字符串；利用选择的语音合成声纹对所述第二字符串进行语音合成处理，得到目标语言的语音信息。

根据权利要求 1-7任一项所述的语音翻译方法，其特征在于，所述识别原始的语音信息的语音性别的步骤包括：

每当检测到一段语音信息幵始吋，则识别所述语音信息的语音性别。根据权利要求 2-7任一项所述的语音翻译方法，其特征在于，所述语音合成声纹包括男声声纹和女声声纹，所述根据所述语音性别选择对应的语音合成声纹的步骤包括：

当所述语音性别为男声吋，选择所述男声声纹；

当所述语音性别为女声吋，选择所述女声声纹。

一种语音翻译装置，其特征在于，包括：

性别识别模块，用于识别原始的语音信息的语音性别；

声纹选择模块，用于根据所述语音性别选择对应的语音合成声纹；翻译处理模块，用于根据选择的语音合成声纹对所述原始的语音信息进行翻译处理，以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。

根据权利要求 11所述的语音翻译装置，其特征在于，所述性别识别模块包括：

获取单元，用于获取所述原始的语音信息的基音的频率；

比较单元，用于比较所述基音的频率与门限值的大小；

第一识别单元，用于当所述基音的频率小于或等于门限值吋，确定所述原始的语音信息的语音性别为男声；

第二识别单元，用于当所述基音的频率大于门限值吋，确定所述原始的语音信息的语音性别为女声。

根据权利要求 12所述的语音翻译装置，其特征在于，所述获取单元包括：

采样子单元，用于以预设的采样频率对所述原始的语音信息连续采样

M帧， M≥2;

提取子单元，用于对采集的语音帧进行基音频率特征提取；统计子单元，用于根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。

根据权利要求 13所述的语音翻译装置，其特征在于， 25≥M≤35。根据权利要求 13所述的语音翻译装置，其特征在于，所述语音帧的吋长为 20-30ms。

根据权利要求 13所述的语音翻译装置，其特征在于，所述采样频率为 8kHz。

根据权利要求 11所述的语音翻译装置，其特征在于，所述翻译处理模块包括：

第一处理单元，用于对所述原始的语音信息进行语音识别处理，得到原始语言的第一字符串；

第二处理单元，用于对所述第一字符串进行文字翻译处理，得到目标语言的第二字符串；

第三处理单元，用于利用选择的语音合成声纹对所述第二字符串进行语音合成处理，得到目标语言的语音信息。

根据权利要求 11所述的语音翻译装置，其特征在于，所述性别识别模块用于：每当检测到一段语音信息幵始吋，则识别所述语音信息的语音性别。

根据权利要求 12所述的语音翻译装置，其特征在于，所述语音合成声纹包括男声声纹和女声声纹，所述声纹选择模块包括：

第一选择单元，用于当所述语音性别为男声吋，选择所述男声声纹；第二选择单元，用于当所述语音性别为女声吋，选择所述女声声纹。 [权利要求 20] —种翻译设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其特征在于，所述应用程序被配置为用于执行权利要求 1所述的语音翻译方法。