WO2019019135A1

WO2019019135A1 - 语音翻译方法和装置

Info

Publication number: WO2019019135A1
Application number: PCT/CN2017/094874
Authority: WO
Inventors: 蒋壮; 郑勇; 张立新; 王文琪; 温平
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2019-01-31

Abstract

一种语音翻译方法和装置，所述方法包括以下步骤：获取原始语音信息（S11）；从原始语音信息中提取出背景噪声帧（S12）；对原始语音信息进行翻译处理，得到翻译后的语音信息（S13）；识别出翻译后的语音信息中的哑音帧（S14）；将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息（S15）。

Description

语音翻译方法和装置

技术领域

[0001] 本发明涉及通信技术领域，特别是涉及到一种语音翻译方法和装置。

背景技术

[0002] [0002]随着通信终端的使用日益广泛，人们利用通信终端可以实现多种功能，例如利用通信终端听音乐，看视频以及进行语音通话等等。语音通话是通信终端的一个基本的和常用的功能，即使人们远隔千里，也能够通过通信终端实现远程语音交流，无形中缩短了人与人之间的距离。

[0003] 同吋，随着经济的全球化和国际化发展，不同国家之间的人们的交往也越来越密切。不同国家的人通常使用不同的语言，当两个用户中至少一个用户听不懂对方的语言，另一个用户也不会说对方的语言吋，两个用户则需要借助通信终端的翻译功能来听懂对方的语音。

技术问题

[0004] 现有技术中，通信终端对语音信息的翻译处理，主要包括识别、翻译和合成三个流程，翻译后的语音信息由语音帧和哑音帧组成，哑音帧实为空白帧，是语音帧的间断点。因此翻译后的语音信息中只有语音，没有实吋环境的背景音，大大降低了双方对话的真实性，影响用户体验。问题的解决方案

技术解决方案

[0005] [0004]本发明的主要目的为提供一种语音翻译方法和装置，旨在解决翻译后的语音信息中缺失背景音而降低了对话真实性的技术问题。

[0006] 为达以上目的，本发明实施例提出一种语音翻译方法，所述方法包括以下步骤

[0007] 获取原始语音信息；

[0008] 从所述原始语音信息中提取出背景噪声帧；

[0009] 对所述原始语音信息进行翻译处理，得到翻译后的语音信息； [0010] 识别出所述翻译后的语音信息中的哑音帧；

[0011] 将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上，以使所述翻译后的语音信息中包含背景噪声的信息。

[0012] 本发明实施例同吋提出一种语音翻译装置，所述装置包括：

[0013] 语音信息获取模块，设置为获取原始语音信息；

[0014] 背景噪声提取模块，设置为从所述原始语音信息中提取出背景噪声帧；

[0015] 语音翻译处理模块，设置为对所述原始语音信息进行翻译处理，得到翻译后的语首息；

[0016] 哑音识别模块，设置为识别出所述翻译后的语音信息中的哑音帧；

[0017] 背景噪声叠加模块，设置为将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上，以使所述翻译后的语音信息中包含背景噪声的信息。

发明的有益效果

有益效果

[0018] 本发明实施例所提供的一种语音翻译方法，通过从原始语音信息中提取出背景噪声帧，再识别出翻译后的语音信息中的哑音帧，最后将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，使得翻译后的语音信息中包含背景噪声的信息。从而用户不但能够听到清晰的语音，还能够听到实吋环境下的背景音，增加了双方对话的真实性，增强了用户体验。

对附图的简要说明

附图说明

[0019] [0006]图 1是本发明的语音翻译方法一实施例的流程图；

[0020] 图 2是本发明实施例中原始语音信息的片段的示意图；

[0021] 图 3是本发明实施例中从图 2中的原始语音信息中提取出的背景噪声帧的示意图

[0022] 图 4是本发明实施例中原始语音信息的片段的又一示意图；

[0023] 图 5是本发明实施例中对原始语音信息进行翻译处理的具体流程图；

[0024] 图 6是本发明实施例中翻译后的语音信息的片段的示意图；

[0025] 图 7是本发明实施例中添加了背景噪声的翻译后的语音信息的示意图； [0026] 图 8是实现本发明实施例的语音翻译方法一应用场景的系统框图；

[0027] 图 9是实现本发明实施例的语音翻译方法又一应用场景的系统框图；

[0028] 图 10是实现本发明实施例的语音翻译方法又一应用场景的系统框图；

[0029] 图 11是实现本发明实施例的语音翻译方法又一应用场景的系统框图；

[0030] 图 12是本发明的语音翻译装置一实施例的模块示意图；

[0031] 图 13是图 12中的语音获取模块的模块示意图；

[0032] 图 14是图 12中的背景噪声提取模块的模块示意图；

[0033] 图 15是图 14中的识别单元的模块示意图；

[0034] 图 16是图 12中的哑音识别模块的模块示意图；

[0035] 图 17是图 12中的背景噪声叠加模块的模块示意图。

实施该发明的最佳实施例

本发明的最佳实施方式

[0036] [0007]应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0037] 本发明实施例的语音翻译方法和装置，可以应用于各种终端设备，尤其适用于 VOLTE终端，该 VOLTE终端即基于 VOLTE (Voice over LTE) 技术的通信终端。 VoLTE是一种 IP数据传输技术，无需 2G/3G网络，全部业务承载于 4G网络上，可实现数据与语音业务在同一网络下的统一。当然，也可以应用于其它的终端设备，本发明对此不作限定。

[0038] 参照图 1，提出本发明的语音翻译方法一实施例，所述方法包括以下步骤： [0039] Sl l、获取原始语音信息。

[0040] 本步骤 S 11中，终端设备可以通过声音采集装置如麦克风采集原始语音信息，也可以接收对端发送的原始语音信息。

[0041] 以 VOLTE终端为例， VOLTE终端与对端建立语音通信连接。上行吋， VOLTE 终端通过麦克风采集原始语音信息并缓存。下行吋， VOLTE终端接收对端发送的原始语音信息并缓存。

[0042] S12、从原始语音信息中提取出背景噪声帧。

[0043] 原始语音信息由多个语音信息帧组成，该语音信息帧包括语音帧和背景噪声帧，如图 2所示，示意性的示出了原始语音信息的片段，包括 1~1^贞背景噪声帧和 1 ~n帧语音帧。

[0044] 本步骤 S12中，终端设备首先识别出原始语音信息中的背景噪声帧，然后按吋间先后顺序对背景噪声帧添加吋间戳标记，最后保存该背景噪声帧。如图 3所示，示意性的示出了从图 2中提取出的 1~1^贞背景噪声帧。

[0045] 本发明实施例中，终端设备通过语音活动检测（VAD) 来识别原始语音信息中的背景噪声帧。

[0046] 具体的，终端设备对原始语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值。每帧语音信息帧的吋长可以根据原始语音信息的信号特点来设定，比如全球移动通信系统（Global System for Mobile

Communication, GSM) 的语音信号，以 20ms作为每帧语音信息帧的帧长度，语音活动检测算法可以采用 GSM的 ETSI VAD算法或者 G.729 Annex B VAD算法。

[0047] 当获得每一帧语音信息帧的参数特征值后，终端设备则比较该参数特征值与预设的门限值的大小，判断参数特征值是否小于或等于门限值；当参数特征值小于或等于门限值吋，判决该帧语音信息帧为背景噪声帧；当参数特征值大于门限值吋，判决该帧语音信息帧为语音帧。遍历原始语音信息中的每一帧，识别出原始语音信息中的所有语音帧和背景噪声帧。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

[0048] 可选地，当终端设备接收到对端发送的原始语音信息，且该原始语音信息已经由对端进行了去噪处理吋，此吋的原始语音信息则由语音帧和静默指示符（Sile nce Descriptor, SID) 帧组成，该 SID帧即对背景噪声帧进行去噪处理后的结果。如图 4所示，示意性的示出了去噪处理后的原始语音信息的片段，包括 l~n^ S ID帧和 l~n帧语音帧。

[0049] 终端设备对该原始语音信息进行解析，通过帧特征信息，识别出原始语音信息中的 SID帧，然后将预设的噪声信息加入到 SID帧中，从而还原成背景噪声帧，并对该背景噪声帧的帧格式进行转换处理，处理成与后期翻译处理后的语音信息的帧格式一样，并按照吋间先后顺序对背景噪声帧添加吋间戳标记后予以保存。当然，此吋的背景噪声只是模拟的背景噪声，并非对端用户真实环境下的背景噪声。

[0050] S13、对原始语音信息进行翻译处理，得到翻译后的语音信息。

[0051] 本发明实施例对步骤 S12和 S13的先后顺序不做限定，在某些实施例中，步骤 S1

2和 S 13也可以同吋进行。

[0052] 本发明实施例中，终端设备可以在本地进行翻译处理后获得翻译后的语音信息

，也可以将原始语音信息发送给服务器，由服务器进行翻译处理后返回翻译后的语音信息。

[0053] 举例而言，以 VOLTE终端通过服务器进行翻译处理为例。 VOLTE终端将原始语音信息发送给服务器进行翻译处理，以使服务器将原始语音信息从一种语言翻译为另一种语言，获得翻译后的语音信息并发送给 VOLTE终端， VOLTE终端接收翻译后的语音信息。

[0054] VOLTE终端可以将原始语音信息直接以语音数据流的方式发送给服务器，作为优选， VOLTE终端将原始语音信息以数据包的形式分包发送给服务器。例如， VOLTE终端首先将原始第一语言的语音信息进行录音处理，录制为一个个的语音文件并缓存，然后将缓存的每个语音文件以数据包的形式依次发送给服务器。

[0055] 翻译处理主要包括识别、翻译和合成三个流程，这三个流程可以由一个服务器完成，也可以由两个或三个服务器完成。

[0056] 本发明实施例中，服务器包括语音识别服务器、翻译服务器和语音合成服务器。 VOLTE终端与语音识别服务器建立基于 IP通信的连接，设置识别信息，即需要识别的语言类型，包括本端的语言类型，还可以进一步包括对端的语言类型；与翻译服务器建立基于 IP通信的连接，设置翻译信息，即要翻译的语种，包括本端对对端的映射，还可以进一步包括对端对本端的映射；与语音合成服务器建立基于 IP通信的连接，设置合成信息，即语音合成的类型，比如男女声、语速等。

[0057] 如图 5所示， VOLTE终端将原始语音信息发送给服务器进行翻译处理的具体流程如下： [0058] S131、将原始语音信息发送给语音识别服务器，以使语音识别服务器将原始语音信息识别为第一字符串。

[0059] VOLTE终端首先将原始语音信息进行录音处理，录制为一语音文件并缓存，然后将缓存的每个语音文件以数据包的形式依次发送给语音识别服务器。语音识别服务器接收到语音文件后，根据预设的识别信息对语音文件进行识别处理，识别为第一字符串，并将第一字符串返回给 VOLTE终端。

[0060] S132、接收语音识别服务器返回的第一字符串。

[0061] S133、将第一字符串发送给翻译服务器，以使翻译服务器将第一字符串翻译为第二字符串。

[0062] VOLTE终端接收到第一字符串后，将第一字符串发送给翻译服务器。翻译服务器接收到第一字符串后，根据预设的翻译信息对该第一字符串进行翻译处理，翻译为第二字符串（即另一种语音的字符串），并将第二字符串返回给 VOLT E终端。

[0063] S134、接收翻译服务器返回的第二字符串。

[0064] S135、将第二字符串发送给语音合成服务器，以使语音合成服务器将第二字符串合成为语音信息。

[0065] VOLTE终端接收到第二字符串后，将第二字符串发送给语音合成服务器。语音合成服务器接收到第二字符串后，根据预设的合成信息对第二字符串进行合成处理，合成为另一种语言的语音信息，该语音信息即为翻译后的语音信息。

[0066] S136、接收语音合成服务器返回的语音信息，该语音信息即为翻译后的语音信息。

[0067] 语音合成服务器将该翻译后的语音信息以语音码流的形式返回给 VOLTE终端

[0068] 在其它实施例中，也可以由一个服务器完成原始语音信息的识别、翻译和合成处理。例如， VOLTE终端将原始语音信息发送给服务器，服务器将该语音信息进行识别、翻译和合成处理后返回给 VOLTE终端。

[0069] 在另一些实施例中，也可以由两个服务器完成原始语音信息的识别、翻译和合成处理。例如， VOLTE终端将原始语音信息发送给第一服务器，第一服务器将该原始语音信息进行识别和翻译处理后返回给 VOLTE终端， VOLTE终端再将识别和翻译处理后的语音信息发送给第二服务器，第二服务器将该语音信息进行合成处理后返回给 VOLTE终端。又如， VOLTE终端将原始语音信息发送给第一服务器，第一服务器将该原始语音信息进行识别处理后返回给 VOLTE终端， VO LTE终端再将识别处理后的语音信息发送给第二服务器，第二服务器将该语音信息进行翻译和合成处理后返回给 VOLTE终端。

[0070] 终端设备获得翻译后的语音信息后，则进入下一步骤 S 14。

[0071] S14、识别出翻译后的语音信息中的哑音帧。

[0072] 翻译后的语音信息也由多个语音信息帧组成，该语音信息帧包括语音帧和哑音帧。如图 6所示，示意性的示出了翻译后的语音信息的片段，其包括 l~k帧哑音帧和 1~L帧语音帧。

[0073] 本步骤 S14中，终端设备对翻译后的语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值。语音活动检测算法可以采用 GSM的 E TSI VAD算法或者 G.729 Ann_ex B VAD算法，当然也可以采用其它的算法，本发明对此不作限定。

[0074] 当获得每一帧语音信息帧的参数特征值后，终端设备则比较该参数特征值与预设的门限值的大小，判断参数特征值是否小于或等于门限值；当参数特征值小于或等于门限值吋，判决该帧语音信息帧为哑音帧；当参数特征值大于门限值吋，判决该帧语音信息帧为语音帧。遍历原始语音信息中的每一帧，识别出原始语音信息中的所有语音帧和哑音帧，得到每一帧语音帧和哑音帧的起点。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

[0075] S15、将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息。

[0076] 本步骤 S15中，终端设备首先按吋间先后顺序对哑音声帧添加吋间戳标记，然后根据背景噪声帧的吋间戳标记与哑音帧的吋间戳标记，将背景噪声帧叠加到翻译后的语音信息中对应的哑音帧上，也就是说，根据吋间先后顺序合并背景噪声帧和哑音帧，从而使得翻译后的语音信息中包含了背景噪声的信息。如图 7 所示，示意性的示出了添加了背景噪声的翻译后的语音信息的片段，其包括 l~k 帧背景噪声帧（因哑音帧实为空白帧，故背景噪声帧叠加于哑音帧后实际只有背景噪声帧）和 1~L帧语音帧。

[0077] 优选地，终端设备判断是否有多余的背景噪声帧，当有多余的背景噪声帧吋（即背景噪声帧的数量多余哑音帧的数量吋），终端设备则清除多余的背景噪声帧，以避免影响语音帧，保证语音效果。

[0078] 终端设备将背景噪声帧叠加到翻译后的语音信息中的哑音帧上之后，可以输出翻译后的语音信息，也可以将翻译后的语音信息发送给对端，由对端输出该翻译后的语音信息。从而用户不但能够听到语音，还能听到背景音，使得双方的对话更加真实。并且，背景噪声帧与语音帧不重叠，因此不会影响语音帧，用户能够听清语音。

[0079] 例如： VOLTE终端上行通话吋，通过语音通道将翻译后的语音信息发送给对端。对端接收到语音信息后，通过音频通路对该语音信息进行处理，最后通过发声装置（听筒、扬声器等）输出该语音信息，对端用户就能够听到 VOLTE终端用户的语音和其所处环境的背景音。 VOLTE终端下行通话吋，通过音频通路对翻译后的语音信息进行处理，最后通过发声装置（听筒、扬声器等）输出该语音信息， VOLTE终端用户就能够听到对端用户的语音和其所处环境的背景音或模拟的背景音。

[0080] 本发明实施例的语音翻译方法，通过从原始语音信息中提取出背景噪声帧，再识别出翻译后的语音信息中的哑音帧，最后将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，使得翻译后的语音信息中包含背景噪声的信息。从而用户不但能够听到清晰的语音，还能够听到实吋环境下的背景音，增加了双方对话的真实性，增强了用户体验。

[0081] 本发明实施例可以应用于如图 8所示的应用场景，其中， VOLTE终端 A与 VOLT E终端 B通过 IP多媒体系统（IP Multimedia Subsystem, IMS) 网络建立连接，且 VOLTE终端 A和 VOLTE终端 B均分别连接语音识别服务器、翻译服务器和语音合成服务器， VOLTE终端 A和 VOLTE终端 B均采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给对端，对端则直接输出处理后的语音信息。

[0082] 本发明实施例也可以应用于如图 9-图 11所示的应用场景。图 8中， VOLTE终端 A与语音终端 B通过 IMS网络建立连接，且 VOLTE终端 A分别连接语音识别服务器、翻译服务器和语音合成服务器。 VOLTE终端 A在上行通话吋，采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给对端，对端则直接输出。 VOLTE终端 A在下行通话吋，采用本发明实施例的语音翻译方法对对端发送的原始语音信息进行处理，并输出处理的语音信息。

[0083] 图 10中， VOLTE终端 A通过 IMS网络连接 IMS网络与 2G/3G网络的网关，语音终端 B通过 2G/3G网络连接 IMS网络与 2G/3G网络的网关，且 VOLTE终端 A分别连接语音识别服务器、翻译服务器和语音合成服务器。 VOLTE终端 A在上行通话吋，采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给语音终端 B，语音终端 B则直接输出处理后的语音信息即可。 VO LTE终端 A在下行通话吋，采用本发明实施例的语音翻译方法对语音终端 B发送的原始语音信息进行处理，并输出处理的语音信息。

[0084] 图 11中， VOLTE终端 A通过 IMS网络连接 IMS网络与公共交换电话网络（Public Switched Telephone Network, PSTN) 的网关，语音终端 B通过 PSTN连接 IMS网络与 PSTN的网关，且 VOLTE终端 A分别连接语音识别服务器、翻译服务器和语音合成服务器。 VOLTE终端 A在上行通话吋，采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给语音终端 B，语音终端 B则直接输出处理后的语音信息。 VOLTE终端 A在下行通话吋，采用本发明实施例的语音翻译方法对语音终端 B发送的原始语音信息进行处理，并输出处理后的语首息。

[0085] 语音识别服务器的处理吋延一般小于 3秒，翻译服务器的处理吋延一般小于 200 毫秒，语音合成服务器的处理吋延一般小于 200毫秒， IMS网络传输的吋延一般为秒级。禾 1」用 LTE通信的高速率低吋延的特点，在 VOLTE终端上实现语音通话吋的多语言实吋翻译功能，语音翻译处理的速度快，吋延小，不会对用户的通话造成影响。

[0086] 参照图 12，提出本发明的语音翻译装置一实施例，所述装置包括语音信息获取模块 10、背景噪声提取模块 20、语音翻译处理模块 30、哑音识别模块 40和背景噪声叠加模块 50。

[0087] 语音信息获取模块 10: 设置为获取原始语音信息。

[0088] 语音信息获取模块 10可以通过声音采集装置如麦克风采集原始语音信息，也可以接收对端发送的原始语音信息。

[0089] 如图 13所示，语音信息获取模块 10包括采集单元 11和接收单元 12，其中：采集单元 11设置为采集原始语音信息，接收单元 12设置为接收对端发送的原始语音 f π息。

[0090] 以应用于 VOLTE终端为例， VOLTE终端与对端建立语音通信连接。上行吋，采集单元 11通过麦克风采集原始语音信息并缓存。下行吋，接收单元 12接收对端发送的原始语音信息并缓存。

[0091] 背景噪声提取模块 20: 设置为从原始语音信息中提取出背景噪声帧。

[0092] 原始语音信息由多个语音信息帧组成，该语音信息帧包括语音帧和背景噪声帧

，如图 2所示，示意性的示出了原始语音信息的片段，包括 1~1^贞背景噪声帧和 1

~n帧语音帧。

[0093] 背景噪声提取模块 20如图 14所示，包括识别单元 21、标记单元 22和保存单元 23 ，其中：识别单元 21，设置为识别出原始语音信息中背景噪声帧；标记单元 22 ，设置为按吋间先后顺序对背景噪声帧添加吋间戳标记；保存单元 23，设置为保存背景噪声帧。如图 3所示，示意性的示出了从图 2中提取出的 1-m帧背景噪声帧。

[0094] 本发明实施例中，识别单元 21通过语音活动检测（VAD) 来识别原始语音信息中的背景噪声帧。

[0095] 如图 15所示，识别单元 21包括第一获取单元 211、第一判断单元 212和第一判决单元 213，其中：第一获取单元 211，设置为对原始语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值；第一判断单元 212，设置为判断参数特征值是否小于或等于门限值；第一判决单元 213，设置为当参数特征值小于或等于门限值吋，判决语音信息帧为背景噪声帧；当参数特征值大于门限值吋，判决该帧语音信息帧为语音帧。 [0096] 遍历原始语音信息中的每一帧，识别单元 21就识别出原始语音信息中的所有语音帧和背景噪声帧。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

[0097] 每帧语音信息帧的吋长可以根据原始语音信息的信号特点来设定，比如全球移动通信系统 (Global System for Mobile

[0098] 可选地，当语音信息获取模块 10接收到对端发送的原始语音信息，且该原始语音信息已经由对端进行了去噪处理吋，此吋的原始语音信息则由语音帧和静默指示符（Silence Descriptor, SID) 帧组成，该 SID帧即对背景噪声帧进行去噪处理后的结果。如图 4所示，示意性的示出了去噪处理后的原始语音信息的片段，包括 l~n^ SID帧和 l~n帧语音帧。

[0099] 此吋，背景噪声提取模块 20对该原始语音信息进行解析，通过帧特征信息，识另 IJ出原始语音信息中的 SID帧，然后将预设的噪声信息加入到 SID帧中，从而还原成背景噪声帧，并对该背景噪声帧的帧格式进行转换处理，处理成与后期翻译处理后的语音信息的帧格式一样，并按照吋间先后顺序对背景噪声帧添加吋间戳标记后予以保存。当然，此吋的背景噪声只是模拟的背景噪声，并非对端用户真实环境下的背景噪声。

[0100] 语音翻译处理模块 30: 设置为对原始语音信息进行翻译处理，得到翻译后的语音信息。

[0101] 本发明实施例中，语音翻译处理模块 30可以在本地进行翻译处理后获得翻译后的语音信息，也可以将原始语音信息发送给服务器，由服务器进行翻译处理后返回翻译后的语音信息。

[0102] 举例而言，以语音翻译处理模块 30通过服务器进行翻译处理为例。语音翻译处理模块 30将原始语音信息发送给服务器进行翻译处理，以使服务器将原始语音信息从一种语言翻译为另一种语言，获得翻译后的语音信息并发送给语音翻译处理模块 30，语音翻译处理模块 30接收翻译后的语音信息。 [0103] 语音翻译处理模块 30可以将原始语音信息直接以语音数据流的方式发送给服务器，作为优选，语音翻译处理模块 30将原始语音信息以数据包的形式分包发送给服务器。例如，语音翻译处理模块 30首先将原始第一语言的语音信息进行录音处理，录制为一个个的语音文件并缓存，然后将缓存的每个语音文件以数据包的形式依次发送给服务器。

[0104] 翻译处理主要包括识别、翻译和合成三个流程，这三个流程可以由一个服务器完成，也可以由两个或三个服务器完成。

[0105] 本发明实施例中，服务器包括语音识别服务器、翻译服务器和语音合成服务器。以本发明实施例的装置应用于 VOLTE终端为例， VOLTE终端与语音识别服务器建立基于 IP通信的连接，设置识别信息，即需要识别的语言类型，包括本端的语言类型，还可以进一步包括对端的语言类型；与翻译服务器建立基于 IP通信的连接，设置翻译信息，即要翻译的语种，包括本端对对端的映射，还可以进一步包括对端对本端的映射；与语音合成服务器建立基于 IP通信的连接，设置合成信息，即语音合成的类型，比如男女声、语速等。

[0106] 哑音识别模块 40: 设置为识别出翻译后的语音信息中的哑音帧。

[0107] 翻译后的语音信息也由多个语音信息帧组成，该语音信息帧包括语音帧和哑音帧。如图 6所示，示意性的示出了翻译后的语音信息的片段，其包括 l~k帧哑音帧和 1~L帧语音帧。

[0108] 如图 16所示，哑音识别模块 40包括第二获取单元 41、第二判断单元 42和第二判决单元 43，其中：第二获取单元 41，设置为对翻译后的语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值；第二判断单元 42 ，设置为判断参数特征值是否小于或等于门限值；第二判决单元 43，设置为当参数特征值小于或等于门限值吋，判决语音信息帧为哑音帧。

[0109] 遍历原始语音信息中的每一帧，哑音识别模块 40就能识别出原始语音信息中的所有语音帧和哑音帧。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

[0110] 背景噪声叠加模块 50: 设置为将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息。

[0111] 如图 17所示，背景噪声叠加模块 50包括标记添加单元 51和噪声叠加单元 52，其中：标记添加单元 51，设置为按吋间先后顺序对哑音声帧添加吋间戳标记；噪声叠加单元 52，设置为根据背景噪声帧的吋间戳标记与哑音帧的吋间戳标记，将背景噪声帧叠加到翻译后的语音信息中对应的哑音帧上，从而使得翻译后的语音信息中包含了背景噪声的信息。如图 7所示，示意性的示出了添加了背景噪声的翻译后的语音信息的片段，其包括 l~k帧背景噪声帧（因哑音帧实为空白帧，故背景噪声帧叠加于哑音帧后实际只有背景噪声帧）和 1~L帧语音帧。

[0112] 优选地，噪声叠加单元 52包括合并单元和清除单元，其中：合并单元，设置为根据吋间先后顺序合并背景噪声帧和哑音帧；清除单元，设置为判断是否有多余的背景噪声帧，当有多余的背景噪声帧吋（即背景噪声帧的数量多余哑音帧的数量吋），则清除多余的背景噪声帧，以避免影响语音帧，保证语音效果。

[0113] 进一步地，该装置还包括语音信息发送模块，其设置为将翻译后的语音信息发送给对端。使得对端用户不但能够听到语音，还能听到背景音，使得双方的对话更加真实。并且，背景噪声帧与语音帧不重叠，因此不会影响语音帧，对端用户能够听清语音。

[0114] 进一步地，该装置还包括语音信息输出模块，其设置为输出翻译后的语音信息。使得本端用户不但能够听到语音，还能听到背景音，使得双方的对话更加真实。并且，背景噪声帧与语音帧不重叠，因此不会影响语音帧，本段用户能够听清语音。

[0115] 例如： VOLTE终端上行通话吋，语音信息发送模块通过语音通道将翻译后的语音信息发送给对端。对端接收到语音信息后，通过音频通路对该语音信息进行处理，最后通过发声装置（听筒、扬声器等）输出该语音信息，对端用户就能够听到 VOLTE终端用户的语音和其所处环境的背景音。 VOLTE终端下行通话吋，语音信息输出模块通过音频通路对翻译后的语音信息进行处理，最后通过发声装置（听筒、扬声器等）输出该语音信息， VOLTE终端用户就能够听到对端用户的语音和其所处环境的背景音或模拟的背景音。

[0116] 本发明实施例的语音翻译装置，通过从原始语音信息中提取出背景噪声帧，再识别出翻译后的语音信息中的哑音帧，最后将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，使得翻译后的语音信息中包含背景噪声的信息。从而用户不但能够听到清晰的语音，还能够听到实吋环境下的背景音，增加了双方对话的真实性，增强了用户体验。

[0117] 本发明实施例同吋提出一种终端设备，所述终端设备包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤：获取原始语音信息；从原始语音信息中提取出背景噪声帧；对原始语音信息进行翻译处理，得到翻译后的语音信息；识别出翻译后的语音信息中的哑音帧；将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息。

[0118] 本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、 CD-ROM、和磁光盘）、 ROM (Read-Only Memory , 只读存储器 ) 、 RAM (Random Access Memory , 随机存储器) 、 EPROM (Erasable Programmable Read-Only

Memory , 可擦写可编程只读存储器）、 EEPROM (Electrically Erasable

Programmable Read-Only Memory , 电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备（例如，计算机）以能够读的形式存储或传输信息的任何介质。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

权利要求书

一种语音翻译方法，包括以下步骤：

获取原始语音信息；

从所述原始语音信息中提取出背景噪声帧；

对所述原始语音信息进行翻译处理，得到翻译后的语音信息；识别出所述翻译后的语音信息中的哑音帧；

将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上，以使所述翻译后的语音信息中包含背景噪声的信息。

根据权利要求 1所述的语音翻译方法，其中，所述从所述原始语音信息中提取出背景噪声帧的步骤包括：

识别出所述原始语音信息中的背景噪声帧；

按吋间先后顺序对所述背景噪声帧添加吋间戳标记；

保存所述背景噪声帧。

根据权利要求 2所述的语音翻译方法，其中，所述识别出所述原始语音信息中的背景噪声帧的步骤包括：

对所述原始语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

判断所述参数特征值是否小于或等于门限值；

当所述参数特征值小于或等于门限值吋，判决所述语音信息帧为背景噪声帧。

根据权利要求 1所述的语音翻译方法，其中，所述识别出所述翻译后的语音信息中的哑音帧的步骤包括：

对所述翻译后的语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

判断所述参数特征值是否小于或等于门限值；

当所述参数特征值小于或等于门限值吋，判决所述语音信息帧为哑音帧。

根据权利要求 2所述的语音翻译方法，其中，所述将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上的步骤包括：按吋间先后顺序对所述哑音声帧添加吋间戳标记；根据所述背景噪声帧的吋间戳标记与所述哑音帧的吋间戳标记，将所述背景噪声帧叠加到所述翻译后的语音信息中对应的哑音帧上。

[权利要求 6] 根据权利要求 5所述的语音翻译方法，其中，所述将所述背景噪声帧叠加到所述翻译后的语音信息中对应的哑音帧上的步骤包括：根据吋间先后顺序合并所述背景噪声帧和所述哑音帧；

当有多余的背景噪声帧吋，清除所述多余的背景噪声帧。

[权利要求 7] 根据权利要求 1所述的语音翻译方法，其中，所述获取原始语音信息的步骤包括：采集原始语音信息。

[权利要求 8] 根据权利要求 7所述的语音翻译方法，其中，所述将所述噪声帧叠加到所述翻译后的语音信息中的哑音帧的位置的步骤之后还包括：将所述翻译后的语音信息发送给对端。

[权利要求 9] 根据权利要求 1所述的语音翻译方法，其中，所述获取原始语音信息的步骤包括：接收对端发送的原始语音信息。

[权利要求 10] 根据权利要求 9所述的语音翻译方法，其中，所述将所述噪声帧叠加到所述翻译后的语音信息中的哑音帧的位置的步骤之后还包括：输出所述翻译后的语音信息。

[权利要求 11] 一种语音翻译装置，包括：

语音信息获取模块，设置为获取原始语音信息；背景噪声提取模块，设置为从所述原始语音信息中提取出背景噪声帧语音翻译处理模块，设置为对所述原始语音信息进行翻译处理，得到翻译后的语音信息；

哑音识别模块，设置为识别出所述翻译后的语音信息中的哑音帧；背景噪声叠加模块，设置为将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上，以使所述翻译后的语音信息中包含背景噪声的 f π息。根据权利要求 11所述的语音翻译装置，其中，所述背景噪声提取模块包括：

识别单元，设置为识别出所述原始语音信息中背景噪声帧；标记单元，设置为按吋间先后顺序对所述背景噪声帧添加吋间戳标记保存单元，设置为保存所述背景噪声帧。

根据权利要求 12所述的语音翻译装置，其中，所述识别单元包括：第一获取单元，设置为对所述原始语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

第一判断单元，设置为判断所述参数特征值是否小于或等于门限值；第一判决单元，设置为当所述参数特征值小于或等于门限值吋，判决所述语音信息帧为背景噪声帧

根据权利要求 11所述的语音翻译装置，其中，所述哑音识别模块包括第二获取单元，设置为对所述翻译后的语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

第二判断单元，设置为判断所述参数特征值是否小于或等于门限值；第二判决单元，设置为当所述参数特征值小于或等于门限值吋，判决所述语音信息帧为哑音帧。

根据权利要求 12所述的语音翻译装置，其中，所述背景噪声叠加模块包括：

标记添加单元，设置为按吋间先后顺序对所述哑音声帧添加吋间戳标记；

噪声叠加单元，设置为根据所述背景噪声帧的吋间戳标记与所述哑音帧的吋间戳标记，将所述背景噪声帧叠加到所述翻译后的语音信息中对应的哑音帧上。合并单元，设置为根据吋间先后顺序合并所述背景噪声帧和所述哑音帧；

清除单元，设置为当有多余的背景噪声帧吋，清除所述多余的背景噪声帧。

[权利要求 17] 根据权利要求 11所述的语音翻译装置，其中，所述语音信息获取模块包括采集单元，所述采集单元设置为采集原始语音信息。

[权利要求 18] 根据权利要求 17所述的语音翻译装置，其中，所述装置还包括语音信息发送模块，所述语音信息发送模块设置为：将所述翻译后的语音信息发送给对端。

[权利要求 19] 根据权利要求 11所述的语音翻译装置，其中，所述语音信息获取模块包括接收单元，所述接收单元设置为：接收对端发送的原始语音信息

[权利要求 20] 根据权利要求 19所述的语音翻译装置，其中，所述装置还包括语音信息输出模块，所述语音信息输出模块设置为：输出所述翻译后的语音 f π息。