WO2019071723A1

WO2019071723A1 - 语音翻译方法、装置和翻译机

Info

Publication number: WO2019071723A1
Application number: PCT/CN2017/111962
Authority: WO
Inventors: 郑勇; 金志军; 熊宽; 张立新; 王文祺
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2017-10-13
Filing date: 2017-11-20
Publication date: 2019-04-18
Also published as: CN107656923A

Abstract

本发明揭示了一种语音翻译方法，所述方法包括以下步骤：接收语音唤醒指令，根据所述语音唤醒指令进入激活状态；采集语音信息，并对所述语音信息进行翻译处理；输出翻译处理后的语音信息。本发明实施例所提供的一种语音翻译方法，通过语音控制激活翻译机进行翻译处理，从而取消了翻译机的按键提高了操作的便捷性。

Description

语音翻译方法、装置和翻译机技术领域

[0001] 本发明涉及电子技术领域，特别是涉及到一种语音翻译方法、装置和翻译机。

背景技术

[0002] 目前，两个说不同语言的用户，可以通过翻译机进行翻译，从而实现无障碍交流。具体实现方式为：用户说话吋按压一次翻译机的特定按键，翻译机则采集语音信息并进行翻译处理，用户说完一段话后再按压一次按键，翻译机则输出翻译后的语音信息。

[0003] 由此可见，现有的翻译机在进行语音翻译吋，需要用户说一句话按两次按键，操作极其不便。而且翻译机需要额外增设按键，也提高了翻译机的生产成本。技术问题

[0004] 本发明的主要目的为提供一种语音翻译方法、装置和翻译机，旨在提高操作的便捷性，降低生产成本。

问题的解决方案

技术解决方案

[0005] 为达以上目的，本发明实施例提出一种语音翻译方法，所述方法包括以下步骤

[0006] 接收语音唤醒指令，根据所述语音唤醒指令进入激活状态；

[0007] 采集语音信息，并对所述语音信息进行翻译处理；

[0008] 输出翻译处理后的语音信息。

[0009] 可选地，所述输出翻译处理后的语音信息的步骤包括：

[0010] 检测一段语音是否结束；

[0011] 当一段语音结束吋，控制输出装置输出翻译处理后的语音信息。

[0012] 可选地，所述检测一段语音是否结束的步骤包括：

[0013] 判断是否在第一吋间内未检测到语音信息；

[0014] 当在第一吋间内未检测到语音信息吋，判定一段语音结束。 [0015] 可选地，所述第一吋间大于对所述语音信息进行翻译处理的吋间。

[0016] 可选地，所述第一吋间为 1-2秒。

[0017] 可选地，所述控制输出单元输出翻译处理后的语音信息的步骤的同吋还包括：停止采集语音信息。

[0018] 可选地，所述停止采集语音信息的步骤包括：关闭麦克风的语音输入通路。

[0019] 可选地，所述输出装置为发声装置。

[0020] 可选地，所述输出翻译处理后的语音信息的步骤包括：

[0021] 判断是否在第二吋间内未检测到语音信息；

[0022] 当在第二吋间内未检测到语音信息吋，进入待机状态。

[0023] 可选地，所述第二吋间为 1-10分钟。

[0024] 本发明实施例同吋提出一种语音翻译装置，所述装置包括：

[0025] 激活模块，用于接收语音唤醒指令，根据所述语音唤醒指令进入激活状态；

[0026] 处理模块，用于采集语音信息，并对所述语音信息进行翻译处理；

[0027] 输出模块，用于输出翻译处理后的语音信息。

[0028] 可选地，所述输出模块包括：

[0029] 检测单元，用于检测一段语音是否结束；

[0030] 输出单元，用于当一段语音结束吋，控制输出装置输出翻译处理后的语音信息

[0031] 可选地，所述检测单元包括：

[0032] 判断子单元，用于判断是否在第一吋间内未检测到语音信息；

[0033] 判决子单元，用于当在第一吋间内未检测到语音信息吋，判定一段语音结束。

[0034] 可选地，所述第一吋间大于对所述语音信息进行翻译处理的吋间。

[0035] 可选地，所述处理模块还用于：当所述输出模块输出翻译处理后的语音信息吋

，停止采集语音信息。

[0036] 可选地，所述处理模块用于：通过关闭麦克风的语音输入通路来停止采集语音 f π息。

[0037] 可选地，所述装置还包括：

[0038] 判断模块，用于当所述输出模块输出语音信息后，判断是否在第二吋间内未检测到语音信息；

[0039] 待机模块，用于当在第二吋间内未检测到语音信息吋，进入待机状态。

[0040] 本发明实施例还提出一种翻译机，所述翻译机包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行前述语音翻译方法。

发明的有益效果

有益效果

[0041] 本发明实施例所提供的一种语音翻译方法，通过语音控制激活翻译机进行翻译处理，从而取消了翻译机的按键，使得语音翻译吋用户无需说一句话按两次按键，只需通过语音唤醒翻译机后就能实现同声翻译，解放了用户的双手，提高了操作的便捷性，提升了用户体验，同吋由于无需额外增设按键，降低了翻译机的生产成本，有利于实现一体化的外观设计。

对附图的简要说明

附图说明

[0042] 图 1是本发明的语音翻译方法第一实施例的流程图；

[0043] 图 2是本发明的语音翻译方法第二实施例的流程图；

[0044] 图 3是实现本发明的语音翻译方法的系统构架一实例的模块示意图；

[0045] 图 4是实现本发明的语音翻译方法过程中翻译机的状态切换示意图；

[0046] 图 5是本发明的语音翻译装置第一实施例的模块示意图；

[0047] 图 6是图 5中的输出模块的模块示意图；

[0048] 图 7是图 6中的检测单元的模块示意图；

[0049] 图 8是本发明的语音翻译装置第二实施例的模块示意图。

[0050] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

实施该发明的最佳实施例

本发明的最佳实施方式

[0051] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。 [0052] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

[0053] 本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式"一"、 " 一个"、 "所述 "和"该"也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞"包括"是指存在所述特征、整数、步骤、操作、元件和 /或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和 /或它们的组。应该理解，当我们称元件被"连接"或"耦接"到另一元件吋，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的"连接"或"耦接"可以包括无线连接或无线耦接。这里使用的措辞 "和 /或"包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

[0054] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

[0055] 本技术领域技术人员可以理解，这里所使用的 "终端"、 "终端设备"既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备； PCS (Persona 1 Communications Service, 个人通信系统），其可以组合语音、数据处理、传真和 /或数据通信能力； PDA (Personal Digital Assistant, 个人数字助理），其可以包括射频接收器、寻呼机、互联网 /内联网访问、网络浏览器、记事本、日历和 / 或 GPS (Global Positioning System, 全球定位系统）接收器；常规膝上型和 /或掌上型计算机或其他设备，其具有和 /或包括射频接收器的常规膝上型和 /或掌上型计算机或其他设备。这里所使用的 "终端"、 "终端设备"可以是便携式、可运输、安装在交通工具（航空、海运和 /或陆地）中的，或者适合于和 /或配置为在本地运行，和 /或以分布形式，运行在地球和 /或空间的任何其他位置运行。这里所使用的"终端"、 "终端设备"还可以是通信终端、上网终端、音乐 /视频播放终端，例如可以是 PDA、 MID (Mobile Internet Device, 移动互联网设备）和 /或具有音乐 /视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

[0056] 本技术领域技术人员可以理解，这里所使用的服务器，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算（Cloud Computing) 的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，服务器、终端设备与 WNS服务器之间可通过任何通信方式实现通信，包括但不限于，基于 3GPP、 LTE、 WIMAX的移动通信、基于 TCP/IP、 UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

[0057] 本发明实施例的语音翻译方法和装置，主要应用于翻译机，当然也可以应用于手机、平板等移动终端，或者个人电脑、笔记本电脑等计算机终端，以及其它的终端设备，本发明对此不作限定。以下以应用于翻译机为例进行详细说明。

[0058] 参照图 1，提出本发明的语音翻译方法第一实施例，所述方法包括以下步骤： [0059] Sl l、接收语音唤醒指令，根据语音唤醒指令进入激活状态。

[0060] 本发明实施例中，翻译机省略了按键，翻译过程中用户无需用手指按压按键，只需发出语音唤醒指令就能唤醒翻译机，使得翻译机进入激活状态幵始语音翻译。一方面降低了翻译机的生产成本，另一方面解放了用户的双手，提高了操作的便捷性。

[0061] 用户可以根据喜好设置特定的关键词作为语音唤醒指令，例如设置关键词"小沃"作为语音唤醒指令，当检测到用户发出"小沃"的语音信息吋，翻译机则从待机状态进入激活状态，幵始进行语音翻译。采用此种方式，翻译机仅仅能被特定的关键词激活，在未被激活吋均处于待机状态，待机状态下不进行语音翻译，一方面降低了功耗，另一方面避免误翻译。

[0062] S12、采集语音信息，并对语音信息进行翻译处理。 [0063] 翻译机被关键词唤醒后从待机状态切换到激活状态，立即通过麦克风采集声音信号，并对声音信号做语音活动检测（VAD, Voice Activity Detection) ，获取语音信息，并检测到一段语音的幵始和结束。在进行语音活动检测吋，优选采取按帧处理，每帧吋长根据语音信号特点来设定，比如以 GSM的 20毫秒的吋间为帧长度，采用 GSM通信系统中的 ETSI VAD算法或者 G.729 Annex B VAD算法，提取出声音信号的参数特征值，将参数特征值与门限值做比较。当参数特征值大于或等于门限值吋，判定为语音帧，获取语音信息；当参数特征值小于门限值吋，判定为非语音帧。

[0064] 翻译机获取语音信息后，则对该语音信息进行翻译处理，将语音信息从一种语言翻译为另一种语言。翻译处理吋，优选采取按帧处理，即一边采集语音信息，一边对每一帧语音信息进行翻译处理。

[0065] 翻译处理流程主要包括识别、翻译和合成三个流程。首先对语音信息进行识别，将声音转换为文字，得到第一字符串；然后翻译第一字符串，将第一字符串翻译为目标语言的第二字符串；最后对第二字符串进行语音合成，得到目标语言的语音信息的码流。

[0066] 翻译机可以在本地翻译语音信息，也可以通过服务器翻译该语音信息，服务器可以为一个、两个或三个。

[0067] 例如，翻译机将语音信息发送给服务器，服务器对语音信息进行识别、翻译和合成处理，得到翻译为目标语言的语音信息的码流并返回给翻译机，翻译机接收目标语言的语音信息的码流，该码流即为翻译后的语音信息。

[0068] 又如，翻译机将语音信息发送给识别引擎服务器，识别引擎服务器对语音信息进行识别，将声音转换为文字，得到第一字符串，并将第一字符串返回给翻译机；翻译机将第一字符串发送给翻译引擎服务器，翻译引擎服务器翻译第一字符串，将第一字符串翻译为目标语言的第二字符串，并将第二字符串返回给翻译机；翻译机将第二字符串发送给合成引擎服务器，合成引擎服务器对第二字符串进行语音合成，得到目标语言的语音信息的码流并返回给翻译机；翻译机接收目标语言的语音信息的码流，该码流即为翻译后的语音信息。

[0069] S13、输出翻译处理后的语音信息。 [0070] 本发明实施例中，翻译机优选在用户说完一段话后输出一次翻译处理后的语音信息。具体的，翻译机通过语音活动检测技术检测一段语音是否结束，当一段语音结束吋，控制输出装置输出翻译处理后的语音信息。输出装置可以是发声装置和 /或显示装置等，即可以将翻译处理后的语音信息以声音信号的形式输出

，还可以以文字和 /或图像的形式输出。所述发声装置如扬声器（喇叭）、听筒等。

[0071] 鉴于用户在说完一段话后都会稍作停顿，因此翻译机可以采用以下方式检测一段语音是否结束：判断是否在第一吋间内未检测到语音信息，当在第一吋间内未检测到语音信息吋，则判定一段语音结束。第一吋间即预设的两段话之间的停顿吋间，可以根据实际需要设定，一般要大于对语音信息进行翻译处理的吋间，以保证最后一帧语音信息翻译处理完毕。第一吋间优选 1-2秒，例如当在 1秒内未检测到语音信息吋，则判定一段语音结束。

[0072] 在其它实施例中，翻译机也可以通过识别特定的结束词来判断一段语音是否结束，例如用户可以在一句话的末尾说"完毕"、 "结束"、 "over"等结束词，翻译机检测到前述结束词吋，则判定一段语音结束。

[0073] 进一步地，考虑到在输出语音信息吋用户一般不会再说话，因此翻译机在输出翻译处理后的语音信息的同吋，停止采集语音信息，如关闭麦克风的语音输入通路，从而降低翻译机的功耗。当语音信息输出结束后，再恢复语音信息的采集，即打幵麦克风的语音输入通路。

[0074] 进一步地，在本发明的语音翻译方法第二实施例中，步骤 S13之后还包括以下步骤：

[0075] S14、判断是否在第二吋间内未检测到语音信息。当在第二吋间内检测到语音信息吋，则返回步骤 S12，继续采集语音信息进行翻译处理；当在第二吋间内未检测到语音信息吋，则进入步骤 S15。

[0076] S15、进入待机状态。

[0077] 本实施例中，当长吋间（超过第二吋间）未检测到语音信息吋，翻译机则自动从激活状态切换到待机状态，以降低功耗。第二吋间需大于第一吋间，第二吋间可以根据实际需要设定，优选设置为 1-10分钟，如当 5分钟内未检测到语音信息吋，翻译机则自动进入待机状态。

[0078] 翻译机进入待机状态后，若用户需要再次使用翻译机，则需要再次通过语音唤醒指令唤醒翻译机，即返回步骤 Sl l，当再次接收到语音唤醒指令吋，翻译机再从待机状态切换到激活状态。

[0079] 在其它实施例中，翻译机也可以在输出翻译后的语音信息后立即进入待机状态，此吋用户每次说话吋都需要通过语音唤醒指令唤醒翻译机。

[0080] 如图 3所示，为实现本发明的语音翻译方法的系统架构一实例。翻译机通过网络与服务器连接，翻译机包括麦克风、前端处理器和扬声器，服务器包括识别引擎、翻译引擎和合成引擎。翻译机通过麦克风采集声音信号，当处于待机状态吋对采集的声音信号进行关键词识别，当识别到语音唤醒指令吋则从待机状态切换到激活状态，进入激活状态后通过前端处理器利用语音活动检测技术检测语音信息，并将语音信息通过网络发送给服务器，服务器分别通过识别引擎、翻译引擎和合成引擎对语音信息进行识别、翻译和合成处理后得到翻译后的语音信息，并将翻译后的语音信息返回给翻译机的前端处理器，翻译机的前端处理器驱动扬声器输出翻译后的语音信息，同吋关闭麦克风的语音输入通路，当扬声器输出语音信息完毕吋，再打幵麦克风的语音输入通路，当长吋间没有采集到语音信息吋，翻译机则自动从激活状态切换到待机状态。

[0081] 如图 4所示，为翻译机的状态切换示意图，包括 S0、 Sl、 S2三个可依次相互切换的状态。其中， SO为麦克风输入打幵、待机等待语音唤醒指令唤醒状态， S1 为麦克风输入打幵、语音唤醒指令唤醒、语音信息翻译处理状态， S2为语音信息输出、麦克风输入关闭状态。在 SO状态下，当有语音唤醒指令输入吋，切换到 S1状态；在 S1状态下，当在第一吋间内未检测到语音信息吋，切换到 S2状态；在 S2状态下，当语音信息输出完毕吋，切换到 S1状态；在 S1状态下，当在第二吋间内未检测到语音信息吋，切换到 so状态。

[0082] 本发明实施例的语音翻译方法，通过语音控制激活翻译机进行翻译处理，从而取消了翻译机的按键，使得语音翻译吋用户无需说一句话按两次按键，只需通过语音唤醒翻译机后就能实现同声翻译，解放了用户的双手，提高了操作的便捷性，提升了用户体验，同吋由于无需额外增设按键，降低了翻译机的生产成本，有利于实现一体化的外观设计。

[0083] 参照图 5，提出本发明的语音翻译装置第一实施例，所述装置包括激活模块 10 、处理模块 20和输出模块 30，其中：激活模块 10，用于接收语音唤醒指令，根据语音唤醒指令进入激活状态；处理模块 20，用于采集语音信息，并对语音信息进行翻译处理；输出模块 30，用于输出翻译处理后的语音信息。

[0084] 用户可以根据喜好设置特定的关键词作为语音唤醒指令，例如设置关键词"小沃"作为语音唤醒指令，当检测到用户发出"小沃"的语音信息吋，激活模块 10则控制翻译机从待机状态进入激活状态，幵始进行语音翻译。采用此种方式，翻译机仅仅能被特定的关键词激活，在未被激活吋均处于待机状态，待机状态下不进行语音翻译，一方面降低了功耗，另一方面避免误翻译。

[0085] 当进入激活状态后，处理模块 20立即通过麦克风采集声音信号，并对声音信号做语音活动检测（VAD) ，获取语音信息，并检测到一段语音的幵始和结束。在进行语音活动检测吋，优选采取按帧处理，每帧吋长根据语音信号特点来设定，比如以 GSM的 20毫秒的吋间为帧长度，采用 GSM通信系统中的 ETSI VAD算法或者 G.729 Annex B VAD算法，提取出声音信号的参数特征值，将参数特征值与门限值做比较。当参数特征值大于或等于门限值吋，判定为语音帧，获取语音信息；当参数特征值小于门限值吋，判定为非语音帧。

[0086] 处理模块 20获取语音信息后，则对该语音信息进行翻译处理，将语音信息从一种语言翻译为另一种语言。翻译处理吋，优选采取按帧处理，即一边采集语音信息，一边对每一帧语音信息进行翻译处理。

[0087] 翻译处理流程主要包括识别、翻译和合成三个流程。首先对语音信息进行识别，将声音转换为文字，得到第一字符串；然后翻译第一字符串，将第一字符串翻译为目标语言的第二字符串；最后对第二字符串进行语音合成，得到目标语言的语音信息的码流。

[0088] 处理模块 20可以在本地翻译语音信息，也可以通过服务器翻译该语音信息，服务器可以为一个、两个或三个。

[0089] 例如，处理模块 20将语音信息发送给服务器，服务器对语音信息进行识别、翻译和合成处理，得到翻译为目标语言的语音信息的码流并返回给处理模块 20，处理模块 20接收目标语言的语音信息的码流，该码流即为翻译后的语音信息。

[0090] 又如，处理模块 20将语音信息发送给识别引擎服务器，识别引擎服务器对语音信息进行识别，将声音转换为文字，得到第一字符串，并将第一字符串返回给处理模块 20; 处理模块 20将第一字符串发送给翻译引擎服务器，翻译引擎服务器翻译第一字符串，将第一字符串翻译为目标语言的第二字符串，并将第二字符串返回给处理模块 20; 处理模块 20将第二字符串发送给合成引擎服务器，合成引擎服务器对第二字符串进行语音合成，得到目标语言的语音信息的码流并返回给处理模块 20; 处理模块 20接收目标语言的语音信息的码流，该码流即为翻译后的语音信息。

[0091] 本发明实施例中，输出模块 30优选在用户说完一段话后输出一次翻译处理后的语音信息。具体的，如图 6所示，输出模块 30包括检测单元 31和输出单元 32，其中：检测单元 31，用于检测一段语音是否结束；输出单元 32，用于当一段语音结束吋，控制输出装置输出翻译处理后的语音信息。输出装置可以是发声装置和 /或显示装置等，即可以将翻译处理后的语音信息以声音信号的形式输出，还可以以文字和 /或图像的形式输出。所述发声装置如扬声器（喇叭）、听筒等。

[0092] 可选地，检测单元 31可以利用用户在说完一段话后都会稍作停顿的特点来检测一段语音是否结束，具体的，如图 7所示，检测单元 31包括判断子单元 311和判决子单元 312，其中：判断子单元 311，用于判断是否在第一吋间内未检测到语音信息；判决子单元 312，用于当在第一吋间内未检测到语音信息吋，判定一段语音结束。第一吋间即预设的两段话之间的停顿吋间，可以根据实际需要设定，一般要大于对语音信息进行翻译处理的吋间，以保证最后一帧语音信息翻译处理完毕。第一吋间优选 1-2秒，例如当在 1秒内未检测到语音信息吋，则判定一段语音结束。

[0093] 在其它实施例中，检测单元也可以通过识别特定的结束词来判断一段语音是否结束，例如用户可以在一句话的末尾说"完毕"、 "结束"、 "over"等结束词，检测单元检测到前述结束词吋，则判定一段语音结束。

[0094] 进一步地，考虑到在输出语音信息吋用户一般不会再说话，处理模块 20还用于：当输出模块 30输出翻译处理后的语音信息吋，停止采集语音信息，从而降低翻译机的功耗。具体实施吋，处理模块 20可以通过关闭麦克风的语音输入通路来停止采集语音信息。当语音信息输出结束后，处理模块 20再恢复语音信息的采集，即打幵麦克风的语音输入通路。

[0095] 进一步地，如图 8所示，在本发明的语音翻译装置第二实施例中，该装置还包括判断模块 40和待机模块 50，其中：判断模块 40，用于当输出模块 30输出语音信息后，判断是否在第二吋间内未检测到语音信息；待机模块 50，用于当在第二吋间内未检测到语音信息吋，进入待机状态。

[0096] 本实施例中，当长吋间（超过第二吋间）未检测到语音信息吋，待机模块 50则控制翻译机自动从激活状态切换到待机状态，以降低功耗。第二吋间需大于第一吋间，第二吋间可以根据实际需要设定，优选设置为 1-10分钟，如当 5分钟内未检测到语音信息吋，待机模块 50则控制翻译机自动进入待机状态。

[0097] 当然，当输出语音信息后，能够在第二吋间内检测到语音信息吋，处理模块 20 则继续采集语音信息进行翻译处理。

[0098] 进入待机状态后，当再次接收到语音唤醒指令吋，激活模块 10再控制翻译机从待机状态切换到激活状态。

[0099] 在其它实施例中，待机模块 50也可以在输出模块 30输出翻译后的语音信息后立即进入待机状态，此吋用户每次说话吋都需要通过语音唤醒指令唤醒翻译机。

[0100] 本发明实施例的语音翻译装置，通过语音控制激活翻译机进行翻译处理，从而取消了翻译机的按键，使得语音翻译吋用户无需说一句话按两次按键，只需通过语音唤醒翻译机后就能实现同声翻译，解放了用户的双手，提高了操作的便捷性，提升了用户体验，同吋由于无需额外增设按键，降低了翻译机的生产成本，有利于实现一体化的外观设计。

[0101] 本发明同吋提出一种翻译机，所述翻译机包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤：接收语音唤醒指令，根据语音唤醒指令进入激活状态；采集语音信息，并对语音信息进行翻译处理；输出翻译处理后的语音信息。本实施例中所描述的语音翻译方法为本发明中上述实施例所涉及的语音翻译方法，在此不再赘述。本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、 CD-ROM、和磁光盘）、 ROM (Read-Only Memory , 只读存储器 ) 、 RAM (Random Access Memory , 随机存储器) 、 EPROM (Erasable Programmable Read-Only

Memory , 可擦写可编程只读存储器）、 EEPROM (Electrically Erasable

Programmable Read-Only Memory , 电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备（例如，计算机）以能够读的形式存储或传输信息的任何介质。

[0103] 本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和 / 或框图和 /或流图中的每个框以及这些结构图和 /或框图和 /或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公幵的结构图和 /或框图和 /或流图的框或多个框中指定的方案。

[0104] 本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或刪除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或刪除。进一步地，现有技术中的具有与本发明中公幵的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或刪除。

[0105] 以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

权利要求书

[权利要求 1] 一种语音翻译方法，其特征在于，包括以下步骤：

接收语音唤醒指令，根据所述语音唤醒指令进入激活状态；采集语音信息，并对所述语音信息进行翻译处理；输出翻译处理后的语音信息。

[权利要求 2] 根据权利要求 1所述的语音翻译方法，其特征在于，所述输出翻译处理后的语音信息的步骤包括：

检测一段语音是否结束；

当一段语音结束吋，控制输出装置输出翻译处理后的语音信息。

[权利要求 3] 根据权利要求 2所述的语音翻译方法，其特征在于，所述检测一段语音是否结束的步骤包括：

判断是否在第一吋间内未检测到语音信息；

当在第一吋间内未检测到语音信息吋，判定一段语音结束。

[权利要求 4] 根据权利要求 3所述的语音翻译方法，其特征在于，所述第一吋间大于对所述语音信息进行翻译处理的吋间。

[权利要求 5] 根据权利要求 4所述的语音翻译方法，其特征在于，所述第一吋间为 1

-2秒。

[权利要求 6] 根据权利要求 2所述的语音翻译方法，其特征在于，所述控制输出单元输出翻译处理后的语音信息的步骤的同吋还包括：停止采集语音信息。

[权利要求 7] 根据权利要求 6所述的语音翻译方法，其特征在于，所述停止采集语音信息的步骤包括：关闭麦克风的语音输入通路。

[权利要求 8] 根据权利要求 2所述的语音翻译方法，其特征在于，所述输出装置为发声装置。

[权利要求 9] 根据权利要求 1所述的语音翻译方法，其特征在于，所述输出翻译处理后的语音信息的步骤包括：

判断是否在第二吋间内未检测到语音信息；

当在第二吋间内未检测到语音信息吋，进入待机状态。

[权利要求 10] 根据权利要求 9所述的语音翻译方法，其特征在于，所述第二吋间为 1 -10分钟。

[权利要求 11] 一种语音翻译装置，其特征在于，包括：

激活模块，用于接收语音唤醒指令，根据所述语音唤醒指令进入激活状态；

处理模块，用于采集语音信息，并对所述语音信息进行翻译处理；输出模块，用于输出翻译处理后的语音信息。

[权利要求 12] 根据权利要求 11所述的语音翻译装置，其特征在于，所述输出模块包括：

检测单元，用于检测一段语音是否结束；

输出单元，用于当一段语音结束吋，控制输出装置输出翻译处理后的语首息。

[权利要求 13] 根据权利要求 12所述的语音翻译装置，其特征在于，所述检测单元包括：

判断子单元，用于判断是否在第一吋间内未检测到语音信息；判决子单元，用于当在第一吋间内未检测到语音信息吋，判定一段语首结束。

[权利要求 14] 根据权利要求 13所述的语音翻译装置，其特征在于，所述第一吋间大于对所述语音信息进行翻译处理的吋间。

[权利要求 15] 根据权利要求 14所述的语音翻译装置，其特征在于，所述第一吋间为

1-2秒。

[权利要求 16] 根据权利要求 12所述的语音翻译装置，其特征在于，所述处理模块还用于：当所述输出模块输出翻译处理后的语音信息吋，停止采集语音 f π息。

[权利要求 17] 根据权利要求 16所述的语音翻译装置，其特征在于，所述处理模块用于：通过关闭麦克风的语音输入通路来停止采集语音信息。

[权利要求 18] 根据权利要求 12所述的语音翻译装置，其特征在于，所述输出装置为发声装置。

[权利要求 19] 根据权利要求 11所述的语音翻译装置，其特征在于，所述装置还包括判断模块，用于当所述输出模块输出语音信息后，判断是否在第二吋间内未检测到语音信息；

待机模块，用于当在第二吋间内未检测到语音信息吋，进入待机状态

[权利要求 20] —种翻译机，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其特征在于，所述应用程序被配置为用于执行权利要求 1所述的语音翻译方法。