WO2020057102A1

WO2020057102A1 - 语音翻译方法及翻译装置

Info

Publication number: WO2020057102A1
Application number: PCT/CN2019/081036
Authority: WO
Inventors: 张岩; 熊涛
Original assignee: 深圳市合言信息科技有限公司
Priority date: 2018-09-19
Filing date: 2019-04-02
Publication date: 2020-03-26
Also published as: CN109344411A; US20210343270A1; JP2021503094A

Abstract

一种语音翻译方法及翻译装置，其中该方法包括：当翻译任务触发时，通过声音采集装置对环境中的声音进行采集，并根据采集的声音检测用户是否开始说话；当检测到用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并根据提取的用户语音判断用户使用的源语言，根据预设的语言对，确定与源语言关联的目标语言；当检测到用户停止说话超过预设延迟时长时，退出语音识别状态，将语音识别状态下提取的用户语音转换为目标语言的目标语音；通过声音播放装置对目标语音进行播放，并在结束播放后返回通过处理器根据采集的声音检测用户是否开始说话的步骤，直至翻译任务结束。上述语音翻译方法及翻译装置可降低翻译成本，简化翻译操作。

Description

语音翻译方法及翻译装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音翻译方法及翻译装置。

背景技术

同声传译，简称“同传”，又称“同声翻译”、“同步口译”，是指译员在不打断讲话者讲话的情况下，不间断地将内容口译给听众的一种翻译方式，同声传译员通过专用的设备提供即时翻译，这种方式适用于大型的研讨会和国际会议，通常由两名到三名译员轮换进行。目前同声传译主要依赖翻译人员倾听然后翻译并且发音，随着AI(Artificial Intelligence，人工智能)技术的发展，AI同声传译将会逐渐取代人工翻译。市面上虽然也有一些会议翻译机，但在翻译时，需要人手一台翻译设备，成本较高，并且说话人通常需要按住按钮开始说话，然后在线翻译客服将说话人说的话分别翻译给其他人，操作非常繁琐，需要较多的人工参与。

发明内容

本申请实施例提供一种语音翻译方法及翻译装置，可用于降低翻译成本，简化翻译操作。

本申请实施例一方面提供了一种语音翻译方法，应用于翻译装置，所述翻译装置包括处理器以及与所述处理器电性连接的声音采集装置和声音播放装置，所述方法包括：

当翻译任务触发时，通过所述声音采集装置对环境中的声音进行采集，并通过所述处理器根据采集的声音检测用户是否开始说话；

当检测到所述用户开始说话时，进入语音识别状态，通过所述处理器从采集的声音中提取用户语音，并根据提取的用户语音判断所述用户使用的源语言，根据预设的语言对，确定与所述源语言关联的目标语言；

当检测到所述用户停止说话超过预设延迟时长时，退出所述语音识别状态，通过所述处理器，将所述语音识别状态下提取的用户语音转换为所述目标语言的目标语音；

通过所述声音播放装置对所述目标语音进行播放，并在结束所述播放后返回所述通过所述处理器根据采集的声音检测用户是否开始说话的步骤，直至所述翻译任务结束。

本申请实施例一方面还提供了一种翻译装置，包括：

端点检测模块，用于当翻译任务触发时，通过所述声音采集装置对环境中的声音进行采集，并根据采集的声音检测用户是否开始说话；

识别模块，用于当检测到所述用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并根据提取的用户语音判断所述用户使用的源语言，根据预设的语言对，确定与所述源语言关联的目标语言；

尾点检测模块，用于检测所述用户是否停止说话超过预设延迟时长，当检测到所述用户停止说话超过所述预设延迟时长时，退出所述语音识别状态；

翻译及语音合成模块，用于将所述语音识别状态下提取的用户语音转换为所述目标语言的目标语音；

播放模块，用于通过所述声音播放装置对所述目标语音进行播放，并在结束所述播放后触发所述端点检测模块执行所述根据采集的声音检测用户是否开始说话的步骤。

本申请实施例一方面还提供了一种翻译装置，所述装置包括：声音采集装置、声音播放装置、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其中，所述声音采集装置、所述声音播放装置和所述存储器电性相连于所述处理器；所述处理器运行所述计算机程序时，执行以下步骤：

当翻译任务触发时，通过所述声音采集装置对环境中的声音进行采集，并根据采集的声音检测用户是否开始说话；当检测到所述用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并根据提取的用户语音判断所述用户使用的源语言，根据预设的语言对，确定与所述源语言关联的目标语言；当检测到所述用户停止说话超过预设延迟时长时，退出所述语音识别状态，将所述语音识别状态下提取的用户语音转换为所述目标语言的目标语音；通过所述声音播放装置对所述目标语音进行播放，并在结束所述播放后返回所述根据采集的声音检测用户是否开始说话的步骤，直至所述翻译任务结束。

上述各实施例，通过在翻译任务执行期间，自动循环侦听用户是否开始和结束说话，并将用户所说的话翻译成目标语言播放出来，一方面实现了多人共用一台翻译设备进行同声传译，从而减低了翻译成本，另一方面，真正实现了翻译设备对用户交谈内容的自动感知并翻译播报，从而简化了翻译操作。

附图说明

图1为本申请一实施例提供的语音翻译方法的实现流程示意图；

图2为本申请另一实施例提供的语音翻译方法的实现流程示意图；

图3为本申请实施例提供的语音翻译方法的一实际应用例的演示图；

图4为本申请一实施例提供的翻译装置的结构示意图；

图5为本申请另一实施例提供的翻译装置的结构示意图；

图6为本申请一实施例提供的翻译装置的硬件结构示意图；

图7为本申请另一实施例提供的翻译装置的硬件结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，为本申请一实施例提供的语音翻译方法的实现流程示意图。该语音翻译方法应用于翻译装置，该翻译装置包括处理器以及与该处理器电性连接的声音采集装置和声音播放装置。其中，声音采集装置例如可以是麦克风或拾音器，声音播放装置例如可以是扬声器。如图1所示，该语音翻译方法包括：

S101、当翻译任务触发时，通过声音采集装置对环境中的声音进行采集；

S102、通过处理器根据采集的声音检测用户是否开始说话；

翻译任务例如可以但不限于：在翻译装置启动后自动触发，或者，当检测到用户点击预设的用于触发翻译任务的按钮的操作时被触发，或者，当检测到用户的第一预设语音时被触发。其中，该按钮可以是硬件按钮也可以是虚拟按钮。该第一预设语音可以根据用户的自定义操作设置，例如可以是：包含“开始翻译”语义的文字或其他预设声音。

当翻译任务被触发时，通过声音采集装置实时采集环境中的声音，并通过处理器实时分析采集到的声音中是否包含人的声音，若包含人的声音，则确认检测到用户开始说话。

可选的，若超过预设检测时长，采集到的声音中仍然不包含人的声音，则停止声音采集，进入待机状态，以降低耗电量。

S103、当检测到用户开始说话时，进入语音识别状态，通过处理器从采集的声音中提取用户语音，并根据提取的用户语音判断用户使用的源语言，根据预设的语言对，确定与源语言关联的目标语言；

翻译装置中存储有预设的语言对中包含的至少两种语言之间的关联关系。该语言对可以用于确定源语言和目标语言。当检测到用户开始说话时，进入语音识别状态，通过处理器从采集的声音中提取用户语音，并对提取的用户语音进行语音识别，以判断用户使用的源语言。根据上述关联关系，将语音对中与源语言关联的其他语言确定为目标语言。

可选的，于本申请其他一实施方式中，为用户提供语言设置交互界面，在检测到用户开始说话之前，响应于用户在语言设置交互界面执行的语言指定操作，通过处理器在翻译装置中，将语言指定操作指向的至少两种语言配置为用于确定源语言和目标语言的语言对。

S104、当检测到用户停止说话超过预设延迟时长时，退出语音识别状态，通过处理器，将语音识别状态下提取的用户语音转换为目标语言的目标语音；

通过处理器实时分析采集到的声音中包含的人的声音是否消失，若该声音消失，则启动计时器开始计时，并当经过预设延迟时长，该声音没有再次出现时，确认检测到用户停止说话，退出语音识别状态。然后通过处理器，将语音识别状态下提取的所有用户语音转换为目标语言的目标语音。

S105、通过声音播放装置对目标语音进行播放，并在结束播放后返回步骤S102，直至翻译任务结束。

通过声音播放装置对目标语音进行播放，并在结束目标语音的播放后，返回步骤S102：通过处理器根据采集的声音检测用户是否开始说话，以对另一说话人所说的话进行翻译，如此往复，直至翻译任务结束。

其中，翻译任务例如可以但不限于：当检测到用户点击预设的用于结束翻译任务的按钮的操作时结束，或者，当检测到用户的第二预设语音时被触发。其中，该按钮可以是硬件按钮也可以是虚拟按钮。该第二预设语音可以根据用户的自定义操作设置，例如可以是：包含“结束翻译”语义的文字或其他声音。

可选的，在目标语音播放期间可暂停声音采集，以避免用户语音误判，同时降低耗电量。

本实施例中，通过在翻译任务执行期间，自动循环侦听用户是否开始和结束说话，并将用户所说的话翻译成目标语言播放出来，一方面实现了多人共用一台翻译设备进行同声传译，从而减低了翻译成本，另一方面，真正实现了翻译设备对用户交谈内容的自动感知并翻译播报，从而简化了翻译操作。

请参阅图2，为本申请另一实施例提供的语音翻译方法的实现流程示意图。该语音翻译方法应用于翻译装置，该翻译装置包括处理器以及与该处理器电性连接的声音采集装置和声音播放装置。其中，声音采集装置例如可以是麦克风或拾音器，声音播放装置例如可以是扬声器。如图2所示，该语音翻译方法包括：

S201、当翻译任务触发时，通过声音采集装置对环境中的声音进行采集；

S202、通过处理器根据采集的声音检测用户是否开始说话；

翻译任务例如可以但不限于：在翻译装置启动后自动触发，或者，当检测到用户点击预设的用于触发翻译任务的按钮的操作时被触发，或者，当检测到用户的第一预设语音时被触发。其中，该按钮可以是硬件按钮也可以是虚拟按钮。该第一预设语音可以根据用户的自定义操作设置，例如可以是：包含“开始翻译”语义的文字或其他声音。

可选的，于本申请其他一实施方式中，为保证翻译质量，定期通过处理器根据采集的声音，检测环境中的噪声是否大于预设噪声，若大于预设噪声，则输出提示信息。该提示信息用于提示用户翻译环境不佳。其中，该提示信息可以通过语音和/或文字的方式输出。可选的，噪声检测可只在进入语音识别状态之前进行。

可选的，于本申请其他一实施方式中，为避免翻译错误，当翻译任务被触发时，通过声音采集装置实时采集环境中的声音，并通过处理器实时分析采集到的声音中是否包含人的声音且包含的人的声音的音量是否大于预设分贝，若包含人的声音且包含的人的声音的音量大于预设分贝，则确认检测到用户开始说话。

S203、当检测到用户开始说话时，进入语音识别状态，通过处理器从采集的声音中提取用户语音，并根据提取的用户语音判断用户使用的源语言，根据预设的语言对，确定与源语言关联的目标语言；

翻译装置还包括与处理器电性相连的存储器。该存储器中存储有预设的语言对中包含的至少两种语言之间的关联关系。该语言对可以用于确定源语言和目标语言。当检测到用户开始说话时，进入语音识别状态，通过处理器从采集的声音中提取用户语音，并对提取的用户语音进行语音识别，以判断用户使用的源语言。根据上述关联关系，将语音对中与源语言关联的其他语言确定为目标语言。例如：假设语言对为英语和汉语，源语言为汉语，则目标语言为英语，此时需要将用户语言转换为汉语语音；假设语言对为英语-汉语-俄语，源语言为英语，则确定目标语言为汉语和俄语，即此时需要将用户语音分别转换为汉语语音和俄语语音。

可选的，于本申请其他一实施方式中，存储器中还存储有语言对中的各语言的标识信息，该标识信息可由处理器在设置语言对时，为该语言对中的各语言生成。上述根据提取的用户语音判断用户使用的源语言的步骤，具体包括：通过处理器提取用户语音中用户的声纹特征，判断存储器中是否存储有声纹特征对应的语言的标识信息；若存储器中存储有该标识信息，则将该标识信息对应的语言确定为源语言；若存储器中未存储有该标识信息，则提取用户语音中用户的发音特征，根据发音特征确定源语言，并将用户的声纹特征和源语言的标识信息的对应关系存储在存储器中，以在下一次翻译时用于语言识别。

具体的，可将用户的发音特征与语言对中的各语言的发音特征进行匹配，并将匹配度最高的语言确定为源语言。上述发音特征匹配可在翻译装置本地进行，也可通过服务器实现。

像这样，由于发音特征比对需要占用更多的系统资源，通过自动记录用户的声纹特征和源语言的标识信息的对应关系，并利用用户的声纹特征和上述对应关系确定源语言，可提高语言识别的效率。

S204、将提取的用户语音转换为对应的第一文字，并将第一文字展示在显示屏上；

其中，第一文字的语言为源语言。

S205、当检测到用户停止说话超过预设延迟时长时，退出语音识别状态，通过处理器，将第一文字翻译为目标语言的第二文字，并将第二文字展示在显示屏上；

S206、通过语音合成系统，将第二文字转换为目标语音；

具体的，翻译装置还包括与处理器电性相连的显示屏。通过处理器实时分析采集到的声音中包含的人的声音是否消失，若该声音消失，则启动计时器开始计时，并当经过预设延迟时长，该声音没有再次出现时，确认检测到用户停止说话，退出语音识别状态。然后通过处理器，将语音识别状态下提取的用户语音对应的源语言的第一文字翻译为目标语言的第二文字，并将该第二文字展示在显示屏上。同时，利用TTS(Text To Speech，从文本到语音)语音合成系统将该第二文字转换为目标语言的目标语音。

可选的，于本申请其他一实施方式中，在当检测到用户停止说话超过预设延迟时长时，退出语音识别状态之前，响应于触发的翻译指令时，退出语音识别状态。根据检测到用户停止说话的时间与翻译指令触发的时间之间的时间差，调整预设延迟时长，例如：可将该时间差的值设置为预设延迟时长的值。

可选的，于本申请其他一实施方式中，翻译装置还包括与处理器电性相连的运动传感器，在语音识别状态下，当通过运动传感器检测到翻译装置的运动幅度大于预设幅度，或者，翻译装置被碰撞时，触发翻译指令。

由于预设延迟时长的初始值是默认值，而每个说话人的耐心不同，因此允许用户通过传递翻译装置或者碰撞翻译装置的方式，主动触发翻译指令，并根据翻译指令触发的时间，动态调整预设延迟时长，可以提高用户停止说话判断的灵活性，使得翻译的时机更符合用户的需求。

可选的，于本申请其他一实施方式中，根据检测到用户停止说话的时间与翻译指令触发的时间之间的时间差，调整预设延迟时长的步骤，具体包括：判断存储器中是否存储有停止说话的用户的声纹特征对应的预设延迟时长；若存储器中存储有对应的预设延迟时长，则根据检测到该用户停止说话的时间与翻译指令触发的时间之间的时间差，调整该用户的声纹特征对应的预设延迟时长；若存储器中未存储有对应的预设延迟时长，即，只配置了用于触发退出语音识别状态的默认延迟时长，则将该时间差设置为该用户的声纹特征对应的预设延迟时长。通过上述步骤，可为不同的讲话人设置不同的预设延迟时长，从而提高翻译装置的智能化程度。

可选的，根据时间差调整预设延迟时长，包括将时间差的值设置为预设延迟时长的值，或者，取时间差与预设延迟时长的平均值，作为新的预设延迟时长的值。

S207、通过声音播放装置对目标语音进行播放，并在结束播放后返回步骤S202，直至翻译任务结束。

通过声音播放装置对目标语音进行播放，并在结束目标语音的播放后，返回步骤S202：通过处理器根据采集的声音检测用户是否开始说话，以对另一说话人所说的话进行翻译，如此往复，直至翻译任务结束。

可选的，于本申请其他一实施方式中，可将翻译任务执行期间得到的所有第一文字和第二文字作为谈话记录存储在存储器中，以方便用户后续查询。同时，处理器定期或者在每次开机后自动清理超过存储期限的谈话记录，以提高存储空间的利用率。

为进一步说明本实施例提供的语音翻译方法，结合图3，举例来说，假设用户A和用户B是不同国家的人，用户A使用A语言，用户B使用B语言，可通过以下步骤完成翻译：

1、用户A说话生成语音A；

2、上述翻译装置通过端点检测模块自动检测到用户A开始说话；

3、通过语音识别模块与语种判断模块，一边识别用户A说的话，一边判断用户A使用的语言(即，语种)；

4、语种判断模块检测到用户A说的是A语言，此时在翻译装置的显示屏上会展示当前识别的语音A对应的第一文字；

5、当用户A停止讲话时，该翻译装置通过尾点检测模块自动判断用户已经讲完话；

6、此时该翻译装置会进入翻译阶段，通过翻译模块将A语言的第一文字转换成B语言的第二文字；

7、该翻译装置得到B语言的翻译文字后，通过TTS语音合成模块生成对应的目标语音，并自动播报出来。

此后，翻译装置通过端点检测模块再次自动检测用户B开始说话，于是基于用户B，执行上述步骤3-7，将用户B的B语言的语音翻译为A语言的目标语音，并自动播报出来，如此往复，直至用户A与B的谈话结束。

整个翻译过程中，用户A对于翻译装置不需要再做额外操作，翻译装置会自己完成倾听、识别、结束、翻译、播报等一系列过程。

可选的，于本申请其他一实施方式中，为了提高语言识别的速度，可在首次使用时预先采集用户的声纹特征，并将采集的声纹特征与该用户使用的语言绑定在一起。在第二次使用时，直接根据用户的声纹特征快速确认该用户使用的语言。

具体的，翻译装置为用户提供用于绑定声纹特征与对应语言的接口，在触发翻译任务之前，响应于用户通过该接口触发的绑定指令，通过声音采集装置采集用户的目标语音，对该目标语音进行语音识别，得到该用户的声纹特征及该用户所使用的语言，并将识别出的该用户的声纹特征与使用的语言绑定在翻译装置中。或者，与声纹特征绑定的语言也可为该绑定指令指向的语言。

则，步骤当检测到该用户开始说话时，进入语音识别状态，通过该处理器从采集的声音中提取用户语音，并根据提取的用户语音判断该用户使用的源语言，具体包括：当检测到该用户开始说话时，进入语音识别状态，通过该处理器从采集的声音中提取用户语音，并对提取的用户语音进行声纹识别，得到该用户的声纹特征及该声纹特征绑定的语言，并将该语言作为该用户使用的源语言。

举例来说，假设用户A使用A语言，用户B使用B语言，在进行翻译前，用户A和用户B分别通过翻译装置提供的接口将自己的声纹特征与所使用的语言绑定在翻译装置中。例如，用户A和用户B依次通过按压翻译装置的语言设置按钮触发绑定指令，根据翻译装置输出的提示信息，在该翻译装置中录入一段语音。其中，该提示信息可以通过语音或者文字的方式输出。该语音设置按钮可以是物理按钮或者虚拟按钮。

该翻译装置对录入的用户A和用户B的语音进行语音识别，得到用户A的声纹特征及其对应的语言A，并将得到的用户A的声纹特征及其对应的语言A进行关联，并将关联信息存储在存储器中，以在该翻译装置中绑定用户A的声纹特征及其对应的语言A。同理，得到用户B的声纹特征及其对应的语言，并将得到的用户B的声纹特征及其对应的语言B进行关联，并将关联信息存储在存储器中，以在该翻译装置中绑定用户B的声纹特征及其对应的语言B。

在翻译任务被触发后，当检测到用户A开始说话时，通过声纹识别，并根据上述关联信息，可确认用户A使用的语言，此时不再需要进行语种识别。相较于语种识别，声纹识别的运算量更低，占用的系统资源更少，因此可以提高识别速度，进而提高翻译速度。

请参阅图4，图4为本申请一实施例提供的翻译装置的结构示意图。该翻译装置可用于实现图1所示的语音翻译方法。该翻译装置包括：端点检测模块401、识别模块402、尾点检测模块403、翻译及语音合成模块404以及播放模块405。

端点检测模块401，用于当翻译任务触发时，通过声音采集装置对环境中的声音进行采集，并根据采集的声音检测用户是否开始说话。

识别模块402，用于当检测到该用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并根据提取的用户语音判断该用户使用的源语言，根据预设的语言对，确定与该源语言关联的目标语言。

尾点检测模块403，用于检测该用户是否停止说话超过预设延迟时长，当检测到该用户停止说话超过该预设延迟时长时，退出该语音识别状态。

翻译及语音合成模块404，用于将该语音识别状态下提取的用户语音转换为该目标语言的目标语音。

播放模块405，用于通过声音播放装置对该目标语音进行播放，并在结束该播放后触发该端点检测模块执行该根据采集的声音检测用户是否开始说话的步骤。

进一步的，如图5所示，于本申请其他一实施例中，该翻译装置还包括：

噪声估计模块501，用于根据采集的该声音，检测该环境中的噪声是否大于预设噪声，若大于预设噪声，则输出提示信息，该提示信息用于提示该用户翻译环境不佳。

进一步的，该翻译装置还包括：

配置模块502，用于响应于该用户的语言指定操作，将该语言指定操作指向的至少两种语言配置为该语言对。

进一步的，识别模块402，还用于将提取的用户语音转换为对应的第一文字。

进一步的，该翻译装置还包括：

展示模块503，用于将该第一文字展示在该显示屏上。

进一步的，翻译及语音合成模块404，还用于将该第一文字翻译为该目标语言的第二文字，以及通过语音合成系统，将该第二文字转换为该目标语音。

展示模块503，还用于将该第二文字展示在该显示屏上。

进一步的，该翻译装置还包括：

处理模块504，用于响应于触发的翻译指令时，退出该语音识别状态。

配置模块502，还用于根据检测到该用户停止说话的时间与该翻译指令触发的时间之间的时间差，调整该预设延迟时长。

进一步的，处理模块504，还用于在语音识别状态下，当通过运动传感器检测到该翻译装置的运动幅度大于预设幅度，或者，该翻译装置被碰撞时，触发该翻译指令。

进一步的，识别模块402，还用于提取该用户语音中该用户的声纹特征，判断存储器中是否存储有该声纹特征对应的语言的标识信息，若该存储器中存储有该标识信息，则将该标识信息对应的语言确定为该源语言，若该存储器中未存储有该标识信息，则提取该用户语音中该用户的发音特征，根据该发音特征确定该源语言，并将该用户的声纹特征和该源语言的标识信息的对应关系存储在该存储器中。

进一步的，配置模块502，还用于判断该存储器中是否存储有停止说话的该用户的声纹特征对应的预设延迟时长；若该存储器中存储有该对应的预设延迟时长，则根据检测到该用户停止说话的时间与该翻译指令触发的时间之间的时间差，调整该对应的预设延迟时长；若该存储器中未存储有该对应的预设延迟时长，则将该时间差设置为该对应的预设延迟时长。

进一步的，处理模块504，还用于将翻译任务执行期间得到的所有第一文字和第二文字作为谈话记录存储在存储器中，以方便用户后续查询。

处理模块504，还用于定期或者在每次开机后自动清理超过存储期限的谈话记录，以提高存储空间的利用率。

进一步的，识别模块402，还用于响应于用户触发的绑定指令，通过声音采集装置采集用户的目标语音，对该目标语音进行语音识别，得到该用户的声纹特征及该用户所使用的语言。

配置模块502，还用于将识别出的该用户的声纹特征与使用的语言绑定在翻译装置中。

识别模块402，还用于当检测到该用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并对提取的用户语音进行声纹识别，得到该用户的声纹特征以及该声纹特征绑定的语言，并将该语言作为该用户使用的源语言。

上述各模块实现各自功能的具体过程可参考图1至图3所示实施例中的相关内容，此处不再赘述。

请参阅图6，图6为本申请一实施例提供的翻译装置的硬件结构示意图。

本实施例中所描述的翻译装置，包括：声音采集装置601、声音播放装置602、存储器603、处理器604及存储在存储器603上并可在处理器604上运行的计算机程序。

其中，声音采集装置601、声音播放装置602和该存储器电性相连于处理器604。存储器603可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器501用于存储一组可执行程序代码。

处理器604运行该计算机程序时，执行以下步骤：

当翻译任务触发时，通过声音采集装置601对环境中的声音进行采集，并根据采集的声音检测用户是否开始说话。当检测到该用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并根据提取的用户语音判断该用户使用的源语言，根据预设的语言对，确定与该源语言关联的目标语言。当检测到该用户停止说话超过预设延迟时长时，退出该语音识别状态，将该语音识别状态下提取的用户语音转换为该目标语言的目标语音。通过声音播放装置602对该目标语音进行播放，并在结束该播放后返回该根据采集的声音检测用户是否开始说话的步骤，直至该翻译任务结束。

进一步的，如图7所示，如本实施例其他一实施方式中，该翻译装置还包括：

与处理器604电性相连的至少一个输入设备701、至少一个输出设备702以及至少一个运动传感器703。其中，输入设备701具体可为摄像头、触控面板、物理按键等等。输出设备702具体可为显示屏。运动传感器703具体可为重力传感器、陀螺仪、加速度传感器等等。

进一步的，该翻译装置还包括信号收发装置，用于接收和发送无线网络信号。

上述各元器件实现各自功能的具体过程可参考图1至图3所示实施例的相关内容，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的语音翻译方法及翻译装置的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

一种语音翻译方法，应用于翻译装置，所述翻译装置包括处理器以及与所述处理器电性连接的声音采集装置和声音播放装置，其特征在于，所述方法包括：

当翻译任务触发时，通过所述声音采集装置对环境中的声音进行采集，并通过所述处理器根据采集的声音检测用户是否开始说话；

当检测到所述用户开始说话时，进入语音识别状态，通过所述处理器从采集的声音中提取用户语音，并根据提取的用户语音判断所述用户使用的源语言，根据预设的语言对，确定与所述源语言关联的目标语言；

当检测到所述用户停止说话超过预设延迟时长时，退出所述语音识别状态，通过所述处理器，将所述语音识别状态下提取的用户语音转换为所述目标语言的目标语音；

通过所述声音播放装置对所述目标语音进行播放，并在结束所述播放后返回所述通过所述处理器根据采集的声音检测用户是否开始说话的步骤，直至所述翻译任务结束。
如权利要求1所述的方法，其特征在于，所述当检测到所述用户开始说话时，进入语音识别状态之前还包括：

通过所述处理器根据采集的所述声音，检测所述环境中的噪声是否大于预设噪声，若大于预设噪声，则输出提示信息，所述提示信息用于提示所述用户翻译环境不佳。
如权利要求1所述的方法，其特征在于，所述方法还包括：

响应于所述用户的语言指定操作，通过所述处理器将所述语言指定操作指向的至少两种语言配置为所述语言对。
如权利要求1所述的方法，其特征在于，所述翻译装置还包括与所述处理器电性相连的显示屏，所述当检测到所述用户开始说话时，进入语音识别状态，通过所述处理器从采集的声音中提取用户语音之后，还包括：

将提取的所述用户语音转换为对应的第一文字，并将所述第一文字展示在所述显示屏上；

所述当检测到所述用户停止说话超过预设延迟时长时，退出所述语音识别状态，通过所述处理器，将所述语音识别状态下提取的用户语音转换为所述目标语言的目标语音，具体包括：

当检测到所述用户停止说话超过预设延迟时长时，退出所述语音识别状态，通过所述处理器，将所述第一文字翻译为所述目标语言的第二文字，并将所述第二文字展示在所述显示屏上。

通过语音合成系统，将所述第二文字转换为所述目标语音。
如权利要求1所述的方法，其特征在于，所述当检测到所述用户停止说话超过预设延迟时长时，退出所述语音识别状态之前，还包括：

响应于触发的翻译指令时，退出所述语音识别状态；

根据检测到所述用户停止说话的时间与所述翻译指令触发的时间之间的时间差，调整所述预设延迟时长。
如权利要求5所述的方法，其特征在于，所述翻译装置还包括与所述处理器电性相连的运动传感器，所述方法还包括：

在语音识别状态下，当通过所述运动传感器检测到所述翻译装置的运动幅度大于预设幅度，或者，所述翻译装置被碰撞时，触发所述翻译指令。
如权利要求5所述的方法，其特征在于，所述翻译装置还包括与所述处理器电性相连的存储器，所述根据提取的用户语音判断所述用户使用的源语言，具体包括：

通过所述处理器提取所述用户语音中所述用户的声纹特征，判断所述存储器中是否存储有所述声纹特征对应的语言的标识信息；

若所述存储器中存储有所述标识信息，则将所述标识信息对应的语言确定为所述源语言；

若所述存储器中未存储有所述标识信息，则提取所述用户语音中所述用户的发音特征，根据所述发音特征确定所述源语言，并将所述用户的声纹特征和所述源语言的标识信息的对应关系存储在所述存储器中。
如权利要求7所述的方法，其特征在于，所述根据检测到所述用户停止说话的时间与所述翻译指令触发的时间之间的时间差，调整所述预设延迟时长，具体包括：

判断所述存储器中是否存储有停止说话的所述用户的声纹特征对应的预设延迟时长；

若所述存储器中存储有所述对应的预设延迟时长，则根据检测到所述用户停止说话的时间与所述翻译指令触发的时间之间的时间差，调整所述对应的预设延迟时长；

若所述存储器中未存储有所述对应的预设延迟时长，则将所述时间差设置为所述对应的预设延迟时长。
一种翻译装置，其特征在于，所述装置包括：

端点检测模块，用于当翻译任务触发时，通过所述声音采集装置对环境中的声音进行采集，并根据采集的声音检测用户是否开始说话；

识别模块，用于当检测到所述用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并根据提取的用户语音判断所述用户使用的源语言，根据预设的语言对，确定与所述源语言关联的目标语言；

尾点检测模块，用于检测所述用户是否停止说话超过预设延迟时长，当检测到所述用户停止说话超过所述预设延迟时长时，退出所述语音识别状态；

翻译及语音合成模块，用于将所述语音识别状态下提取的用户语音转换为所述目标语言的目标语音；

播放模块，用于通过所述声音播放装置对所述目标语音进行播放，并在结束所述播放后触发所述端点检测模块执行所述根据采集的声音检测用户是否开始说话的步骤。
一种翻译装置，其特征在于，所述装置包括：声音采集装置、声音播放装置、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；

其中，所述声音采集装置、所述声音播放装置和所述存储器电性相连于所述处理器；

所述处理器运行所述计算机程序时，执行以下步骤：

当翻译任务触发时，通过所述声音采集装置对环境中的声音进行采集，并根据采集的声音检测用户是否开始说话；

当检测到所述用户开始说话时，进入语音识别状态，从采集的声音中提取用户语音，并根据提取的用户语音判断所述用户使用的源语言，根据预设的语言对，确定与所述源语言关联的目标语言；

当检测到所述用户停止说话超过预设延迟时长时，退出所述语音识别状态，将所述语音识别状态下提取的用户语音转换为所述目标语言的目标语音；

通过所述声音播放装置对所述目标语音进行播放，并在结束所述播放后返回所述根据采集的声音检测用户是否开始说话的步骤，直至所述翻译任务结束。