WO2019169686A1

WO2019169686A1 - 语音翻译方法、装置和计算机设备

Info

Publication number: WO2019169686A1
Application number: PCT/CN2018/082039
Authority: WO
Inventors: 周毕兴
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2018-03-06
Filing date: 2018-04-04
Publication date: 2019-09-12
Also published as: CN108447473A

Abstract

一种语音翻译方法、装置和计算机设备，所述方法包括以下步骤：接收第一语音信息；根据预置的第一口音音素与字词的对应关系对第一语音信息进行语音识别，生成第一文本信息；对第一文本信息进行翻译处理。从而可以将口音不标准的语音信息识别为准确的文本信息，准确理解用户想表达的意思，再对文本信息进行翻译则提高了翻译的准确性。进一步地，还可以根据用户口音音素与字词的对应关系将翻译后的文本信息语音合成为带用户口音的语音信息，从而使得第二用户听起来更加亲切，也更加容易听懂，提升了用户体验。

Description

语音翻译方法、装置和计算机设备

技术领域

本发明涉及电子技术领域，特别是涉及到一种语音翻译方法、装置和计算机设备。

背景技术

随着经济的快速发展，对外交流越来越广泛，而对于许多人来说语言不通是对外交流的一大障碍。为了解决上述问题，市场上出现了各种各样的翻译设备。翻译设备凭借着强大的语言翻译功能，深受广大有语言翻译需求的人士的欢迎，同时也是人们学习外语的好帮手。翻译设备可以在双方对话的过程中进行翻译，使得使用不同语言的用户可以无障碍交流。

现实生活中，很多人说话时口音都不标准，而是带有自己特定的口音，而翻译设备在翻译时则是按照标准口音来对用户发出的语音信息进行语音识别的，因此必然导致某些字词或语句识别错误，从而导致翻译不准确，造成用户困惑，影响用户体验。

由此可见，如何提高语音翻译的准确性，是当前亟需解决的技术问题。

技术问题

本发明的主要目的为提供一种语音翻译方法、装置和计算机设备，旨在提高翻译的准确性，提升用户体验。

技术解决方案

为达以上目的，本发明实施例提出一种语音翻译方法，所述方法包括以下步骤：

接收第一语音信息；

根据预置的第一口音音素与字词的对应关系对所述第一语音信息进行语音识别，生成第一文本信息；

对所述第一文本信息进行翻译处理。

可选地，所述根据预置的第一口音音素与字词的对应关系对所述第一语音信息进行语音合成，生成第一文本信息的步骤包括：

将所述第一语音信息分解成多个第一口音音素；

根据所述第一口音音素与字词的对应关系，将所述多个第一口音音素转换为多个字词；

将所述多个字词组合为第一文本信息。

可选地，所述对所述第一文本信息进行翻译处理的步骤包括：

将所述第一文本信息翻译为第二文本信息；

将所述第二文本信息语音合成为第二语音信息。

可选地，所述将所述第二文本信息语音合成为第二语音信息的步骤包括：

根据预置的第二口音音素与字词的对应关系对所述第二文本信息进行语音合成，生成第二语音信息。

可选地，所述根据预置的第二口音音素与字词的对应关系进行语音合成，生成第二语音信息的步骤包括：

将所述第二文本信息分解成多个字词；

根据所述第二口音音素与字词的对应关系，将所述多个字词转换为多个第二口音音素；

将所述多个第二口音音素合成为第二语音信息。

可选地，所述接收第一语音信息的步骤之前还包括：建立用户口音音素与字词的对应关系，所述用户口音音素包括第一口音音素。

可选地，所述建立用户口音音素与字词的对应关系的步骤包括：

接收测试语音信息；

根据标准口音音素与字词的对应关系对所述测试语音信息进行语音识别，生成标准文本信息；

输出所述标准文本信息；

接收用户对所述标准文本信息的修改，获得校正文本信息；

对比所述标准文本信息与所述校正文本信息，获取所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系；

根据所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系，以及所述标准文本信息中的字词所对应的标准口音音素，建立所述标准口音音素与所述校正文本信息中的字词的映射关系，并将所述映射关系作为所述用户口音音素与字词的对应关系。

可选地，所述接收测试语音信息的步骤包括：

提示用户朗读多个基本发音单元；

接收所述用户朗读所述多个基本发音单元时发出的测试语音信息。

可选地，所述接收测试语音信息的步骤包括：

提示用户朗读一段文字信息，所述文字信息中包含多个基本发音单元；

接收所述用户朗读所述文字信息时发出的测试语音信息。

可选地，所述方法应用于终端设备或服务器。

本发明实施例同时提出一种语音翻译装置，所述装置包括：

语音接收模块，用于接收第一语音信息；

语音识别模块，用于根据预置的第一口音音素与字词的对应关系对所述第一语音信息进行语音识别，生成第一文本信息；

翻译处理模块，用于对所述第一文本信息进行翻译处理。

可选地，所述语音识别模块包括：

分解单元，用于将所述第一语音信息分解成多个第一口音音素；

转换单元，用于根据所述第一口音音素与字词的对应关系，将所述多个第一口音音素转换为多个字词；

组合单元，用于将所述多个字词组合为第一文本信息。

可选地，所述翻译处理模块包括：

翻译单元，用于将所述第一文本信息翻译为第二文本信息；

合成单元，用于将所述第二文本信息语音合成为第二语音信息。

可选地，所述合成单元用于：根据预置的第二口音音素与字词的对应关系对所述第二文本信息进行语音合成，生成第二语音信息。

可选地，所述合成单元包括：

分解子单元，用于将所述第二文本信息分解成多个字词；

转换子单元，用于根据所述第二口音音素与字词的对应关系，将所述多个字词转换为多个第二口音音素；

合成子单元，用于将所述多个第二口音音素合成为第二语音信息。

可选地，所述装置还包括关系建立模块，所述关系建立模块用于：建立用户口音音素与字词的对应关系，所述用户口音音素包括第一口音音素。

可选地，所述关系建立模块包括：

接收单元，用于接收测试语音信息；

识别单元，用于根据标准口音音素与字词的对应关系对所述测试语音信息进行语音识别，生成标准文本信息；

输出单元，用于输出所述标准文本信息；

校正单元，用于接收用户对所述标准文本信息的修改，获得校正文本信息；

对比单元，用于对比所述标准文本信息与所述校正文本信息，获取所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系；

建立单元，用于根据所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系，以及所述标准文本信息中的字词所对应的标准口音音素，建立所述标准口音音素与所述校正文本信息中的字词的映射关系，并将所述映射关系作为所述用户口音音素与字词的对应关系。

可选地，所述接收单元包括：

第一提示子单元，用于提示用户朗读多个基本发音单元；

第一接收子单元，用于接收所述用户朗读所述多个基本发音单元时发出的测试语音信息。

可选地，所述接收单元包括：

第二提示子单元，用于提示用户朗读一段文字信息，所述文字信息中包含多个基本发音单元；

第二接收子单元，用于接收所述用户朗读所述文字信息时发出的测试语音信息。

本发明实施例还提出一种计算机设备，其包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行前述语音翻译方法。

有益效果

本发明实施例所提供的一种语音翻译方法，通过预置用户口音音素（如第一口音音素）与字词的对应关系，利用用户口音音素与字词的对应关系对待翻译的语音信息进行语音识别，从而可以将口音不标准的语音信息识别为准确的文本信息，准确理解用户想表达的意思，再对文本信息进行翻译，提高了翻译的准确性。进一步地，还可以根据用户口音音素与字词的对应关系将翻译后的文本信息语音合成为带用户口音的语音信息，从而使得第二用户听起来更加亲切，也更加容易听懂，提升了用户体验。

附图说明

图1是本发明的语音翻译方法第一实施例的流程图；

图2是本发明的语音翻译方法第二实施例的流程图；

图3是图2中步骤S10的具体流程图；

图4是本发明的语音翻译装置第一实施例的模块示意图；

图5是图4中的语音识别模块的模块示意图；

图6是图4中的翻译处理模块的模块示意图；

图7是图6中的合成单元的模块示意图；

图8是本发明的语音翻译装置第二实施例的模块示意图；

图9是图8中的关系建立模块的模块示意图；

图10是图9中的接收单元的模块示意图；

图11是图9中的接收单元的又一模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的最佳实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS（Personal Communications Service，个人通信系统），其可以组合语音、数据处理、传真和/或数据通信能力；PDA（Personal Digital Assistant，个人数字助理），其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS（Global Positioning System，全球定位系统）接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具（航空、海运和/或陆地）中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID（Mobile Internet Device，移动互联网设备）和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本技术领域技术人员可以理解，这里所使用的服务器，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算（Cloud Computing）的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，服务器、终端设备与WNS服务器之间可通过任何通信方式实现通信，包括但不限于，基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

本发明实施例的语音翻译方法和装置，可以应用于终端设备，也可以应用于服务器。所述终端设备可以是专门的翻译机，也可以是手机、平板等移动终端，还可以是个人电脑、笔记本电脑等计算机终端。所述服务器主要指对终端设备发送的语音信息进行翻译处理的网络云端的计算机设备。以下以应用于服务器为例进行信息说明。

参照图1，提出本发明的语音翻译方法第一实施例，所述方法包括以下步骤：

S11、接收第一语音信息。

本发明实施例中，终端设备采集第一用户发出的第一语音信息，并将第一语音信息发送给服务器，服务器则接收终端设备发送的第一语音信息。

S12、根据预置的第一口音音素与字词的对应关系对第一语音信息进行语音识别，生成第一文本信息。

本发明实施例中，第一用户发出的第一语音信息含有第一口音，服务器中预置了口音数据库，口音数据库中包括第一口音音素与字词的对应关系。服务器接收到第一语音信息后，首先将第一语音信息分解成多个第一口音音素，然后查询口音数据库中第一口音音素与字词的对应关系，将第一语音信息中的多个第一口音音素转换为多个字词，最后将多个字词组合为第一文本信息。从而可以将口音不标准的语音识别为准确的文字，准确理解用户想表达的意思。

S13、对第一文本信息进行翻译处理。

在某些实施例中，服务器将第一文本信息翻译为目标语言的第二文本信息，并通过终端设备输出该第二文本信息，如：将第二文本信息发送给终端设备，终端设备则显示该第二文本信息。

在另一些实施例中，服务器将第一文本信息翻译为目标语言的第二文本信息，并将第二文本信息语音合成为第二语音信息，并通过终端设备输出该第二语音信息，如：将第二语音信息发送给终端设备，终端设备则通过发声单元输出第二语音信息。

进一步地，服务器预置的口音数据库中，还包括第二口音音素与字词的对应关系。在将第二文本信息语音合成为第二语音信息时，服务器还可以根据预置的第二口音音素与字词的对应关系对第二文本信息进行语音合成来生成第二语音信息，该第二语音信息为带第二用户的口音的语音信息，从而使得第二用户听起来更加亲切，也更加容易听懂。

具体的，服务器首先将第二文本信息分解成多个字词，然后查询口音数据库中的第二口音音素与字词的对应关系，将第二文本信息中的多个字词转换为多个第二口音音素，最后将多个第二口音音素合成为第二语音信息。当输出带第二用户的口音的第二语音信息时，第二用户听起来就更加亲切易懂，极大的提升了用户体验。

进一步地，如图2所示，在本发明的语音翻译方法第二实施例中，步骤S11之前还包括以下步骤：

S10、建立用户口音音素与字词的对应关系，该用户口音音素包括第一口音音素。

本实施例中，服务器预先建立用户口音音素与字词的对应关系，并存储于口音数据库中。所述用户口音音素至少包括第一口音音素，即第一用户的口音音素，还可以包括第二口音音素、第三口音音素等等，即可以针对不同的用户分别建立多个用户口音音素与字词的对应关系。

可选地，如图3所示，服务器建立用户口音音素与字词的对应关系的具体流程如下：

S101、接收测试语音信息。

我们知道，每种语言的字词发音都是由基本发音单元（为最小发音单元）组成的，一个人的口音特征在基本发音单元上就可以很好的体现出来，而每种语言的最小发音单元的数量是有限的。有鉴于此，本发明实施例中，服务器通过终端设备接收包含了某种语言的多个最小发音单元的测试语音信息，如：终端设备采集用户发出的测试语音信息，并把测试语音信息发送给服务器，服务器则接收该终端设备发送的测试语音信息。

可选地，服务器通过终端设备提示用户朗读多个基本发音单元，接收用户朗读多个基本发音单元时发出的测试语音信息。具体实施时，终端设备显示源语言的多个基本发音单元，提示用户朗读这些基本发音单元；当用户朗读时，终端设备采集用户发出的测试语音信息，并发送给服务器；服务器接收终端设备发送的测试语音信息。

可选地，服务器通过终端设备提示用户朗读一段文字信息，该文字信息中包含多个基本发音单元，并接收用户朗读一段文字信息时发出的测试语音信息。具体实施时，终端设备显示一段包含源语言的多个基本发音单元的文字信息，提示用户朗读这段文字信息；当用户朗读这段文字信息时，终端设备采用用户发出的测试语音信息，并发送给服务器；服务器接收终端设备发送的测试语音信息。

S102、根据标准口音音素与字词的对应关系对测试语音信息进行语音识别，生成标准文本信息。

服务器接收到测试语音信息后，根据语言数据库中对应语言的标准口音音素与字词的对应关系对测试语音信息进行语音识别，生成标准文本信息。具体的，服务器首先将测试语音信息分解成多个音素，然后查询语言数据库中对应语言的标准口音音素与字词的对应关系，将测试语音信息中的多个音素转换为多个字词，最后将多个字词组合为标准文本信息。

S103、输出标准文本信息。

服务器生成标准文本信息后，通过终端设备输出该标准文本信息。具体的，服务器将标准文本信息发送给终端设备，终端设备显示该标准文本信息。

S104、接收用户对标准文本信息的修改，获得校正文本信息。

服务器通过终端设备接收用户对标准文本信息的修改，获得校正文本信息。具体的，用户可以对终端设备上显示的标准文本信息进行修改，当修改完毕后，终端设备获得修改后的校正文本信息，并将校正文本信息发送给服务器，服务器接收终端设备发送的校正文本信息。

S105、对比标准文本信息与校正文本信息，获取标准文本信息中的字词与校正文本信息中的字词的映射关系。

服务器对标准文本信息和校正文本信息进行比较，对比两个文本信息中对应的字词，获取标准文本信息中的字词与校正文本信息中的字词的映射关系。

S106、根据标准文本信息中的字词与校正文本信息中的字词的映射关系，以及标准文本信息中的字词所对应的标准口音音素，建立标准口音音素与校正文本信息中的字词的映射关系，并将该映射关系作为用户口音音素与字词的对应关系。

服务器查找语言数据库中标准口音音素与字词的对应关系，获取标准文本信息中每个字词所对应的标准口音音素，并根据标准文本信息中的字词与校正文本信息中的字词的映射关系，建立起标准口音音素与校正文本信息中的字词的映射关系，并将该映射关系作为用户口音音素与字词的对应关系。

采用上述方法，可以采集不同用户的测试语音信息，分别建立起各个用户所对应的用户口音音素与字词的对应关系，并可以将该对应关系生成为对应的用户配置文件。

本发明实施例的语音翻译方法除了应用于服务器外，还可以应用于终端设备，即终端设备进行本地翻译时，可以在本机上实现上述语音翻译方法。当终端设备需要进行云端翻译时，则需要通过服务器来实现上述语音翻译方法。

本发明实施例中，前述服务器，可以集语音识别、文字翻译和语音合成为一体的服务器，也可以是分别实现语音识别、文字翻译和语音合成的三个独立的服务器。例如：语音识别服务器接收终端设备发送的第一语音信息，并根据预置的第一口音音素与字词的对应关系对第一语音信息进行语音识别，生成第一文本信息，并将第一文本信息发送给文字翻译服务器；文字翻译服务器接收第一文本信息，将第一文本信息翻译为第二文本信息，并将第二文本信息发送给语音合成服务器；语音合成服务器接收第二文本信息，将第二文本信息语音合成为第二语音信息，并将第二语音信息发送给终端设备；终端设备接收第二语音信息，并通过发声单元输出第二语音信息。

本发明实施例的语音翻译方法，通过预置用户口音音素（如第一口音音素）与字词的对应关系，利用用户口音音素与字词的对应关系对待翻译的语音信息进行语音识别，从而可以将口音不标准的语音信息识别为准确的文本信息，准确理解用户想表达的意思，再对文本信息进行翻译，提高了翻译的准确性。进一步地，还可以根据用户口音音素与字词的对应关系将翻译后的文本信息语音合成为带用户口音的语音信息，从而使得第二用户听起来更加亲切，也更加容易听懂，提升了用户体验。

参照图4，提出本发明的语音翻译装置一实施例，所述装置包括语音接收模块10、语音识别模块20和翻译处理模块30，其中：语音接收模块10，用于接收第一语音信息；语音识别模块20，用于根据预置的第一口音音素与字词的对应关系对第一语音信息进行语音识别，生成第一文本信息；翻译处理模块30，用于对第一文本信息进行翻译处理。

本发明实施例中，以语音翻译装置应用于服务器为例。终端设备采集第一用户发出的第一语音信息，并将第一语音信息发送给语音接收模块10，语音接收模块10接收终端设备发送的第一语音信息。

本发明实施例中，第一用户发出的第一语音信息含有第一口音，服务器中预置了口音数据库，口音数据库中包括第一口音音素与字词的对应关系。

如图5所示，语音识别模块20包括分解单元11、转换单元12和组合单元13，其中：分解单元11，用于将第一语音信息分解成多个第一口音音素；转换单元12，用于查询口音数据库中第一口音音素与字词的对应关系，根据第一口音音素与字词的对应关系将第一语音信息中的多个第一口音音素转换为多个字词；组合单元13，用于将多个字词组合为第一文本信息。从而可以将口音不标准的语音识别为准确的文字，准确理解用户想表达的意思。

当语音识别模块20将第一语音信息识别为第一文本信息后，翻译处理模块30则对第一文本信息进行翻译处理。

在某些实施例中，翻译处理模块30将第一文本信息翻译为目标语言的第二文本信息，并通过终端设备输出该第二文本信息，如：将第二文本信息发送给终端设备，终端设备则显示该第二文本信息。

在另一些实施例中，翻译处理模块30如图6所示，包括翻译单元31和合成单元32，其中：翻译单元31，用于将第一文本信息翻译为第二文本信息；合成单元32，用于将第二文本信息语音合成为第二语音信息，并通过终端设备输出该第二语音信息，如：将第二语音信息发送给终端设备，终端设备则通过发声单元输出第二语音信息。

进一步地，服务器预置的口音数据库中，还包括第二口音音素与字词的对应关系。在将第二文本信息语音合成为第二语音信息时，合成单元32还可以根据预置的第二口音音素与字词的对应关系对第二文本信息进行语音合成来生成第二语音信息，该第二语音信息为带第二用户的口音的语音信息，从而使得第二用户听起来更加亲切，也更加容易听懂。

如图7所示，合成单元32包括分解子单元321、转换子单元322和合成子单元323，其中：分解子单元321，用于将第二文本信息分解成多个字词；转换子单元322，用于查询口音数据库中的第二口音音素与字词的对应关系，根据第二口音音素与字词的对应关系，将第二文本信息中的多个字词转换为多个第二口音音素；合成子单元323，用于将多个第二口音音素合成为第二语音信息。当输出带第二用户的口音的第二语音信息时，第二用户听起来就更加亲切易懂，极大的提升了用户体验。

进一步地，如图8所示，在本发明的语音翻译装置第二实施例中，该装置还包括关系建立模块40，该关系建立模块40用于：建立用户口音音素与字词的对应关系。

可选地，如图9所示，关系建立模块40包括接收单元41、识别单元42、输出单元43、校正单元44、对比单元45和建立单元46，其中：接收单元41，用于接收测试语音信息；识别单元42，用于根据标准口音音素与字词的对应关系对测试语音信息进行语音识别，生成标准文本信息；输出单元43，用于输出标准文本信息；校正单元44，用于接收用户对标准文本信息的修改，获得校正文本信息；对比单元45，用于对比标准文本信息与所述校正文本信息，获取标准文本信息中的字词与校正文本信息中的字词的映射关系；建立单元46，用于根据标准文本信息中的字词与校正文本信息中的字词的映射关系，以及标准文本信息中的字词所对应的标准口音音素，建立标准口音音素与所述校正文本信息中的字词的映射关系，并将映射关系作为所述用户口音音素与字词的对应关系。

我们知道，每种语言的的字词发音都是由基本发音单元（为最小发音单元）组成的，一个人的口音特征在基本发音单元上就可以很好的体现出来，而每种语言的最小发音单元的数量是有限的。有鉴于此，本发明实施例中，接收单元41通过终端设备接收包含了某种语言的多个最小发音单元的测试语音信息，如：终端设备采集用户发出的测试语音信息，并把测试语音信息发送给接收单元41，接收单元41则接收该终端设备发送的测试语音信息。

可选地，接收单元41如图10所示，包括第一提示子单元411和第一接收子单元412，其中：第一提示子单元411，用于通过终端设备提示用户朗读多个基本发音单元；第一接收子单元412，用于接收用户朗读多个基本发音单元时发出的测试语音信息。

具体实施时，终端设备显示源语言的多个基本发音单元，提示用户朗读这些基本发音单元；当用户朗读时，终端设备采集用户发出的测试语音信息，并发送给第一接收子单元412；第一接收子单元412接收终端设备发送的测试语音信息。

可选地，接收单元41如图11所示，包括第二提示子单元413和第二接收子单元414，其中：第二提示子单元413，用于通过终端设备提示用户朗读一段文字信息，该文字信息中包含多个基本发音单元；第二接收子单元414，用于接收用户朗读文字信息时发出的测试语音信息。

具体实施时，终端设备显示一段包含源语言的多个基本发音单元的文字信息，提示用户朗读这段文字信息；当用户朗读这段文字信息时，终端设备采用用户发出的测试语音信息，并发送给第二接收子单元414；第二接收子单元414接收终端设备发送的测试语音信息。

接收到测试语音信息后，识别单元42根据语言数据库中对应语言的标准口音音素与字词的对应关系对测试语音信息进行语音识别，生成标准文本信息。具体的，识别单元42首先将测试语音信息分解成多个音素，然后查询语言数据库中对应语言的标准口音音素与字词的对应关系，将测试语音信息中的多个音素转换为多个字词，最后将多个字词组合为标准文本信息。

生成标准文本信息后，输出单元43通过终端设备输出该标准文本信息。具体的，输出单元43将标准文本信息发送给终端设备，终端设备显示该标准文本信息。

校正单元44通过终端设备接收用户对标准文本信息的修改，获得校正文本信息。具体的，用户可以对终端设备上显示的标准文本信息进行修改，当修改完毕后，终端设备获得修改后的校正文本信息，并将校正文本信息发送给校正单元44，校正单元44接收终端设备发送的校正文本信息。

获得校正文本信息后，对比单元45对标准文本信息和校正文本信息进行比较，对比两个文本信息中对应的字词，获取标准文本信息中的字词与校正文本信息中的字词的映射关系。

建立单元46查找语言数据库中标准口音音素与字词的对应关系，获取标准文本信息中每个字词所对应的标准口音音素，并根据标准文本信息中的字词与校正文本信息中的字词的映射关系，建立起标准口音音素与校正文本信息中的字词的映射关系，并将该映射关系作为用户口音音素与字词的对应关系。

采用上述方法，建立模块可以采集不同用户的测试语音信息，分别建立起各个用户所对应的用户口音音素与字词的对应关系，并可以将该对应关系生成为对应的用户配置文件。

本发明实施例的语音翻译装置，通过预置用户口音音素（如第一口音音素）与字词的对应关系，利用用户口音音素与字词的对应关系对待翻译的语音信息进行语音识别，从而可以将口音不标准的语音信息识别为准确的文本信息，准确理解用户想表达的意思，再对文本信息进行翻译，提高了翻译的准确性。进一步地，还可以根据用户口音音素与字词的对应关系将翻译后的文本信息语音合成为带用户口音的语音信息，从而使得第二用户听起来更加亲切，也更加容易听懂，提升了用户体验。

本发明同时提出一种计算机设备，所述计算机设备可以是终端设备，也可以是服务器。该计算机设备包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行前述语音翻译方法。所述语音翻译方法包括以下步骤：接收第一语音信息；根据预置的第一口音音素与字词的对应关系对第一语音信息进行语音识别，生成第一文本信息；对第一文本信息进行翻译处理。本实施例中所描述的语音翻译方法为本发明中上述实施例所涉及的语音翻译方法，在此不再赘述。

本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、CD-ROM、和磁光盘）、ROM（Read-Only Memory，只读存储器）、RAM（Random Access Memory，随机存储器）、EPROM（Erasable Programmable Read-Only Memory，可擦写可编程只读存储器）、EEPROM（Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备（例如，计算机）以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种语音翻译方法，其特征在于，包括以下步骤：

接收第一语音信息；

根据预置的第一口音音素与字词的对应关系对所述第一语音信息进行语音识别，生成第一文本信息；

对所述第一文本信息进行翻译处理。
根据权利要求1所述的语音翻译方法，其特征在于，所述根据预置的第一口音音素与字词的对应关系对所述第一语音信息进行语音合成，生成第一文本信息的步骤包括：

将所述第一语音信息分解成多个第一口音音素；

根据所述第一口音音素与字词的对应关系，将所述多个第一口音音素转换为多个字词；

将所述多个字词组合为第一文本信息。
根据权利要求1所述的语音翻译方法，其特征在于，所述对所述第一文本信息进行翻译处理的步骤包括：

将所述第一文本信息翻译为第二文本信息；

将所述第二文本信息语音合成为第二语音信息。
根据权利要求3所述的语音翻译方法，其特征在于，所述将所述第二文本信息语音合成为第二语音信息的步骤包括：

根据预置的第二口音音素与字词的对应关系对所述第二文本信息进行语音合成，生成第二语音信息。
根据权利要求4所述的语音翻译方法，其特征在于，所述根据预置的第二口音音素与字词的对应关系进行语音合成，生成第二语音信息的步骤包括：

将所述第二文本信息分解成多个字词；

根据所述第二口音音素与字词的对应关系，将所述多个字词转换为多个第二口音音素；

将所述多个第二口音音素合成为第二语音信息。
根据权利要求1所述的语音翻译方法，其特征在于，所述接收第一语音信息的步骤之前还包括：建立用户口音音素与字词的对应关系，所述用户口音音素包括第一口音音素。
根据权利要求1所述的语音翻译方法，其特征在于，所述建立用户口音音素与字词的对应关系的步骤包括：

接收测试语音信息；

根据标准口音音素与字词的对应关系对所述测试语音信息进行语音识别，生成标准文本信息；

输出所述标准文本信息；

接收用户对所述标准文本信息的修改，获得校正文本信息；

对比所述标准文本信息与所述校正文本信息，获取所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系；

根据所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系，以及所述标准文本信息中的字词所对应的标准口音音素，建立所述标准口音音素与所述校正文本信息中的字词的映射关系，并将所述映射关系作为所述用户口音音素与字词的对应关系。
根据权利要求7所述的语音翻译方法，其特征在于，所述接收测试语音信息的步骤包括：

提示用户朗读多个基本发音单元；

接收所述用户朗读所述多个基本发音单元时发出的测试语音信息。
根据权利要求7所述的语音翻译方法，其特征在于，所述接收测试语音信息的步骤包括：

提示用户朗读一段文字信息，所述文字信息中包含多个基本发音单元；

接收所述用户朗读所述文字信息时发出的测试语音信息。
根据权利要求1所述的语音翻译方法，其特征在于，所述方法应用于终端设备或服务器。
一种语音翻译装置，其特征在于，包括：

语音接收模块，用于接收第一语音信息；

语音识别模块，用于根据预置的第一口音音素与字词的对应关系对所述第一语音信息进行语音识别，生成第一文本信息；

翻译处理模块，用于对所述第一文本信息进行翻译处理。
根据权利要求11所述的语音翻译装置，其特征在于，所述语音识别模块包括：

分解单元，用于将所述第一语音信息分解成多个第一口音音素；

转换单元，用于根据所述第一口音音素与字词的对应关系，将所述多个第一口音音素转换为多个字词；

组合单元，用于将所述多个字词组合为第一文本信息。
根据权利要求11所述的语音翻译装置，其特征在于，所述翻译处理模块包括：

翻译单元，用于将所述第一文本信息翻译为第二文本信息；

合成单元，用于将所述第二文本信息语音合成为第二语音信息。
根据权利要求13所述的语音翻译装置，其特征在于，所述合成单元用于：根据预置的第二口音音素与字词的对应关系对所述第二文本信息进行语音合成，生成第二语音信息。
根据权利要求14所述的语音翻译装置，其特征在于，所述合成单元包括：

分解子单元，用于将所述第二文本信息分解成多个字词；

转换子单元，用于根据所述第二口音音素与字词的对应关系，将所述多个字词转换为多个第二口音音素；

合成子单元，用于将所述多个第二口音音素合成为第二语音信息。
根据权利要求11所述的语音翻译装置，其特征在于，所述装置还包括关系建立模块，所述关系建立模块用于：建立用户口音音素与字词的对应关系，所述用户口音音素包括第一口音音素。
根据权利要求11所述的语音翻译装置，其特征在于，所述关系建立模块包括：

接收单元，用于接收测试语音信息；

识别单元，用于根据标准口音音素与字词的对应关系对所述测试语音信息进行语音识别，生成标准文本信息；

输出单元，用于输出所述标准文本信息；

校正单元，用于接收用户对所述标准文本信息的修改，获得校正文本信息；

对比单元，用于对比所述标准文本信息与所述校正文本信息，获取所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系；

建立单元，用于根据所述标准文本信息中的字词与所述校正文本信息中的字词的映射关系，以及所述标准文本信息中的字词所对应的标准口音音素，建立所述标准口音音素与所述校正文本信息中的字词的映射关系，并将所述映射关系作为所述用户口音音素与字词的对应关系。
根据权利要求17所述的语音翻译装置，其特征在于，所述接收单元包括：

第一提示子单元，用于提示用户朗读多个基本发音单元；

第一接收子单元，用于接收所述用户朗读所述多个基本发音单元时发出的测试语音信息。
根据权利要求17所述的语音翻译装置，其特征在于，所述接收单元包括：

第二提示子单元，用于提示用户朗读一段文字信息，所述文字信息中包含多个基本发音单元；

第二接收子单元，用于接收所述用户朗读所述文字信息时发出的测试语音信息。
一种计算机设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其特征在于，所述应用程序被配置为用于执行权利要求1至10任一项所述的语音翻译方法。