WO2020124754A1

WO2020124754A1 - 多媒体文件的翻译方法、装置及翻译播放设备

Info

Publication number: WO2020124754A1
Application number: PCT/CN2019/073767
Authority: WO
Inventors: 郑勇; 孙俊; 王文祺; 杨汉丹; 杜志华; 温平; 王辉
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2018-12-17
Filing date: 2019-01-29
Publication date: 2020-06-25
Also published as: CN109658919A

Abstract

本发明揭示了一种多媒体文件的翻译方法、装置及翻译播放设备，其中方法包括：获取多媒体文件中的原始语音文件；翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。实现对多媒体文件中原始语音文件的自动翻译。

Description

多媒体文件的翻译方法、装置及翻译播放设备

技术领域

本发明涉及到计算机技术领域，特别是涉及到一种多媒体文件的翻译方法、装置及翻译播放设备。

背景技术

随着计算机技术的快速发展，使用播放器播放多媒体文件的用户越来越多。由于在播放多媒体文件时，通常需要对多媒体文件对应的提示信息进行显示。例如，用户在播放歌曲时，可能需要同时显示歌曲对应的歌词；用户在看电影时，可能需要同时显示电影对应的字幕。由于提示信息可以为不同语种对应的字符，比如，用户是以中文为母语且英文较差的用户，而歌曲是英文歌曲，即便音乐播放器能够显示英文歌词，但该歌曲对用户所能够提供的信息有限。

目前市场上的多媒体音像资料是先通过人工方式实现不同语种的翻译,再通过影像画面字幕叠加将字幕叠加到视频画面中，音频部分也是先通过人工翻译将语音同步到视频画面上。这也就意味着，用户看其他语言的多媒体影像资料时，若是没有先经过人为翻译，多媒体影像资料只能播放其他语言的字幕及语音，此时用户是很难理解到多媒体播放内容的问题。

技术问题

本发明的主要目的为提供一种多媒体文件的翻译方法、装置及翻译播放设备，旨在解决用户不能理解和不能识别多媒体文件中其他语言的视频或音频的内容。

技术解决方案

为了实现上述发明目的，本发明提出一种多媒体文件的翻译方法，包括：

获取多媒体文件中的原始语音文件；

翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；

配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。

本发明还提供一种多媒体文件的翻译装置，包括：

获取模块，用于获取多媒体文件中的原始语音文件；

翻译模块，用于翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；

配置模块，用于配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。

一种翻译播放设备，包括存储器、处理器和应用程序，所述应用程序被存储在所述存储器中并被配置为由所述处理器执行，所述应用程序被配置为用于执行上述任一项所述的方法。

有益效果

本发明实施例的一种多媒体文件的翻译方法，通过获取多媒体文件中的原始语音文件，翻译原始语音文件得到指定语言的新语音文件，并通过配置新语音文本文件的加载属性，以使多媒体文件播放时，同步加载新语音文件，实现不经由人工翻译的方式、自动将一种原始语音文件转换成其他语种的语音文件，可以帮助用户更好地、及时地理解和识别多媒体文件中的音频和视频内的内容。

附图说明

图1 为本发明一实施例的多媒体文件的翻译方法的流程示意图；

图2 为本发明一实施例的多媒体文件的翻译装置的部分结构示意框图；

图3 为本发明一实施例的标记检测的音频文件的图像示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的最佳实施方式

本发明实施例提供一种多媒体文件的翻译的方法，如图1所示，包括步骤：

S10、获取多媒体文件中的原始语音文件；

S20、翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；

S30、配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。

上述方法应用于翻译播放设备，上述翻译播放设备一般为视频翻译播放器、音频翻译播放器等智能翻译播放设备，本实施例以视频翻译播放器为例进行解释说明，其具有播放视频文件、音频文件、显示字幕等功能。如上述步骤S10所述，上述多媒体文件包括原始语音文件、视频文件和头文件等。其中，原始语音文件至少包括第一原始语音文件（即原始音频文件）或第二原始语音文件（即原始语音文本文件）中的一者，为了更好的进行示意，本实施方式将以同时包含上述两种语音文件为例进行说明，值得一提的是，上述原始语音文本文件为多媒体文件中的字幕文件，原始音频文件为声音文件。

如上述步骤S20所述，原始语音文件可为除用户母语外的其他语言的原始语音文件，新语音文件可以不是用户的母语，可以为用户想观看到的指定语言的文件，其中新语音文件包括第二新语音文件（新音频文件）和第一新语音文件（新语音文本文件）。

如上述步骤S30所述，在得到新语音文件之后，为使用户能理解多媒体文件中的内容，需要在播放时，同步加载新语音文件。

本实施例中，新语音文件包括新音频文件和新语音文本文件，原始语音文件包括原始音频文件和原始语音文本文件可以进行多种显示方法和使用，可进一步地提高用户对视频文件的学习和理解。例如，显示新语音文本文件可以有助于用户去理解多媒体文件；新语音文本文件及原始语音文本文件同时播放，可以进一步地有助于用户学习和识别多媒体文件中的语言和发音。播放新音频文件可以有助于用户理解视频文件，播放新语音文本文件、原始语音文本文件和原始音频文件可以帮助用户学习和识别多媒体文件中的发音的效果。

上述多媒体文件中包括有原始音频文件，所述获取多媒体文件中的原始语音文本文件的步骤S10中，包括：

检测所述原始音频文件中每个人物的语音的起点和终点；

将所述每个人物的语音的起点到终点之间的语音段作为原始音频文件其中，所述原始音频文件为原始语音文件。

在本实施例中，原始语音文件中包含了多个音频对象，如背景噪声、人物语音或动植物发出的声音，在对原始语音进行检测时，检测到的只有人物的语音信号，如背景噪声、枪声或动植物发出的声音是不会被检测的，通过语音活动检测（Voice Activity Detection，VAD）技术检测音频文件中人物语音的端点，而一个原始音频文件中，不会连续不断的都发出声音，所以检测的语音的起点及语音信号的终点，是原始语音文件中某一连续的一段音频文件，构成一个原始音频文件（即第一原始语音文件）。其中，原始音频文件包括多个人物分别单独说话时检测到的某一连续的一个原始音频文件，即一个人连续说的话为一个原始音频文件，之后接下来的人说的话为另一个原始音频文件，还包括某一连续的一个原始音频文件是由多个人物的语音同时说话组合在一起形成的，本实施方式中，优选的，每个人物的语音段是各不重合的，即单独一人说的语音组成一个原始音频文件，因单独一个人说话，其说话的音色及音调相差不大，更方便被检测到，且检测到的原始音频文件更为准确，标记的语音的起点和终点，不会出现误差。

上述原始语音文件中还包括有原始语音文本文件，所述获取多媒体文件中的原始语音文件的步骤S10中，包括：

将所述原始音频文件转换成所述原始语音文本文件，其中，所述原始语音文本文件为所述原始语音文件。

如上述步骤所述，原始语音文本文件为原始语音文件当中的字幕文件，因原始文件存在着包含原始语音文本文件或原始音频文件中的一种或两种，在本实施例中，当只包含一种原始音频文件时，可以通过上述步骤，将原始音频文件转换为原始语音文本文件，解决原始语音文件中说话语速过快，且其中夹着着不标准的发音，用户难以单靠声音理解，此时便可以靠原始语音文本文件进行初步理解，进一步地提高用户对视频文件的理解；或原始语音文本文件若两种均包括，则可以直接获取原始语音文本文件，节省获取时间。

上述将所述每个人物的语音的起点到终点之间的语音段作为原始音频文件的步骤之后，包括：

检测所述原始音频文件格式；

判断所述原始音频文件格式是否为PCM格式；

若否，将所述原始音频文件格式转变为PCM格式。

如上述步骤所述，当检测到原始音频文件格式不为PCM格式时，优选的，视频翻译播放器转变检测到的原始音频文件的格式，以改为PCM格式的语音文件，PCM（Pulse Code Modulation----脉码调制录音)，就是将声音等模拟信号变成符号化的脉冲列，再予以记录。PCM信号是由[1]、[0]等符号构成的数字信号。与模拟信号比，它不易受传送系统的杂波及失真的影响。动态范围宽，可得到音质相当好的影响效果。且PCM轨迹与视频轨迹不同，可用于后期录音。另外，PCM格式的音频文件为模拟音频信号经模数转换（A/D变换）直接形成的二进制序列，视频翻译播放器能够对其精确进行解码过程。原始音频文件的初始格式包括多种，如PCM、WMV、MP4、DAT、RM等多种格式，本实施例中解析的音频文件格式优选为PCM格式。

上述翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言的步骤S20中，包括：

对所述原始语音文本文件进行翻译，得到翻译后的新语音文本文件，所述新语音文本文件为第一新语音文件。

在本实施例中，第一新语音文件为新语音文本文件，即翻译后的字幕文件，用户可以通过翻译后的字幕了解视频文件的内容，方便理解。

将每个所述新语音文本文件进行语音合成，得到新音频文件，所述新音频文件为第二新语音文件。

在本实施例中，上述新音频文件（语音）可以由新语音文本文件（字幕）进行内部的转换得到，多段新音频文件进行合成可得到一个完成的新语音文件，在播放多媒体文件的过程，根据原始音频文件的播放时间，对应播放新音频文件；在播放多媒体文件时，可以为新语音文件和新语音文本文件全部替换原始语音文件及原始语音文本文件，也可以为新语音文件中的部分新音频文件替换对应原始语音文件中的部分原始音频文件，此中不做详细赘述，用户在观看视频时，播放新音频文件、新语音文本文件及原始音频文本文件可以进一步地对用户起到充分理解视频内容的作用；视频翻译播放器播放原始音频文件、新语音文本文件及原始语音文本文件，用户通过观看视频、原始语音文本文件（原始字幕）、新语音文本文件（翻译后的字幕）及同步显示的视频（观看说话者的口型）可以对用户起到学习新语言的作用。

上述对所述配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件的步骤S30之后，包括：

接收播放选择信号，所述播放选择信号用于选择播放所述新语音文本文件和原始语音文本文件的一种或多种，以及选择播放原始音频文件和新音频文件中的一种，且所述新语音文本文件与所述新音频文件至少播放其中一种；

根据所述播放选择信号进行播放。

在本实施例中，播放选择信号可以为用户选择发出的，也可以为视频播放器自动选择发出的，用户根据自身对多媒体文件中语音的掌握程度或爱好兴趣，自行选择播放一个或多个文件，以提高用户的使用体验。如用户若是对原始音频文件中的语言掌握程度高，可以选择播放原始音频文件和新语音文本文件，在观看的时提高自己对该种语言的听力能力；或者用户对该语言的掌握能力弱一点，可以选择播放原始音频文件、原始语音文本文件及新语音文本文件，用户可通过原始音频文件、原始语音文本文件（原始字幕）、新语音文本文件（翻译后的字幕）及同步显示的视频（观看说话者的口型），来学习该种语言的发声、语句和语义；或者用户不想学习该语言、只想理解该多媒体文件的内容的时候，可以选择播放新音频文件（翻译后的语音）、新语音文本文件，充分理解到该多媒体内部的内容。

上述配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件的步骤S30，还包括：

获取每个所述原始音频文件的播放时间长度，以及获取对应的每个所述新音频文件的播放时间长度；

判断每个所述原始音频文件的播放时间长度是否大于对应的所述新音频文件的播放时间长度；

若大于，则选择播放对应的所述新音频文件；

若小于，则选择播放对应的所述原始音频文件。

在本实施例中，值得一提的是，新语音文本文件（翻译语种文本的字幕）显示起点时间和终点时间为对应原始语音文件的起点时间和终点时间，视频翻译播放器此时会播放原始音频文件、原始语音文本文件及新语音文本文件, 视频翻译播放器也可以接收用户做出的选择，如在视频翻译播放器能够播放的文件中（原始音频文件、原始语音文本文件及新语音文本文件），选择只播放某一个或某几个文件；或原始音频文件的时间长度大于翻译后新音频文件合成输出语音段时间长度，即每段翻译后的新音频文件的起点时间都能对上原始音频文件的起点时间，视频播放器会自动选择输出新音频文件，不输出原始音频文件，新语音文本文件（翻译语种文本的字幕）显示起点时间为对应原始语音文本文件（原始字幕）的起点时间，终点时间为对应新语音文本文件的终点时间，视频翻译播放器会选择播放新音频文件、新语音文本文件及原始语音文本文件，在此情况下，视频翻译播放器对新多媒体文件的播放做出选择之后，视频翻译播放器也可以接收用户做出的选择，如在视频翻译播放器能够播放的文件中（新音频文件、新语音文本文件及原始语音文本文件），选择只播放某一个或某几个文件；或原始音频文件的时间长度等于翻译后新音频文件合成输出语音段时间长度，即原始音频文件的起点时间及终点时间与新音频文件的起点时间与终点时间同步对应，则视频翻译播放器可以播放的情况则包括新音频文件和新语音文本文件的一种、原始语音文件及原始语音文本文件的一种或多种，此时视频翻译播放器可接收用户的选择某个或多个文件进行播放例如，多媒体文件可以为GIF文件。

值得一提的是，在一具体实施例中，加载属性为对原始语音文件和新音频文件解析、加载时间播放信息，具体的，多媒体文件多部分均包括原始语音文件、视频文件和头文件等，因此，在播放视频文件之前，会先播放头文件，视频文件会有一个相对于多媒体文件播放时的同步时间，即播放头文件的时间，多媒体文件中一般会有K个原始语音文件和M个视频文件，一个原始音频文件包括了多段原始音频文件和多段原始音频文件之间的间隔段，标记每段原始音频文件的播放的起点时间Ts11及终点时间Te11（参见图3），其中，在一条时间轴上，从时间轴起点开始，依次包括第一段语音段：Ts11至Te11；第二段语音段：Ts12至Te12………第N段语音段：Ts1n至Te1n），每段原始音频文件的起始时间Ts11及终点时间Te11均加上对头文件解析的相对多媒体文件播放的同步时间Toffset1，即可知道一个原始语音文件中的N个第一原始语音文件相对于系统的播放时间分别为：Toffset1+ Ts11, Toffset1+Ts12,………, Toffset1+Ts1n;处理完原始音频文件中的第一段原始音频文件之后，依次分别对原始音频文件中的其他的K-1个原始音频文件进行处理得到K个音频文件中的所有第一原始语音文件的信息和相对于多媒体文件播放的时间，如下示:

第一个语音文件的原始音频文件的时间信息: Toffset1+Ts11, Toffset1+Ts12,………, Toffset1+Ts1n；

第二个语音文件的原始音频文件的时间信息: Toffset2+Ts21, Toffset2+Ts22,………, Toffset2+Ts2n；

第K个语音文件的原始音频文件的时间信息: Toffsetk+Tsk1, Toffsetk+Tsk2,………, Toffsetk+Tskl，其中Toffsetk为第K个语音文件相对于系统的播放时间，Tsk1为第K个原始语音文件的第一个语音段的起始时间,Tskl为第K个原始语音文件的最后一个语音段L的起始时间，可看成一个多媒体文件包含着Y个音频文件，并记载Y个音频文件各自相对于系统的播放时间的起点时间和终点时间。

将每个音频文件转换成原始语音文本文件,并对每个原始语音文本文件加入相对于系统播放的时间信息,与每个音频文件一一对应,得到Y个原始语音文本文件，将Y个原始语音文本文件翻译得到Y个新语音文本文件。将Y个合成得到Y个新音频文件,并且得到Y个新音频文件的各自持续时间Tr，其中r为正整数，0<r<y+1， Y个新音频文件一一替换原始音频文件,采取原始音频文件与新音频文件起始时间一一对准的方式替换，新语音文本文件显示与新语音文件和视频帧的同步，当原始音频文件的时间长度与新音频文件输出时间不同，有两种情况：

a）仅输出原始音频文件，不输出新音频文件，新语音文本文件显示起始时间和截止时间为对应原始音频文件的起始时间和截止时间，设第N个新语音文件的第Z个新音频文件的起始时间为ToffsetN+TSZ和截止时间为ToffsetN+TEZ，对应视频帧的起点为ToffsetN，字幕持续出现的画面帧数为(TEz-TSZ)X视频帧率，视频帧率由多媒体文件编解码格式决定，比如为30帧/秒。

b）输出新音频文件，不输出原始音频文件。新语音文本文件显示起始时间为对应原始语音文本文件的起始时间，截止时间为对应语音合成语种语音段的截止时间，设第N个音频文件的第Z个语音段的起始时间为ToffsetN+TSZ，原始音频文件对应的新音频文件的持续时间为Tr，对应视频帧的起点为ToffsetN，字幕持续出现的画面帧数为Tr X视频帧率(r=z)，视频帧率由多媒体文件编解码格式决定，比如为30帧/秒。

当原始音频文件的时间长度与新音频文件输出时间相同，如GIF动态文件，新语音文件和新语音文本文件可以全部或部分替换原始语音文件和新语音文本文件，具体的可根据用户进行选择，也可系统自动播放选择，提高用户的使用体验。

上述翻译所述原始语音文件得到新语音文件，所述新语音文件中的语音为指定语言的步骤S20之后，包括，

接收查找信息，所述查找信息为所述原始音频文件、所述原始语音文本文件、所述新语音文本文件和所述新音频文件任意一者中的文字或句子；

根据所述查找信号对应播放查找结果。

在本实施例中，输入需要检索的原始音频文件出现过的语音或新音频文件中出现过的语音，或者原始语音文本文件出现过的关键句子或某个文字，或者新语音文本文件出现过的关键句子或某个文字，而后对所有的原始语音文本文件、原始音频文件或翻译后的新语音文本文件及新音频文件进行逐一字符、每一个音频文件匹配搜索，得到关键句子和词对应的语音文本文件，以及对应的语音段文件（即原始音频文件或新音频文件）和视频帧在多媒体文件的位置信息，如此，可以播放对应的关键句子和词的多媒体文件片段。

本发明实施例的一种多媒体文件的翻译方法，通过获取多媒体文件中的原始语音文件，翻译原始语音文件得到指定语言的新语音文件，并通过配置新语音文本文件的加载属性，以使所述多媒体文件播放时，同步加载新语音文件，实现不经由人工翻译的方式、自动将一种原始语音文件转换成其他语种的语音文件，可以帮助用户更好地、及时地理解和识别多媒体文件中的音频和视频内的内容。

参照图2，本实施例中，提供了一种多媒体文件的翻译装置，包括：

获取模块10，用于获取多媒体文件中的原始语音文件；

翻译模块20，用于翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；

配置模块30，用于配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。

上述装置应用于翻译播放设备，上述翻译播放设备一般为视频翻译播放器、音频翻译播放器等智能翻译播放设备，本实施例以视频翻译播放器为例进行解释说明，其具有播放视频文件、音频文件、显示字幕等功能。上述获取模块10，多媒体文件包括原始语音文件、视频文件和头文件等。其中，获取模块10获取原始语音文件，原始语音文件至少包括第一原始语音文件（即原始音频文件）或第二原始语音文件（即原始语音文本文件）中的一者，为了更好的进行示意，本实施方式将以同时包含上述两种语音文件为例进行说明，值得一提的是，上述原始语音文本文件为多媒体文件中的字幕文件，原始音频文件为声音文件。

上述翻译模块20，原始语音文件可为除用户母语外的其他语言的原始语音文件，新语音文件可以不是用户的母语，通过翻译模块20可以为用户想观看到的指定语言的文件，其中新语音文件包括第二新语音文件（新音频文件）和第一新语音文件（新语音文本文件）。。

上述配置模块30，在得到新语音文件之后，为使用户能理解多媒体文件中的内容，需要在播放时，配置模块30同步加载新语音文件。

本实施例中，新语音文件包括新音频文件和新语音文本文件，原始语音文件包括原始音频文件和原始语音文本文件可以进行多种显示方法和使用，可进一步地提高的用户对视频文件的学习和理解。例如，显示新语音文本文件可以有助于用户去理解多媒体文件；新语音文本文件及原始语音文本文件同时播放，可以进一步地有助于用户学习和识别多媒体文件中的语言和发音。播放新音频文件可以有助于用户理解视频文件，播放新语音文本文件、原始语音文本文件和原始音频文件可以帮助用户学习和识别多媒体文件中的发音的效果。

本实施例中，所述获取模块10包括：

第一检测单元，用于检测所述多媒体文件中每个人物的语音的起点和终点；

确定单元，用于将所述每个人物的语音的起点到终点之间的语音段作为原始音频文件，其中，所述原始音频文件为第一原始语音文件。

如上述第一检测单元，原始语音文件中包含了多个音频对象，如背景噪声、人物语音或动植物发出的声音，在对原始语音进行检测时，检测到的只有人物的语音信号，如背景噪声、枪声或动植物发出的声音是不会被检测的，通过语音活动检测（Voice Activity Detection，VAD）技术检测音频文件中人物语音的端点，而一个原始音频文件中，不会连续不断的都发出声音，所以检测的语音的起点及语音信号的终点，是原始语音文件中某一连续的一段音频文件，构成一个原始音频文件（即第一原始语音文件）。

上述获取模块10，还包括：

第一转换单元，用于将所述原始音频文件转换成所述原始语音文本文件，其中，所述原始语音文本文件为第二原始语音文件。

如上述第一转换单元所述，原始语音文本文件为原始语音文件当中的字幕文件，因原始文件存在着包含原始语音文本文件或原始音频文件中的一种或两种，在本实施例中，当只包含一种原始音频文件时，可以通过第一转换单元，将原始音频文件转换为原始语音文本文件，解决原始语音文件中说话语速过快，且其中夹着着不标准的发音，用户难以单靠声音理解，此时便可以靠原始语音文本文件进行初步理解，进一步地提高用户对视频文件的理解；或原始语音文本文件若两种均包括，则可以直接获取原始语音文本文件，节省获取时间。

上述获取模块10还包括：

第二检测单元，用于检测所述原始音频文件格式；

第一判断单元，用于判断所述原始音频文件格式是否为PCM格式；

第二转换单元，当检测为否时，用于将所述原始音频文件格式转变为PCM格式。

在本实施例中，第一判断单元用于第二检测单元检测到的原始音频文件格式是否为PCM格式，优选的，视频翻译播放器通过第二转换单元转变检测到的原始音频文件的格式，以改为PCM格式的语音文件，PCM（Pulse Code Modulation----脉码调制录音)，就是将声音等模拟信号变成符号化的脉冲列，再予以记录。PCM信号是由[1]、[0]等符号构成的数字信号。与模拟信号比，它不易受传送系统的杂波及失真的影响。动态范围宽，可得到音质相当好的影响效果。且PCM轨迹与视频轨迹不同，可用于后期录音。另外，PCM格式的音频文件为模拟音频信号经模数转换（A/D变换）直接形成的二进制序列，视频翻译播放器能够对其精确进行解码过程。原始音频文件的初始格式包括多种，如PCM、WMV、MP4、DAT、RM等多种格式，本实施例中解析的音频文件格式优选为PCM格式。

上述翻译模块20包括：

翻译单元，用于对所述原始语音文本文件进行翻译，得到翻译后的新语音文本文件，所述新语音文本文件为所述第一新语音文件。

如上述步骤所述，第一新语音文件为新语音文本文件，即翻译单元翻译后的字幕文件，用户可以通过翻译后的字幕了解视频文件的内容，方便理解。

上述翻译模块20还包括：

合成单元，用于将每个所述新语音文本文件进行语音合成，得到新音频文件，所述新音频文件为第二新语音文件。

上述新音频文件（语音）可以由新语音文本文件（字幕）通过内部的合成单元进行转换得到，多段新音频文件进行合成可得到一个完成的新语音文件，在播放多媒体文件的过程，根据原始音频文件的播放时间，对应播放新音频文件；在播放多媒体文件时，可以为新语音文件和新语音文本文件全部替换原始语音文件及原始语音文本文件，也可以为新语音文件中的部分新音频文件替换对应原始语音文件中的部分原始音频文件。

上述多媒体文件的翻译装置还包括：

第一接收模块，用于接收播放选择信号，所述播放选择信号用于选择播放所述新语音文本文件和原始语音文本文件的一种或多种，以及选择播放原始音频文件和新音频文件中的一种，且所述新语音文本文件与所述新音频文件至少播放其中一种；根据所述播放选择信号进行播放；

第一播放模块，用于根据所述播放选择信号进行播放。

上述播放选择信号可以为用户选择发出的，也可以为视频播放器自动选择发出的，而第一播放模块根据第一接收模块接收到的播放选择信号，进行播放，其中，用户根据自身对多媒体文件中语音的掌握程度或爱好兴趣，自行选择播放一个或多个文件，以提高用户的使用体验。

上述多媒体文件的翻译装置还包括：

时间获取模块，用于获取每个所述原始音频文件的播放时间长度，以及获取对应的每个所述新音频文件的播放时间长度；

判断模块，用于判断每个所述原始音频文件的播放时间长度是否大于对应的所述新音频文件的播放时间长度；

选择模块，用于判断若大于时，选择播放对应的所述新音频文件；还用于判断若小于时，选择播放对应的所述原始音频文件。

上述多媒体文件的翻译装置还包括：

第二接收模块，用于接收查找信息，所述查找信息为所述原始音频文件、所述原始语音文本文件、所述新语音文本文件和所述新音频文件任意一者中的文字或句子；

第二播放模块，用于根据所述查找信号对应播放查找结果。

在本实施例中，第二接收模块通过接收需要检索的原始音频文件出现过的语音或新音频文件中出现过的语音，或者原始语音文本文件出现过的关键句子或某个文字，或者新语音文本文件出现过的关键句子或某个文字，第二播放模块而后对所有的原始语音文本文件、原始音频文件或翻译后的新语音文本文件及新音频文件进行逐一字符、每一个音频文件匹配搜索，得到关键句子和词对应的语音文本文件，以及对应的语音段文件（即原始音频文件或新音频文件）和视频帧在多媒体文件的位置信息，播放对应的关键句子和词的多媒体文件片段，如原始语音文本文件为英语，用户输入“I”，检索模块检索出关于“I”的一段或多段原始语音文本文件及对应的视频文件，用户可以在其中选择播放想要观看的视频文件，也可以选择播放翻译后的视频文件，方便用户在看完某个视频之后，想要再次观看其中精彩的片段时，能够进行精确查找。

本领域技术人员可以理解的是，本实施例的终端和上述实施例所述的方法相辅相成、互相适应，上述方法项中描述的多个细节和说明均可适用于本实施例的终端，为了避免重复，此处不再赘述。

本发明实施例的一种多媒体文件的翻译装置，通过获取多媒体文件中的原始语音文件，翻译原始语音文件得到指定语言的新语音文件，并通过配置新语音文本文件的加载属性，以使所述多媒体文件播放时，同步加载新语音文件，实现不经由人工翻译的方式、自动将一种原始语音文件转换成其他语种的语音文件，可以帮助用户更好地、及时地理解和识别多媒体文件中的音频和视频内的内容。

在一实施例中，还提供了一种翻译播放设备，包括存储器、处理器和应用程序，所述应用程序被存储在所述存储器中并被配置为由所述处理器执行，所述应用程序被配置为用于执行上述任一项所述的方法。翻译播放设备包括视频翻译播放器、语言学习机等智能翻译播放设备。

Claims

一种多媒体文件的翻译方法，其特征在于，包括：

获取多媒体文件中的原始语音文件；

翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；

配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。
根据权利要求1所述的多媒体文件的翻译方法，其特征在于，所述原始语音文件中包括有原始音频文件，所述获取多媒体文件中的原始语音文件的步骤，包括：

检测所述多媒体文件中每个人物的语音的起点和终点；

将所述每个人物的语音的起点到终点之间的语音段作为原始音频文件，其中，所述原始音频文件为第一原始语音文件。
根据权利要求2所述的多媒体文件的翻译方法，其特征在于，所述原始语音文件中还包括有原始语音文本文件，所述获取多媒体文件中的原始语音文件的步骤，包括：

将所述原始音频文件转换成所述原始语音文本文件，其中，所述原始语音文本文件为第二原始语音文件。
根据权利要求2所述的多媒体文件的翻译方法，其特征在于，所述将所述每个人物的语音的起点到终点之间的语音段作为原始音频文件的步骤之后，包括：

检测所述原始音频文件的格式；

判断所述原始音频文件格式是否为PCM格式；

若否，将所述原始音频文件的格式转变为PCM格式。
根据权利要求3所述的多媒体文件的翻译方法，其特征在于，所述翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言的步骤，包括：

对所述原始语音文本文件进行翻译，得到翻译后的新语音文本文件，所述新语音文本文件为第一新语音文件。
根据权利要求5所述的多媒体文件的翻译方法，其特征在于，所述翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言的步骤，包括：

将每个所述新语音文本文件进行语音合成，得到新音频文件，所述新音频文件为第二新语音文件。
根据权利要求6所述的多媒体文件的翻译方法，其特征在于，所述配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件的步骤之后，包括：

接收播放选择信号，所述播放选择信号用于选择播放所述新语音文本文件和原始语音文本文件的一种或多种，以及选择播放原始音频文件和新音频文件中的一种，且所述新语音文本文件与所述新音频文件至少播放其中一种；

根据所述播放选择信号进行播放。
根据权利要求6所述的多媒体文件的翻译方法，其特征在于，所述翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言的步骤之后，包括，

接收查找信息，所述查找信息为所述原始音频文件、所述原始语音文本文件、所述新语音文本文件和所述新音频文件任意一者中的文字或句子；

根据所述查找信号对应播放查找结果。
一种多媒体文件的翻译装置，其特征在于，包括：

获取模块，用于获取多媒体文件中的原始语音文件；

翻译模块，用于翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；

配置模块，用于配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。
根据权利要求9所述的多媒体文件的翻译装置，其特征在于，所述多媒体文件中包括有原始音频文件，所述获取模块包括：

第一检测单元，用于检测所述多媒体文件中每个人物的语音的起点和终点；

确定单元，用于将所述每个人物的语音的起点到终点之间的语音段作为原始音频文件，其中，所述原始音频文件为第一原始语音文件。
根据权利要求10所述的多媒体文件的翻译装置，其特征在于，所述获取模块包括：

第一转换单元，用于将所述原始音频文件转换成所述原始语音文本文件，其中，所述原始语音文本文件为第二原始语音文件。
根据权利要求10所述的多媒体文件的翻译装置，其特征在于，所述获取模块还包括：

第二检测单元，用于检测所述原始音频文件格式；

第一判断单元，用于判断所述原始音频文件格式是否为PCM格式；

第二转换单元，当检测为否时，用于将所述原始音频文件格式转变为PCM格式。
根据权利要求11所述的多媒体文件的翻译装置，其特征在于，所述翻译模块包括：

翻译单元，用于对所述原始语音文本文件进行翻译，得到翻译后的新语音文本文件，所述新语音文本文件为第一新语音文件。
根据权利要求13所述的多媒体文件的翻译装置，其特征在于，所述翻译模块还包括：

合成单元，用于将每个所述新语音文本文件进行语音合成，得到新音频文件，所述新音频文件为第二新语音文件。
根据权利要求14所述的多媒体文件的翻译装置，其特征在于，所述多媒体文件的翻译装置还包括：

第一接收模块，用于接收播放选择信号，所述播放选择信号用于选择播放所述新语音文本文件和原始语音文本文件的一种或多种，以及选择播放原始音频文件和新音频文件中的一种，且所述新语音文本文件与所述新音频文件至少播放其中一种；根据所述播放选择信号进行播放；

第一播放模块，用于根据所述播放选择信号进行播放。
根据权利要求14所述的多媒体文件的翻译装置，其特征在于，多媒体文件的翻译装置包括：

第二接收模块，用于接收查找信息，所述查找信息为所述原始音频文件、所述原始语音文本文件、所述新语音文本文件和所述新音频文件任意一者中的文字或句子；

第二播放模块，用于根据所述查找信号对应播放查找结果。
一种翻译播放设备，包括存储器、处理器和应用程序，所述应用程序被存储在所述存储器中并被配置为由所述处理器执行，其特征在于，所述应用程序被配置为用于执行权利要求1至8任一项所述的方法。