WO2022017459A1

WO2022017459A1 - 字幕生成方法、装置、设备及存储介质

Info

Publication number: WO2022017459A1
Application number: PCT/CN2021/107845
Authority: WO
Inventors: 曾衍; 常为益; 付平非; 郑起凡; 林兆钦
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2020-07-23
Filing date: 2021-07-22
Publication date: 2022-01-27
Also published as: US11837234B2; US20230128946A1; CN111901538A; EP4171018A4; EP4171018A1; CN111901538B

Abstract

本公开提供了一种字幕生成方法、装置、设备及存储介质，所述方法包括：在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

Description

字幕生成方法、装置、设备及存储介质

本申请要求于2020年7月23日递交的中国专利申请第202010719394.1号的优先权，该中国专利申请的全文以引入的方式并入以作为本申请的一部分。

技术领域

本公开涉及数据处理领域，尤其涉及一种字幕生成方法、装置、设备及存储介质。

背景技术

为音视频文件生成字幕，是指对音视频文件进行语音识别，并将识别结果作为该音视频文件的字幕。

目前，音视频文件的字幕是针对音视频文件中所有音频轨道上的音频数据进行整体语音识别后得到的识别结果。由于每个音频轨道上的音频数据彼此之间可能存在影响，例如在同一时间段，多个音频轨道上可能均存在音频数据，从听觉感受角度而言，可能存在听不清楚的问题，而如果针对该时间段的所有音频轨道上的音频数据进行整体识别，则可能存在识别不准确的问题，进而导致为音视频文件生成的字幕也存在不准确的问题。

因此，如何提高为音视频文件生成的字幕的准确性，是目前亟需解决的技术问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种字幕生成方法、装置、设备及存储介质，能够提高为音视频文件生成的字幕的准确性。

第一方面，本公开提供了一种字幕生成方法，所述方法包括：

响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

一种可选的实施方式中，所述至少一个音频轨道对应的所有文字片段均具有开始显示时间和结束显示时间，基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕，包括：

基于所述所有文字片段中的每个文字片段的开始显示时间，对所述所有文字片段进行综合排序；

判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间；

响应于所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间，则对所述前一个文字片段进行显示时间压缩，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

基于时间轴对所述所有文字片段进行合并，生成所述目标音视频文件的字幕。

一种可选的实施方式中，在所述基于时间轴对所述所有文字片段进行合并，生成所述目标音视频文件的字幕之前，还包括：

确定所述所有文字片段中的开始显示时间相同的至少一个文字片段，从所述至少一个文字片段中确定结束显示时间最晚的文字片段；

将所述至少一个文字片段中，除所述结束显示时间最晚的文字片段之外的其他文字片段删除。

一种可选的实施方式中，所述方法还包括：

响应于针对所述字幕的调整操作，对所述字幕进行更新，其中，所述调整操作包括增加操作、删除操作或修改操作。

一种可选的实施方式中，在所述基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕之后，还包括：

基于所述目标音视频文件的变速播放倍数，对所述目标音视频文件的字幕进行显示时间压缩。

第二方面，本公开提供了一种字幕生成装置，所述装置包括：

识别模块，用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

生成模块，用于基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

一种可选的实施方式中，所述至少一个音频轨道对应的所有文字片段均具有开始显示时间和结束显示时间；

所述生成模块，包括：

排序子模块，用于基于所述所有文字片段中的每个文字片段的开始显示时间，对所述所有文字片段进行综合排序；

判断子模块，用于判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间；

压缩子模块，用于在所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间时，对所述前一个文字片段进行显示时间压缩，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

生成子模块，用于基于时间轴对所述所有文字片段进行合并，生成所述目标音视频文件的字幕。

一种可选的实施方式中，所述装置还包括：

确定模块，用于确定所述所有文字片段中的开始显示时间相同的至少一个文字片段中，从所述至少一个文字片段中确定所述结束显示时间最晚的文字片段；

删除模块，用于将所述至少一个文字片段中，除所述结束显示时间最晚的文字片段之外的其他文字片段删除。

第三方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的方法。

第四方面，本公开提供了一种设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供了一种字幕生成方法，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种字幕生成方法的流程图；

图2为本公开实施例提供的一种字幕生成界面的示意图；

图3为本公开实施例提供的一种对文字片段进行处理的示意图；

图4为本公开实施例提供的一种字幕显示界面的示意图；

图5为本公开实施例提供的另一种字幕显示界面的示意图；

图6为本公开实施例提供的一种字幕生成装置结构框图；

图7为本公开实施例提供的一种字幕生成设备结构框图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，音视频文件的字幕是针对音视频文件中所有音频轨道上的音频数据进行整体语音识别后得到的识别结果，但是，每个音频轨道上的音频数据彼此之间可能存在影响，导致对音视频文件进行整体语音识别可能存在不准确的问题。

因此，本公开实施例提供了一种字幕生成方法，能够针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，提高了语音识别结果的准确性，进而基于准确性更高的语音识别结果，能够生成准确性更高的音视频文件的字幕。

具体的，本公开实施例提供的字幕生成方法中，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。

基于此，本公开实施例提供了一种字幕生成方法，参考图1，为本公开实施例提供的一种字幕生成方法的流程图，该方法包括：

S101：响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。

本公开实施例中的目标音视频文件可以为音频文件，也可以为视频文件。

实际应用中，目标音视频文件通常包括多个音频轨道，本公开实施例可以针对多个音频轨道中的部分或全部音频轨道触发对目标音视频文件的字幕生成操作，也即是，至少一个音频轨道可以为目标音射频文件包括的所有音频轨道中的部分或全部音频轨道。

一种可选的实施方式中，如图2所示，为本公开实施例提供的一种字幕生成界面的示意图，例如，用户可以通过选中界面中展示的一个或多个音频轨道，然后点击“生成字幕”按钮，触发针对选中的一个或多个音频轨道的生成字幕的操作。

本公开实施例中，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，确定该至少一个音频轨道中每个音频轨道上的音频数据，然后对每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。具体的语音识别方式本公开实施例不再赘述。

一种可选的实施方式中，由于一条音频轨道上的音频数据通常包括多个音频片段，针对每个音频片段进行语音识别后得到每个音频片段对应的文字片段，属于同一条音频轨道的音频片段分别对应的文字片段构成该音频轨道对应的文字片段，也就是说，在本公开中，音频轨道对应的文字片段包括该音频轨道上的多个音频片段分别对应的文字片段，对音频轨道对应的文字片段的处理，也即是对该音频轨道上的多个音频片段分别对应的文字片段的处理。在被选中的至少一个音频轨道中的每条音频轨道上的音频数据均完成语音识别后，得到每条音频轨道对应的文字片段。

S102：基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

本公开实施例中，在获得目标音视频文件中每个音频轨道对应的文字片段之后，基于时间轴对各个文字片段进行合并，生成目标音视频文件的字幕。

实际应用中，由于音频轨道上的每个音频片段均具有开始时间和结束时间，相应的，音频片段对应的文字片段也具有开始显示时间和结束显示时间，具体的，音频片段的开始时间作为该音频片段对应的文字片段的开始显示时间，同时，音频片段的结束时间作为该音频片段对应的文字片段的结束显示时间。

由于各个文字片段的显示时间(即从开始显示时间到结束显示时间的时间段)可能存在重合，因此，本公开实施例在对各个文字片段进行合并之前，首先对各个文字片段进行预处理，以便于后续对各个文字片段的合并。

一种可选的实施方式中，为了便于对各个文字片段的处理，在对各个文字片段进行合并之前，首先基于每个文字片段的开始显示时间，对每个音频轨道对应的文字片段进行综合排序。通常开始显示时间越早的文字片段的综合排序的位置越靠前。

在综合排序后，相邻的文字片段之间可能存在显示时间的重合。需要说明的是，这里“相邻的文字片段”是指，基于每个文字片段的开始显示时间，对选中的一个或多个音频轨道对应的所有文字片段进行综合排序，并基于这种综合排序关系所确定的相邻的文字片段。因此，对于基于前述综合排序得到的相邻的文字片段中的两个待判断的文字片段，本公开实施例需要判断两个待判断的文字片段中的前一个文字片段的结束显示时间与后一个文字片段的开始显示时间之间的关系，以执行预处理。例如，这里“前一个文字片段”指代两个待判断的文字片段中的开始显示时间较早的文字片段，“后一个文字片段”指代两个待判断的文字片段中的开始显示时间较晚的文字片段，也即“前一个文字片段”的开始显示时间早于“后一个文字片段”的开始显示时间。

例如，如果前一个文字片段的结束显示时间不晚于后一个文字片段的开始显示时间，则说明前一个文字片段与后一个文字片段的显示时间不存在重合。相反的，如果前一个文字片段的结束显示时间晚于后一个文字片段的开始显示时间，则说明前一个文字片段与后一个文字片段的显示时间存在重合，此时，需要对前一个文字片段进行显示时间压缩，以使前一个文字片段的结束显示时间不晚于后一个文字片段的开始显示时间，避免前一个文字片段与后一个文字片段的显示时间存在重合。

图3为本公开实施例提供的一种对文字片段进行处理的示意图。如图3所示，目标音视频文件中被选中的音频轨道包括轨道A、轨道B和轨道C，每个轨道(轨道A、轨道B或轨道C)所在行的多个矩形块用于表示每个轨道对应的文字片段，每个矩形块为文字片段，例如，轨道A所在的行包括四个矩形块，即轨道A对应的文字片段包括四个文字片段(例如，包括图3示出的文字片段1和3)，轨道B所在的行包括三个矩形块，即轨道B对应的文字片段包括三个文字片段(例如，包括图3示出的文字片段2)，轨道C所在的行包括三个矩形块，即轨道C对应的文字片段包括三个文字片段(例如，包括图3示出的文字片段4)。基于各个文字片段的开始显示时间进行排序，如图3所示，轨道A对应的文字片段包括文字片段1和文字片段3，轨道B对应的文字片段包括文字片段2，轨道C对应的文字片段包括文字片段4，文字片段1的开始显示时间最早，其次是文字片段2，然后是文字片段3，接着是文字片段4，以此类推，基于各个文字片段的开始显示时间对轨道A、轨道B和轨道C分别对应的文字片段进行综合排序。

例如，经过前述综合排序后的文字片段1至文字片段4的排序关系可以为：文字片段1，文字片段2，文字片段3，文字片段4，也即文字片段1与文字片段2相邻，文字片段2与文字片段1和文字片段3相邻，文字片段3与文字片段2和文字片段4相邻。例如，如图3所示，文字片段1和文字片段2为相邻的文字片段，文字片段1为前一个文字片段，文字片段2为后一个文字片段。类似地，文字片段2和文字片段3也为相邻的文字片段，文字片段2为前一个文字片段，文字片段3为后一个文字片段，以此类推。

针对综合排序后相邻的文字片段，判断前一个文字片段的结束显示时间是否不晚于后一个文字片段的开始显示时间，如图3所示，文字片段1和文字片段2为综合排序后相邻的文字片段，显然，文字片段1的结束显示时间晚于文字片段2的开始显示时间，导致文字片段1与文字片段2的显示时间存在重合，因此，本公开实施例对文字片段1进行显示时间压缩，将文字片段1的结束显示时间更新为文字片段2的开始显示时间，以避免文字片段1与文字片段2的显示时间存在重合。其中，显示时间压缩是指在更短的显示时间内完成对相同文字片段的显示。例如，图3中的文字片段1“这句话这么长”需要在显示时间压缩后的时间段内进行显示，也即在由文字片段1的开始显示时间和文字片段2的开始显示时间确定的时间段内进行显示。

本公开实施例中，在对文字片段进行上述预处理后，基于时间轴对预处理后的各个文字片段进行合并，生成目标音视频文件的字幕。如图3所示，轨道A对应的文字片段1“这句话这么长”与轨道B对应的文字片段2“一二三四五”进行合并后，生成最终选取的字幕。

另一种可选的实施方式中，在对各个音频片段对应的文字片段进行合并之前，确定开始显示时间相同的文字片段，如果开始显示时间相同的文字片段的结束显示时间不同，则确定结束显示时间最晚的文字片段，基于该文字片段生成目标音视频文件的字幕，并删除开始显示时间相同的文字片段中除该结束显示时间最晚的文字片段之外的其他文字片段。本公开实施例基于开始显示时间相同的文字片段中结束显示时间最晚的文字片段生成字幕，即基于显示时间较长的文字片段生成字幕，能够尽量避免字幕内容的丢失。

另一种可选的实施方式中，在删除开始显示时间相同的文字片段中除结束显示时间最晚的文字片段之外的其他文字片段之后，继续对其他文字片段执行基于每个文字片段的所述开始显示时间，对每个音频轨道对应的文字片段进行综合排序的步骤，经过对各个文字片段的上述预处理操作后，生成目标音视频文件的字幕。

可以理解的是，如果目标音视频文件中仅一条音频轨道被选中用于为目标音视频文件生成字幕，则各个文字片段不存在显示时间重复的问题，因此不需要对各个文字片段进行合并，直接将该音频轨道对应的文字片段作为该目标音视频文件的字幕即可。

本公开实施例提供的字幕生成方法中，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

一种应用场景中，在生成目标音视频文件的字幕之后，可以按照预设字幕显示方式，基于时间轴对目标音视频文件的字幕进行显示。参考图4，为本公开实施例提供的一种字幕显示界面的示意图，图4中的音频轨道的上方基于时间轴显示有字幕。另外，字幕显示界面上的三个区域(如图4中的区域1、区域2、区域3所示)分别同步显示字幕(例如，“为什么别人在看漫画”)，对于目标音视频文件的字幕中的文字，可以以默认的字体、颜色、字号等进行显示，以提高字幕的展示效果，进而提高用户的体验。

另外，本公开实施例中还可以针对字幕进行调整，具体的，在接收到针对字幕的调整操作后，对字幕进行显示更新。例如，调整操作包括增加操作、删除操作或修改操作。

参考图5，为本公开实施例提供的另一种字幕显示界面的示意图，例如，用户可以通过点击显示的字幕中的任一段文字，触发对该段文字的修改、删除操作等，还可以触发对该段文字的特性(例如，字体、颜色、字号等)进行修改等操作，另外，用户还可以通过点击字幕显示区域中的空白位置，触发输入框的显示，在输入框中输入增加的字幕内容后，触发字幕的增加操作，实现对字幕内容的增加。

实际应用中，用户可以根据需求对生成的字幕进行修正，以得到更准确的字幕。

在另一种应用场景中，如果针对目标音视频文件存在变速处理，则基于目标音视频文件的变速播放倍数，对目标音视频文件的字幕进行显示时间压缩，然后跟随变速处理后的目标音视频文件的播放，对显示时间压缩后的字幕进行展示。

例如，假设目标音视频文件的变速播放倍数为2倍，则将目标音视频文件的字幕的显示时间等比例压缩至原显示时间的二分之一。

与上述方法实施例属于同一个发明构思，本公开还提供了一种字幕生成装置，参考图6，为本公开实施例提供的一种字幕生成装置，所述装置包括：

识别模块601，用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

生成模块602，用于基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。

所述生成模块602，包括：

一种可选的实施方式中，所述装置还包括：

确定模块，用于确定所述所有文字片段中的开始显示时间相同的至少一个文字片段，从所述至少一个文字片段中确定结束显示时间最晚的文字片段；

一种可选的实施方式中，所述装置还包括：

更新模块，用于响应于针对所述字幕的调整操作，对所述字幕进行更新；其中，所述调整操作包括增加操作、删除操作或修改操作。

一种可选的实施方式中，所述装置还包括：

时间压缩模块，用于基于所述目标音视频文件的变速播放倍数，对所述目标音视频文件的字幕进行显示时间压缩。

本公开实施例提供的字幕生成装置，在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时，分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段。然后，基于每个音频轨道对应的文字片段，生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比，本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别，避免了音频轨道彼此之间的影响，能够得到更准确的语音识别结果，进而提高了基于语音识别结果生成的字幕的准确性。

另外，本公开实施例还提供了一种字幕生成设备，参见图7所示，可以包括：

处理器701、存储器702、输入装置703和输出装置704。字幕生成设备中的处理器701的数量可以一个或多个，图7中以一个处理器为例。在本发明的一些实施例中，处理器701、存储器702、输入装置703和输出装置704可通过总线或其它方式连接，其中，图7中以通过总线连接为例。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行字幕生成设备的各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置703可用于接收输入的数字或字符信息，以及产生与字幕生成设备的用户设置以及功能控制有关的信号输入。

具体在本实施例中，处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现上述字幕生成设备的各种功能。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种字幕生成方法，其特征在于，所述方法包括：

响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。
根据权利要求1所述的方法，其特征在于，

所述至少一个音频轨道对应的所有文字片段均具有开始显示时间和结束显示时间，

基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕，包括：

基于所述所有文字片段中的每个文字片段的开始显示时间，对所述所有文字片段进行综合排序；

判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间；

响应于所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间，则对所述前一个文字片段进行显示时间压缩，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

基于时间轴对所述所有文字片段进行合并，生成所述目标音视频文件的字幕。
根据权利要求2所述的方法，其特征在于，在所述基于时间轴对所述所有文字片段进行合并，生成所述目标音视频文件的字幕之前，还包括：

确定所述所有文字片段中的开始显示时间相同的至少一个文字片段，从所述至少一个文字片段中确定结束显示时间最晚的文字片段；

将所述至少一个文字片段中，除所述结束显示时间最晚的文字片段之外的其他文字片段删除。
根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

响应于针对所述字幕的调整操作，对所述字幕进行更新，其中，所述调整操作包括增加操作、删除操作或修改操作。
根据权利要求1-4任一项所述的方法，其特征在于，在所述基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕之后，还包括：

基于所述目标音视频文件的变速播放倍数，对所述目标音视频文件的字幕进行显示时间压缩。
一种字幕生成装置，其特征在于，所述装置包括：

识别模块，用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作，分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别，得到每个音频轨道对应的文字片段；

生成模块，用于基于每个音频轨道对应的文字片段，生成所述目标音视频文件的字幕。
根据权利要求6所述的装置，其特征在于，所述至少一个音频轨道对应的所有文字片段均具有开始显示时间和结束显示时间；

所述生成模块，包括：

排序子模块，用于基于所述所有文字片段中的每个文字片段的开始显示时间，对所述所有文字片段进行综合排序；

判断子模块，用于判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间；

压缩子模块，用于在所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间时，对所述前一个文字片段进行显示时间压缩，以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间；

生成子模块，用于基于时间轴对所述所有文字片段进行合并，生成所述目标音视频文件的字幕。
根据权利要求7所述的装置，其特征在于，所述装置还包括：

确定模块，用于确定所述所有文字片段中的开始显示时间相同的至少一个文字片段，从所述至少一个文字片段中确定结束显示时间最晚的文字片段；

删除模块，用于将所述至少一个文字片段中，除所述结束显示时间最晚的文字片段之外的其他文字片段删除。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-5任一项所述的方法。
一种设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5任一项所述的方法。