WO2020024353A1

WO2020024353A1 - 视频播放方法、装置、终端设备及存储介质

Info

Publication number: WO2020024353A1
Application number: PCT/CN2018/104047
Authority: WO
Inventors: 彭捷
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-08-01
Filing date: 2018-09-05
Publication date: 2020-02-06
Also published as: CN109246472A

Abstract

本申请公开了一种视频播放方法、装置、终端设备及存储介质。所述方法包括：自视频中提取音频，并生成音频文件；将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；根据所述时间戳将所述字幕文本显示在所述视频的播放界面；接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；根据所述目标时间戳播放所述音频和所述视频。本申请可以高效快捷地将字幕文本输出并显示在所述视频上的对应位置，同时可在所述视频的时间轴上准确定位其播放位置，大大提升了用户体验。

Description

视频播放方法、装置、终端设备及存储介质

本申请以2018年8月1日提交的申请号为201810861877.8，名称为“视频播放方法、装置、终端设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及多媒体领域，尤其涉及一种视频播放方法、装置、终端设备及存储介质。

背景技术

随着多媒体技术的迅速发展，用户可以通过各种播放终端观看各式各样的视频。当前视频中的音频语音转换为字幕的过程，通常由速记和字幕员来完成，也即，大部分的视频都是采用人工翻译生成字幕，其字幕生成的效率低，且操作复杂。同时，在很多场景下人们录制了视频，但在观看某个视频时，可能会进行定位预览的操作，其目的是为了快速浏览视频，以定位到自己感兴趣的内容；当前，用户主要通过手动拖动进度条，对视频播放位置进行定位，该定位方式过程复杂，定位效率低，定位不准确，用户体验差。

发明内容

本申请实施例提供了一种视频播放方法、装置、终端设备及存储介质，以便于在高效便捷地输出视频的字幕文本的同时，还通过字幕文本对视频进行准确检索。

第一方面，本申请案例提供一种视频播放方法，包括：

自视频中提取音频，并生成音频文件；

将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；

根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；

根据所述目标时间戳播放所述音频和所述视频。

第二方面，本申请实例提供一种视频播放装置，包括：

提取模块，用于自视频中提取音频，并生成音频文件；

转换模块，用于将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；

字幕显示模块，用于根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

查询模块，用于接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；

播放模块，用于根据所述目标时间戳播放所述音频和所述视频。

第三方面，本申请实例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

自视频中提取音频，并生成音频文件；

根据所述目标时间戳播放所述音频和所述视频。

第四方面，本申请实例提供一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

自视频中提取音频，并生成音频文件；

根据所述目标时间戳播放所述音频和所述视频。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中视频播放方法的应用环境示意图；

图2是本申请一实施例中视频播放方法的流程图；

图3是本申请一实施例中视频播放方法的步骤S20的流程图；

图4是本申请一实施例中的视频播放方法的步骤S203的流程图；

图5是本申请一实施例中的视频播放方法的步骤S40的流程图；

图6是本申请一实施例中的视频播放方法的步骤S50的流程图；

图7是本申请一实施例中的视频播放装置的框图；

图8是本申请一实施例中的视频播放装置的转换模块的框图；

图9是本申请一实施例中的视频播放装置的查询模块的框图；

图10是本申请一实施例中终端设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的视频播放方法，可应用在如图1的应用环境中，其中，客户端(终端设备)通过网络与服务器进行通信。其中，客户端包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种视频播放方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10，自视频中提取音频，并生成音频文件；在一实施例中，服务器通过调用Ffmpeg(Fast Forward Mpeg，一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机可读指令)命令自视频中提取音频，使得音频和视频分离；且生成的音频文件包括但不限定于为wav格式等。

S20，将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳。

在本实施例中，首先将音频文件转换为文件流(文件流也称为字符流或字节流)，再对所述文件流进行语音识别，从而将所述文件流转换为字幕文本，所述字幕文本可以按照预设规则划分为多个文本内容，比如按照字、词、句、段等方式进行划分，并可以在多个文本内容的划分间隔中(也即所述文本内容之前或者之后)插入时间戳，以定位各所述文本内容的时间坐标。比如，将音频文件转换为字幕文本之后，所述预设规则为：将每句话各自划分为一个文本内容。此时，可以在每句话(每句话都代表一个文本内容，可以用标点符号来设定“句”的标准，比如，一个句号代表一句话的分隔)的前后均插入时间戳，且每句话前面的时间戳代表这句话对应的音频的开始播放时间，而在每句话后面的时间戳则代表这句话对应的音频的播放结束时间。可理解的，所有文本内容对应的音频播放时间点(比如音频的开始播放时间与播放结束时间)均位于从所述视频中提取的所述音频的时间轴上，每个所述时间戳都在所述音频的时间轴上对应一个相同时间的音频播放时间点，且该音频播放时间点与该时间戳关联的文本内容对应。

进一步地，对于相邻的两个文本内容，仅在前一个文本内容之后与后一个文本内容之前选取一个音频播放时间点插入时间戳(此方案适用于相邻的两个文本内容之间不存在空白音频段的情况，可理解的，若两文本内容之间存在空白音频段，亦可使用该方案，此时仅需要在空白音频中选取一个时间点插入即可)，由于插入在前一个文本内容之后的时间戳与放置在后一个文本内容之前的时间戳插入的是同一个时间点，此时，两个时间戳对应的音频播放时间相同。在本实施例的另一方面，在相邻的两个文本内容中存在空白音频段时，可将前一个文本内容之后的时间戳插入前一个文本内容的末尾(对应于所述空白音频段的最前端)，同时将后一个文本内容之前的时间戳插入后一个文本内容的最前端(对应于所述空白音频段的末尾)，此时，两个时间戳对应的音频播放时间并不相同。可理解地，所述时间戳也可以仅插入每个文本内容的前面或者后面，而不一定是前后都有。同理，所述时间戳亦可以设置在每个文本内容中的其他位置，只需要将其与所述文本内容关联，此时，所述时间戳优选为设置为与该文本内容对应的音频开始播放时间相同。

S30，根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

在本实施例的一方面，所述步骤S30包括：

获取所述字幕文本，并获取所述时间戳与所述视频的时间轴之间的对应关系；也即，所述视频包括一个与所述音频的时间轴对应的时间轴；通过对齐所述音频与所述视频的时间轴，同步播放所述音频与视频。因此，在获取到所述字幕文本时，由于所述字幕文本中的时间戳与所述音频的时间轴是对应的，因此同样可根据所述时间戳将所述字幕文本与所述视频的时间轴对齐，从而在播放所述视频时同步显示所述字幕文本。根据所述时间戳与所述视频的时间轴之间的对应关系，将所述字幕文本作为中文字幕显示在所述视频的播放界面的第一预设位置。也即，所述字幕文本可以作为中文字幕显示在所述视频的播放界面的第一预设位置，所述第一预设位置可以是所述视频的播放界面的上方、下方或其他特定的位置。且所述中文字幕显示在所述播放界面上的形式可以根据需求进行设定，比如可设定字体颜色、字体大小、字体形状、阴影、加粗、亮度等。

在本实施例的另一方面，所述步骤S30还包括：

获取所述字幕文本，并调用预设的开源翻译接口将所述字幕文本翻译为外文字幕；也即，所述字幕文本可以调用开源翻译接口翻译为除中文之外的其他语言，比如英文、日文、韩文等。

将所述外文字幕显示在所述视频的播放界面的第二预设位置。也即，翻译之后的除中文之外的其他语言可以作为外文字幕显示在所述视频的播放界面的第二预设位置上。所述第二预设位置可以是所述视频的播放界面的上方、下方或其他特定的位置。且所述外文字幕显示在所述播放界面上的形式可以根据需求进行设定，比如可设定字体颜色、字体大小、字体形状、阴影、加粗、亮度等。

可理解的，所述中文字幕和所述外文字幕可以同时显示，且可以同时调用多个开源翻译接口同时将所述字幕文本翻译为多种外文字幕之后，同时显示中文字幕和多种外文字幕，亦可以仅显示多种外文字幕，也即，字幕种类的选择可以根据用户需求进行修改；同理，依照上述，所述第一预设位置可以与所述第二预设位置相同或不同。

S40，接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳。

也即，用户可通过关键词在所述字幕文本中查询该关键词，在查询到该关键词之后，将包含所述关键词的一个或多个文本内容(每个文本内容中均包含至少一个与该文本内容关联的目标时间戳)显示在查询界面上。可理解的，所述目标时间戳(包含在上述多个时间戳中)与所述音频的时间轴及所述视频的时间轴均存在一一对应关系。

S50，根据所述目标时间戳播放所述音频和所述视频。

在本实施例中，用户可以在查询界面上选取与目标时间戳关联的文本内容，所述目标时间戳即为所述音频的音频播放时间和所述视频的视频播放时间；此时在所述音频的时间轴上找寻到所述音频播放时间开始播放所述音频，在所述视频的时间轴上找寻到所述视频播放时间开始播放所述视频。

本实施例的视频播放方法通过对视频中的音频进行语音识别之后将其转换为字幕文本，且在所述字幕文本中插入用于进行定位的时间戳，从而在需要对视频的播放位置进行检索时，仅需要通过检索所述字幕文本中的关键词及其对应的目标时间戳，即可在所述视频的时间轴上准确定位其播放位置，极大地提高了对视频的分析与利用率；本申请的视频检索定位精准，且可以高效快捷地将字幕文本输出并显示在所述视频上的对应位置，大大提升了用户体验。本申请可应用于法院庭审视频处理、培训视频检索等场景中。

在一实施例中，如图3所示，所述步骤S20，也即将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳，包括如下步骤：

S201，将所述音频文件转换为所述文件流；由于所述音频文件的为wav格式等，因此，只需要将wav等格式的音频文件转化为文件流即可。

S202，通过所述语音识别接口将所述文件流转换为所述字幕文本；也即，在该步骤中将上述音频文件转换的所述文件流传输至所述语音识别接口中，通过所述语音识别接口对所述文件流进行语音识别之后，将其转换为字幕文本。

具体地，所述步骤S202包括：令所述语音识别接口通过声学特征、各个词在上下文中的关系、文字与发音之间的映射关系对所述文件流进行解码，并获取所述文件流解码后生成的所述字幕文本；其中，所述声学特征包括各个发音之间的转移关系、发音与声波特征之间的关系。也即，所述文件流解码后，生成与所述音频文件对应的字幕文本。

上述声学特征、各个词在上下文中的关系、文字与发音之间的映射关系等，可以通过建立各参数之间的数学模型并通过不断的训练完善该模型。比如，可以根据各个发音之间的转移关系、发音与声波特征之间的关系建立声学模型；根据各个词在上下文中的关系建立语言模型；根据文字与发音之间的映射关系建立词典模型；此后，对建立的声学模型、语言模型、词典模型各自进行训练，再通过训练之后的声学模型、语言模型、词典模型对所述文件流进行解码，使所述文件流转换为字幕文本。

S203，在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联；其中，所述字幕文本中插入的所述时间戳与所述音频的播放时间对应。

时间戳是指对应于音频播放时间的时间标记，且每个文本内容关联有至少一个时间戳，可理解的，一个文本内容的前后(所述时间戳亦可以设置在每个文本内容中的其他位置，只需要将其与所述文本内容关联)均可以插入时间戳；作为优选，可以在每个文本内容前面插入时间戳代表所述文本内容对应的音频的开始播放时间，而在每个文本内容后面插入时间戳代表所述文本内容对应的音频的播放结束时间。

在一实施例中，如图4所示，所述步骤S203包括以下步骤：

S2031、按照所述预设规则将所述字幕文本划分为多个文本内容；其中，所述预设规则包括按照字、词、句、段对所述字幕文本进行划分。可理解的，所述预设规则包括但不限定于为按照字、词、句、段等对所述字幕文本进行划分。比如，所述预设规则为：将每段话各自划分为一个文本内容。此时，可以在每段话(每段话都代表一个文本内容，可以用回车符来设定“句”的标准，比如，一个回车符代表一段话的分隔)的前、后(或其他位置)插入时间戳，并将所述时间戳与所述文本内容关联。

S2032、在各所述文本内容之前或/和所述文本内容之后插入与所述文本内容关联的时间戳，并将所述时间戳与所述时间戳之前或之后的文本内容关联；其中，所述字幕文本中插入的所述时间戳与所述音频的播放时间对应；可理解的，所述时间戳亦可以设置在每个文本内容中除前、后之外的其他位置，只需要将其与所述文本内容关联即可；此时，所述时间戳优选为设置为与该文本内容对应的音频的开始播放时间相同，所述时间戳即为该文本内容对应的这一段音频的播放时间的最前端的时间，此时，只要在所述音频的时间轴上找寻与该时间戳相同的音频播放时间，即可开始播放该文本内容对应的音频。同理，由于所述音频是从视频中分离，因此所述音频的音频播放时间与所述视频的视频播放时间是一致对应的，因此，亦可以在所述视频的时间轴上找寻与该时间戳相同的视频播放时间，即可开始播放该文本内容对应的视频。

S2033、将包含所述时间戳的所述字幕文本存储至数据库。也即，由于所述字幕文本被划分为多个文本内容，且所述时间戳与多个所述文本内容关联，因此，存储至所述数据库的是多个文本内容以及与多个所述文本内容关联的多个时间戳。

在一实施例中，如图5所示，所述步骤S40，也即接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的所述目标时间戳，包括以下步骤：

S401，接收包含所述关键词的查询指令，所述关键词由用户在查询界面通过语音输入或通过输入框键入；也即，用户可以在客户端的查询界面的输入框中输入关键词，并点击可触发查询指令的预设按钮(比如搜索按钮)之后，所述关键词伴随所述查询指令发送至服务器；可理解地，用户亦可以通过客户端的与查询界面关联的语音输入设备，输入所述关键词的语音，服务器可以对所述语音输入设备输入的语音进行识别之后，在所述查询界面上显示所述关键词并供用户进行确认、修改或重新输入；在用户确认输入的所述关键词之后，即将包含所述关键词的所述查询指令发送至服务器。

S402，自数据库中调取包含时间戳的所述字幕文本，并在所述字幕文本中查询所述关键词；也即，当所述数据库中存储有包含多个文本内容以及与多个所述文本内容关联的多个时间戳的字幕文本时，可以在接收到查询指令时，自所述字幕文本的各所述文本内容中查询所述关键词。

S403，获取所述字幕文本中包含所述关键词的所有文本内容，并将所有所述文本内容以及与各所述文本内容关联的所述目标时间戳显示在所述查询界面上。也即，在上述步骤S402中查询到一个或多个所述文本内容中包含所述关键词时，将包含所述关键词的一个或多个所述文本内容显示在所述查询界面上，生成一个文本内容列表；且所述文本内容列表中，每一行(或每一列)展示的项目包括但不限定于为文本内容的摘要或全文、文本内容关联的目标时间戳(在所述目标时间戳为多个的情况下，可仅显示一个目标时间戳，且显示的这个目标时间戳优选为与该文本内容对应的音频的开始播放时间相同的目标时间戳)、文本内容的排序等。

可理解的，在生成所述文本内容列表的同时，可以根据所述目标时间戳调取与各所述目标时间戳关联的各所述文本内容所对应的各音频段(或以该音频段为起始的后半段音频)，并将所述音频段显示在音频列表中。在一个实施例中，所述音频列表可以与所述文本内容列表同步显示在所述查询界面上；且在点击所述文本内容列表中的展示项目时，该项目所属的文本内容所对应的音频段亦同步显示被选中，且该音频段也可以自动跳转至所述音频列表显示界面的中间的显眼位置(或其他位置)。同理，在点击所述音频列表中的音频段时，不仅会开始播放所述音频段，且所述文本内容列表中对应的所述文本内容亦可同步显示被选中。以上显示方式可供用户在多个文本内容中选取和确认待查询的对象。

同理，在生成所述文本内容列表的同时，亦可以根据所述目标时间戳调取与各所述目标时间戳关联的各所述文本内容所对应的各视频段(或以该视频段为起始的后半段视频，或该目标时间戳的时间所对应的视频画面)，并将所述视频段显示在视频列表中。在一个实施例中，所述视频列表可以与所述文本内容列表和/或所述音频列表同步显示在所述查询界面上。可理解的，仅显示所述文本内容和所述视频列表时，其显示方式可以与仅显示内容列表与所述音频列表时的显示方式相同，在此不再赘述。

在一个实施例中，所述视频列表、所述文本内容列表和所述音频列表同步显示在所述查询界面上，在点击所述文本内容列表中的展示项目时，该项目所属的文本内容所对应的音频段和视频段可同步显示被选中，且该音频段和视频段也可以自动跳转至所述音频列表和所述视频列表的显示界面的中间的显眼位置(或其他位置)。同理，在点击所述音频列表或所述视频列表中的某个音频段或视频段时，不仅会同时开始播放所述音频段和所述视频段，且所述文本内容列表中对应的所述文本内容亦可同步显示被选中；以上显示方式可供用户在多个文本内容中选取和确认待查询的对象。

在一实施例中，如图6所示，所述步骤S50，也即根据所述目标时间戳播放所述音频和所述视频，包括以下步骤：

S501，接收包含当前播放时间的播放指令；所述当前播放时间与所述目标时间戳的时间相同；

在该实施例中，可以在用户选取与目标时间戳关联的文本内容之后，将包含当前播放时间的播放指令发送至服务器，且该播放指令中包含的当前播放时间(当前所述音频的音频播放时间和所述视频的视频播放时间)与所述目标时间戳的时间相同；可理解的，用户选取与目标时间戳关联的文本内容，可以在上述文本内容列表中选取(可以设定与上述步骤S403中的“点击”的操作不同，比如，设定“点击”为鼠标左键的单击，但该步骤中的“选取”为鼠标左键的双击)其中一个项目，也即选取了该项目所属的文本内容及与其关联的目标时间戳；亦可以在上述音频列表或视频列表中选取其中的音频段或视频段，也即选取了该与该音频段或视频段对应的文本内容及与其关联的目标时间戳。在选取与目标时间戳关联的文本内容之后，服务器即接收到包含当前播放时间(与选取的所述目标时间戳对应)的播放指令，并进入步骤S502中。

可理解的，在另一实施例中，若所述目标时间戳并不是文本内容对应的音频的开始播放时间，此时，在选取所述文本内容(在文本内容列表、视频列表或音频列表中选取)之后，会设定所述文本内容对应的音频的开始播放时间作为当前播放时间，此时所述当前播放时间并不等于所述目标时间戳的时间。

S502，自所述当前播放时间播放所述音频和所述视频。

也即，在服务器接收到包含当前播放时间的播放指令之后，可以根据所述当前播放时间，自数据库中调取所述音频，并自所述音频的时间轴中与所述当前播放时间对应的时间开始播放所述音频；同时，自所述数据库中调取所述视频，并自所述视频的时间轴中与所述当前播放时间对应的时间开始播放所述音频。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，如图7所示，提供一种视频播放装置，该视频播放装置与上述实施例中视频播放方法一一对应。该视频播放装置包括提取模块110、转换模块120、字幕显示模块130、查询模块140和播放模块150。各功能模块详细说明如下：

提取模块110，用于自视频中提取音频，并生成音频文件；

转换模块120，用于将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；

字幕显示模块130，用于根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

查询模块140，用于接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；

播放模块150，用于根据所述目标时间戳播放所述音频和所述视频。

本实施例的视频播放装置通过对视频中的音频进行语音识别之后将其转换为字幕文本，且在所述字幕文本中插入用于进行定位的时间戳，从而在需要对视频的播放位置进行检索时，仅需要通过检索所述字幕文本中的关键词及其对应的目标时间戳，即可在所述视频的时间轴上准确定位其播放位置，极大地提高了对视频的分析与利用率；本申请的视频检索定位精准，且可以高效快捷地将字幕文本输出并显示在所述视频上的对应位置，大大提升了用户体验。本申请可应用于法院庭审视频处理、培训视频检索等场景中。

优选地，如图8所示，所述转换模块120包括：

第一转换子模块121，用于将所述音频文件转换为所述文件流；

第二转换子模块122，用于通过所述语音识别接口将所述文件流转换为所述字幕文本；

插入子模块123，用于在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联。

优选地，所述第二转换子模块122还用于令所述语音识别接口通过声学特征、各个词在上下文中的关系、文字与发音之间的映射关系对所述文件流进行解码，并获取所述文件流解码后生成的所述字幕文本；其中，所述声学特征包括各个发音之间的转移关系、发音与声波特征之间的关系。

优选地，所述插入子模块123还用于按照所述预设规则将所述字幕文本划分为多个文本内容；其中，所述预设规则包括按照字、词、句、段对所述字幕文本进行划分；在各所述文本内容之前或/和所述文本内容之后插入与所述文本内容关联的时间戳，并将所述时间戳与所述时间戳之前或之后的文本内容关联；其中，所述字幕文本中插入的所述时间戳与所述音频的播放时间对应；将包含所述时间戳的所述字幕文本存储至数据库。

优选地，如图9所示，所述查询模块140包括：

接收子模块141，用于接收包含所述关键词的查询指令，所述关键词由用户在查询界面通过语音输入或通过输入框键入；

调取子模块142，用于自数据库中调取包含时间戳的所述字幕文本，并在所述字幕文本中查询所述关键词；

显示子模块143，用于获取所述字幕文本中包含所述关键词的所有文本内容，并将所有所述文本内容以及与各所述文本内容关联的所述目标时间戳显示在所述查询界面上。

关于视频播放装置的具体限定可以参见上文中对于视频播放方法的限定，在此不再赘述。上述视频播放装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种终端设备(也即，计算机设备)，该终端设备可以是服务器，其内部结构图可以如图10所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频播放方法。

在一个实施例中，提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

自视频中提取音频，并生成音频文件；将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；根据所述时间戳将所述字幕文本显示在所述视频的播放界面；接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；根据所述目标时间戳播放所述音频和所述视频。

本实施例的终端设备通过对视频中的音频进行语音识别之后将其转换为字幕文本，且在所述字幕文本中插入用于进行定位的时间戳，从而在需要对视频的播放位置进行检索时，仅需要通过检索所述字幕文本中的关键词及其对应的目标时间戳，即可在所述视频的时间轴上准确定位其播放位置，极大地提高了对视频的分析与利用率；本申请的视频检索定位精准，且可以高效快捷地将字幕文本输出并显示在所述视频上的对应位置，大大提升了用户体验。本申请可应用于法院庭审视频处理、培训视频检索等场景中。

在一个实施例中，提供了一个或多个存储有计算机可读指令的非易失性可读存储介质，该非易失性可读存储介质上存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现以下步骤：

本实施例的计算机可读存储介质通过对视频中的音频进行语音识别之后将其转换为字幕文本，且在所述字幕文本中插入用于进行定位的时间戳，从而在需要对视频的播放位置进行检索时，仅需要通过检索所述字幕文本中的关键词及其对应的目标时间戳，即可在所述视频的时间轴上准确定位其播放位置，极大地提高了对视频的分析与利用率；本申请的视频检索定位精准，且可以高效快捷地将字幕文本输出并显示在所述视频上的对应位置，大大提升了用户体验。本申请可应用于法院庭审视频处理、培训视频检索等场景中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种视频播放方法，其特征在于，包括：

自视频中提取音频，并生成音频文件；

将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；

根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；

根据所述目标时间戳播放所述音频和所述视频。
如权利要求1所述的视频播放方法，其特征在于，所述将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳，包括：

将所述音频文件转换为所述文件流；

通过所述语音识别接口将所述文件流转换为所述字幕文本；

在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联。
如权利要求2所述的视频播放方法，其特征在于，所述通过所述语音识别接口将所述文件流转换为所述字幕文本，具体为：

令所述语音识别接口通过声学特征、各个词在上下文中的关系、文字与发音之间的映射关系对所述文件流进行解码，并获取所述文件流解码后生成的所述字幕文本；其中，所述声学特征包括各个发音之间的转移关系、发音与声波特征之间的关系。
如权利要求2所述的视频播放方法，其特征在于，所述在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联，包括：

按照所述预设规则将所述字幕文本划分为多个文本内容；其中，所述预设规则包括按照字、词、句、段对所述字幕文本进行划分；

在各所述文本内容之前或/和所述文本内容之后插入与所述文本内容关联的时间戳，并将所述时间戳与所述时间戳之前或之后的文本内容关联；其中，所述字幕文本中插入的所述时间戳与所述音频的播放时间对应；

将包含所述时间戳的所述字幕文本存储至数据库。
如权利要求1所述的视频播放方法，其特征在于，所述接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳，包括：

接收包含所述关键词的查询指令，所述关键词由用户在查询界面通过语音输入或通过输入框键入；

自数据库中调取包含时间戳的所述字幕文本，并在所述字幕文本中查询所述关键词；

获取所述字幕文本中包含所述关键词的所有文本内容，并将所有所述文本内容以及与各所述文本内容关联的所述目标时间戳显示在所述查询界面上。
一种视频播放装置，其特征在于，包括：

提取模块，用于自视频中提取音频，并生成音频文件；

转换模块，用于将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；

字幕显示模块，用于根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

查询模块，用于接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；

播放模块，用于根据所述目标时间戳播放所述音频和所述视频。
如权利6所述的视频播放装置，其特征在于，所述转换模块包括：

第一转换子模块，用于将所述音频文件转换为所述文件流；

第二转换子模块，用于通过所述语音识别接口将所述文件流转换为所述字幕文本；

插入子模块，用于在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联。
如权利7所述的视频播放装置，其特征在于，所述第二转换子模块还用于令所述语音识别接口通过声学特征、各个词在上下文中的关系、文字与发音之间的映射关系对所述文件流进行解码，并获取所述文件流解码后生成的所述字幕文本；其中，所述声学特征包括各个发音之间的转移关系、发音与声波特征之间的关系。
如权利7所述的视频播放装置，其特征在于，所述插入子模块还用于按照所述预设规则将所述字幕文本划分为多个文本内容；其中，所述预设规则包括按照字、词、句、段对所述字幕文本进行划分；在各所述文本内容之前或/和所述文本内容之后插入与所述文本内容关联的时间戳，并将所述时间戳与所述时间戳之前或之后的文本内容关联；其中，所述字幕文本中插入的所述时间戳与所述音频的播放时间对应；将包含所述时间戳的所述字幕文本存储至数据库。
如权利6所述的视频播放装置，其特征在于，所述查询模块包括：

接收子模块，用于接收包含所述关键词的查询指令，所述关键词由用户在查询界面通过语音输入或通过输入框键入；

调取子模块，用于自数据库中调取包含时间戳的所述字幕文本，并在所述字幕文本中查询所述关键词；

显示子模块，用于获取所述字幕文本中包含所述关键词的所有文本内容，并将所有所述文本内容以及与各所述文本内容关联的所述目标时间戳显示在所述查询界面上。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

自视频中提取音频，并生成音频文件；

将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；

根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；

根据所述目标时间戳播放所述音频和所述视频。
如权利要求11所述的终端设备，其特征在于，所述将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳，包括：

将所述音频文件转换为所述文件流；

通过所述语音识别接口将所述文件流转换为所述字幕文本；

在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联。
如权利要求12所述的终端设备，其特征在于，所述通过所述语音识别接口将所述文件流转换为所述字幕文本，具体为：

令所述语音识别接口通过声学特征、各个词在上下文中的关系、文字与发音之间的映射关系对所述文件流进行解码，并获取所述文件流解码后生成的所述字幕文本；其中，所述声学特征包括各个发音之间的转移关系、发音与声波特征之间的关系。
如权利要求12所述的终端设备，其特征在于，所述在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联，包括：

按照所述预设规则将所述字幕文本划分为多个文本内容；其中，所述预设规则包括按照字、词、句、段对所述字幕文本进行划分；

在各所述文本内容之前或/和所述文本内容之后插入与所述文本内容关联的时间戳，并将所述时间戳与所述时间戳之前或之后的文本内容关联；其中，所述字幕文本中插入的所述时间戳与所述音频的播放时间对应；

将包含所述时间戳的所述字幕文本存储至数据库。
如权利要求11所述的终端设备，其特征在于，所述接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳，包括：

接收包含所述关键词的查询指令，所述关键词由用户在查询界面通过语音输入或通过输入框键入；

自数据库中调取包含时间戳的所述字幕文本，并在所述字幕文本中查询所述关键词；

获取所述字幕文本中包含所述关键词的所有文本内容，并将所有所述文本内容以及与各所述文本内容关联的所述目标时间戳显示在所述查询界面上。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

自视频中提取音频，并生成音频文件；

将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳；

根据所述时间戳将所述字幕文本显示在所述视频的播放界面；

接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳；所述多个时间戳包括所述目标时间戳；

根据所述目标时间戳播放所述音频和所述视频。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述将所述音频文件转换为文件流，并通过语音识别将所述文件流转换为字幕文本；所述字幕文本中包含与所述音频的播放时间对应的多个时间戳，包括：

将所述音频文件转换为所述文件流；

通过所述语音识别接口将所述文件流转换为所述字幕文本；

在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联。
如权利要求17所述的非易失性可读存储介质，其特征在于，所述通过所述语音识别接口将所述文件流转换为所述字幕文本，具体为：

令所述语音识别接口通过声学特征、各个词在上下文中的关系、文字与发音之间的映射关系对所述文件流进行解码，并获取所述文件流解码后生成的所述字幕文本；其中，所述声学特征包括各个发音之间的转移关系、发音与声波特征之间的关系。
如权利要求17所述的非易失性可读存储介质，其特征在于，所述在所述字幕文本中按照预设规则插入时间戳，并将插入的所述时间戳与所述时间戳之前或所述时间戳之后的文本内容关联，包括：

按照所述预设规则将所述字幕文本划分为多个文本内容；其中，所述预设规则包括按照字、词、句、段对所述字幕文本进行划分；

在各所述文本内容之前或/和所述文本内容之后插入与所述文本内容关联的时间戳，并将所述时间戳与所述时间戳之前或之后的文本内容关联；其中，所述字幕文本中插入的所述时间戳与所述音频的播放时间对应；

将包含所述时间戳的所述字幕文本存储至数据库。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述接收包含关键词的查询指令，在所述字幕文本中查询与所述关键词对应的目标时间戳，包括：

接收包含所述关键词的查询指令，所述关键词由用户在查询界面通过语音输入或通过输入框键入；

自数据库中调取包含时间戳的所述字幕文本，并在所述字幕文本中查询所述关键词；

获取所述字幕文本中包含所述关键词的所有文本内容，并将所有所述文本内容以及与各所述文本内容关联的所述目标时间戳显示在所述查询界面上。