WO2014000703A1

WO2014000703A1 - 视频处理方法、终端及字幕服务器

Info

Publication number: WO2014000703A1
Application number: PCT/CN2013/078482
Authority: WO
Inventors: 郜文美; 范姝男; 吕小强; 王雅辉
Original assignee: 华为终端有限公司
Priority date: 2012-06-29
Filing date: 2013-06-29
Publication date: 2014-01-03
Also published as: EP2852168A4; US20150100981A1; EP2852168A1; CN102802044A

Abstract

本发明提供一种视频处理方法、终端及字幕服务器，其中方法包括：接收与视频节目对应的视频节目流；向字幕服务器请求获取与所述视频节目流对应的字幕；接收所述字幕服务器返回的与所述视频节目流对应的字幕；并显示所述视频节目及所述字幕。本发明实现了根据视频节目实时获取字幕。

Description

视频处理方法、终端及字幕服务器本申请要求于 2012 年 6 月 29 日提交中国专利局、申请号为 201210222137.2、名称为 "视频处理方法、终端及字幕服务器" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域本发明涉及通信技术，尤其涉及一种视频处理方法、终端及字幕服务器。背景技术现在的电视剧、电影等已经逐渐开始将字幕作为标配了，但是在现实情况下，还是有很多视频节目中并没有配置字幕，例如新闻节目、综艺节目、体育节目等，尤其是现场直播的节目，更来不及一边播出节目一边编辑字幕；另外还有很多互联网上的视频节目也是没有字幕的；也有一些虽然有字幕，但并未全程加配字幕等各种情况。这样对于观众来说，观看没有字幕的视频节目有些费力，尤其是对于听力有障碍的人士来说，更无法观看没有字幕的视频节目，无法享受到视频节目的乐趣。发明内容本发明提供一种视频处理方法、终端及字幕服务器，以实现根据视频节目实时获取字幕。

本发明的第一方面是提供一种视频处理方法，包括：

接收与视频节目对应的视频节目流，向字幕服务器请求获取与所述视频节目流对应的字幕；

接收所述字幕服务器返回的所述字幕；并显示所述视频节目及所述字幕。在一种可能的实现方式中，所述向字幕服务器请求获取与所述视频节目流对应的字幕，包括：向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

在另一种可能的实现方式中，接收的所述视频节目流中还包括所述视频节目的节目标识；所述向字幕服务器请求获取与所述视频节目流对应的字幕，包括：向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述节目标识，以使得所述字幕服务器根据所述字幕获取请求和所述节目标识确定所述字幕。

在又一种可能的实现方式中，在所述向字幕服务器发送字幕获取请求之后，接收所述字幕服务器返回的所述字幕之前，还包括：接收所述字幕服务器发送的连接失败响应，所述连接失败响应用于表示所述字幕服务器根据所述节目标识连接节目源获取所述音频流失败，所述节目源用于产生所述视频节目流；根据所述连接失败响应，将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器将所述音频流进行语音文字转换生成所述字幕。

在又一种可能的实现方式中，在所述接收与视频节目对应的视频节目流之后，显示所述视频节目以及所述字幕之前，还包括：将接收的与视频节目对应的所述视频节目流进行緩冲存储，至少緩冲存储至所述接收所述字幕服务器返回的与所述视频节目流对应的字幕时。

在又一种可能的实现方式中，接收的所述字幕服务器返回的与所述视频节目流对应的字幕中还包括与所述字幕对应的音频包的包标识；则在所述接收所述字幕服务器返回的与所述视频节目流对应的字幕之后，显示所述视频节目以及所述字幕之前，还包括：根据所述音频包的包标识，将所述字幕与所述音频流进行同步，以同步显示所述视频节目及所述字幕。

本发明的第二方面是提供一种视频处理方法，包括：求；

根据所述请求获取与所述视频节目流对应的字幕，并将所述字幕返回至所述终端，以使得所述终端显示所述视频节目及所述字幕。

在该第二方面的一种可能的实现方式中，所述接收终端发送的用于获取与视频节目对应的视频节目流对应的字幕的请求，包括：接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并接收所述终端发送的所述视频节目流中的音频流；所述获取与所述视频节目流对应的字幕，包括：根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

在另一种可能的实现方式中，所述接收终端发送的用于获取与视频节目对应的视频节目流对应的字幕的请求，包括：接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识；所述获取与所述视频节目流对应的字幕，包括：根据所述字幕获取请求及所述节目标识获取与所述视频节目流对应的字眷。

在又一种可能的实现方式中 ,所述根据所述字幕获取请求及所述节目标识获取与所述视频节目流对应的字幕，包括：根据所述字幕获取请求判断是否已经连接与所述节目标识对应的视频节目所在的所述节目源；若已经连接，则执行所述将所述字幕返回至所述终端；否则，与所述节目源建立连接并获取所述视频节目流中的音频流，将音频流进行语音文字转换生成所述字幕。

在又一种可能的实现方式中，所述方法还包括：若与所述节目源建立连接失败，则向所述终端返回用于表示连接节目源失败的连接失败响应；并接收所述终端根据所述连接失败响应发送的所述终端处的音频流，将所述音频流进行语音文字转换生成所述字幕。

在又一种可能的实现方式中 ,所述将所述音频流进行语音文字转换生成所述字幕，包括：对所述音频流进行语音文字转换生成与所述视频节目流对应的所述字幕，并在所述字幕中设置与所述字幕对应的音频包的包标识，以使得所述终端根据所述音频包的包标识将所述字幕与所述音频流进行同步。

本发明的第三方面是提供一种终端，包括：

节目接收单元，用于接收与视频节目对应的视频节目流；

实时字幕客户端，用于向字幕服务器请求获取与所述视频节目流对应的字幕，并接收所述字幕服务器返回的所述字幕；

节目呈现单元，用于显示所述视频节目及所述字幕。

在该第三方面的一种可能的实现方式中，所述实时字幕客户端，具体用于向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

在另一种可能的实现方式中，所述实时字幕客户端，具体用于向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识，以使得所述字幕服务器根据所述字幕获取请求和所述节目标识确定与所述视频节目流对应的字眷。

在又一种可能的实现方式中，所述实时字幕客户端，还用于在向字幕服务器发送所述字幕获取请求之后，接收所述字幕服务器发送的连接失败响应，所述连接失败响应用于表示所述字幕服务器根据所述节目标识连接节目源获取所述音频流失败，所述节目源用于产生所述视频节目流；以及，根据所述连接失败响应，将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器将所述音频流进行语音文字转换生成所述字幕。

在又一种可能的实现方式中，所述实时字幕客户端，还用于在所述接收与视频节目对应的视频节目流之后，将所述视频节目流进行緩冲存储，至少緩冲存储至所述接收所述字幕服务器返回的与所述视频节目流对应的字幕时。

在又一种可能的实现方式中，所述实时字幕客户端，还用于根据接收的所述字幕服务器返回的与视频节目流对应的字幕中包括的音频包的包标识，将所述字幕与所述音频流进行同步，以使得节目呈现单元同步显示所述视频节目及所述字幕。

本发明的第四方面是提供一种字幕服务器，包括：流中对应的字幕的请求；

字幕获取单元，用于根据所述请求获取与所述视频节目流对应的字幕；字幕发送单元，用于将所述字幕返回至所述终端，以使得所述终端显示所述视频节目及所述字幕。

在该第四方面的一种可能的实现方式中，所述请求接收单元，具体用于接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并接收所述终端发送的所述视频节目流中的音频流；所述字幕获取单元，具体用于根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

在另一种可能的实现方式中，所述请求接收单元，具体用于接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识；所述字幕获取单元，具体用于根据所述字幕获取请求及所述节目标识获取与所述视频节目流对应的字幕。

在又一种可能的实现方式中，所述字幕获取单元包括：判断子单元，用于根据所述字幕获取请求判断是否已经连接与所述节目标识对应的视频节目所在的节目源；所述字幕发送单元，用于在所述判断子单元的判断结果是已经连接时，执行所述将所述字幕返回至所述终端；获取子单元，用于在所述判断子单元的判断结果是未连接时，与所述节目源建立连接并获取所述视频节目流中的音频流；转换子单元，用于将所述音频流进行语音文字转换生成所述字幕。

在又一种可能的实现方式中，所述字幕获取单元还包括：反馈子单元，用于在所述获取子单元与所述节目源建立连接失败时，向所述终端返回用于表示连接节目源失败的连接失败响应；所述请求接收单元，还用于接收所述终端根据所述连接失败响应发送的所述终端处的音频流，以使得所述转换子单元将所述音频流进行语音文字转换生成所述字幕。

在又一种可能的实现方式中，所述转换子单元，还用于在对所述音频流进行语音文字转换生成所述字幕时，在所述字幕中设置与所述字幕对应的音频包的包标识，以使得所述终端 4艮据所述音频包的包标识将所述字幕与所述音频流进行同步。

本发明提供的视频处理方法、终端及字幕服务器的技术效果是：通过在接收到视频节目流时，向字幕服务器获取与视频节目流对应的字幕，并将该字幕与视频节目流对应的视频节目同时显示，实现了根据视频节目实时获取字幕。附图说明图 1为本发明视频处理方法一实施例的流程示意图；

图 2为本发明视频处理方法另一实施例的流程示意图；

图 3为本发明视频处理方法又一实施例的信令示意图；图 4为本发明终端实施例的结构示意图；

图 5为本发明字幕服务器一实施例的结构示意图；

图 6为本发明字幕服务器另一实施例的结构示意图。具体实施方式本发明各实施例中所述的视频节目，包括多种方式下发的视频节目，例如，数字电视（Digital TV , 简称： DTV ) 、交互式网络电视 ( Internet Protocol television, 简称： IPTV ) 、中国移动多媒体广播 ( China Mobile Multimedia Broadcasting, 简称： CMMB ) 、地面波 /卫星 TV、有线电视、 Internet视频等；所述的终端包括多种终端，例如，机顶盒（Set Top Box, 简称： STB ) 、智能电视（SmartTV ) 、移动终端等。

实施例一

图 1为本发明视频处理方法一实施例的流程示意图，本方法可以是终端执行，如图 1所示，本实施例的视频处理方法可以包括：

101、接收与视频节目对应的视频节目流；

其中，所述的视频节目可以是如上所述的多种形式的视频节目，通常是由视频提供商提供的，比如某些服务提供商（Service Provider, 简称： SP )或者内容提供商（Content Provider, 简称： CP )可以提供视频节目。并且，终端接收的是视频提供商发送的该视频节目对应的视频节目流，该视频节目流包括视频流（即视频节目中的画面数据 ) 、以及音频流（即视频节目中的声音数据 )。

102、向字幕服务器请求获取与所述视频节目流对应的字幕；

其中，终端在接收到视频节目流时，不会立即呈现，比如可以对视频节目流进行緩冲，并在该緩冲时间内向字幕服务器例如云端的字幕服务器请求获取与视频节目流对应的字幕，该与视频节目流对应的字幕实际指的是该字幕是与视频节目流中的音频流对应的，例如是对音频流进行语音文字转换得到，并且该字幕要与视频节目一同呈现。

本实施例中，该云端的字幕服务器例如可以是由专业的提供商提供的云端字幕服务器，由于云端通常具有较强的计算能力、数据库存储能力等，能够很方便的扩展语音数据库以及进行语音识别算法的升级，所以云端的字幕服务器语音识别的准确率较高；从云端的字幕服务器可以快速获取到识别准确率较高的字幕。

103、接收所述字幕服务器返回的与所述视频节目流对应的字幕；其中，云端的字幕服务器可以根据终端的获取字幕的请求，获取与视频节目流对应的字幕，并将该字幕发送至终端。该字幕服务器获取字幕的方式有很多种，通常是将该音频流进行语音到文字的转换，即进行语音识别，得到对应的字幕。

104、显示所述视频节目及所述字幕。

其中，终端在接收到云端的字幕服务器返回的字幕时，将该字幕与视频节目流对应的视频节目一起呈现，显示为带有字幕的视频节目。

本实施例的视频处理方法，通过由终端在接收到视频节目流时去字幕服务器获取对应的字幕，再将字幕与视频节目流一起呈现，使得可以实现根据视频节目实时获取字幕；例如，该终端如果接收到一没有字幕的视频节目流，此时，终端就可以按照本实施例所述的方法进行处理，自动获取到该视频节目流对应的字幕，方便了用户对视频节目的观看。可选的，在具体实施中，可以设置一开关用于控制是否启动实时字幕的获取功能，可以由终端的用户控制，如果不想使用实时字幕获取，则不必开启该功能即可；如果在看到视频节目没有字幕且希望启动实时字幕获取功能，则通过该开关开启，终端就可以执行本实施例所述的字幕获取流程了。

实施例二

图 2为本发明视频处理方法另一实施例的流程示意图，本方法可以是字幕服务器执行，本实施例以云端的字幕服务器执行为例；如图 2所示，本实施例的视频处理方法可以包括：目流对应的字幕的请求；

其中，设置在云端的字幕服务器接收到终端发送的获取字幕的请求，请求从该字幕服务器获取与视频节目流对应的字幕。

202、根据所述请求获取与所述视频节目流对应的字幕；

其中，字幕服务器获取字幕的方式有多种，在实施例三中会详细说明；简单举例如下：例如，字幕服务器可能接收到的终端发送的获取字幕请求中就携带有音频流，则字幕服务器直接将该音频流进行语音到文字的转换得到字幕即可；

或者，字幕服务器可能接收到的终端发送的获取字幕请求中仅携带有视频节目的节目标识，则字幕服务器可以根据该节目标识连接到节目源去获取该音频流，然后再进行语音到文字的转换得到字幕；或者，字幕服务器在接收到节目标识时，通过查看得到其自身已经存储有该节目标识对应的音频流的字幕 (该字幕可能是字幕服务器正在为另一终端进行语音识别而暂时存储），则直接将其存储的字幕发送至终端即可。

203、将所述字幕返回至所述终端；

其中，字幕服务器可以通过其与终端之间的字幕流通道将字幕下发至终端；如果事先尚未建立该字幕流通道，则字幕服务器需要首先与终端协商建立字幕流通道再下发字幕。终端在接收到该字幕之后，将同时显示所述视频节目及所述字幕。

本实施例的视频处理方法，通过由云端的字幕服务器获取与视频节目流中对应的字幕，并将该字幕返回至终端，使得终端可以将字幕与视频节目一同显示，实现带字幕的视频节目。

实施例三

图 3为本发明视频处理方法又一实施例的信令示意图，在该图 3中，示出了两个终端即终端 1和终端 2, 其中，在终端 2中示出了其结构，包括节目呈现单元、实时字幕客户端、节目接收单元，还可以包括视频緩冲区 VPD、以及音频緩冲区 APD; 该终端 2中的上述各个单元的具体功能将在实施例四中说明，本实施例是为了将视频处理方法说明的更加清楚，所以对终端的各个单元如何参与该方法的流程进行了介绍。终端 1与终端 2具有相同的结构，在图 3中未显示出来。如图 3所示，本实施例的方法仍然以云端的字幕 Λ良务器为例，该方法可以包括：

301、终端 2上的节目接收单元从视频节目源获取视频节目流；

其中，视频节目源向终端 2发送的视频节目流包括视频流和音频流，该视频录指的是视频节目的画面数据，音频流指的是视频节目的声音数据。

302、终端 2上的实时字幕客户端从节目接收单元接收该视频节目流，并获取与视频节目对应的节目标识；其中，实时字幕客户端设置在节目呈现单元与节目接收单元之间，具体的是设置在音视频緩冲区与节目呈现单元之间，该音视频緩冲区包括视频緩冲区

VPD、音频緩冲区 APD。节目接收单元在接收到视频节目流之后，将进行必要的处理例如解密和解扰，然后会将处理后的视频节目流发向音视频緩冲区，该音视频緩冲区主要用于对视频节目流进行緩冲。

本实施例中，实时字幕客户端可以由用户控制是否开启，例如，用户可以使用遥控器开启终端 2上的实时字幕客户端，以请求开启实时字幕的功能。如果用户没有开启该实时字幕客户端，则音视频緩冲区的视频节目流将直接发送至节目呈现单元进行显示；如果用户开启了该实时字幕客户端，该实时字幕客户端将执行锚定在节目呈现单元与音视频緩冲区之间的相关处理，以使得所有的视频节目流在到达节目呈现单元前都要先到达实时字幕客户端。

具体的，实时字幕客户端可以将真实的 VPD和 APD的输出接口作为该实时字幕客户端的输入，将该输出接口更改为其他名称；同时伪造一个新的 VPD 和 APD的输出接口，作为该实时字幕客户端的输出，使节目呈现单元后续接收的视频节目流均从该伪造的 VPD和 APD输出接口获取，而节目呈现单元并未感知实时字幕客户端的锚定。在经过上述处理后，音视频緩冲区的视频节目流将发送至实时字幕客户端。

此外，该实时字幕客户端还可以从节目接收单元获取当前的视频节目流对应的视频节目的节目标识，或者从音视频緩冲区接收的视频节目流中就包括该节目标识。该节目标识例如是 ProgramlD (能标识视频节目即可）或 URL, 例如，对于 DT V或 IPT V节目，节目标识为可以是 ProgramlD；对于 Internet视频，节目标识可以是 URL。

303、终端 2上的实时字幕客户端向云端的字幕服务器发送字幕获取请求，该字幕获取请求携带节目标识；

其中，本实施例是釆用云端的字幕服务器进行字幕获取的，由于云端具有较强的计算能力，能够很方便的升级识别算法，可以实现字幕的精确识别、多种语言的识别、多种口音 /方言的识别，语音到文字的实时转换精确度较高，从而使用户体验达到最佳。该云端的字幕服务器可以是由专业提供商提供的字幕服务器，可以实现针对所有来源的视频节目（例如，地面波 /卫星 TV、有线电视、 IPTV、 Internet视频等）均提供实时的提供字幕的功能。本实施例中，实时字幕客户端向云端字幕服务器发送的字幕获取请求中可以携带在 302中得到的节目标识（例如， ProgramlD 或者 URL ) , 该字幕获取请求可以通过 HTTP消息承载，消息体可以由 XML方式实现。在字幕获取请求中携带该节目标识，则继续执行 304。

可选的，实时字幕客户端还可以在发送字幕获取请求时，并将视频节目流中的音频流也一并发送至字幕服务器，这样就可以跳转至 309, 即字幕服务器将直接根据该音频流进行语音文字转换生成对应的字幕。

304、云端字幕服务器判断是否已经连接与节目标识对应的视频节目所在的视频节目源；

其中，云端的字幕服务器接收到终端 2发送的字幕获取请求后，将根据该字幕获取请求中携带的节目标识，判断是否已经连接该节目标识对应的视频节目所在的视频节目源。

如果已经连接视频节目源，表明该字幕服务器正在提供该节目标识对应的视频节目的字幕服务（可能是正在为另一个终端提供），则与终端 2协商字幕流通道下发字幕，并跳转至 310 , 将字幕下发至终端 2即可，此时，如果终端 2 所请求的字幕是字幕服务器之前已经转换过的字幕，则字幕服务器可以根据节目标识从其自身存储的字幕中提取。如果没有连接，则继续执行 305。

305、云端字幕服务器与视频节目源建立连接，并获取所述音频流；本实施例中，在 304中如果云端字幕服务器判断自身并没有连接视频节目源，则根据节目标识向视频节目源发送连接请求，该请求中可以携带节目标识，从视频节目源获取与节目标识对应的视频节目流，或者至少是获取该视频节目流中的音频流。否则，若云端字幕服务器与视频节目源建立连接失败，则继续执行 306。

其中，如果所述的视频节目是可以免费获取的，或者字幕服务器的提供商事先与视频节目源的提供商之间有合作关系，允许字幕服务器自由获取视频节目源的视频节目，那么该视频节目的视频节目流或者仅仅是音频流会发给字幕服务器。

306、云端字幕服务器向终端 2返回连接失败响应；

其中，该连接失败响应用于表示云端字幕服务器连接视频节目源失败，则向终端 2返回连接失败响应。 307、终端 2与云端字幕服务器协商建立流媒体通道；

其中，终端 2上的实时字幕客户端接收到连接失败响应后，需要与云端的字幕服务器协商建立流媒体通道；该流媒体通道包括上行的音频流通道（RTP 承载）、下行的字幕流通道（RTP或 FLUTE承载）；具体的流媒体通道的协商方法可以通过 SDP offer/answer方式协商。

308、终端 2将音频流发送至云端字幕服务器；

其中，在 307中的流媒体通道协商成功后，终端 2上的实时字幕客户端将音频流发给云端字幕服务器；该音频流可以是实时字幕客户端之前从音频緩冲区 APD中获取的。

309、云端字幕服务器将音频流进行语音文字转换生成所述字幕，并在字幕中设置同步标识；

其中，为了使得后续字幕的显示与视频节目的画面精确同步，避免有提前或延迟的现象，本实施例的云端字幕服务器在对音频流进行实时的语音到文字转换时，还在字幕中设置了同步标识；该同步标识具体是釆用与字幕对应的音频包的包标识。

例如，字幕服务器可以在每句字幕的开头插入该句字幕第一个字对应的音频包的包标识即 Packet ID , 这样后续终端 2就可以根据该音频包的包标识将字幕与音频流进行同步。

310、云端字幕 Λ良务器将字幕返回至终端 2, 携带同步标识；

其中，字幕服务器将实时转换的字幕通过字幕流通道下发给终端 2上的实时字幕客户端，该字幕可以是 text类型；并将 309中设置的同步标识也一并发送至实时字幕客户端。

311、终端 2对视频节目流进行二级緩冲；

其中，由于字幕是在云端字幕服务器生成的，在到达终端 2后，该字幕与终端 2最初接收的视频节目流相比是有一定时延的；因此，为了保证视频画面与字幕的同步，终端 2的实时字幕客户端需要将接收的原始的视频节目流进行一定的緩冲存储（可以称为二级緩冲），以便实现特定的延迟（例如 10秒），至少是延时至接收到字幕时，从而抵消字幕生成和下发产生的延迟，保证字幕的固有延迟不会导致画面与字幕的不同步。

312、终端 2根据同步标识将字幕与音频流进行同步；其中，终端 2的实时字幕客户端可以根据字幕中的音频包的包标识即 Packet ID, 将字幕与音频流进行同步，而音频流和视频流本身就是同步的，所以经过上述的字幕与音频流的同步，就可以保证在后续显示时字幕与视频画面的同步。

313、终端 2的实时字幕客户端将视频节目流以及字幕都发送至节目呈现单元，以使得节目呈现单元同时显示视频节目及字幕；

其中，终端 2的实时字幕客户端将叠加有字幕的视频节目流发送给节目呈现模块，从而用户此时可以看到带有字幕的视频。

至此，终端 2的流程已经结束；如下的 314 317是假设在终端 2正在执行上述的字幕获取流程时，又有另外的终端 1也请求获取实时字幕，这种情况下对于终端 1的处理流程；其中，该终端 1的流程仅做简单说明，其工作原理与终端 2的字幕获取流程基本相同，具体可以参见前述步骤。

314、终端 1请求获取实时字幕，其中可以携带节目标识；

315、云端字幕服务器根据节目标识，发现已经正在对该节目标识对应的视频节目进行实时的字幕生成；

316、云端字幕服务器与终端 1协商下行的字幕流通道，由于此时终端 1不用上行音频流，所以仅协商一个下行的字幕流通道即可。

317、云端字幕服务器将字幕下发至终端 1 , 同样可以携带同步标识；后续终端 1在接收到该字幕后，将根据该同步标识将字幕叠加在视频节目流中进行显示。

本实施例的视频处理方法，通过由云端的字幕服务器获取与视频节目流对应的字幕，并将该字幕返回至终端，使得终端可以将字幕与视频节目一同显示，实现带字幕的视频节目。

实施例四

图 4为本发明终端实施例的结构示意图，该终端可以执行本发明任意实施例的视频处理方法，本实施例仅对该终端的结构进行简单说明，其详细的结构和工作原理可以结合参见本发明任意方法实施例所述。

如图 4所示，本实施例的终端可以包括：节目接收单元 41、实时字幕客户端 42和节目呈现单元 43; 其中，

节目接收单元 41 , 用于接收与视频节目对应的视频节目流，所述视频节目流包括视频流、音频流；

实时字幕客户端 42,用于向字幕服务器请求获取与所述视频节目流对应的字幕，并接收所述字幕服务器返回的所述字幕；

节目呈现单元 43 , 用于显示所述视频节目及所述字幕。

进一步的，实时字幕客户端 42, 具体用于向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

进一步的，实时字幕客户端 42, 具体用于向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识，以使得所述字幕服务器根据所述字幕获取请求和所述节目标识确定与所述视频节目流对应的字幕。

进一步的，实时字幕客户端 42,还用于在向字幕服务器发送字幕获取请求之后，接收所述字幕服务器发送的连接失败响应，所述连接失败响应用于表示所述字幕服务器根据所述节目标识连接节目源获取所述音频流失败，所述节目源用于产生所述视频节目流；以及，根据所述连接失败响应，将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器将所述音频流进行语音文字转换生成所述字幕。

进一步的，实时字幕客户端 42,还用于在所述接收与视频节目对应的视频节目流之后，将所述视频节目流进行緩冲存储，至少緩冲存储至所述接收所述字幕服务器返回的与所述视频节目流对应的字幕时。

进一步的，实时字幕客户端 42,还用于根据接收的所述字幕服务器返回的与视频节目流对应的字幕中包括的音频包的包标识，将所述字幕与所述音频流进行同步，以使得节目呈现单元同步显示所述视频节目及所述字幕。

实施例五

本实施例提供一种字幕服务器，该字幕服务器可以执行本发明任意实施例的视频处理方法，本实施例仅对该字幕服务器的结构简单说明，其详细结构和工作原理可以结合参见本发明任意方法实施例所述。

图 5为本发明字幕服务器一实施例的结构示意图，如图 5所示，本实施例的字幕服务器可以包括：请求接收单元 51、字幕获取单元 52和字幕发送单元 53; 其中，目流对应的字幕的请求，所述视频节目流包括视频流和音频流；

字幕获取单元 52 , 用于根据所述请求获取与所述视频节目流对应的字幕；字幕发送单元 53 , 用于将所述字幕返回至所述终端，以使得所述终端显示所述视频节目及所述字幕。

图 6为本发明字幕服务器另一实施例的结构示意图，如图 6所示，本实施例的字幕服务器在图 5所示结构的基础上，

进一步的，请求接收单元 51 , 具体用于接收终端发送的字幕获取请求，所述字幕获取请求用于获取与所述视频节目流对应的字幕，并接收所述终端发送的所述视频节目流中的音频流；字幕获取单元 52 , 具体用于根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

进一步的，请求接收单元 51 , 具体用于接收终端发送的字幕获取请求，所述字幕获取请求用于获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识；字幕获取单元 52 , 具体用于根据所述字幕获取请求及所述节目标识获取与所述视频节目流对应的字幕。

进一步的，字幕获取单元 52包括：判断子单元 521、获取子单元 522、转换子单元 523 , 还可以包括反馈子单元 524; 其中，

判断子单元 521 , 用于根据所述字幕获取请求判断是否已经连接与所述节目标识对应的视频节目所在的节目源；

字幕发送单元 53 , 用于在所述判断子单元的判断结果是已经连接时，执行所述将所述字幕返回至所述终端；其中，该字幕发送单元 53还用于在字幕服务器自身已经存储有与视频节目流对应的字幕时，直接从存储的字幕中获取字幕发送；

获取子单元 522 , 用于在所述判断子单元的判断结果是未连接时，与所述节目源建立连接并获取所述视频节目流中的音频流；

转换子单元 523 , 用于将所述音频流进行语音文字转换生成所述字幕；其中 ,该转换子单元 523可以是将获取子单元 522从节目源获得的音频流进行语音文字转换，或者是，当请求接收单元 51接收到的字幕获取请求中携带有音频流时，直接对该音频流进行语音文字转换；反馈子单元 524, 用于在所述获取子单元与所述节目源建立连接失败时，向所述终端返回用于表示连接节目源失败的连接失败响应；

请求接收单元 51 ,还用于接收所述终端根据所述连接失败响应发送的所述终端处的音频流，以使得所述转换子单元将所述音频流进行语音文字转换生成所述字幕。

进一步的，转换子单元 523 , 还用于在对所述音频流进行语音文字转换生成所述字幕时，在所述字幕中设置与所述字幕对应的音频包的包标识，以使得所述终端根据所述音频包的包标识将所述字幕与音频流进行同步。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括： ROM, RAM,磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

权利要求书

1、一种视频处理方法，其特征在于，包括：

接收所述字幕服务器返回的所述字幕，并显示所述视频节目及所述字幕。

2、根据权利要求 1所述的视频处理方法，其特征在于，所述向字幕服务器请求获取与所述视频节目流对应的字幕，包括：

向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

3、根据权利要求 1所述的视频处理方法，其特征在于，接收的所述视频节目流中还包括所述视频节目的节目标识；

所述向字幕服务器请求获取与所述视频节目流对应的字幕，包括：向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述节目标识，以使得所述字幕服务器根据所述字幕获取请求和所述节目标识确定所述字幕。

4、根据权利要求 3所述的视频处理方法，其特征在于，在所述向字幕服务器发送字幕获取请求之后，接收所述字幕服务器返回的所述字幕之前，还包括：接收所述字幕服务器发送的连接失败响应，所述连接失败响应用于表示所述字幕服务器根据所述节目标识连接节目源获取所述音频流失败，所述节目源用于产生所述视频节目流；

根据所述连接失败响应，将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器将所述音频流进行语音文字转换生成所述字幕。

5、根据权利要求 1-4任一所述的视频处理方法，其特征在于，在所述接收与视频节目对应的视频节目流之后，显示所述视频节目以及所述字幕之前，还包括：

将接收的与视频节目对应的所述视频节目流进行緩冲存储，至少緩冲存储至所述接收所述字幕服务器返回的与所述视频节目流对应的字幕时。

6、根据权利要求 1-5任一所述的视频处理方法，其特征在于，接收的所述字幕服务器返回的与所述视频节目流对应的字幕中还包括与所述字幕对应的音频包的包标识；则

在所述接收所述字幕服务器返回的与所述视频节目流对应的字幕之后，显示所述视频节目以及所述字幕之前，还包括：根据所述音频包的包标识，将所述字幕与所述音频流进行同步，以同步显示所述视频节目及所述字幕。

7、一种视频处理方法，其特征在于，包括：求；、一 ' 、 ' 、、根据所述请求获取与所述视频节目流对应的字幕，并将所述字幕返回至所述终端，以使得所述终端显示所述视频节目及所述字幕。

8、根据权利要求 7所述的视频处理方法，其特征在于，的请求，包括：

接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并接收所述终端发送的所述视频节目流中的音频流；所述获取与所述视频节目流对应的字幕，包括：

根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

9、根据权利要求 7所述的视频处理方法，其特征在于，的请求，包括：

接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识；所述获取与所述视频节目流对应的字幕，包括：

根据所述字幕获取请求及所述节目标识获取与所述视频节目流对应的字眷。

10、根据权利要求 9所述的视频处理方法，其特征在于，所述根据所述字幕获取请求及所述节目标识获取与所述视频节目流对应的字幕，包括：

根据所述字幕获取请求判断是否已经连接与所述节目标识对应的视频节目所在的所述节目源；若已经连接，则执行所述将所述字幕返回至所述终端；否则，与所述节目源建立连接并获取所述视频节目流中的音频流，将所述音频流进行语音文字转换生成所述字幕。

11、根据权利要求 10所述的视频处理方法，其特征在于，所述方法还包括：若与所述节目源建立连接失败，则向所述终端返回用于表示连接节目源失败的连接失败响应；并接收所述终端根据所述连接失败响应发送的所述终端处的音频流，将所述音频流进行语音文字转换生成所述字幕。

12、根据权利要求 8或 10所述的视频处理方法，其特征在于，所述将所述音频流进行语音文字转换生成所述字幕，包括：

对所述音频流进行语音文字转换生成与所述视频节目流对应的所述字幕，并在所述字幕中设置与所述字幕对应的音频包的包标识，以使得所述终端根据所述音频包的包标识将所述字幕与所述音频流进行同步。

13、一种终端，其特征在于，包括：

节目接收单元，用于接收与视频节目对应的视频节目流；

节目呈现单元，用于显示所述视频节目及所述字幕。

14、根据权利要求 13所述的终端，其特征在于，

所述实时字幕客户端，具体用于向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

15、根据权利要求 13所述的终端，其特征在于，

所述实时字幕客户端，具体用于向所述字幕服务器发送字幕获取请求，所述字幕获取请求用于获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识，以使得所述字幕服务器根据所述字幕获取请求和所述节目标识确定与所述视频节目流对应的字幕。

16、根据权利要求 15所述的终端，其特征在于，

所述实时字幕客户端，还用于在向字幕服务器发送所述字幕获取请求之后，接收所述字幕服务器发送的连接失败响应，所述连接失败响应用于表示所述字幕服务器根据所述节目标识连接节目源获取所述音频流失败，所述节目源用于产生所述视频节目流；以及，根据所述连接失败响应，将所述视频节目流中的音频流发送至所述字幕服务器，以使得所述字幕服务器将所述音频流进行语音文字转换生成所述字幕。

17、根据权利要求 13-16任一所述的终端，其特征在于，

所述实时字幕客户端，还用于在所述接收与视频节目对应的视频节目流之后，将所述视频节目流进行緩冲存储，至少緩冲存储至所述接收所述字幕服务器返回的与所述视频节目流对应的字幕时。

18、根据权利要求 13-17任一所述的终端，其特征在于，

所述实时字幕客户端，还用于根据接收的所述字幕服务器返回的与视频节目流对应的字幕中包括的音频包的包标识，将所述字幕与所述音频流进行同步，以使得节目呈现单元同步显示所述视频节目及所述字幕。

19、一种字幕服务器，其特征在于，包括：流对应的字幕的请求；

20、根据权利要求 19所述的字幕服务器，其特征在于，

所述请求接收单元，具体用于接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，并接收所述终端发送的所述视频节目流中的音频流；

所述字幕获取单元，具体用于根据所述字幕获取请求将所述音频流进行语音文字转换生成所述字幕。

21、根据权利要求 19所述的字幕服务器，其特征在于，

所述请求接收单元，具体用于接收终端发送的字幕获取请求，所述字幕获取请求用于请求获取与所述视频节目流对应的字幕，所述字幕获取请求携带所述视频节目的节目标识；

所述字幕获取单元，具体用于根据所述字幕获取请求及所述节目标识获取与所述视频节目流对应的字幕。

22、根据权利要求 21所述的字幕服务器，其特征在于，所述字幕获取单元包括：

判断子单元，用于根据所述字幕获取请求判断是否已经连接与所述节目标识对应的视频节目所在的节目源；

所述字幕发送单元，用于在所述判断子单元的判断结果是已经连接时，执行所述将所述字幕返回至所述终端；

获取子单元，用于在所述判断子单元的判断结果是未连接时，与所述节目源建立连接并获取所述视频节目流中的音频流；

转换子单元，用于将所述音频流进行语音文字转换生成所述字幕。

23、根据权利要求 22所述的字幕服务器，其特征在于，所述字幕获取单元还包括：

反馈子单元，用于在所述获取子单元与所述节目源建立连接失败时，向所述终端返回用于表示连接节目源失败的连接失败响应；

所述请求接收单元，还用于接收所述终端根据所述连接失败响应发送的所述终端处的音频流，以使得所述转换子单元将所述音频流进行语音文字转换生成所述字幕。

24、根据权利要求 22所述的字幕服务器，其特征在于，

所述转换子单元，还用于在对所述音频流进行语音文字转换生成所述字幕时，在所述字幕中设置与所述字幕对应的音频包的包标识，以使得所述终端根据所述音频包的包标识将所述字幕与所述音频流进行同步。