WO2019020061A1

WO2019020061A1 - 视频台词处理方法、客户端、服务器及存储介质

Info

Publication number: WO2019020061A1
Application number: PCT/CN2018/097089
Authority: WO
Inventors: 陈姿
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-07-26
Filing date: 2018-07-25
Publication date: 2019-01-31
Also published as: CN109309844B; CN109309844A

Abstract

本申请提供一种视频台词处理方法、视频客户端、视频服务器和计算机可读存储介质，其中方法包括：在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息；从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像；从所述帧图像中识别出台词文本；将识别出的所述台词文本发送至所述视频客户端。基于本申请，用户只需要在视频播放界面中点击视频台词控件，视频服务器便会从对应的帧图像中识别出台词文本，并将台词文本反馈给视频客户端，这样用户便可以在视频客户端的台词操作页面上进行操作，便可以实现对视频台词的相应处理，不需要用户自己手动输入视频台词，非常便捷。

Description

视频台词处理方法、客户端、服务器及存储介质

本申请要求于2017年07月26日提交中国国家知识产权局、申请号为201710616032.8、发明名称为“视频台词处理方法、视频客户端及服务器”的中国专利申请的优先权，上述申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其是涉及一种视频台词处理方法、一种视频客户端、一种视频服务器和一种计算机可读存储介质。

背景技术

随着计算机通信技术、互联网技术以及多媒体技术的发展，通过在线观看视频得到了越来越广泛的应用，用户可以选择在任意时段，通过客户端建立与视频播放服务器的网络连接，查看视频播放服务器提供的各类视频，例如，电影、电视剧或者Flash视频，并选取自己喜好的视频播放文件，点击进行在线下载播放、观看，以享受数字多媒体运营商通过视频播放服务器提供的各种视频扩展服务。

发明内容

本申请实例提供了一种视频台词处理方法。该方法包括：

在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息；

从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像；

从所述帧图像中识别出台词文本；

将识别出的所述台词文本发送至所述视频客户端。

在一些实例中，所述从所述帧图像中识别出台词文本，可以包括：

检测所述帧图像中的字符区域；

去除所检测出的字符区域中的背景；

从去除背景后的字符区域中提取字符序列；其中，所述字符序列包括一个或多个字符图片；

对提取出的所述字符序列中包括的所述一个或多个字符图片进行文本识别，得到所述台词文本。

在一些实例中，所述从所述帧图像中识别出台词文本，还可以包括：

在所述检测所述帧图像中的字符区域之前，对所述帧图像进行预处理。

在一些实例中，所述预处理可以包括平滑处理、版面分析和倾斜度校正中的至少一种。

在一些实例中，所述去除所检测出的字符区域中的背景，可以包括：对所检测出的字符区域进行二值化处理；其中，所述从去除背景后的字符区域中提取字符序列，包括：根据经过所述二值化处理的字符区域中各像素点的像素值，对经过所述二值化处理的字符区域进行字符分割得到所述字符序列。

根据语言句法约束条件，对识别出的所述台词文本进行后处理。

本申请实例提供了一种视频台词处理方法。该方法包括：

响应于对视频播放界面中视频台词控件的操作，向视频服务器发送携带视频标识和时间信息的视频台词处理请求，所述处理请求用于请求所述视频服务器从所述视频标识和所述时间信息所对应的帧图像中识别出台词文本；

在接收到所述视频服务器发送来的所述台词文本时，展示包含所述台词文本的台词操作界面；

响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理。

在一些实例中，所述视频台词处理请求可以为视频台词分享请求；所述台词操作界面中还包括一个或多个可供选择的分享平台和\或评论区的信息。

在一些实例中，所述响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理，可以包括：

响应于对所述台词操作界面中一个分享平台的选择操作，若被选择的分享平台处于登录状态，则展示包含所述台词文本的所述被选择的分享平台的信息发布界面；

响应于对所述被选择的分享平台的信息发布界面的发布操作，将所述台词文本发布到所述被选择的分享平台。

在一些实例中，所述响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理，还可以包括：

响应于对所述台词操作界面中一个分享平台的选择操作，若所述被选择的分享平台处于未登录状态，则展示所述被选择的分享平台的登录界面；

响应于对所述被选择的分享平台的登录界面的登录操作，登录所述被选择的分享平台。

响应于对所述台词操作界面中一个评论区的选择操作，将所述台词文本发布到所述被选择的评论区。

在一些实例中，所述台词文本展示在所述台词操作界面的可编辑文本框内；

所述响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理，包括：响应于对所述可编辑文本框的操作，对所述台词文本进行编辑操作。

本申请实例提供了一种视频服务器。该视频服务器包括：

信息提取模块，用于在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息；

图像获取模块，用于从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像；

台词识别模块，用于从所述帧图像中识别出台词文本；

台词发送模块，用于将识别出的所述台词文本发送至所述视频客户端。

在一些实例中，台词识别模块可以包括：

区域检测单元，用于检测所述帧图像中的字符区域；

背景去除单元，用于去除所检测出的字符区域中的背景；

字符提取单元，用于从去除背景后的字符区域中提取字符序列；其中，所述字符序列包括一个或多个字符图片；

字符识别单元，用于对提取出的所述字符序列中包括的所述一个或多个字符图片进行文本识别，得到所述台词文本。

在一些实例中，台词识别模块还可以包括：

预处理单元，用于在区域检测单元检测所述帧图像中的字符区域之前，对所述帧图像进行预处理。

在一些实例中，背景去除单元可以具体用于：对所检测出的字符区域进行二值化处理；其中，字符提取单元可以具体用于：根据经过所述二值化处理的字符区域中各像素点的像素值，对经过所述二值化处理的字符区域进行字符分割得到所述字符序列。

在一些实例中，台词识别模块还可以包括：

后处理单元，用于根据语言句法约束条件，对台词文本进行后处理。

本申请实例提供了一种视频客户端。该视频客户端包括：

请求发送模块，用于响应于对视频播放界面中视频台词控件的操作，向视频服务器发送携带视频标识和时间信息的视频台词处理请求，以使所述视频服务器从所述视频标识和所述时间信息所对应的帧图像中识别出台词文本；

界面展示模块，用于在接收到所述视频服务器发送来的所述台词文本时，展示包含所述台词文本的台词操作界面；

台词处理模块，用于响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理。

在一些实例中，所述视频台词处理请求为视频台词分享请求；所述台词操作界面中还包括一个或多个可供选择的分享平台和\或评论区的信息。

在一些实例中，台词处理模块可以具体用于：响应于对所述台词操作界面中一个分享平台的选择操作，若被选择的分享平台处于登录状态，则展示包含所述台词文本的所述被选择的分享平台的信息发布界面；响应于对所述被选择的分享平台的信息发布界面的发布操作，将所述台词文本发布到所述被选择的分享平台。

在一些实例中，台词处理模块还可以具体用于：响应于对所述台词操作界面中一个分享平台的选择操作，若所述被选择的分享平台处于未登录状态，则展示所述被选择的分享平台的登录界面；响应于对所述被选择的分享平台的登录界面的登录操作，登录所述被选择的分享平台。

在一些实例中，台词处理模块还可以具体用于：响应于对所述台词操作界面中一个评论区的选择操作，将所述台词文本发布到所述被选择的评论区。

在一些实例中，所述台词文本可以展示在所述台词操作界面的可编辑文本框内，台词处理模块还可以具体用于：响应于对所述可编辑文本框的操作，对所述台词文本进行编辑操作。

本申请实例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

基于上述技术方案，用户只需要在视频播放界面中点击视频台词控件，视频服务器便会从对应的帧图像中识别出台词文本，并将台词文本反馈给视频客户端，这样用户便可以在视频客户端的台词操作页面上进行操作，便可以实现对视频台词的相应处理，不需要用户自己手动输入视频台词，非常便捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实例涉及的系统构架图；

图2是本申请一实例中视频台词处理方法的流程示意图；

图3是本申请一实例中视频播放界面的示意图；

图4是图3中视频台词分享控件301的放大示意图；

图5是本申请一实例中视频播放界面的示意图；

图6是本申请一实例中台词操作界面的示意图；

图7是本申请一实例中视频台词处理方法的流程示意图；

图8是本申请一实例中用户、视频客户端和视频服务器之间的交互示意图；

图9是本申请一实例中视频客户端的结构框图；

图10是本申请一实例中视频服务器的结构框图；

图11是本申请一实例中计算设备的结构示意图。

具体实施方式

本申请提出了一种视频台词处理方法，该方法所应用的系统架构，如图1所示。该系统架构包括：客户端设备101、视频服务器102以及互联网103，客户端设备101与视频服务器102通过互联网103连接。其中：

上述客户端设备101可以是用户的智能手机或电脑，其上安装有各种应用软件的客户端软件，用户可以通过上述客户端设备登录并使用各种应用软件的客户端，该应用软件的客户端可以为多媒体软件的客户端，例如视频客户端。

上述视频服务器102可以是一台服务器，也可以是服务器集群，可以为客户端设备提供视频播放服务。

上述互联网103可以包括有线网络和无线网络。

本申请的发明人发现，用户在客户端设备101上观看影片的过程中，可能会看到一些自己喜欢的或有感触的台词，这时用户可能想要将台词分享到视频客户端的评论区，或者想要将台词分享到朋友圈、微博、qq空间或好友动态等社交平台上，也或者想要将台词复制粘贴到自己选择的文本中，在一种可能的实现方式中，用户可以通过手动输入台词然后进行分享等操作，然而，这种操作方式不是很便捷。

基于以上用户通过手动输入台词然后进行分享的操作方式存在不便捷的问题，本申请提出一种视频台词处理方法，该方法可由客户端设备101中的视频客户端执行，如图2所示，该方法包括：

S201、响应于对视频播放界面中视频台词控件的操作，向视频服务器发送携带视频标识和时间信息的视频台词处理请求，以使所述视频服务器从所述视频标识和所述时间信息所对应的帧图像中识别出台词文本。

上述视频标识，是用于区分不同视频文件或视频流的标识，可以由视频服务器分配，不同的视频文件或视频流对应不同的视频标识。例如，电影《肖生克的救赎》的视频标识为a1，而电影《死亡诗社》的视频标识为b1；再例如，电视剧《父母爱情》第12集的视频标识为c1_12，而电视剧《潜伏》第20集的视频标识为d1_20。

上述时间信息，可以是当前视频的播放时间点(也可称为播放进度、播放位置)，例如，一部电影有90分钟，该部电影的视频数据由很多帧图像组成，不同的播放时间点对应不同的帧图像。客户端设备中的视频客户端可以将时间信息携带在视频处理请求中，以便于视频服务器可以知道用户想要进行台词处理的帧图像是视频标识对应的视频中的哪一帧图像。其中，上述当前视频可以是客户端设备中的视频客户端当前正在播放的视频。

上述视频台词控件，是指展示在视频播放界面中的用于触发台词处理请求的UI(User Interface，用户界面)控件，比如，上述视频台词控件可以表现为播放界面中的图形按键、菜单选项等等多种形式，当用户点击该控件时，视频客户端会执行相应的操作，例如，上述视频台词控件为视频台词分享控件，则用户点击该控件时，视频客户端会向视频播放器发送视频台词分享请求(对应上述视频台词处理请求)。

在上述方案中，视频客户端向视频服务器发送的视频台词处理请求中携带视频标识和时间信息，视频服务器接收到处理请求后，根据视频标识和时间信息获取对应的图像帧。在另一种可能的实现方式中，视频客户端也可以向视频服务器发送包含待处理的帧图像的视频台词处理请求，以便视频服务器直接根据该处理请求中的帧图像进行台词识别，获得台词文本。比如，视频客户端的视频播放界面正在播放一视频，当用户对视频播放界面中视频台词控件的操作时，响应于该对视频台词控件的操作，视频客户端获取视频播放界面当前播放的帧图像，并将获取到的该当前播放的帧图像携带在处理请求中发送给视频服务器。

如图3所示，视频客户端的视频播放界面中设置有一个视频台词分享控件301，当用户在观看视频的过程中，如果想要将当前视频播放界面中的台词分享到某一社交平台(例如，朋友圈)上，此时用户可以点击该视频台词分享控件301。此时由于视频台词分享控件301受到触发，视频客户端便会向视频服务器102发送视频台词处理请求，这样视频服务器102便会从视频台词请求中获取视频标识和时间信息，根据视频标识确定要进行台词处理的是哪一段视频，然后根据时间信息进一步确定要进行台词处理的是该短视频中的哪一帧图像，进而提取出这帧图像，然后从这帧图像中识别出台词文本，最后将台词文本发送给客户端设备101中的视频客户端。

图3中的视频台词分享控件的放大示意图可参考图4，当然也可以采用其他形状的图标作为视频台词控件。

实际上，上述视频台词处理请求并不限于是对台词进行分享处理的请求，还可以是对视频台词进行其他处理的请求，例如对台词进行编辑处理(例如，复制、修改等)的请求。

S202、在接收到所述视频服务器发送来的所述台词文本时，展示包含所述台词文本的台词操作界面；

视频客户端接收到服务器发送过来的台词文本后所展示的台词操作界面可以有多种形式，不同的视频台词处理请求对应不同的台词操作界面。例如，如果在步骤S201中视频客户端发送的是视频台词分享请求，则视频客户端在接收到视频服务器发送来的台词文本时，展示的台词操作界面中还可以包括一个或多个可供选择的分享平台和\或评论区的信息，以供用户选择分享平台或评论区。

举例来说，当视频服务器将图3所示出的视频播放界面中的台词识别出来后，把得到的台词文本反馈给视频客户端，视频客户端在接收到台词文本后展示的台词操作界面如图5所示。在图5中，台词文本显示在文本框501中，在台词操作界面中还包括几个可供选择的分享平台和\或评论区的图标：微信图标502、腾讯qq图标503、微博图标504和评论区图标505，每一个图标可以是对应的一个分享平台或者评论区的控件；其中，微信图标502对应的是微信平台中的朋友圈，用于在被触发后进入微信朋友圈的信息发布界面中，并将台词文本显示在微信朋友圈的信息发布界面中；腾讯qq图标503对应的是qq平台中的qq空间或好友动态，用于在被触发后进入qq空间或好友动态的信息发布界面中，并将台词文本显示在qq空间或好友动态的信息发布界面中；微博图标504对应的是微博平台的微博发布界面，用于在被触发后进入微博的信息发布界面中，并将台词文本显示在微博的信息发布界面中；由于一般的视频播放界面的下方为评论区，在评论区中用户可以发表自己对视频的观看感受等信息，针对这种情况，在图5示出的台词操作界面中还设置有评论区图标505，评论区图标505对应的是当前视频客户端中发表评论的区域，用于在被触发后进入视频播放界面下方的评论区，并将台词文本显示在评论区中。另外，在图5示出的台词操作界面中还设置了一个取消键506，用于取消当前的分享行为，而返回到视频播放界面。

S203、响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理。

在该步骤中，用户对台词操作界面不同的操作，视频客户端可以执行不同的处理过程，仍然以图5为例，对上述步骤S203进行示例说明：

如果用户想要将台词文本发布到朋友圈中，便可以点击微信图标502，这样视频客户端便会展示微信朋友圈的信息发布界面，并在该信息发布界面中显示有台词文本，然后用户点击发送，视频客户端响应于该点击发送的操作，将台词文本发布到微信朋友圈中，之后用户或者用户的好友便可以在朋友圈中看到该用户发表的台词文本；如果用户想要把台词文本发布到qq空间或好友动态中，便可以点击腾讯qq图标503，此时视频客户端便会展示qq空间或好友动态的信息发布界面，并在该信息发布界面中显示台词文本，用户点击发送后，视频客户端响应于该点击发送的操作，将台词文本发布到qq空间或好友动态中，之后用户或者用户的好友便可以在qq空间或好友动态中看到该用户发表的台词文本；如果用户想要将台词文本发布到微博中，便可以点击微博图标504，这样视频客户端会展示微博的信息发布界面，并在该信息发布界面中显示台词文本，然后用户点击发表后，视频客户端响应于该点击发送的操作，将台词文本发布到微博中，之后用户或者用户的好友便可以在微博中看到该用户发布的台词文本；类似的，如果用户想要将台词文本发布在视频客户端的评论区，便会点击评论区图标505，视频客户端响应于该点击评论区图标505的操作，便会将文本框中的台词文本发布到视频播放界面下方的评论区内。

当视频客户端在展示台词操作界面后，用户又不想分享或发布该台词了，此时可以点击台词操作界面中的取消键506，视频客户端响应于该点击取消键506的操作，可以返回该视频播放界面，以便用户继续观看视频。

以上图5以及相关说明均是以对台词进行分享处理为例，当然，对视频台词的处理不限于分享，还可以仅仅是对视频服务器反馈回来的台词文本进行编辑而不需要进行分享，还可以是对视频服务器反馈回来的台词文本进行编辑后再进行分享。针对这两种情况，可以将文本框501配置为可编辑文本框，当用户在可编辑文本框内执行编辑操作时，视频客户端会响应于用户对可编辑文本框的操作，对台词文本进行编辑。例如，对台词文本进行修改(例如，将图5中的英文删除、添加表情等)，然后用户对修改后的台词文本进行复制再将其粘贴到某一个word文档或文本文档中，或者，用户将修改后的台词文本分享到某一社交平台上。

在上文中提到过，图5仅仅是台词操作界面的一种形式，在实际应用中，台词操作界面还可以采用其他的形式，例如，在台词操作界面中，文本框的下方设置有多个虚拟的编辑按键，比如复制键、粘贴键、表情添加键、背景设置键等，不同的按键可以用于执行对台词文本的不同编辑操作。如图6所示，台词操作界面中除了有文本框601、微信图标602、腾讯qq图标603、微博图标604、评论区图标605以及取消键606之外，还有复制键607、粘贴键608以及表情添加键609，用户点击复制键607后，视频客户端响应于点击复制键607的操作，可以将文本框601中的台词文本复制到其他文件中，用户点击粘贴键 608后，视频客户端响应于点击粘贴键608的操作，可以将之前在其他文件中复制的内容粘贴到文本框中，用户点击表情添加键609后，视频客户端响应于点击表情添加键609的操作，可以在文本框中添加表情等。

基于上述分析，本申请实例提供的视频台词处理方法，用户只需要在视频播放界面中点击视频台词控件，视频服务器便会从对应的帧图像中识别出台词文本，并将台词文本反馈给视频客户端，这样用户便可以在视频客户端的台词操作页面上进行操作，便可以实现对视频台词的相应处理，不需要用户自己手动输入视频台词，非常便捷。

在一些实例中，台词操作界面中可包括一个或多个可供选择的分享平台，这样便于用户对分享平台进行选择，这里可能存在两种情况：

(1)被选择的分享平台处于登录状态；

用户在台词操作界面上选择一分享平台时，视频客户端响应于用户在台词操作作界面中对这一分享平台的选择操作，检测用户是否在该分享平台处于登录的状态，若经检测发现该分享平台处于登录状态，便会直接将所述台词文本展示在在所述被选择的分享平台的信息发布界面上。若用户继续点击发布操作，则视频客户端响应于对所述被选择的分享平台的信息发布界面的发布操作，将所述台词文本发布到所述被选择的分享平台。

(2)被选择的分享平台处于未登录的状态；

用户在台词操作界面上选择一分享平台时，视频客户端响应于用户在台词操作作界面中对这一分享平台的选择操作，检测用户是否在该分享平台处于登录的状态，经检测发现该分享平台处于未登录状态，便会展示被选择的分享平台的登录界面，这样用户在登录界面上输入正确的登录信息后，视频客户端会响应于对所述被选择的分享平台的登录界面的登录操作，登录所述被选择的分享平台，进而进行信息发布。

以上方法为视频客户端执行的视频台词处理方法，与以上方法对应的，本申请实例还提供一种视频台词处理方法，该方法可由视频服务器102执行，如图7所示，该方法包括：

S701、在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息。

对于视频标识、时间信息、视频台词处理请求的解释说明在上文中已经介绍，此处不再赘述。

在该步骤中，视频服务器接收视频台词处理请求的方式有多种，其中一种方式为实时监听，当监听到有目的地址为视频服务器的数据时，便将对其进行接收，然后根据数据中的相关信息确定其为视频台词处理请求。

S702、从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像。

在实际场景中，视频服务器向视频客户端传输视频流，这样用户可以在视频客户端观看到由一帧帧图像组成的视频。基于这种情况，步骤S702中从视频标识对应的视频数据中获取时间信息对应的帧图像的方式可以为：视频服务器从当前的视频流中提取时间信息对应的帧图像。当然，提取帧图像的方式不限于此，视频服务器还可以从视频标识对应的视频文件中获取，此时的视频文件为静态的视频文件。比如，视频服务器获取到处理请求携带的视频标识和时间信息后，在视频服务器的数据库或者网络中搜索该视频标识对应的视频文件，并从视频文件中提取该时间信息对应的帧图像。不论采取哪种方式，只要能够获取到视频标识和时间信息对应的帧图像即可。

上述步骤S701和步骤S702，仅以视频台词处理请求中携带视频标识和时间信息为例进行说明，在另一种可能的实现方式中，视频客户端发送来的视频台词处理请求中也可以直接携带上述帧图像，也就是说，视频服务器从视频客户端发送的处理请求中提取上述帧图像。

S703、从所述帧图像中识别出台词文本。

在本申请实例中，上述识别过程，是指将帧图像中点阵图像格式的字符转化为文本的过程。

在该步骤中，从帧图像中识别出台词文本的方式有多种，例如，采用图像识别技术识别出帧图像中的台词文本，在实际应用时具体采用何种方式本申请实例不做限定，只要能够识别出帧图像中的台词文本即可。

S704、将识别出的所述台词文本发送至所述视频客户端。

基于本申请实例提供的视频台词处理方法，当视频服务器接收到视频台词处理请求时，从该请求中提取出视频标识和时间信息，进而根据视频标识和时间信息，获取到对应的帧图像，然后从该帧图像中识别出台词文本，最后将台词文本发送至视频客户端，以便于视频客户端对台词文本进行相应的处理，以达到不需要用户自己手动输入视频台词便可以对台词进行分享、编辑等处理，提高台词处理的便捷性的效果。

在一些实例中，步骤S703中从所述帧图像中识别出台词文本的具体过程可以包括以下步骤：

S7031、检测所述帧图像中的字符区域。

具体的检测方法有多种，例如，在视频播放界面中，台词一般位于视频画面的下方，因此可以通过截取视频画面下方的矩形区域的方式获取字符区域，这种方法虽简单，但是获取到的字符区域可能不是很精确。因此还可以根据字符与播放的背景图像之间的差异性获取字符区域，比如，一个典型的字符区域为一个水平的矩形区域，有陡峭的边缘，而且字符区域内像素值的分布与播放的背景图像的像素分布有很大的差异，利用这些差异便可以检测并截取到字符区域。

当然，为了实现更好的识别效果，还可以在执行步骤S7031之前，对帧图像进行一种或多种方式的预处理，预处理的方式有很多，例如：图像平滑、版面分析、倾斜度校正等，其中：

图像平滑，是指用于突出图像的宽大区域、低频成分、主干部分或抑制图像噪声和干扰高频成分的方式，可以达到使图像亮度平缓渐变，减小突变梯度，改善图像质量的效果。可见，通过图像平滑的预处理方式可以使得帧图像的亮度平缓渐变，画质得到的改善。具体进行图像平滑的方式有多种，例如，插值方法、线性平滑方法、卷积法等等。具体采用何种图像平滑方式可以根据图像噪声的不同而选择，比如，当图像噪声为椒盐噪声或者以椒盐噪声为主时，可以采用线性平滑方法对图像进行平滑处理。

版面分析，是指将数字图像分割成多个区域，并且确定每个区域的类别，比如文本、表格、符号等，实现各个区域的定位。版面分析主要包括三类方法：自顶向下方法、自底向上方法、综合方法。自顶向下方法包括投影分析法、游程合并算法。投影分析法是在某个方向上对二维图像进行投影，通过对直方图分析，结合局部或全局阈值法对其进行区域分割。游程合并算法是指如果同一行中两个相邻的游程距离较短，就将这两个游程合并为一个游程。自底向上方法包括区域生长法，是从图像最小单元进行分析，得到连通体，然后对连通体采用一定的策略进行合并得到更高级的结构，同时在合并过程中获取版面结构信息。自底向上的分析方法适应能力强，能够分析比较复杂的版面，但计算量大。自顶向下和自底向上方法各有优缺点，将两者结合得到的综合方法灵活性强，但在实际应用中针对不同的情况需要采用不同的方案。

倾斜度校正，是指对图像的倾斜度进行修正的过程，首先要估算出图像的倾斜角度，估算文档图像倾斜角的算法主要包括三类：基于投影的方法、基于霍夫变换的方法和基于最小二乘的方法。基于投影的方法利用投影的某些特征进行判断，对文档图像进行不同角度的投影测试，在得到的系列结果中提取最佳的投影效果，从而估算文档图像的倾斜角。该方法缺点是计算量大，得到的倾斜角角度精度取决于进行不同角度投影测试时的单位步长。基于霍夫变换的方法主要是将原始的坐标平面映射到霍夫空间中经过该点的直线上的所有点，其不足之处在于计算的时空复杂度较高，对符号分散的情况，映射角度选择比较困难。基于最小二乘的方法首先选择文档图像的一组特征点，形成包含N个特征向量的特征集，其中每个特征点都是一个独立的样本，假定存在一条直线y＝a+bx，对一组特征点计算残差，令残差最小，解出b的值，即可求出图像的倾斜角。

S7032、去除所检测出的字符区域中的背景。

在该步骤中，去除字符区域的背景的过程，可以理解为是图像净化的过程，去除掉字符区域中的显见噪声，进而改善字符区域的图像质量。

在具体实施时，去除字符区域中的背景的具体方法为多种，其中一种方法为：对所检测出的字符区域进行二值化处理，所谓的二值化处理即为令字符区域中的每个像素为1或0，也就是说，字符区域中的每个像素要么代表字符，要么代表背景。例如，假设二值化处理后得到的字符区域中的各个像素中，用0代表字符，用1代表背景，也就是说，黑色代表字符，白色代表背景，从而实现去除背景的目的。其中，所谓的字符，包括文字、字母、标点符号等。

S7033、从去除背景后的字符区域中提取字符序列。

其中，上述字符序列包括一个或多个字符图片。

基于上述采用二值化进行去除背景的方法，从背景区域后的字符区域中提取字符序列的过程可以采用以下步骤：

根据经过所述二值化处理的字符区域中各像素点的像素值，对经过所述二值化处理的字符区域进行字符分割得到所述字符序列。

假设黑色代表字符，白色代表背景，可以理解的是，同一行中相邻的字符与字符之间有多列像素点的像素值全部是1，同一列中相邻的字符与字符之间有多列像素点的像素值全部是1，即便有的字符是左右结构或上下结构，但是左右结构之间像素值全部为1的像素点的列数不会太大，上下结构之间像素值全部为1的像素点的行数也不会太大，因此可以根据这一点对字符区域进行字符分割，得到字符序列。

以上仅仅是其中一种从字符区域中提取字符序列的方式，当然还可以采用其他的方式进行字符序列的提取，对此本申请实例不做限定。

S7034、对提取出的所述字符序列中包括的所述一个或多个字符图片进行文本识别，得到所述台词文本。

所谓的文本识别，是指将字符点阵图像转换为文字、字母和标点符号的过程，以便于进行文本处理。具体的文本识别过程可以采用印刷体字符识别技术进行识别。当然，还可以采用其他的方式进行识别，例如根据每个字符图片中每一行代表字符的像素点的分布情况，与预先设置的字符库中各个字符的像素点的分布情况进行对比，选取相似度最高的字符作为该字符图片中的字符。假设黑色代表字符，白色代表背景，像素点的分布情况是指字符图片中每一行和每一列中像素值为0的像素点的分布位置和个数等。

当然，在执行完S7034之后，还可以对得到的台词文本进行一定的后处理，以使得到的台词文本更加符合语言的表述方式，例如，根据语言句法约束条件，对识别出的字符进行后处理。

所谓的语言句法，例如状中关系、述宾关系、述补关系、介宾关系等，利用这些语言句法的约束，使识别出的中文台词文本更加符合汉语的语言特征。对于其他语言，也存在一些特定的语言句法，也可以采用相应语言的句法进行约束，使其更符合响应语言的语言特征。

基于以上在视频客户端执行的视频台词处理方法和在视频服务器执行的视频台词处理方法，本申请实例还提供一种由视频客户端和视频服务器共同执行的视频台词处理方法，该方法包括：

1)、视频客户端响应于对视频播放界面中视频台词控件的操作，向视频服务器发送携带视频标识和时间信息的视频台词处理请求；

2)、视频服务器在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息；从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像；从所述帧图像中识别出台词文本；将识别出的所述台词文本发送至所述视频客户端。

3)、视频客户端在接收到所述视频服务器发送来的所述台词文本时，展示包含所述台词文本的台词操作界面；响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理。

对以上方法中的各个步骤中有关技术名词的解释说明、一些举例说明、一些实施方式等内容请参考上述视频客户端执行的视频台词处理方法和上述视频服务器执行的视频台词处理方法中的相应内容，在此不再赘述。

下面结合图8对上述过程进行举例说明：

1、用户点击视频客户端的视频播放界面中的视频台词控件；

2、视频客户端向视频服务器发送视频台词处理请求，在该请求中包含视频标识和时间信息；

3、视频服务器从视频台词处理请求中获取视频标识和时间信息，进而根据视频标识和时间信息确定对应的帧图像；

4、视频服务器检测出上述帧图像中的字符区域；

5、视频服务器对字符区域进行二值化，进而去除字符区域中的背景；

6、视频服务器对去除背景后的字符区域进行字符分割，得到字符序列；

7、视频服务器对字符序列进行识别，得到台词文本；

8、视频服务器将识别出的台词文本发送至视频客户端；

9、视频服务器展示台词操作界面，该界面中包括台词文本；

10、用户在台词操作界面上选择分享平台；

11、视频客户端将台词文本发布在用户选择的分享平台上，从而完成信息分享或发布。

在上述过程中，用户需要做的事情是：一、在视频播放界面上点击视频台词控件；二、在台词操作界面上选择分享平台；可见在上述过程中用户不需要手动输入想要分享的台词，因此可以大大的提高用户操作的便捷性，实现快速分享，如果用户分享的是独播剧的台词，还可以带动视频的流量增长。

与上述视频客户端执行的视频台词处理方法相对应的，本申请实例还提供一种视频客户端，如图9所示，该视频客户端900包括：

请求发送模块901，用于响应于对视频播放界面中视频台词控件的操作，向视频服务器发送携带视频标识和时间信息的视频台词处理请求，以使所述视频服务器从所述视频标识和所述时间信息所对应的帧图像中识别出台词文本；

界面展示模块902，用于在接收到所述视频服务器发送来的所述台词文本时，展示包含所述台词文本的台词操作界面；

台词处理模块903，用于响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理。

在一些实例中，台词处理模块903可以具体用于：响应于对所述台词操作界面中一个分享平台的选择操作，若被选择的分享平台处于登录状态，则展示包含所述台词文本的所述被选择的分享平台的信息发布界面；响应于对所述被选择的分享平台的信息发布界面的发布操作，将所述台词文本发布到所述被选择的分享平台。

在一些实例中，台词处理模块903还可以具体用于：响应于对所述台词操作界面中一个分享平台的选择操作，若所述被选择的分享平台处于未登录状态，则展示所述被选择的分享平台的登录界面；响应于对所述被选择的分享平台的登录界面的登录操作，登录所述被选择的分享平台。

在一些实例中，台词处理模块903还可以具体用于：响应于对所述台词操作界面中一个评论区的选择操作，将所述台词文本发布到所述被选择的评论区。

在一些实例中，所述台词文本可以展示在所述台词操作界面的可编辑文本框内，台词处理模块903还可以具体用于：响应于对所述可编辑文本框的操作，对所述台词文本进行编辑操作。

与视频客户端执行的视频台词处理方法类似的，用户只需要在本申请实例提供的视频客户端的视频播放界面中点击视频台词控件，请求发送模块901便会向视频服务器发送视频台词处理请求，视频服务器便会从对应的帧图像中识别出台词文本，并将台词文本反馈给视频客户端，视频客户端中的界面展示模块902展示包括台词文本的台词操作界面，这样用户便可以在视频客户端的台词操作页面上进行操作，便可以实现对视频台词的相应处理，不需要用户自己手动输入视频台词，非常便捷。

可理解的是，本申请实例提供的视频客户端为上述视频客户端执行的视频台词处理方法的功能架构模块，其有关技术名词的解释、举例说明、可选实施方式、有益效果等内容可以参考上述视频客户端执行的视频台词处理方法的相应内容，此处不再赘述。

与上述视频服务器共同执行的视频台词处理方法相对应的，本申请实例还提供一种视频服务器，如图10所示，该视频服务器1000包括：

信息提取模块1001，用于在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息；

图像获取模块1002，用于从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像；

台词识别模块1003，用于从所述帧图像中识别出台词文本；

台词发送模块1004，用于将识别出的所述台词文本发送至所述视频客户端。

在一些实例中，台词识别模块1003可以具体包括：

区域检测单元，用于检测所述帧图像中的字符区域；

背景去除单元，用于去除所检测出的字符区域中的背景；

在一些实例中，台词识别模块1003还可以包括：

预处理单元，用于在区域检测单元检测所述帧图像中的字符区域之前，对所述帧图像进行预处理。其中，所述预处理可以包括平滑处理、版面分析和倾斜度校正中的至少一种。

在一些实例中，背景去除单元可以具体用于：对所检测出的字符区域进行二值化处理；对应的，字符提取单元可以具体用于：根据经过所述二值化处理的字符区域中各像素点的像素值，对经过所述二值化处理的字符区域进行字符分割得到所述字符序列。

在一些实例中，台词识别模块1003还可以包括：

与上述视频服务器执行的视频台词处理方法类似的，本申请实例提供的视频服务器中的信息提取模块1001在接收到视频台词处理请求时，从该请求中提取出视频标识和时间信息，图像获取模块1002进而根据视频标识和时间信息，获取到对应的帧图像，然后台词识别模块1003从该帧图像中识别出台词文本，最后台词发送模块1004将台词文本发送至视频客户端，以便于视频客户端对台词文本进行相应的处理，以达到不需要用户自己手动输入视频台词便可以对台词进行分享、编辑等处理，非常便捷的效果。

可理解的是，本申请实例提供的视频服务器为上述视频服务器执行的视频台词处理方法的功能架构模块，其有关技术名词的解释、举例说明、可选实施方式、有益效果等内容可以参考上述视频服务器执行的视频台词处理方法的相应内容，此处不再赘述。

本申请还公开一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述视频台词处理方法(例如：上述步骤S201～S203、上述步骤S701～S704)的步骤。

上述存储介质有多种，例如，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还公开一种计算机设备，该设备可以为客户端设备，也可以为视频服务器，如图11所示，该计算机设备包括一个或者多个处理器(CPU)1102、通信模块1104、存储器1106、用户接口1110，以及用于互联这些组件的通信总线1108，其中：

处理器1102可通过通信模块1104接收和发送数据以实现网络通信和/或本地通信。

用户接口1110包括一个或多个输出设备1112，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口1110也包括一个或多个输入设备1114，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器1106可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器1106存储处理器1102可执行的指令集，包括：

操作系统1116，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用1118，包括用于视频台词处理的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括视频客户端900中的部分或者全部指令模块或单元，也可以包括视频服务器1000中的部分或全部指令模块或单元。处理器1102通过执行存储器1106中各单元中至少一个单元中的机器可执行指令，进而能够实现上述各单元或模块中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图11模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

一种视频台词处理方法，其特征在于，所述方法由视频服务器执行，包括：

在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息；

从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像；

从所述帧图像中识别出台词文本；

将识别出的所述台词文本发送至所述视频客户端。
根据权利要求1所述的方法，其特征在于，所述从所述帧图像中识别出台词文本，包括：

检测所述帧图像中的字符区域；

去除所检测出的字符区域中的背景；

从去除背景后的字符区域中提取字符序列；其中，所述字符序列包括一个或多个字符图片；

对提取出的所述字符序列中包括的所述一个或多个字符图片进行文本识别，得到所述台词文本。
根据权利要求2所述的方法，其特征在于，所述从所述帧图像中识别出台词文本，还包括：

在所述检测所述帧图像中的字符区域之前，对所述帧图像进行预处理。
根据权利要求3所述的方法，其特征在于，所述预处理包括如下至少一种：平滑处理、版面分析和倾斜度校正。
根据权利要求2所述的方法，其特征在于，所述去除所检测出的字符区域中的背景，包括：对所检测出的字符区域进行二值化处理；

其中，所述从去除背景后的字符区域中提取字符序列，包括：

根据经过所述二值化处理的字符区域中各像素点的像素值，对经过所述二值化处理的字符区域进行字符分割得到所述字符序列。
根据权利要求2所述的方法，其特征在于，所述从所述帧图像中识别出台词文本，还包括：

根据语言句法约束条件，对识别出的所述台词文本进行后处理。
一种视频台词处理方法，其特征在于，所述方法由视频客户端执行，包括：

响应于对视频播放界面中视频台词控件的操作，向视频服务器发送携带视频标识和时间信息的视频台词处理请求，以使所述视频服务器从所述视频标识和所述时间信息所对应的帧图像中识别出台词文本；

在接收到所述视频服务器发送来的所述台词文本时，展示包含所述台词文本的台词操作界面；

响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理。
根据权利要求7所述的方法，其特征在于，所述视频台词处理请求为视频台词分享请求；所述台词操作界面中还包括一个或多个可供选择的分享平台和\或评论区的信息。
根据权利要求8所述的方法，其特征在于，所述响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理，包括：

响应于对所述台词操作界面中一个分享平台的选择操作，若被选择的分享平台处于登录状态，则展示包含所述台词文本的所述被选择的分享平台的信息发布界面；

响应于对所述被选择的分享平台的信息发布界面的发布操作，将所述台词文本发布到所述被选择的分享平台。
根据权利要求9所述的方法，其特征在于，所述响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理，还包括：

响应于对所述台词操作界面中一个分享平台的选择操作，若所述被选择的分享平台处于未登录状态，则展示所述被选择的分享平台的登录界面；

响应于对所述被选择的分享平台的登录界面的登录操作，登录所述被选择的分享平台。
根据权利要求8所述的方法，其特征在于，所述响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理，包括：

响应于对所述台词操作界面中一个评论区的选择操作，将所述台词文本发布到所述被选择的评论区。
根据权利要求7所述的方法，其特征在于，所述台词文本展示在所述台词操作界面的可编辑文本框内；

所述响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理，包括：

响应于对所述可编辑文本框的操作，对所述台词文本进行编辑操作。
一种视频服务器，其特征在于，包括：

信息提取模块，用于在接收到视频客户端发送来的视频台词处理请求时，提取所述处理请求携带的视频标识和时间信息；

图像获取模块，用于从所述视频标识对应的视频数据中获取所述时间信息对应的帧图像；

台词识别模块，用于从所述帧图像中识别出台词文本；

台词发送模块，用于将识别出的所述台词文本发送至所述视频客户端。
一种视频客户端，其特征在于，包括：

请求发送模块，用于响应于对视频播放界面中视频台词控件的操作，向视频服务器发送携带视频标识和时间信息的视频台词处理请求，以使所述视频服务器从所述视频标识和所述时间信息所对应的帧图像中识别出台词文本；

界面展示模块，用于在接收到所述视频服务器发送来的所述台词文本时，展示包含所述台词文本的台词操作界面；

台词处理模块，用于响应于对所述台词操作界面的操作，对所述台词文本进行相应的处理。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～12任一所述方法的步骤。
一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器中存储有指令集，所述指令集被处理器执行时实现如权利要求1～12任一所述方法的步骤。