WO2020244553A1

WO2020244553A1 - 字幕越界的处理方法、装置和电子设备

Info

Publication number: WO2020244553A1
Application number: PCT/CN2020/094191
Authority: WO
Inventors: 卢永晨
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2019-06-06
Filing date: 2020-06-03
Publication date: 2020-12-10
Also published as: US11924520B2; US20220248102A1; JP7331146B2; JP2022535549A; CN110177295A; CN110177295B

Abstract

本公开公开一种字幕越界的处理方法、装置和电子设备。其中，该字幕越界的处理方法包括：获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；截取所述视频帧的超过所述安全区大小的部分生成合成帧；检测所述合成帧中是否包含文字；如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。本公开实施例的字幕越界的处理方法，通过设置安全区并判断超过安全区的帧片段上是否包含文字，解决了目前需要用户人工判断是否有字幕越界的技术问题。

Description

字幕越界的处理方法、装置和电子设备

相关申请的交叉引用

本申请要求于2019年06月06日提交的，申请号为201910493548.7、发明名称为“字幕越界的处理方法、装置和电子设备”的中国专利申请的优先权，该申请的全文通过引用结合在本申请中。

技术领域

本公开涉及图像处理领域，特别是涉及一种字幕越界的处理方法、装置和电子设备。

背景技术

随着通信技术的发展，各种终端设备，例如智能手机、平板电脑、笔记本电脑等，在人们生活中占据着越来越重要的地位。

现在的终端设备具备娱乐能力，如智能手机、平板电脑等都可以播放多媒体文件，如视频、音频等。而现在的视频中，往往带有字幕，而字幕的位置不固定，可以位于视频中的任何位置。存在这样一种场景，当用户将视频录制好之后，放入终端设备中播放，但是视频的大小与终端的屏幕大小不匹配，导致部分字幕越界进入视屏外的位置，影响观看效果。如图1所示，为上述字幕越界的一个例子，在该例子中，视频中包括了“我是中国人”的字幕，但是由于视频的尺寸大于所述终端设备的尺寸，终端设备又无法检测到字幕超出屏幕的范围，因此其中的“我”字只显示了一部分，影响观看视频的效果。当前的技术方案，一般需要用户判断是否有字幕越界，之后通过调整屏幕的分辨率或者调整字幕的大小或者视频的大小来解决上述问题，非常不方便。

发明内容

根据本公开的一个方面，提供以下技术方案：

一种字幕越界的处理方法，包括：

获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；

根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；

响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；

截取所述视频帧的超过所述安全区大小的部分生成合成帧；

检测所述合成帧中是否包含文字；

如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。

进一步的，所述方法还包括：

当判断所述视频图像中的字幕越界，缩小所述字幕的大小至所述安全区内。

进一步的，所述获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸，包括：

获取终端的显示属性，所述显示属性中包括显示装置的高度以及宽度。

进一步的，所述根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸，包括：

根据第一百分比计算所述安全区的宽度，其中所述第一百分比指示所述安全区的宽度占所述显示装置的宽度的百分比；和/或，

根据第二百分比计算所述安全区的高度，其中多数第二百分比指示所述安全区高度占所述显示装置的高度的百分比。

进一步的，所述响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧，包括：

响应于在所述终端中播放视频图像，随机抽取所述视频图像中的至少一个视频帧或者抽取所述视频图像中的特定视频帧，其中所述特定视频帧为使用预先设置的方法抽取的具有特定特征的视频帧。

进一步的，所述截取所述视频帧的超过所述安全区大小的部分生成合成帧，包括：

根据所述视频帧的大小以及所述安全区的大小计算截取距离；

根据所述截取距离在所述视频帧的宽度方向和/或高度方向上截取帧片段；

将所述宽度方向上的帧片段结合生成合成帧；和/或，

将所述高度方向上的帧片段结合生成合成帧。

进一步的，所述检测所述合成帧中是否包含文字，包括：

将所述合成帧输入文字判断模型；

根据所述文字判断模型的输出判断所述合成帧中是否包含文字。

进一步的，所述文字判断模型通过卷积神经网络训练得到，其中将带有分类标记的训练集合输入所述卷积神经网络，通过监督所述卷积神经网络的输出结果将所述卷积神经网络训练成所述文字判断模型。

进一步的，所述如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界，包括：

如果所述合成帧中包含文字，则判断所述视频图像中的字幕在所述视频图像的宽度方向和/或高度方向上越界。

进一步的，所述当判断所述视频图像中的字幕越界，缩小所述字幕的大小至所述安全区内，包括：

当判断所述视频图像中的字幕越界，对所述字幕进行缩放以使所述字幕全部位于所述的安全区内；或，将所述视频图像进行缩放以使所述字幕全部位于所述的安全区内。

根据本公开的另一个方面，还提供以下技术方案：

一种字幕越界的处理装置，包括：

尺寸获取模块，用于获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；

安全区建立模块，用于根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；

视频帧抽取模块，用于响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；

帧合成模块，用于截取所述视频帧的超过所述安全区大小的部分生成合成帧；

文字检测模块，用于检测所述合成帧中是否包含文字；

越界判断模块，用于如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。

进一步的，所述装置还包括：

缩放模块，用于当判断所述视频图像中的字幕越界，缩小所述字幕的大小至所述安全区内。

进一步的，所述尺寸获取模块，还包括：

显示属性获取模块，用于获取终端的显示属性，所述显示属性中包括显示装置的高度以及宽度。

进一步的，所述安全区建立模块，还包括：

安全区宽度计算模块，用于根据第一百分比计算所述安全区的宽度，其中所述第一百分比指示所述安全区的宽度占所述显示装置的宽度的百分比；和/或，

安全区高度计算模块，用于根据第二百分比计算所述安全区的高度，其中多数第二百分比指示所述安全区高度占所述显示装置的高度的百分比。

进一步的，所述视频帧抽取模块，还用于：

进一步的，所述帧合成模块，还包括：

截取距离计算模块，用于根据所述视频帧的大小以及所述安全区的大小计算截取距离；

帧片段截取模块，用于根据所述截取距离在所述视频帧的宽度方向和/或高度方向上截取帧片段；

合成模块，用于将所述宽度方向上的帧片段结合生成合成帧；和/或，将所述高度方向上的帧片段结合生成合成帧。。

进一步的，所述文字检测模块，还包括：

输入模块，用于将所述合成帧输入文字判断模型；

判断模块，用于根据所述文字判断模型的输出判断所述合成帧中是否包含文字。

进一步的，所述越界判断模块，还包括：

越界类型判断模块，用于如果所述合成帧中包含文字，则判断所述视频图像中的字幕在所述视频图像的宽度方向和/或高度方向上越界。

进一步的，所述缩放模块，还用于：当判断所述视频图像中的字幕越界，对所述字幕进行缩放以使所述字幕全部位于所述的安全区内；或，将所述视频图像进行缩放以使所述字幕全部位于所述的安全区内。

根据本公开的又一个方面，还提供以下技术方案：

一种电子设备，包括：存储器，用于存储非暂时性计算机可读指令；以及处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现上述任一字幕越界的处理方法所述的步骤。

根据本公开的又一个方面，还提供以下技术方案：

一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行上述任一方法中所述的步骤。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例,并配合附图，详细说明如下。

附图说明

图1为现有技术中字幕越过显示屏幕的边界的示意图；

图2为根据本公开一个实施例的字幕越界的处理方法的流程示意图；

图3为根据本公开一个实施例的计算帧片段的截取距离的示意图；

图4为根据本公开一个实施例的合成帧的示意图；

图5为根据本公开一个实施例的字幕越界的处理方法的流程示意图；

图6为根据本公开一个实施例的字幕越界的处理装置的结构示意图；

图7为根据本公开实施例提供的电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种字幕越界的处理方法。本实施例提供的该字幕越界的处理方法可以由一计算装置来执行，该计算装置可以实现为软件，或者实现为软件和硬件的组合，该计算装置可以集成设置在服务器、终端设备等中。如图2所示，该字幕越界的处理方法主要包括如下步骤S201至步骤S206。其中：

步骤S201：获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；

在本公开中，所述获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸，包括：获取终端的显示属性，所述显示属性中包括显示装置的高度以及宽度。具体的，对于智能手机，其系统信息中一般包括屏幕对象属性，该属性中包括了智能手机的屏幕的高度和宽度，其单位均为像素，对于一般的手机或者平板电脑等终端来说，由于屏幕的分辨率是固定的，因此所述屏幕对象的属性可以看作是常量，而对于普通桌面电脑等可以屏幕分辨率的终端来说，该显示属性也是存在于系统信息中的，可以从系统信息中读取，在此不再赘述。这里可以设获取到的显示装置的尺寸信息为NⅹM，其中N为显示装置的宽度，M为显示装置的高度，N≥1，M≥1。

步骤S202：根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；

在本公开中，所述根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸，包括：根据第一百分比计算所述安全区的宽度，其中所述第一百分比指示所述安全区的宽度占所述显示装置的宽度的百分比；和/或，根据第二百分比计算所述安全区的高度，其中多数第二百分比指示所述安全区高度占所述显示装置的高度的百分比。具体的，所述的第一百分比和第二百分比可以预先设置在固定的存储位置上或者可以根据终端的人机交互接口接收用户的设置命令来实时的设置，设第一百分比为a％，第二百分比为b％，其中0＜a≤100，0＜b≤100，这样，安全区的宽度n＝Nⅹa％,安全区的高度m＝Mⅹb％；在该步骤中，可以只计算安全区的宽度或高度，当只计算安全区的宽度时可以直接设置所述安全区的高度与所述尺寸信息中的高度相同，当只计算安全区的高度时可以直接设置所述安全区的宽度与所述尺寸信息中的宽度相同。

可以理解的，该步骤中还可以使用其他方法来建立安全区，如直接将所述安全区设置为与显示装置的尺寸相同或者直接设置安全区相对于显示装置的尺寸的偏移量等等，在此不再赘述。所述安全区定义了字幕的显示区域，以使字幕在显示时不会越出显示装置的边界。

步骤S203：响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；

在本公开中，所述响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧，包括：响应于在所述终端中播放视频图像，随机抽取所述视频图像中的至少一个视频帧或者抽取所述视频图像中的特定视频帧，其中所述特定视频帧为使用预先设置的方法抽取的具有特定特征的视频帧。在该步骤中，所述抽取视频图像中的视频帧的抽取方式包括随机抽取，所述的随机抽取可以是随机抽取连续的几帧或者随机抽取固定间隔的几帧或者顺序的随机抽取几帧，随机的方式并不做限制，任何随机的抽取方式都可以应用到本公开中来。或者，在该步骤中也可以抽取特定的视频帧，所述特定的视频可以是使用预先设置的方法抽取具体特定特征的视频帧，比如通过文字识别模型识别出具有文字的视频帧，将所述具有文字的视频帧从视频图像中抽取出来。

步骤S204：截取所述视频帧的超过所述安全区大小的部分生成合成帧；

在本公开中，所述截取所述视频帧的超过所述安全区大小的部分生成合成帧，包括：根据所述视频帧的大小以及所述安全区的大小计算截取距离；根据所述截取距离在所述视频帧的宽度方向和/或高度方向上截取帧片段；将所述宽度方向上的帧片段结合生成合成帧；和/或，将所述高度方向上的帧片段结合生成合成帧。。在该步骤中，所述根据所述视频帧的大小以及所述安全区的大小计算截取距离，可以是直接通过所述视频帧的宽度减去安全区的宽度，视频帧的高度减去视频帧的高度。具体的，如图3所示，设视频帧301的大小为700ⅹ1080，安全区302的大小为540ⅹ960，则可以计算在宽度方向的截取距离303为(700-540)/2＝80，在高度方向的截取距离304为(1080-960)/2＝60。所述根据所述视频帧的大小以及所述安全区的大小计算截取距离，还可以是以所述视频帧的宽度减去安全区的宽度的结果为阈值来计算截取距离，还以上述图3中的例子为例，以80为在宽度方向上的截取距离的最大值，以60为在高度方向的截取距离的最大值，来计算宽度方向的截取距离和高度方向的截取距离，如各截取距离的最大值的50％作为截取距离，则在宽度方向的截取距离为40，在高度方向上的截取距离为30。通过上述步骤得到截取距离，之后根据所述截取距离在所述视频帧的宽度方向和/或高度方向上截取帧片段，并将将所述宽度方向上的帧片段结合生成合成帧；和/或，将所述高度方向上的帧片段结合生成合成帧。，也即是，宽度方向上截取的两个帧片段合成一个合成帧，高度方向上截取的两个帧片段合成一个合成帧。如图4所示，为在宽度方向上的合成帧，其中左边的帧片段中包括部分“我”字，右边的帧片段中包括部分“人”字。可以理解的是，图4仅仅示出了宽度方向上的合成帧，高度方向的合成帧类似，只是换成上下两个帧片段合成，在此不再赘述。可以理解的是，虽然图4中示出的合成帧的帧片段中包括了文字的，但是实际上生成该合成帧的帧片段中也可以不包括文字，该情况对应于字幕没有越界的情况，在此不再赘述。

步骤S205：检测所述合成帧中是否包含文字；

在本公开中，所述检测所述合成帧中是否包含文字，包括：将所述合成帧输入文字判断模型；根据所述文字判断模型的输出判断所述合成帧中是否包含文字。其中，所述文字判断模型通过卷积神经网络训练得到，其中将带有分类标记的训练集合输入所述卷积神经网络，通过监督所述卷积神经网络的输出结果将所述卷积神经网络训练成所述文字判断模型。在该步骤中，通过预先训练的卷积神经网络来判断合成帧中是否包含文字，所述的卷积神经网络可以是任何卷积申请网络的变形形式，在此不做限制，训练该模型时，首选需要形成训练集合，所述训练集合为带有标记的合成帧图片，如多张如图4所示的图像，被标记为含有文字。将训练集合中的图片输入所述卷积神经网络，并通过sigmoid函数输出，并将输出结果与所述标记对比，如果输入正确则保存当前卷积神经网络的参数，如果不正确则反馈给卷积神经网络使其调整参数并继续输入图片重复上述步骤，直至训练出适应训练集合中所有图片的参数，训练结束，形成文字判断模型。在该步骤中，将步骤S204中生成的合成帧输入所述文字判断模型中，根据模型的输出判断所述合成帧中是否包含文字，可选的，当模型输出为1认为合成帧中包含文字，当模型输出为0，认为合成帧中不包含文字。

可以理解的，上述检测所述合成帧中是否包含文字的实施例仅仅为举例，实际上任何可以检测图片中是否包含文字的方法均可以应用到本公开的技术方案中，在此不再赘述。

步骤S206：如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。

在本公开中，所述如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界，包括：如果所述合成帧中包含文字，则判断所述视频图像中的字幕在所述视频图像的宽度方向和/或高度方向上越界。在该步骤中，如果步骤S205中得到的结果为合成帧中包含文字，则判断所述图像中的字幕越界，进一步的，可以根据所述合成帧为宽度方向上的合成帧还是高度方向上的合成帧来判断所述字幕是在所述视频图像的宽度方向上越界还是高度方向上越界。

本公开公开了一种字幕越界的处理方法、装置和电子设备。其中，该字幕越界的处理方法包括：获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；截取所述视频帧的超过所述安全区大小的部分生成合成帧；检测所述合成帧中是否包含文字；如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。本公开实施例的字幕越界的处理方法，通过设置安全区并判断超过安全区的帧片段上是否包含文字，解决了目前需要用户人工判断是否有字幕越界的技术问题。

如图5所示，上述字幕越界的处理方法，还进一步包括：

步骤S501：当判断所述视频图像中的字幕越界，缩小所述字幕的大小至所述安全区内。

具体的，所述当判断所述视频图像中的字幕越界，缩小所述字幕的大小至所述安全区内，包括：当判断所述视频图像中的字幕越界，对所述字幕进行缩放以使所述字幕全部位于所述的安全区内；或，将所述视频图像进行缩放以使所述字幕全部位于所述的安全区内。该步骤为判断字幕越界后的自动处理步骤，当判断字幕越界，则将字幕缩小，直至字幕位于安全区内为止。缩小所述字幕的大小有两种方式，一种是直接缩放字幕本身，使用该方式时，一般来说字幕是与视频图像分离的，也就是说字幕是外挂式的，可以通过配置文件配置字幕的显示位置、字体的大小以及颜色等等，此时由于安全区的宽度和高度为已知值，只需要根据安全区的宽度和高度去配置字幕文件中的显示位置和/或字体大小等就可以将字幕缩放至所述安全区内；另外一种是直接缩放视频，有时候字幕和视频是合成在一起的，此时字幕是视频图像的一部分，无法单独缩放字幕，此时可以将视频图像进行缩放，将视频图像缩放至安全区的大小，此时所述字幕一定位于安全区内，也就解决了字幕越界的问题。

可以理解的是，上述缩小所述字幕的大小至所述安全区内的两种方式仅仅是举例，其他可以将字幕进行直接或间接缩放的方法均可以应用到本公开中，在此不再赘述。

在上文中，虽然按照上述的顺序描述了上述方法实施例中的各个步骤，本领域技术人员应清楚，本公开实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再加入其他步骤，这些明显变型或等同替换的方式也应包含在本公开的保护范围之内，在此不再赘述。

下面为本公开装置实施例，本公开装置实施例可用于执行本公开方法实施例实现的步骤，为了便于说明，仅示出了与本公开实施例相关的部分，具体技术细节未揭示的，请参照本公开方法实施例。

本公开实施例提供一种字幕越界的处理装置。该装置可以执行上述字幕越界的处理方法实施例中所述的步骤。如图6所示，该装置 600主要包括：尺寸获取模块601、安全区建立模块602、视频帧抽取模块603、帧合成模块604、文字检测模块605和越界判断模块606。其中，

尺寸获取模块601，用于获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；

安全区建立模块602，用于根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；

视频帧抽取模块603，用于响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；

帧合成模块604，用于截取所述视频帧的超过所述安全区大小的部分生成合成帧；

文字检测模块605，用于检测所述合成帧中是否包含文字；

越界判断模块606，用于如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。

进一步的，所述装置600还包括：

进一步的，所述尺寸获取模块601，还包括：

进一步的，所述安全区建立模块602，还包括：

进一步的，所述视频帧抽取模块603，还用于：

进一步的，所述帧合成模块604，还包括：

合成模块，用于将所述宽度方向上的帧片段结合生成合成帧；和/或，将所述高度方向上的帧片段结合生成合成帧。

进一步的，所述文字检测模块605，还包括：

输入模块，用于将所述合成帧输入文字判断模型；

进一步的，所述越界判断模块606，还包括：

图6所示装置可以执行图1和图5所示实施例的方法，本实施例未详细描述的部分，可参考对图1和图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1和图5所示实施例中的描述，在此不再赘述。

下面参考图7，其示出了适于用来实现本公开实施例的电子设备700的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置 709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；截取所述视频帧的超过所述安全区大小的部分生成合成帧；检测所述合成帧中是否包含文字；如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种字幕越界的处理方法，包括：

获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；

根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；

响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；

截取所述视频帧的超过所述安全区大小的部分生成合成帧；

检测所述合成帧中是否包含文字；

如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。
如权利要求1所述的字幕越界的处理方法，还包括：

当判断所述视频图像中的字幕越界，缩小所述字幕的大小至所述安全区内。
如权利要求1所述的字幕越界的处理方法，所述获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸，包括：

获取终端的显示属性，所述显示属性中包括显示装置的高度以及宽度。
如权利要求2所述的字幕越界的处理方法，所述根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸，包括：

根据第一百分比计算所述安全区的宽度，其中所述第一百分比指示所述安全区的宽度占所述显示装置的宽度的百分比；和/或，

根据第二百分比计算所述安全区的高度，其中多数第二百分比指示所述安全区高度占所述显示装置的高度的百分比。
如权利要求1所述的字幕越界的处理方法，其中所述响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧，包括：

响应于在所述终端中播放视频图像，随机抽取所述视频图像中的至少一个视频帧或者抽取所述视频图像中的特定视频帧，其中所述特定视频帧为使用预先设置的方法抽取的具有特定特征的视频帧。
如权利要求1所述的字幕越界的处理方法，其中所述截取所述视频帧的超过所述安全区大小的部分生成合成帧，包括：

根据所述视频帧的大小以及所述安全区的大小计算截取距离；

根据所述截取距离在所述视频帧的宽度方向和/或高度方向上截取帧片段；

将所述宽度方向上的帧片段结合生成合成帧；和/或，

将所述高度方向上的帧片段结合生成合成帧。
如权利要求1所述的字幕越界的处理方法，其中所述检测所述合成帧中是否包含文字，包括：

将所述合成帧输入文字判断模型；

根据所述文字判断模型的输出判断所述合成帧中是否包含文字。
如权利要求7所述的字幕越界的处理方法，其中，

所述文字判断模型通过卷积神经网络训练得到，其中将带有分类标记的训练集合输入所述卷积神经网络，通过监督所述卷积神经网络的输出结果将所述卷积神经网络训练成所述文字判断模型。
如权利要求6所述的字幕越界的处理方法，其中所述如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界，包括：

如果所述合成帧中包含文字，则判断所述视频图像中的字幕在所述视频图像的宽度方向和/或高度方向上越界。
如权利要求2所述的字幕越界的处理方法，其中所述当判断所述视频图像中的字幕越界，缩小所述字幕的大小至所述安全区内，包括：

当判断所述视频图像中的字幕越界，对所述字幕进行缩放以使所述字幕全部位于所述的安全区内；或，将所述视频图像进行缩放以使所述字幕全部位于所述的安全区内。
一种字幕越界的处理装置，包括：

尺寸获取模块，用于获取终端的显示装置的尺寸信息，其中所述尺寸信息指示所述显示装置的尺寸；

安全区建立模块，用于根据所述尺寸信息建立安全区，其中所述安全区小于或等于所述显示装置的尺寸；

视频帧抽取模块，用于响应于在所述终端中播放视频图像，抽取所述视频图像中的视频帧；

帧合成模块，用于截取所述视频帧的超过所述安全区大小的部分生成合成帧；

文字检测模块，用于检测所述合成帧中是否包含文字；

越界判断模块，用于如果所述合成帧中包含文字，则判断所述视频图像中的字幕越界。
一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现根据权利要求1-10中任意一项所述的字幕越界的处理方法。
一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机执行权利要求1-10中任意一项所述的字幕越界的处理方法。