WO2023273729A1

WO2023273729A1 - 字幕显示方法及相关设备

Info

Publication number: WO2023273729A1
Application number: PCT/CN2022/095325
Authority: WO
Inventors: 罗绳礼
Original assignee: 花瓣云科技有限公司
Priority date: 2021-06-30
Filing date: 2022-05-26
Publication date: 2023-01-05
Also published as: CN115550714A

Abstract

本申请公开了一种字幕显示方法及相关设备，电子设备获取一个待播放的视频文件和待显示的字幕文件，然后对视频文件进行解码得到视频帧，对字幕文件进行解码得到字幕帧，之后，电子设备可以从字幕帧中提取字幕色域信息、字幕位置信息等，基于字幕位置信息提取字幕对应的视频帧中字幕显示位置处的色域信息，并基于字幕色域信息与字幕对应的视频帧中字幕显示位置处的色域信息计算字幕识别度，进一步基于字幕识别度计算字幕对应的蒙板的色值、透明度生成带蒙板的字幕帧，之后将视频帧与带蒙板的字幕帧合成、渲染并显示到视频播放窗口。这样，可以在不改变字幕颜色的基础上，提高字幕辨识度，同时也保证视频内容一定的可见性，提高用户体验。

Description

字幕显示方法及相关设备

本申请要求于2021年06月30日提交中国国家知识产权局、申请号为202110742392.9、申请名称为“字幕显示方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种字幕显示方法及相关设备。

背景技术

随着电子产品的迅速发展，手机、平板电脑、智能电视等电子设备已经广泛进入人们的生活，视频播放也成为了这些电子设备的一个重要应用功能，电子设备进行视频播放的同时，在视频播放窗口显示与所播放的视频相关的字幕的应用场景也较为广泛，例如，在视频播放窗口显示与音频同步的字幕，或者，为增加视频的互动性，在视频播放窗口显示用户输入的字幕。

但是，在上述视频播放同时也进行字幕显示的应用场景下，如果视频的颜色和亮度覆盖字幕的颜色，或者，字幕的颜色与字幕显示位置处视频的颜色和亮度重叠度比较高，例如，在高亮场景下显示一些浅色字幕，在雪地场景下显示一些白色字幕等情况下，则会导致字幕辨识度不足，难以被用户看清楚，用户体验差。

发明内容

本申请实施例提供了一种字幕显示方法及相关设备，可以解决用户在观看视频过程中字幕辨识度低的问题，提高用户体验。

第一方面，本申请实施例提供了一种字幕显示方法，该方法包括：电子设备播放第一视频；所述电子设备显示第一界面时，所述第一界面包括第一画面和第一字幕，所述第一字幕以第一蒙板为背景悬浮显示于所述第一画面的第一区域之上，所述第一区域是所述第一字幕的显示位置对应的所述第一画面中的区域，其中，所述第一字幕的色值与所述第一区域的色值的差异值为第一数值；所述电子设备显示第二界面时，所述第二界面包括第二画面和所述第一字幕，所述第一字幕不显示蒙板，所述第一字幕悬浮显示于所述第二画面的第二区域之上，所述第二区域是所述第一字幕的显示位置对应的所述第二画面中的区域，其中，所述第一字幕的色值与所述第二区域的色值的差异值为第二数值，所述第二数值大于所述第一数值；其中，所述第一画面是所述第一视频中的一个画面，所述第二画面是所述第一视频中的另一个画面。

本申请实施例通过实施上述字幕显示方法，电子设备可以在字幕辨识度低的情况下为字幕设置蒙板，在不改变字幕颜色的基础上，提高字幕辨识度。

在一种可能的实现方式中，在所述电子设备显示所述第一画面之前，该方法还包括：所述电子设备获取第一视频文件和第一字幕文件，其中，所述第一视频文件和所述第一字幕文件携带的时间信息相同；所述电子设备基于所述第一视频文件生成第一视频帧，所述第一视频帧用于生成所述第一画面；所述电子设备基于所述第一字幕文件生成第一字幕帧，并在所述第一字幕帧中获取所述第一字幕的色值、显示位置，其中，所述第一字幕帧携带的时间信息与所述第一视频帧携带的时间信息相同；所述电子设备基于所述第一字幕的显示位置确定所述第一区域；所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板；所述电子设备在所述第一字幕帧中将所述第一字幕叠加到所述第一蒙板之上生成第二字幕帧，并将所述第二字幕帧与所述第一视频帧进行合成。这样，电子设备可以获取一个待播放的视频文件和待显示的字幕文件，然后对视频文件进行解码得到视频帧，对字幕文件进行解码得到字幕帧，之后，电子设备可以从字幕帧中提取字幕色域信息、字幕位置信息等，基于字幕位置信息提取字幕对应的视频帧中字幕显示位置处的色域信息，并基于字幕色域信息与字幕对应的视频帧中字幕显示位置处的色域信息计算字幕识别度，进一步基于字幕识别度计算字幕对应的蒙板的色值生成带蒙板的字幕帧，之后将视频帧与带蒙板的字幕帧合成、渲染。

在一种可能的实现方式中，在所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板之前，该方法还包括：所述电子设备确定所述第一数值小于第一阈值。这样，电子设备可以通过确定第一数值小于第一阈值来进一步确定字幕的辨识度低。

在一种可能的实现方式中，所述电子设备确定所述第一数值小于第一阈值，具体包括：所述电子设备将所述第一区域划分为N个第一子区域，其中，所述N为正整数；所述电子设备基于所述第一字幕的色值和所述N个第一子区域的色值确定所述第一数值小于所述第一阈值。这样，电子设备可以通过基于第一字幕的色值和所述N个第一子区域的色值确定所述第一数值小于所述第一阈值。

在一种可能的实现方式中，所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板，具体包括：所述电子设备基于所述第一字幕的色值或所述N个第一子区域的色值确定出一个所述第一蒙板的色值；所述电子设备基于所述第一蒙板的色值生成所述第一蒙板。这样，电子设备可以基于第一字幕的色值或所述N个第一子区域的色值来确定出一个第一蒙板的色值，并进一步为第一字幕生成第一蒙板。

在一种可能的实现方式中，所述电子设备确定所述第一数值小于第一阈值，具体包括：所述电子设备将所述第一区域划分为N个第一子区域，其中，所述N为正整数；所述电子设备基于相邻的所述第一子区域之间的色值的差异值，确定是否将相邻的所述第一子区域合并为第二子区域；当相邻的所述第一子区域之间的色值的差异值小于第二阈值时，所述电子设备将相邻的所述第一子区域合并为所述第二子区域；所述电子设备基于所述第一字幕的色值和所述第二子区域的色值确定所述第一数值小于所述第一阈值。这样，电子设备可以将色值相近的第一子区域进行合并生成第二子区域，进一步基于第一字幕的色值和所述第二子区域的色值确定所述第一数值小于所述第一阈值。

在一种可能的实现方式中，所述第一区域包含M个所述第二子区域，所述M为正整数且小于等于所述N，所述第二子区域包括一个或多个所述第一子区域，每一个所述第二子区域包括的所述第一子区域的个数相同或不同。这样，电子设备可以把第一区域划分为M个第二子区域。

在一种可能的实现方式中，所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板，具体包括：所述电子设备基于所述第一字幕的色值或M个所述第二子区域的色值依次计算M个第一子蒙板的色值；所述电子设备基于所述M个第一子蒙板的色值生成所述M个第一子蒙板，其中，所述M个第一子蒙板组合为所述第一蒙板。这样，电子设备可以为第一字幕生成M个第一子蒙板。

在一种可能的实现方式中，该方法还包括：所述电子设备显示第三界面时，所述第三界面包括第三画面和所述第一字幕，所述第一字幕至少包括第一部分和第二部分，所述第一部分显示第二子蒙板，所述第二部分显示第三子蒙板或不显示所述第三子蒙板，所述第二子蒙板的色值与所述第三子蒙板的色值不同。这样，电子设备上可以显示对应多条子蒙板的字幕。

在一种可能的实现方式中，所述第一蒙板的显示位置是基于所述第一字幕的显示位置确定的。这样，第一蒙板的显示位置可以与第一字幕的显示位置重合。

在一种可能的实现方式中，所述第一蒙板的色值与所述第一字幕的色值的差异值大于所述第一数值。这样，可以提高字幕辨识度。

在一种可能的实现方式中，在所述第一画面和所述第二画面中，所述第一字幕的显示位置相对于所述电子设备的显示屏是不固定的或固定的，所述第一字幕是连续显示的一段文字或符号。这样，第一字幕可以是弹幕或者是与音频同步的字幕，且第一字幕是一条字幕，而不是显示屏中显示的全部字幕。

在一种可能的实现方式中，在所述电子设备显示第一界面之前，该方法还包括：所述电子设备将所述第一蒙板的透明度设置为小于100％。这样，可以保证第一蒙板所在区域对应的视频帧仍然有一定的可见性。

在一种可能的实现方式中，在所述电子设备显示第二界面之前，该方法还包括：所述电子设备基于所述第一字幕的色值或所述第二区域的色值生成第二蒙板，并将所述第一字幕叠加到所述第二蒙板之上，其中，所述第二蒙板的色值为预设色值，所述第二蒙板的透明度为100％；或，所述电子设备不生成所述第二蒙板。这样，对于辨识度高的字幕，电子设备可以为其设置透明度为100％的蒙板，也可以为其设置蒙板。

第二方面，本申请实施例提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行上述第一方面任一项可能的实现方式中所述的方法。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述程序指令在电子设备上运行时，使得所述电子设备执行第一方面任一项可能的实现方式中所述的方法。

第四方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述第一方面任一项可能的实现方式中所述的方法。

附图说明

图1是本申请实施例提供的一种字幕显示方法的流程示意图；

图2A-图2C是本申请实施例提供的一组用户界面示意图；

图3是本申请实施例提供的另一种字幕显示方法的流程示意图；

图4是本申请实施例提供的一个字幕帧示意图；

图5是本申请实施例提供的一个生成字幕对应蒙板的原理示意图；

图6A是本申请实施例提供的一个带蒙板的字幕帧示意图；

图6B-图6C是本申请实施例提供的一组字幕显示的用户界面示意图；

图7A是本申请实施例提供的一种生成字幕对应蒙板方法的流程示意图；

图7B是本申请实施例提供的另一个生成字幕对应蒙板的原理示意图；

图8A是本申请实施例提供的另一个带蒙板的字幕帧示意图；

图8B-图8C是本申请实施例提供的一组字幕显示的用户界面示意图；

图9是本申请实施例提供的一种电子设备的结构示意图；

图10是本申请实施例提供的一种电子设备的软件结构示意图；

图11是本申请实施例提供的另一种电子设备的结构示意图；

图12是本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

应当理解，本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

为了便于理解，下面首先对本申请实施例中涉及的一些相关概念进行说明。

1、视频解码：

通过读取视频文件的二进制数据，根据视频文件的压缩算法解释出视频播放的图像帧(也可以称为视频帧)数据的过程。

2、字幕：

视频播放过程中在视频播放窗口中显示的独立于视频文件之外的文字、符号信息。

3、视频播放：

视频文件经过视频解码、视频渲染等操作之后，在视频播放窗口中按照时间顺序显示一组图像和对应的声音信息的过程。

4、弹幕：

在视频播放客户端(或者称为视频类应用程序)上由用户输入，并可以根据用户输入时间所对应的视频播放的图像帧位置显示到输入用户的视频播放窗口或其他用户在该视频播放客户端的视频播放窗口上的字幕。

随着电子产品的迅速发展，手机、平板电脑、智能电视等电子设备已经广泛进入人们的生活，视频播放也成为了这些电子设备的一个重要应用功能，电子设备进行视频播放的同时，在视频播放窗口显示与所播放的视频相关的字幕的应用场景也较为广泛，例如，在视频播放窗口显示与音频同步的字幕，或者，为增加视频的互动性，在视频播放窗口显示用户输入的字幕(即弹幕)。

在视频播放窗口显示与音频同步的字幕的应用场景下，通常是在视频播放窗口的下方按照字幕的时间戳与视频播放的图像帧的时间戳进行匹配，将字幕与对应的视频播放的图像帧合成，即将字幕叠加到对应的视频帧上面，字幕的位置与视频帧的重叠位置是相对固定的。

在视频播放窗口显示用户输入的字幕(即弹幕)的应用场景下，通常是在视频播放窗口有多条字幕在视频播放过程中由左至右或由右至左产生流动效果，字幕的位置与视频帧的重叠位置是相对不固定的。

在实际的一些应用场景中，为提升视频播放的趣味性，视频播放平台通常会提供给用户可以自主选择字幕颜色的能力。在视频播放窗口显示与音频同步的字幕的应用场景下，字幕颜色通常是系统默认的颜色，用户在进行视频播放的时候可以自主选择自己喜好的字幕颜色，电子设备则会按照用户选择的颜色在视频播放窗口上进行字幕显示。在视频播放窗口显示弹幕的应用场景下，发送弹幕的用户可以自主选择发送的弹幕的颜色，其他用户看到的弹幕颜色与发送弹幕的用户选择的弹幕的颜色保持一致，因此可能出现用户在观看弹幕的时候，同一视频帧上显示的每一条弹幕的颜色可能各不相同的情况。

为实现上述两个应用场景，本申请实施例提供了一种字幕显示方法，电子设备可以先获取一个待播放的视频文件和待显示到视频播放窗口的字幕文件，然后可以分别对视频文件进行视频解码得到视频帧，对字幕文件进行字幕解码得到字幕帧，之后，可以将视频帧与字幕帧按照时间顺序进行对齐匹配，合成最终待显示的视频帧，存储到视频帧队列，之后，按照时间顺序读取并渲染待显示的视频帧，最后，将渲染后的视频帧显示到视频播放窗口。

下面对上述字幕显示方法的方法流程进行详细介绍。

图1示例性示出了本申请实施例提供的一种字幕显示方法的方法流程。

如图1所示，该方法可以应用于具有视频播放能力的电子设备100。下面详细介绍该方法的具体步骤：

阶段一、视频信息流与字幕信息流获取阶段

S101-S102、电子设备100检测到用户在视频类应用程序上播放视频的操作，响应于该操作，电子设备100可以获取视频信息流和字幕信息流。

具体地，电子设备100上可以安装有视频类应用程序，检测到用户在视频类应用程序上播放视频的操作之后，响应于该操作，电子设备100可以获取用户想要播放的视频所对应的视频信息流(或者称为视频文件)和字幕信息流(或者称为字幕文件)。

示例性地，如图2A所示的是电子设备100提供的用于展示电子设备100安装的应用程序的用户界面(user interface，UI)。电子设备100可以检测到用户针对用户界面210上的“视频”应用程序选项211的操作(例如点击操作)，响应于该操作，电子设备100可以显示如图2B所示的示例性用户界面220，用户界面220可以为“视频”应用程序的主界面，电子设备100在检测到用户针对用户界面220上的视频播放选项221的操作(例如点击操作)，响应于该操作，电子设备100可以获取该视频所对应的视频信息流和字幕信息流。

其中，上述视频信息流和字幕信息流可以是电子设备100从上述视频类应用程序的服务器下载的文件或在电子设备100中获取的文件。视频文件和字幕文件中都携带有时间信息。

可以理解的是，图2A和图2B仅仅示例性示出了电子设备100上的用户界面，不应构成对本申请实施例的限定。

阶段二、视频解码阶段

S103、电子设备100上的视频类应用程序向电子设备100上的视频解码模块发送视频信息流。

具体地，视频类应用程序在获取到视频信息流之后，可以向视频解码模块发送该视频信息流。

S104-S105、电子设备100上的视频解码模块解码视频信息流生成视频帧，并向电子设备100上的视频帧合成模块发送该视频帧。

具体地，视频解码模块在接收到视频类应用程序发送的视频信息流之后，可以对该视频信息流进行解码生成视频帧，该视频帧可以是视频播放过程中的全部视频帧，其中，一个视频帧也可以称为一个图像帧，每一个视频帧都可以携带有该视频帧的时间信息(即时间戳)。之后，视频解码模块可以将解码生成的视频帧发送给视频帧合成模块，用于后续生成待显示的视频帧。

其中，视频解码模块对视频信息流进行解码均可以使用现有技术中的视频解码方法，本申请实施例对此不作限定。视频解码方法的具体实现可以参照视频解码相关的技术资料，在此不作赘述。

阶段三、字幕解码阶段

S106、电子设备100上的视频类应用程序向电子设备100上的字幕解码模块发送字幕信息流。

具体地，视频类应用程序在获取到字幕信息流之后，可以向字幕解码模块发送该字幕信息流。

S107-S108、电子设备100上的字幕解码模块解码字幕信息流生成字幕帧，并向电子设备100上的视频帧合成模块发送该字幕帧。

具体地，字幕解码模块在接收到视频类应用程序发送的字幕信息流之后，可以对该字幕信息流进行解码生成字幕帧，该字幕帧可以为视频播放过程中的全部字幕帧，其中，每一个字幕帧中可以包括字幕文字、字幕文字的显示位置、字幕文字的字体颜色、字幕文字的字体格式等，还可以携带有该字幕帧的时间信息(即时间戳)。之后，字幕解码模块可以将解码生成的字幕帧发送给视频帧合成模块，用于后续生成待显示的视频帧。

其中，字幕解码模块对字幕信息流进行解码均可以使用现有技术中的字幕解码方法，本申请实施例对此不作限定。字幕解码方法的具体实现可以参照字幕解码相关的技术资料，在此不作赘述。

需要说明的是，本申请实施例仅仅以先执行阶段二视频解码阶段的步骤，再执行阶段三字幕解码阶段的步骤为例，在一些实施例中，也可以先执行阶段三字幕解码阶段的步骤再执行阶段二视频解码阶段的步骤，或者，阶段二视频解码阶段的步骤与阶段三字幕解码阶段的步骤也可以同时执行，本申请实施例对此不作限定。

阶段四、视频帧合成、渲染及显示阶段

S109-S110、电子设备100上的视频帧合成模块将接收到的视频帧和字幕帧进行叠加合并生成待显示的视频帧，并向电子设备100上的视频帧队列发送该待显示的视频帧。

具体地，视频帧合成模块可以根据视频帧对应的时间信息与字幕帧对应的时间信息进行匹配，匹配完成之后将字幕帧叠加到对应的视频帧上面，并进行合并生成待显示的视频帧。之后，视频帧合成模块可以将该待显示的视频帧发送给视频帧队列。

S111-S113、视频渲染模块可以从视频帧队列中按照时间顺序读取待显示的视频帧，并按照时间顺序对待显示的视频帧进行渲染，生成渲染后的视频帧。

具体地，视频渲染模块可以实时(或每隔一段时间)获取视频帧队列中的待显示的视频帧。在视频帧合成模块将待显示的视频帧发送给视频帧队列之后，视频渲染模块可以从视频帧队列中按照时间顺序读取并渲染待显示的视频帧，生成渲染后的视频帧。之后，视频渲染模块可以把渲染后的视频帧发送给视频类应用程序。

其中，视频渲染模块待显示的视频帧进行渲染均可以使用现有技术中的视频渲染方法，本申请实施例对此不作限定。视频渲染方法的具体实现可以参照视频渲染相关的技术资料，在此不作赘述。

S114、电子设备100显示渲染后的视频帧。

具体地，电子设备100上的视频类应用程序在接收到视频渲染模块发送的渲染后的视频帧之后，可以在电子设备100的显示屏上(即视频播放窗口)显示渲染后的视频帧。

示例性地，如图2C所示的可以是电子设备100执行图1所示的字幕显示方法之后显示的渲染后的视频帧中的某一帧的画面。其中，字幕“我是一条跨了多个色域的字幕”、字幕“辨识度高的字幕”、字幕“看不清的彩色字幕”均为弹幕，弹幕的显示位置相对于电子设备100的显示屏是不固定的。字幕“与音频同步的字幕”的显示位置相对于电子设备100的显示屏是固定的。从图2C中容易看出，字幕“我是一条跨了多个色域的字幕”的前后两端与视频颜色的色差较小，从而导致字幕辨识度较低，用户无法清楚地看到该字幕；字幕“辨识度高的字幕”和字幕“与音频同步的字幕”与视频颜色的色差较大，字幕辨识度较高，用户可以清楚地看到该字幕；字幕“看不清的彩色字幕”的字幕颜色虽然与视频颜色色差并不是很小，但可能由于视频亮度较高，也会导致字幕辨识度较低，用户无法清楚地看到该字幕。

从图2C可以看出，使用图1所示的字幕显示方法，在视频播放同时也进行字幕显示的应用场景下，如果字幕的颜色与字幕显示位置处视频的颜色和亮度重叠度比较高，则会导致字幕辨识度低，难以被用户看清楚，用户体验差。

为解决上述问题，本申请实施例提供了另一种字幕显示方法，电子设备可以先获取一个待播放的视频文件和待显示到视频播放窗口的字幕文件，然后可以分别对视频文件进行视频解码得到视频帧，对字幕文件进行字幕解码得到字幕帧，之后，电子设备可以从字幕帧中提取字幕色域信息、字幕位置信息等，并基于字幕位置信息提取字幕对应的视频帧中字幕显示位置处的色域信息，接着基于字幕色域信息与字幕对应的视频帧中字幕显示位置处的色域信息计算字幕识别度，若字幕识别度较低，则可以为字幕添加蒙板，基于字幕识别度计算蒙板的色值、透明度，从而生成带蒙板的字幕帧，之后，可以将视频帧与带蒙板的字幕帧按照时间顺序进行对齐匹配，合成最终待显示的视频帧，缓存到视频帧队列，之后，按照时间顺序读取并渲染待显示的视频帧，最后，将渲染后的视频帧显示到视频播放窗口。这样，可以在不改变用户选择的字幕颜色的基础上，通过调整字幕蒙板的颜色和透明度来解决字幕辨识度低的问题，同时可以减少字幕对视频内容的遮挡，保证视频内容一定的可见性，提高用户体验。

下面介绍本申请实施例提供的另一种字幕显示方法。

图3示例性示出了本申请实施例提供的另一种字幕显示方法的方法流程。

如图3所示，该方法可以应用于具有视频播放能力的电子设备100。下面详细介绍该方法的具体步骤：

阶段一、视频信息流与字幕信息流获取阶段

S301-S302、电子设备100检测到用户在视频类应用程序上播放视频的操作，响应于该操作，电子设备100可以获取视频信息流和字幕信息流。

其中，步骤S301-步骤S302的具体执行过程可以参照前述图1所示实施例中的步骤S101-步骤S102中的相关内容，在此不再赘述。

阶段二、视频解码阶段

S303、电子设备100上的视频类应用程序向电子设备100上的视频解码模块发送视频信息流。

S304-S305、电子设备100上的视频解码模块解码视频信息流生成视频帧，并向电子设备100上的视频帧合成模块发送该视频帧。

其中，步骤S303-步骤S305的具体执行过程可以参照前述图1所示实施例中的步骤S103-步骤S105中的相关内容，在此不再赘述。

阶段三、字幕解码阶段

S306、电子设备100上的视频类应用程序向电子设备100上的字幕解码模块发送字幕信息流。

S307、电子设备100上的字幕解码模块解码字幕信息流生成字幕帧。

其中，步骤S306-S307的具体执行过程可以参照前述图1所示实施例中的步骤S106-步骤S107中的相关内容，在此不再赘述。

图4示例性示出了字幕解码模块解码字幕信息流生成的其中一个字幕帧。

如图4所示，矩形实线框内部区域可以表示字幕帧显示区域(或者称为视频播放窗口区域)，其可以与视频帧显示区域重合。该区域内可以显示一条或多条字幕，例如，“我是一条跨了多个色域的字幕”、“辨识度高的字幕”、“看不清的彩色字幕”、“与音频同步的字幕”等等，“我是一条跨了多个色域的字幕”、“辨识度高的字幕”等等均可以分别称为一条字幕，该区域内显示的全部字幕可以称为一个字幕组，例如，“我是一条跨了多个色域的字幕”、“辨识度高的字幕”“看不清的彩色字幕”、“与音频同步的字幕”这一组字幕列表可以称为一个字幕组。

其中，图4所示的每一条字幕外的矩形虚线框仅仅是用于标识每一条字幕位置的辅助元素，在视频播放过程中可以不显示。

基于上述对字幕和字幕组的解释说明，如图2C所示，容易理解，图2C所示的画面中显示有四条字幕，分别为“我是一条跨了多个色域的字幕”、“辨识度高的字幕”、“看不清的彩色字幕”、“与音频同步的字幕”，这四条字幕组成了一个字幕组。

S308、电子设备100上的字幕解码模块提取字幕帧中的每一条字幕的字幕位置信息、字幕色域信息等，生成字幕组信息。

具体地，字幕解码模块在生成字幕帧之后，可以在字幕帧中提取出每一条字幕的字幕位置信息、字幕色域信息等，从而生成字幕组信息。其中，字幕位置信息可以为每一条字幕在字幕帧显示区域内的显示位置，字幕色域信息可以包括每一条字幕的色值。字幕组信息可以包括该字幕帧中全部字幕的字幕位置信息、字幕色域信息等。

可选的，字幕色域信息也可以包括字幕的亮度等信息。

下面分别详细介绍字幕位置信息和字幕色域信息的提取过程：

1、字幕位置信息提取过程：

字幕的显示位置区域可以是图4所示的刚好能够涵盖字幕的矩形虚线框的内部区域，或者其他能够涵盖字幕的任意形状的内部区域，本申请实施例对此不作限定。

在本申请实施例中，以矩形虚线框内部区域是字幕的显示位置区域为例对字幕位置信息提取过程进行介绍：

以提取图4所示的字幕“我是一条跨了多个色域的字幕”的字幕位置信息为例，字幕解码模块可以首先在字幕帧显示区域建立一个X-O-Y平面直角坐标系，然后选择字幕帧显示区域内的某一个点(例如矩形实线框左下角顶点)作为参考坐标点O，该参考坐标点O的坐标可以设置为(0，0)，由数学知识可知，字幕“我是一条跨了多个色域的字幕”外的矩形虚线框的四个顶点处的坐标(x1，y1)、(x2，y2)、(x3，y3)、(x4，y4)均可以计算出来，则字幕“我是一条跨了多个色域的字幕”的位置信息可以包括该矩形虚线框的四个顶点处的坐标，或者，由于矩形是规则图形，只需要确定该矩形虚线框的某一条对角线上的两个顶点处的坐标即可确定该矩形所在的位置区域，因此，字幕“我是一条跨了多个色域的字幕”的位置信息也可以只包括该矩形虚线框的某一条对角线上的两个顶点处的坐标。

同理，图4所示的其他字幕的字幕位置信息也可以通过上述字幕位置提取方法提取出来，在此不再赘述。

字幕解码模块确定完字幕帧中全部字幕的位置信息，即表示字幕解码模块完成字幕位置信息提取。

需要说明的是，上述介绍的字幕位置信息提取过程仅仅是提取字幕位置信息的一种可能的实现方式，提取字幕位置信息的实现方式还可以是现有技术中的其他实现方式，本申请实施例对此不作限定。

2、字幕色域信息提取过程：

首先介绍字幕色域提取过程中涉及的相关概念：

色值：

色值是指某种颜色在不同的颜色模式中所对应的颜色值。以RGB颜色模式为例，在RGB颜色模式中，一种颜色由红色、绿色、蓝色混合而成，每一种颜色的色值均可以由(r，g，b)表示，其中，r，g，b分别表示红色、绿色、蓝色三原色的值，取值范围为[0，255]。例如，红色的色值可以表示为(255，0，0)，绿色的色值可以表示为(0，255，0)，蓝色的色值可以表示为(0，0，255)，黑色的色值可以表示为(0，0，0)，白色的色值可以表示为(255，255，255)。

色域：

色域是色值的集合，即在某种颜色模式中所能够产生的颜色的集合。容易理解，在RGB颜色模式中，最多可以产生256×256×256＝16777216种不同的颜色，即224种不同的颜色，色域为[0，224-1]。这224种不同的颜色及每一种颜色对应的色值可以组成一个色值表，每一种颜色对应的色值均可以在该色值表中查找到。

字幕解码模块在完成字幕位置信息提取之后，可以基于字幕所在位置处的字幕的字体颜色，在色值表中查找该字体颜色对应的色值，从而确定该字幕的色值。

字幕解码模块确定完字幕帧中全部字幕的色值，即表示字幕解码模块完成字幕色域信息提取。

S309、电子设备100上的字幕解码模块向电子设备100上的视频帧色域解释模块发送获取字幕组蒙板参数的指令，该指令携带字幕帧的时间信息、字幕组信息等。

具体地，字幕解码模块在生成字幕组信息之后，可以向视频帧色域解释模块发送获取该字幕组蒙板参数的指令，该指令用于指示视频帧色域解释模块向字幕解码模块发送该字幕组对应的蒙板参数(包括蒙板的色值和透明度)，一个色值和一个透明度可以称为一组蒙板参数。该指令可以携带字幕帧的时间信息、字幕组信息等，其中，字幕帧的时间信息可以用于在后续步骤中获取到该字幕组对应的视频帧，字幕组信息可以用于在后续步骤中对字幕识别度进行分析。

S310、电子设备100上的视频帧色域解释模块向电子设备100上的视频解码模块发送获取字幕组对应的视频帧的指令，该指令携带字幕帧的时间信息等。

具体地，视频帧色域解释模块在接收到字幕解码模块发送的获取该字幕组蒙板参数的指令之后，可以向视频解码模块发送获取字幕组对应的视频帧的指令，该指令用于指示视频解码模块向视频帧色域解释模块发送给字幕组对应的视频帧。该指令可以携带字幕帧的时间信息，该字幕帧的时间信息可以用于视频解码模块查找到字幕组对应的视频帧。

S311-S312、电子设备100上的视频解码模块查找字幕组对应的视频帧，并向电子设备100上的视频帧色域解释模块发送该字幕组对应的视频帧。

具体地，视频解码模块接收到视频帧色域解释模块发送的获取字幕组对应的视频帧的指令之后，视频解码模块可以基于该指令中携带的字幕帧的时间信息查找到该字幕组对应的视频帧。由于视频解码模块在视频解码阶段已经解码得到全部视频帧的时间信息，因此，视频解码模块可以将全部视频帧的时间信息与字幕帧的时间信息进行匹配，若匹配成功(即视频帧的时间信息与字幕帧的时间信息一致)，则该视频帧即为该字幕组对应的视频帧。之后，视频解码模块可以向视频帧色域解释模块发送该字幕组对应的视频帧。

S313、电子设备100上的视频帧色域解释模块基于字幕组信息中的字幕位置信息得到字幕组对应的视频帧中每一条字幕位置处的色域信息。

具体地，视频帧色域解释模块在获取到字幕组对应的视频帧之后，可以基于字幕组信息中的每一条字幕位置信息确定出每一条字幕所在位置对应的视频帧区域，进一步地，视频帧色域解释模块可以计算每一条字幕所在位置对应的视频帧区域的色域信息。

下面详细介绍视频帧色域解释模块计算每一条字幕所在位置对应的视频帧区域的色域信息的过程：

假设图2C所示画面中的字幕“我是一条跨了多个色域的字幕”为字幕1，以视频帧色域解释模块计算字幕1对应的视频帧区域的色域信息为例进行说明。

如图5所示，字幕1所在位置对应的视频帧区域可以为图5最上方的矩形实线框内部区域，由于一个视频帧区域内可能存在不同色域的像素区域，因此，可以将一个视频帧区域划分成多个子区域，每一个子区域均可以称为一个视频帧色域提取单元。其中，子区域的划分可以根据预设宽度进行划分，也可以根据字幕中每个字的宽度进行划分。例如，字幕1共有13个字，则图5中根据字幕1中每个字的宽度将字幕1所在位置对应的视频帧区域分为了13个子区域，即13个视频帧色域提取单元。

进一步地，视频帧色域解释模块可以按照从左到右(或从右到左)的顺序依次计算每一个子区域的色域信息。以计算视频帧区域中的一个子区域的色域信息为例，视频帧色域解释模块可以获取到该子区域的全部像素点的色值，然后对全部像素点的色值进行叠加平均，从而可以得到该子区域的全部像素点的色值的平均值，该平均值即为该子区域的色值，该子区域的色值即为该子区域的色域信息。

示例性地，假设该子区域为m像素宽，n像素高，则该子区域共有m*n个像素点，每一个像素点的色值x均可以由(r，g，b)表示，那么，该子区域的全部像素点的色值的平均值

则为

其中，r _i为子区域全部像素点的平均红色色值，g _i为子区域全部像素点的平均绿色色值，b _i为子区域全部像素点的平均蓝色色值，

为第i个像素点的红色色值，

为第i个像素点的绿色色值，

为第i个像素点的蓝色色值。

同理，视频帧色域解释模块可以计算出每一条字幕所在位置对应的视频帧区域的全部子区域的色域信息，即字幕组对应的视频帧中字幕位置处的色域信息。

应当理解，字幕对应的视频帧区域划分多个子区域的个数可以基于预设的划分规则进行确定，本申请实施例对此不作限定。

可选的，视频帧区域的色域信息也可以包括视频帧区域的亮度等信息。

需要说明的是，上述介绍的计算每一条字幕所在位置对应的视频帧区域的色域信息的过程仅仅是一种可能的实现方式，还可以使用其他实现方式，本申请实施例对此不作限定。

S314、电子设备100上的视频帧色域解释模块基于字幕组信息中的每一条字幕色域信息和字幕组对应的视频帧中每一条字幕位置处的色域信息生成叠加字幕识别度分析结果。

具体地，视频帧色域解释模块在计算完字幕组对应的视频帧中字幕位置处的色域信息之后，可以基于字幕组信息中的字幕色域信息和字幕组对应的视频帧中字幕位置处的色域信息进行叠加字幕识别度分析，进一步地，可以通过叠加字幕识别度分析生成叠加字幕识别度分析结果，该结果用于表示字幕组中每一条字幕的识别度高低(也可以称为辨识度高低)。

也即是说，视频帧色域解释模块可以判断字幕组在叠加到该字幕组对应的视频帧中的字幕位置处之后，字幕颜色和字幕对应的视频帧区域的颜色的差异性大小，若差异性较小，则表示字幕识别度低，不容易被用户识别出来。

下面详细介绍视频帧色域解释模块进行叠加字幕识别度分析的过程：

视频帧色域解释模块可以确定字幕颜色和字幕对应的视频帧区域的颜色的颜色差异值，该颜色差异值用于表示字幕颜色和字幕对应的视频帧区域的颜色的差异性。该颜色差异值可以利用现有技术中的相关算法来确定。

在一种可能的实现方式中，颜色差异值Diff可以采用以下公式来计算：

其中，k为一条字幕对应的视频帧区域的全部子区域的个数，r _i为子区域全部像素点的平均红色色值，g _i为子区域全部像素点的平均绿色色值，b _i为子区域全部像素点的平均蓝色色值，r ₀为字幕的红色色值，g ₀为字幕的绿色色值，b ₀为字幕的蓝色色值。

进一步地，视频帧色域解释模块计算得到颜色差异值之后，可以通过判断该颜色差异值是否小于某一预设颜色差异阈值来确定该字幕识别度高低。

若该颜色差异值小于某一预设颜色差异阈值(也可以称为第一阈值)，则表示该字幕识别度低。

在一些实施例中，还可以结合字幕对应视频帧区域的亮度来进一步确定字幕识别度高低。

举例来说，图2C所示的字幕“看不清的彩色字幕”，虽然字幕颜色与字幕对应的视频帧区域的颜色差异值不是很小，但是由于该字幕对应视频帧区域的亮度过高，仍然存在字幕识别度低的问题，因此，针对这种情况，还可以进一步结合字幕对应视频帧区域的亮度来判断字幕识别度，若该字幕对应的视频帧区域的亮度高于某一预设亮度阈值，则表示该字幕识别度低。

对于纯色字幕来说，提取出来的字幕色域信息可以只包括该字幕对应的一个色值这一个参数。而对于非纯色字幕，提取出来的字幕色域信息可能包括多个参数，例如，对于渐变色字幕，提取出来的字幕色域信息可以包括起点色值、终点色值、渐变方向等多个参数，在这种情况下，在一种可能的实现方式中，可以先计算字幕的起点色值和终点色值的平均值，之后再将该平均值作为字幕对应的色值来进行叠加字幕识别度分析。

需要说明的是，上述介绍的视频帧色域解释模块进行叠加字幕识别度分析的过程仅仅是一种可能的实现方式，还可以使用其他实现方式，本申请实施例对此不作限定。

S315、电子设备100上的视频帧色域解释模块基于叠加字幕识别度分析结果计算字幕组中每一条字幕对应蒙板的色值和透明度。

具体地，视频帧色域解释模块在生成叠加字幕识别度分析结果之后，可以基于该结果计算出字幕帧中每一条字幕对应蒙板的色值和透明度。

对于识别度较高的字幕(例如图2C中的字幕“辨识度高的字幕”和字幕“与音频同步的字幕”)，该字幕对应蒙板的色值可以为一个预先设置好的固定值，透明度可以设置为100％。

对于识别度较低的字幕(例如图2C中的字幕“我是一条跨了多个色域的字幕”、字幕“看不清的彩色字幕”)，该字幕对应蒙板的色值和透明度需要基于字幕色域信息或字幕所在位置对应的视频帧区域的色域信息来进一步确定该字幕对应蒙板的色值和透明度。

具体确定字幕对应蒙板的色值和透明度的方式可以有很多种，本申请实施例对此不作限定，本领域技术人员可以根据需要来选择。

在一种可能的实现方式中，可以将与字幕的色值或字幕对应的视频帧区域的色值的颜色差异值最大的一种颜色对应的色值确定为字幕对应蒙板的色值，这样，可以使得用户更清楚地看到字幕，也可以将与字幕的色值或字幕对应的视频帧区域的色值的颜色差异值居中的一种颜色对应的色值确定为字幕对应蒙板的色值，这样，在保证用户清楚地看到字幕的同时也能够避免颜色差异过大给用户带来的眼部不适感，等等。

例如，电子设备100可以计算色值表中每一种颜色对应的色值与字幕的色值之间的颜色差异值Diff，之后，可以选择颜色差异值Diff最大/居中的一种颜色对应的色值作为蒙板的色值。在一种可能的实现方式中，可以用以下公式计算色值表中每一种颜色对应的色值与该字幕的色值之间的颜色差异值Diff：

Diff＝(r ₀-R ₀) ²+(g ₀-G ₀) ²+(b ₀-B ₀) ²

其中，假设色值表中某一种颜色对应的色值为(R ₀，G ₀，B ₀)，R ₀则为该颜色对应的红色色值，G ₀则为该颜色对应的绿色色值，B ₀则为该颜色对应的蓝色色值；r ₀为字幕的红色色值，g ₀为字幕的绿色色值，b ₀为字幕的蓝色色值。

又例如，电子设备100可以计算色值表中每一种颜色对应的色值与字幕对应的视频帧区域的色值之间的颜色差异值Diff，之后，可以选择颜色差异值Diff最大/居中的一种颜色对应的色值作为蒙板的色值。在一种可能的实现方式中，可以用以下公式计算色值表中每一种颜色对应的色值与字幕对应的视频帧区域的色值之间的颜色差异值Diff：

其中，假设色值表中某一种颜色对应的色值为(R ₀，G ₀，B ₀)，R ₀则为该颜色对应的红色色值，G ₀则为该颜色对应的绿色色值，B ₀则为该颜色对应的蓝色色值；k为该字幕对应的视频帧区域的全部子区域的个数，r _i为子区域全部像素点的平均红色色值，g _i为子区域全部像素点的平均绿色色值。

在一种可能的实现方式中，字幕对应蒙板的透明度可以基于字幕对应蒙板的色值来进一步确定。例如，在字幕对应蒙板的色值与字幕的色值的差异较大的情况下，字幕对应蒙板的透明度可以适当选择较大的值(例如大于50％的值)，这样，在保证用户清楚地看到字幕的同时也可以减小对字幕叠加区域对视频画面的遮挡。

S316、电子设备100上的视频帧色域解释模块向电子设备100上的字幕解码模块发送字幕组中每一条字幕对应的蒙板的色值和透明度。

具体地，视频帧色域解释模块在计算出字幕组中每一条字幕对应蒙板的色值和透明度之后，可以向字幕解码模块发送字幕组中每一条字幕对应的蒙板的色值和透明度，同时，还可以携带蒙板所对应的字幕的字幕位置信息，以便字幕解码模块可以将字幕与蒙板进行一一对应。

S317、电子设备100上的字幕解码模块基于字幕组中每一条字幕对应的蒙板的色值和透明度生成对应蒙板，并将字幕组中每一条字幕及其对应蒙板进行叠加生成带蒙板的字幕帧。

具体地，字幕解码模块在接收到视频帧色域解释模块发送的字幕组中每一条字幕对应的蒙板的色值和透明度之后，可以基于一条字幕对应的蒙板的色值和透明度与该字幕的字幕位置信息生成一条该字幕对应的蒙板(例如图5所示的字幕1对应的蒙板)，其中，蒙板的形状可以是能够涵盖该字幕的矩形或者其他任意形状，本申请实施例对此不作限定。

同理，字幕解码模块可以为字幕组中的每一条字幕生成一条该字幕对应的蒙板。

示例性地，如图2C所示，容易看出，该画面中有四条字幕，因此，字幕解码模块可以生成四条蒙板，一条字幕对应一条蒙板。

进一步地，字幕解码模块可以将字幕叠加到该字幕所对应的蒙板上层生成带蒙板的字幕(例如图5所示的带蒙板的字幕1)。

同理，字幕解码模块可以将字幕组中的每一条字幕及其对应蒙板进行叠加，从而生成带蒙板的字幕帧。

图6A示例性示出了一个带蒙板的字幕帧，可以看出，每一条字幕均叠加有一条蒙板，其中，辨识度高的字幕(例如“辨识度高的字幕”和“与音频同步的字幕”)对应蒙板的透明度为100％，辨识度低的字幕(例如“我是一条跨了多个色域的字幕”和“看不清的彩色字幕”)对应蒙板的透明度小于100％，有一定的色值。

S318、电子设备100上的字幕解码模块向电子设备100上的视频帧合成模块发送带蒙板的字幕帧。

具体地，字幕解码模块在生成带蒙板的字幕帧之后，可以将该带蒙板的字幕帧发送给视频帧合成模块，用于后续生成待显示的视频帧。

阶段四、视频帧合成、渲染及显示阶段

S319-S320、电子设备100上的视频帧合成模块将接收到的视频帧和带蒙板的字幕帧进行叠加合并生成待显示的视频帧，并向电子设备100上的视频帧队列发送该待显示的视频帧。

S321-S323、视频渲染模块可以从视频帧队列中按照时间顺序读取待显示的视频帧，并按照时间顺序对待显示的视频帧进行渲染，生成渲染后的视频帧。

S324、电子设备100显示渲染后的视频帧。

其中，步骤S319-步骤S324的具体执行过程可以参照前述图1所示实施例中的步骤S109-步骤S114中的相关内容，在此不再赘述。

需要说明的是，在一些实施例中，上述视频解码模块、字幕解码模块、视频帧色域解释模块、视频帧合成模块、视频帧队列、视频渲染模块也可以都集成在上述视频类应用程序中来执行本申请实施例提供的字幕显示方法，本申请实施例对此不作限定。

示例性地，如图6B所示的可以是电子设备100执行图3所示的字幕显示方法(一条字幕可对应一条蒙板)之后显示的渲染后的视频帧中的某一帧的画面。容易看出，与图2C所示的画面相比，在为字幕组添加对应的蒙板之后，字幕“我是一条跨了多个色域的字幕”和字幕“看不清的彩色字幕”这两条字幕的辨识度有了很大的提升，同时，由于字幕对应的蒙板有一定的透明度，因此，字幕叠加区域对视频画面也未完全遮挡，这样，综合考虑到了视频显示和字幕显示的效果，在不改变用户选择的字幕颜色的基础上，保证用户可以看清字幕的同时，也可以保证视频画面一定的可见性，提高用户体验。

进一步地，在整个视频播放过程中，字幕的位置、视频背景的颜色等均可能发生变化，因此上述字幕显示方法可以一直执行，从而实现在整个视频播放过程中，用户均可以清楚地看到字幕。示例性地，上述图6B可以为视频播放进度在8：00时刻的第一用户界面示意图，图6C可以为视频播放进度在8：02时刻的第二用户界面示意图，第一用户界面包括的视频帧与第二用户界面包括的视频帧不同。如图6C所示，可以看出，字幕“我是一条跨了多个色域的字幕”，字幕“辨识度高的字幕”，字幕“看不清的彩色字幕”相对于图6B来说均向显示屏的左侧发生了移动，电子设备100会基于字幕的色值和该字幕对应当前视频帧区域的色值重新计算字幕对应的蒙板的色值、透明度，生成字幕对应的蒙板。容易看出，在第二用户界面中，字幕“我是一条跨了多个色域的字幕”对应当前视频帧区域的视频背景颜色发生了变化，该字幕的辨识度也变高了，因此，字幕“我是一条跨了多个色域的字幕”对应的蒙板相对于图6B也发生了变化，可以看出，该字幕没有显示蒙板，具体地，可以是该字幕对应蒙板的透明度变为了100％，或，该字幕没有蒙板。

图6B和图6C所示的视频播放画面可以是全屏显示也可以是部分屏幕显示，本申请实施例对此不作限定。

上述图6B所示的字幕对应的蒙板都是一条跨越整个字幕所在区域的蒙板，即一条字幕均只对应一条蒙板。在实际的一些应用场景中，一条字幕可能跨越多个色域差别较大的区域，从而导致字幕的一部分辨识度较高，另一部分辨识度较低，在这种情况下，可以为一条字幕生成多条对应的蒙板。例如，图2C中所示的字幕“我是一条跨了多个色域的字幕”，该字幕所在区域前端部分的字幕辨识度较低(即“我是一条”这四个字是用户不容易看清楚的)，该字幕所在区域的后端部分的字幕识别度也较低(即“域的字幕”这四个字是用户不容易看清楚的)，而该字幕所在区域的中间部分的字幕辨识度较高(即“跨了多个色”这五个字是用户容易看清楚的)，因此，在这种情况下，可以为字幕所在区域前端部分、中间部分、后端部分分别生成一条对应的蒙板，即该字幕可以有三条对应的蒙板。

针对上述一条字幕对应多条蒙板的应用场景，本申请实施例可以在前述图3所示的方法的基础上，对步骤S313-步骤S317进行一些相应的改进，从而实现一条字幕对应多条蒙板。其他步骤无需变化。

下面详细介绍实现一条字幕对应多条蒙板的过程：

在生成字幕组对应的视频帧中字幕位置处的色域信息过程中，视频帧色域解释模块可以按照从左到右(或从右到左)的顺序依次计算出每一个子区域的色值，在上述需要实现一条字幕对应多条蒙板的应用场景下，也即一条字幕跨越多个色域差别较大的区域的应用场景下，视频帧色域解释模块可以比较相邻子区域的色值，如果相邻子区域色值相近则合并成一个区域，合并后的区域对应一条蒙板，如果相邻子区域色值差异较大，则不进行合并，这两个未合并的区域则分别对应各自的蒙板，因此，一条字幕可能对应多条蒙板。

如图7A所示，在一条字幕可能对应多条蒙板的情况下，步骤S313-步骤S317可以按照以下步骤具体执行，下面以如图7B所示的字幕1是图2C所示的字幕“我是一条跨了多个色域的字幕”为例进行说明。

S701、视频帧色域解释模块依次计算出字幕所在位置对应的视频帧区域的每一个子区域的色值，合并色值相近的子区域，得到M个第二子区域。

具体地，在步骤S313的基础上，视频帧色域解释模块按照从左到右(或从右到左)的顺序依次计算出每一个子区域的色值之后，还需要比较相邻子区域的色值，合并色值相近的子区域，得到M个第二子区域，其中，M为正整数。如图7B所示，视频帧色域解释模块通过比较相邻子区域的色值，合并色值相近的子区域之后，将该字幕所在位置对应的视频帧区域分为了三个区域(即三个第二子区域)：区域A、区域B、区域C，假设区域A是由a个子区域合并而成的，区域B是由b个子区域合并而成的，区域A是由c个子区域合并而成的。

其中，色值相近可以是指两个子区域的色值的差异值小于第二阈值，第二阈值是预先设置的。

S702、视频帧色域解释模块针对M个第二子区域分别进行叠加字幕识别度分析，生成M个第二子区域的叠加字幕识别度分析结果。

具体地，视频帧色域解释模块需要针对区域A、区域B、区域C分别进行叠加字幕识别度分析，而不是直接对整个视频帧区域进行叠加字幕识别度分析。类似的，视频帧色域解释模块也可以利用步骤S314中的颜色差异值来对区域A、区域B、区域C分别进行叠加字幕识别度分析，过程如下：

区域A的颜色差异值Diff1：

其中，a为区域A包括的子区域的个数，r _i为区域A中的子区域全部像素点的平均红色色值，g _i为区域A中的子区域全部像素点的平均绿色色值，b _i为区域A中的子区域全部像素点的平均蓝色色值，r ₀为区域A中的字幕的红色色值，g ₀为区域A中的字幕的绿色色值，b ₀为区域A中的字幕的蓝色色值。

区域B的颜色差异值Diff2：

其中，b为区域B包括的子区域的个数，r _i为区域B中的子区域全部像素点的平均红色色值，g _i为区域B中的子区域全部像素点的平均绿色色值，b _i为区域B中的子区域全部像素点的平均蓝色色值，r ₀为区域B中的字幕的红色色值，g ₀为区域B中的字幕的绿色色值，b ₀为区域B中的字幕的蓝色色值。

区域C的颜色差异值Diff3：

其中，c为区域C包括的子区域的个数，r _i为区域C中的子区域全部像素点的平均红色色值，g _i为区域C中的子区域全部像素点的平均绿色色值，b _i为区域C中的子区域全部像素点的平均蓝色色值，r ₀为区域C中的字幕的红色色值，g ₀为区域C中的字幕的绿色色值，b ₀为区域C中的字幕的蓝色色值。

视频帧色域解释模块分别计算得到区域A、区域B、区域C的颜色差异值之后，可以分别判断这三个区域的颜色差异值是否小于某一预设颜色差异阈值，若是，则表示该区域的字幕识别度低。

S703、视频帧色域解释模块基于字幕色域信息和M个第二子区域的叠加字幕识别度分析结果分别确定M个第二子区域对应蒙板的色值和透明度。

具体地，视频帧色域解释模块需要基于字幕色域信息和区域A、区域B、区域C的叠加字幕识别度分析结果分别确定区域A对应蒙板的色值和透明度、区域B对应蒙板的色值和透明度、区域C对应蒙板的色值和透明度。具体确定每一个第二子区域对应蒙板的色值和透明度的过程与步骤S315中确定字幕所在位置对应的整个视频帧区域对应蒙板的色值和透明度的过程类似，可以参照前述相关内容，在此不再赘述。

S704、视频帧色域解释模块向字幕解码模块发送M个第二子区域对应的蒙板的色值、透明度、位置信息。

具体地，由于一条字幕可能对应多条蒙板，因此，视频帧色域解释模块除了向字幕解码模块发送字幕组中每一条字幕对应的蒙板的色值和透明度之外，还需要向字幕解码模块发送每一条蒙板的位置信息(或者每一条蒙板相对其对应字幕的位置信息)，其中，每一条蒙板的位置信息可以是基于字幕位置信息得到的，具体地，若一条字幕对应多条蒙板，由于字幕位置信息已知，从而可以推算出字幕所在位置的视频帧区域的全部子区域的位置信息，进一步可以推算出每个第二子区域对应蒙板的位置信息。

S705、字幕解码模块基于上述M个第二子区域对应蒙板的色值、透明度、位置信息生成字幕对应的蒙板，并将字幕叠加到上述蒙板生成带蒙板的字幕。

具体地，对于对应多条蒙板的字幕，字幕解码模块可以基于该条字幕对应的每一个第二子区域的蒙板的色值和透明度、蒙板的位置信息，生成三条该字幕对应的蒙板(例如图7B所示的字幕1对应的蒙板)，之后，字幕解码模块可以将该字幕叠加到该字幕所对应的蒙板上层生成带蒙板的字幕(例如图7B所示的带蒙板的字幕1)。

如图2C所示，由于字幕“辨识度高的字幕”、字幕“看不清的彩色字幕”、字幕“与音频同步的字幕”这三条字幕没有跨越多个色域差别较大的区域，因此，这三条字幕还是均对应一条蒙板。

字幕解码模块可以将字幕组中的每一条字幕及其对应蒙板进行叠加，从而生成带蒙板的字幕帧。

图8A示例性示出了一个带蒙板的字幕帧，可以看出，字幕“我是一条跨了多个色域的字幕”叠加有三条蒙板，其中，“我是一条”和“域的字幕”由于辨识度较低，因此对应蒙板的透明度小于100％，有一定的色值，而“跨了多个色”由于辨识度较高，因此对应蒙板的透明度为100％。其余三条均各自叠加有一条蒙板，其中，字幕“辨识度高的字幕”和字幕“与音频同步的字幕”由于辨识度较高，因此对应蒙板的透明度为100％，字幕“看不清的彩色字幕”由于辨识度较低，因此对应蒙板的透明度小于100％，有一定的色值。

示例性地，如图8B所示的可以是电子设备100执行改进后的图3所示的字幕显示方法(跨越多个色域差别较大的区域的字幕可对应多条蒙板)之后显示的渲染后的视频帧中的某一帧的画面。与图6B所示的画面相比，由于字幕“我是一条跨了多个色域的字幕”跨越了多个色域差别较大的区域，因此，该字幕对应的蒙板发生了变化，容易看出，由于该字幕所在区域的中间部分(即“跨了多个色”部分)字幕辨识度较高，因此该部分对应的蒙板的透明度设置成了100％(即全透明)，或者也可以不设置蒙板，而由于该字幕所在区域的前端部分(即“我是一条”部分)和后端部分(即“域的字幕”部分)字幕辨识度较低，因此，这两部分对应的蒙板的色值和透明度则是基于字幕色域信息和这两部分所在区域的色域信息分别计算出来的。这样，由于字幕“我是一条跨了多个色域的字幕”所在区域的中间部分对应的蒙板的透明度为100％，或者也可以不设置蒙板，因此，在达到了图6B所示的有益效果的基础上，进一步减少了蒙板对视频画面的遮挡，也进一步提高了用户体验。

进一步地，在整个视频播放过程中，字幕的位置、视频背景的颜色等均可能发生变化，因此上述字幕显示方法可以一直执行，从而实现在整个视频播放过程中，用户均可以清楚地看到字幕。示例性地，上述图8B可以为视频播放进度在8：00时刻的用户界面示意图，包括第一视频帧，图8C可以为视频播放进度在8：01时刻的用户界面示意图，包括第二视频帧，第一视频帧和第二视频帧相同。如图8C所示，可以看出，字幕“我是一条跨了多个色域的字幕”，字幕“辨识度高的字幕”，字幕“看不清的彩色字幕”相对于图8B来说均向显示屏的左侧发生了移动，电子设备100会基于字幕的色值和该字幕对应当前视频帧区域的色值重新计算字幕对应的蒙板的色值、透明度，生成字幕对应的蒙板。容易看出，图8C中的字幕“我是一条跨了多个色域的字幕”对应的蒙板相对于图8B发生了明显变化。在图8B中，该字幕辨识度较低的部分为“我是一条”和“域的字幕”，因此这两部分对应蒙板均有一定的色值，且对应蒙板的透明度小于100％，该字幕辨识度较高的部分为“跨了多个色”，因此这部分没有显示蒙板，具体地，可以是将该字幕对应蒙板的透明度为100％，或者不设置蒙板。而在图8C中，该字幕辨识度较低的部分变为了“我是一条跨”和“的字幕”，因此电子设备100会基于字幕的色值和该字幕对应当前视频帧区域的色值重新计算这两部分对应蒙板的色值、透明度，由于这两部分辨识度低，因此这两部分对应蒙板均有一定的色值，且对应蒙板的透明度小于100％。该字幕辨识度较高的部分变为了“了多个色域”，因此这部分没有显示蒙板，具体地，可以将该字幕对应蒙板的透明度设置为100％，或者不设置蒙板。其中，图 8C中字幕对应蒙板的生成过程与前述图8B中字幕对应蒙板的生成过程类似，在此不再赘述。

图8B和图8C所示的视频播放画面可以是全屏显示也可以是部分屏幕显示，本申请实施例对此不作限定。

在本申请实施例中，对于辨识度高的字幕，电子设备100也会为该字幕生成蒙板，其蒙板的色值可以为预设色值，其蒙板的透明度为100％，在一些实施例中，对于辨识度高的字幕，电子设备100也可以不为该字幕生成蒙板，即若电子设备100确定该字幕辨识度高，则电子设备100可以不再对该字幕做进一步处理，因此该字幕没有对应的蒙板，即该字幕不被设置有蒙板。

在本申请实施例中，一条字幕对应一条蒙板(即一条字幕对应一组蒙板参数)可以是指一条字幕对应一条包含一个色值和一个透明度的蒙板，一条字幕对应多条蒙板(即一条字幕对应多组蒙板参数)可以是指一条字幕对应多条不同色值和不同透明度的蒙板，或者，一条字幕对应一条包含不同色值和不同透明度的蒙板(即多条不同色值和不同透明度的蒙板组合成一条包含不同色值和不同透明度的蒙板)。

本申请的实施例中的电子设备100以手机(mobile phone)为例，电子设备100还可以是平板电脑(Pad)、个人数字助理(Personal DigitalAssistant，PDA)、膝上型电脑(Laptop)等便携式电子设备，本申请实施例对电子设备100的类型、物理形态、尺寸不作限定。

在本申请实施例中，第一视频可以是在用户点击图2B所示的视频播放选项221之后电子设备100所播放的视频，第一界面可以是图6B所示的用户界面，第一画面可以是图6B所示的视频帧画面，第一字幕可以是字幕“我是一条跨了多个色域的字幕”，第一区域是第一字幕的显示位置对应的第一画面中的区域，第一数值可以是第一字幕的颜色与第一字幕的显示位置对应的第一画面区域颜色的颜色差异值，第二界面可以是图6C所示的用户界面，第二画面可以是图6C所示的视频帧画面，第二区域是第一字幕的显示位置对应的第二画面中的区域，第二数值可以是第一字幕的颜色与第一字幕的显示位置对应的第二画面区域颜色的颜色差异值，第一视频文件可以是第一视频对应的视频文件，第一字幕文件可以是第一视频对应的字幕文件，第一视频帧是用于生成第一画面的视频帧，第一字幕帧是包含第一字幕，且与第一视频帧携带相同时间信息的字幕帧，第二字幕帧是第一字幕叠加第一蒙板之后生成的字幕帧(即带蒙板的字幕帧)，第一子区域可以是视频帧色域提取单元，第二子区域可以是将色值相近的相邻第一子区域进行合并之后的区域(例如区域A、区域B、区域C)，第一子蒙板可以是每个第二子区域对应的蒙板，第一蒙板可以是图6B所示的字幕“我是一条跨了多个色域的字幕”对应的蒙板，也可以是图8B所示的字幕“我是一条跨了多个色域的字幕”对应的蒙板，第三界面可以是图8B所示的用户界面，第三画面可以是图8B所示的视频帧画面，第一部分可以是字幕“我是一条跨了多个色域的字幕”中的“我是一条”，第二部分可以是字幕“我是一条跨了多个色域的字幕”中的“跨了多个色”，第二子蒙板可以是“我是一条”对应的蒙板(即图7B所示的区域A蒙板)，第三子蒙板可以是“跨了多个色”对应的蒙板(即图7B所示的区域B蒙板)，第二蒙板可以是图6C所示的字幕“我是一条跨了多个色域的字幕”对应的蒙板。

下面介绍本申请实施例提供的一种电子设备100的结构。

图9示例性示出了本申请实施例中提供的一种电子设备100的结构。

如图9所示，电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备 100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息。实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

应当理解的是，图9所示电子设备100仅是一个范例，并且电子设备100可以具有比图9中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图9中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面介绍本申请实施例提供的一种电子设备100的软件结构。

图10示例性示出了本申请实施例中提供的一种电子设备100的软件结构。

如图10所示，电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。下面示例性说明电子设备100的软件结构。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，电子设备100的软件结构分为三层，从上至下分别为应用程序层，应用程序框架层，内核层。

应用程序层可以包括一系列应用程序包。

如图10所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。其中，视频可以是指本申请实施例提及的视频类应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图10所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器、视频处理系统等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

视频处理系统可以用于执行本申请实施例提供的字幕显示方法。视频处理系统可以包括字幕解码模块、视频帧色域解释模块、视频帧合成模块、视频帧队列、视频渲染模块，其中，每一个模块的具体功能可以参照前述实施例中的相关内容，在此不再赘述。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，蓝牙驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

下面介绍本申请实施例提供的另一种电子设备100的结构。

图11示例性示出了本申请实施例中提供的另一种电子设备100的结构。

如图11所示，电子设备100可以包括：视频类应用程序1100和视频处理系统1110。

视频类应用程序1100可以是电子设备100上安装的系统应用程序(例如图2A所示的“视频”应用程序)，也可以是电子设备100上安装的来自第三方提供的具有视频播放能力的应用程序，主要用于播放视频。

视频处理系统1110可以包括：视频解码模块1111、字幕解码模块1112、视频帧色域解释模块1113、视频帧合成模块1114、视频帧队列1115、视频渲染模块1116。

视频解码模块1111可以接收视频类应用程序1100发送的视频信息流，并对该视频信息流进行解码生成视频帧。

字幕解码模块1112可以接收视频类应用程序1100发送的字幕信息流，并对该字幕信息流进行解码生成字幕帧，并可以基于视频帧色域解释模块1113发送的蒙板参数生成带蒙板的字幕帧，从而可以提高字幕的辨识度。

视频帧色域解释模块1113可以字幕辨识度进行分析，生成字幕辨识度分析结果，并基于字幕辨识度分析结果计算字幕对应的蒙板参数(蒙板的色值、透明度)。

视频帧合成模块1114可以对视频帧和字幕帧进行叠加合并，生成待显示的视频帧。

视频帧队列1115可以对视频帧合成模块1114发送的待显示的视频帧进行存储。

视频渲染模块1116可以对待显示的视频帧按照时间顺序进行渲染，生成渲染后的视频帧，并发送给视频类应用程序1100进行视频播放。

关于上述电子设备100的功能和工作原理的更多细节，可以参照上述各个实施例中的相关内容，在此不再赘述。

应当理解的是，图11所示的电子设备100仅仅是一个示例，并且电子设备100可以具有比图11中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图11中所示出的各种部件可以在硬件、软件、或硬件和软件的组合中实现。

以上模块可以根据功能进行划分，在实际的产品中，可以为同一软件模块执行的不同功能。

下面介绍本申请实施例提供的另一种电子设备100的结构。

图12示例性示出了本申请实施例中提供的另一种电子设备100的结构。

如图12所示，电子设备100可以包括：视频类应用程序1200，其中，视频类应用程序1200可以包括：视频解码模块1211、字幕解码模块1212、视频帧色域解释模块1213、视频帧合成模块1214、视频帧队列1215、视频渲染模块1216。

视频类应用程序1200可以是电子设备100上安装的系统应用程序(例如图2A所示的“视频”应用程序)，也可以是电子设备100上安装的来自第三方提供的具有视频播放能力的应用程序，主要用于播放视频。

获取与显示模块1210可以获取视频信息流和字幕信息流，显示视频渲染模块1216发送的渲染后的视频帧等。

视频解码模块1211可以接收获取与显示模块1210发送的视频信息流，并对该视频信息流进行解码生成视频帧。

字幕解码模块1212可以接收获取与显示模块1210发送的字幕信息流，并对该字幕信息流进行解码生成字幕帧，并可以基于视频帧色域解释模块1213发送的蒙板参数生成带蒙板的字幕帧，从而可以提高字幕的辨识度。

视频帧色域解释模块1213可以字幕辨识度进行分析，生成字幕辨识度分析结果，并基于字幕辨识度分析结果计算字幕对应的蒙板参数(蒙板的色值、透明度)。

视频帧合成模块1214可以对视频帧和字幕帧进行叠加合并，生成待显示的视频帧。

视频帧队列1215可以对视频帧合成模块1214发送的待显示的视频帧进行存储。

视频渲染模块1216可以对待显示的视频帧按照时间顺序进行渲染，生成渲染后的视频帧，并发送给获取与显示模块1210进行视频播放。

应当理解的是，图12所示的电子设备100仅仅是一个示例，并且电子设备100可以具有比图12中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图12中所示出的各种部件可以在硬件、软件、或硬件和软件的组合中实现。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

一种字幕显示方法，其特征在于，所述方法包括：

电子设备播放第一视频；

所述电子设备显示第一界面时，所述第一界面包括第一画面和第一字幕，所述第一字幕以第一蒙板为背景悬浮显示于所述第一画面的第一区域之上，所述第一区域是所述第一字幕的显示位置对应的所述第一画面中的区域，其中，所述第一字幕的色值与所述第一区域的色值的差异值为第一数值；

所述电子设备显示第二界面时，所述第二界面包括第二画面和所述第一字幕，所述第一字幕不显示蒙板，所述第一字幕悬浮显示于所述第二画面的第二区域之上，所述第二区域是所述第一字幕的显示位置对应的所述第二画面中的区域，其中，所述第一字幕的色值与所述第二区域的色值的差异值为第二数值，所述第二数值大于所述第一数值；

其中，所述第一画面是所述第一视频中的一个画面，所述第二画面是所述第一视频中的另一个画面。
根据权利要求1所述的方法，其特征在于，在所述电子设备显示第一界面之前，所述方法还包括：

所述电子设备获取第一视频文件和第一字幕文件，其中，所述第一视频文件和所述第一字幕文件携带的时间信息相同；

所述电子设备基于所述第一视频文件生成第一视频帧，所述第一视频帧用于生成所述第一画面；

所述电子设备基于所述第一字幕文件生成第一字幕帧，并在所述第一字幕帧中获取所述第一字幕的色值、显示位置，其中，所述第一字幕帧携带的时间信息与所述第一视频帧携带的时间信息相同；

所述电子设备基于所述第一字幕的显示位置确定所述第一区域；

所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板；

所述电子设备在所述第一字幕帧中将所述第一字幕叠加到所述第一蒙板之上生成第二字幕帧，并将所述第二字幕帧与所述第一视频帧进行合成。
根据权利要求2所述的方法，其特征在于，在所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板之前，所述方法还包括：

所述电子设备确定所述第一数值小于第一阈值。
根据权利要求3所述的方法，其特征在于，所述电子设备确定所述第一数值小于第一阈值，具体包括：

所述电子设备将所述第一区域划分为N个第一子区域，其中，所述N为正整数；

所述电子设备基于所述第一字幕的色值和所述N个第一子区域的色值确定所述第一数值小于所述第一阈值。
根据权利要求4所述的方法，其特征在于，所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板，具体包括：

所述电子设备基于所述第一字幕的色值或所述N个第一子区域的色值确定出一个所述第一蒙板的色值；

所述电子设备基于所述第一蒙板的色值生成所述第一蒙板。
根据权利要求3所述的方法，其特征在于，所述电子设备确定所述第一数值小于第一阈值，具体包括：

所述电子设备将所述第一区域划分为N个第一子区域，其中，所述N为正整数；

所述电子设备基于相邻的所述第一子区域之间的色值的差异值，确定是否将相邻的所述第一子区域合并为第二子区域；

当相邻的所述第一子区域之间的色值的差异值小于第二阈值时，所述电子设备将相邻的所述第一子区域合并为所述第二子区域；

所述电子设备基于所述第一字幕的色值和所述第二子区域的色值确定所述第一数值小于所述第一阈值。
根据权利要求6所述的方法，其特征在于，所述第一区域包含M个所述第二子区域，所述M为正整数且小于等于所述N，所述第二子区域包括一个或多个所述第一子区域，每一个所述第二子区域包括的所述第一子区域的个数相同或不同。
根据权利要求7所述的方法，其特征在于，所述电子设备基于所述第一字幕的色值或所述第一区域的色值生成所述第一蒙板，具体包括：

所述电子设备基于所述第一字幕的色值或M个所述第二子区域的色值依次计算M个第一子蒙板的色值；

所述电子设备基于所述M个第一子蒙板的色值生成所述M个第一子蒙板，其中，所述M个第一子蒙板组合为所述第一蒙板。
根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备显示第三界面时，所述第三界面包括第三画面和所述第一字幕，所述第一字幕至少包括第一部分和第二部分，所述第一部分显示第二子蒙板，所述第二部分显示第三子蒙板或不显示所述第三子蒙板，所述第二子蒙板的色值与所述第三子蒙板的色值不同。
根据权利要求1-9任一项所述的方法，其特征在于，所述第一蒙板的显示位置是基于所述第一字幕的显示位置确定的。
根据权利要求1-10任一项所述的方法，其特征在于，所述第一蒙板的色值与所述第一字幕的色值的差异值大于所述第一数值。
根据权利要求1-11任一项所述的方法，其特征在于，在所述第一画面和所述第二画面中，所述第一字幕的显示位置相对于所述电子设备的显示屏是不固定的或固定的，所述第一字幕是连续显示的一段文字或符号。
根据权利要求1-12任一项所述的方法，其特征在于，在所述电子设备显示第一界面之前，所述方法还包括：

所述电子设备将所述第一蒙板的透明度设置为小于100％。
根据权利要求1-13任一项所述的方法，其特征在于，在所述电子设备显示第二界面之前，所述方法还包括：

所述电子设备基于所述第一字幕的色值或所述第二区域的色值生成第二蒙板，并将所述第一字幕叠加到所述第二蒙板之上，其中，所述第二蒙板的色值为预设色值，所述第二蒙板的透明度为100％；

或，

所述电子设备不生成所述第二蒙板。
一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-14中任一项所述的方法。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述程序指令在电子设备上运行时，使得所述电子设备执行如权利要求1-14中任一项所述的方法。