WO2023160617A9

WO2023160617A9 - 视频插帧处理方法、视频插帧处理装置和可读存储介质

Info

Publication number: WO2023160617A9
Application number: PCT/CN2023/077905
Authority: WO
Inventors: 孙梦笛; 朱丹
Original assignee: 京东方科技集团股份有限公司
Priority date: 2022-02-25
Filing date: 2023-02-23
Publication date: 2023-10-26
Also published as: WO2023160617A1; CN114554285A

Abstract

一种视频插帧处理方法及装置和存储介质。该视频插帧处理方法，包括：(S101)获取视频的第一视频帧和第二视频帧；(S102)基于第一视频帧和第二视频帧，获取第一视频帧和第二视频帧之间的第一比较结果；以及(S103)基于第一比较结果确定是否在第一视频帧和第二视频帧之间插帧。第一视频帧和第二视频帧在时域上相邻，第一视频帧是第二视频帧的前向帧。第一比较结果指示第一视频帧和第二视频帧之间是否存在画面切换。该视频插帧处理方法，通过比较相邻视频帧选择性地执行插帧操作，从而有效避免在插帧处理中，由于发生画面切换而导致的明显形变问题，保证视频的流畅度，从而提升用户的观看体验。

Description

视频插帧处理方法、视频插帧处理装置和可读存储介质

技术领域

本公开的实施例涉及一种视频插帧处理方法、视频插帧处理装置、和非瞬时可读存储介质。

背景技术

视频处理是人工智能的典型应用，视频插帧技术又是视频处理中的一个典型技术，旨在根据一段视频中的前后视频帧合成过渡平滑的中间视频帧，以使得视频播放更加流畅，从而提升用户的观看体验。例如，可以通过视频插帧处理将24帧率的视频转变为48帧率的视频，从而让用户在观看时感觉视频更加清晰流畅。

发明内容

本公开至少一个实施例提供一种视频插帧处理方法，包括：获取视频的第一视频帧和第二视频帧，基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的第一比较结果，以及基于所述第一比较结果确定是否在所述第一视频帧和所述第二视频帧之间插帧。所述第一视频帧和所述第二视频帧在时域上相邻，所述第一视频帧是所述第二视频帧的前向帧。所述第一比较结果指示所述第一视频帧和所述第二视频帧之间是否存在画面切换。

例如，在本公开至少一个实施例提供的方法中，所述画面切换包括字幕切换和/或场景切换。

例如，在本公开至少一个实施例提供的方法中，基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的所述第一比较结果，包括：基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换。

例如，在本公开至少一个实施例提供的方法中，基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：获取所述第一视频帧对应的音频段；基于所述音频段，获取与所述音频段对应的起始视频帧和结束视频帧；基于所述起始视频帧和所述结束视频帧，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换。

例如，在本公开至少一个实施例提供的方法中，基于所述起始视频帧和所述结束视频帧，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：响应于所述第二视频帧在所述起始视频帧和所述结束视频帧之间，确定所述第一视频帧和所述第二视频帧之间不存在所述字幕切换；响应于所述第二视频帧不在所述起始视频帧和所述结束视频帧之间，确定所述第一视频帧和所述第二视频帧之间存在所述字幕切换。

例如，在本公开至少一个实施例提供的方法中，基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：获取所述第一视频帧的第一识别文本内容；获取所述第二视频帧的第二识别文本内容；响应于所述第一识别文本内容和所述第二识别文本内容相同，确定所述第一视频帧和所述第二视频帧之间不存在所述字幕切换。

例如，在本公开至少一个实施例提供的方法中，其中，基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，还包括：响应于所述第一识别文本内容和所述第二识别文本内容不同：获取所述第一视频帧的第一子图像；获取所述第二视频帧的第二子图像，以及基于所述第一子图像和所述第二子图像，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换。所述第一子图像对应于所述第一视频帧的第一字幕内容；所述第二子图像对应于所述第二视频帧的第二字幕内容。

例如，在本公开至少一个实施例提供的方法中，基于所述第一子图像和所述第二子图像，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：基于所述第一子图像和所述第二子图像，确定所述第一子图像和所述第二子图像之间的第一相似度；响应于所述第一相似度大于第一阈值，确定所述第一视频帧和所述第二视频帧之间不存在所述字幕切换；响应于所述第一相似度不大于所述第一阈值，确定所述第一视频帧和所述第二视频帧之间存在所述字幕切换。

例如，在本公开至少一个实施例提供的方法中，基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的所述第一比较结果，包括：基于所述第一视频帧和所述第二视频帧的场景是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述场景切换。

例如，在本公开至少一个实施例提供的方法中，基于所述第一视频帧和所述第二视频帧的场景是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述场景切换，包括：获取所述第一视频帧和所述第二视频帧之间的第二相似度；响应于所述第二相似度大于第二阈值，确定所述第一视频帧和所述第二视频帧之间不存在所述场景切换；响应于所述第二相似度不大于所述第二阈值，确定所述第一视频帧和所述第二视频帧之间存在所述场景切换。

例如，在本公开至少一个实施例提供的方法中，基于所述第一比较结果确定是否在所述第一视频帧和所述第二视频之间插帧，包括：响应于所述第一比较结果指示所述第一视频帧和所述第二视频帧之间不存在所述画面切换，确定在所述第一视频帧和所述第二视频之间插帧；响应于所述第一比较结果指示所述第一视频帧和所述第二视频帧之间存在所述画面切换，确定不在所述第一视频帧和所述第二视频之间插帧。

例如，在本公开至少一个实施例提供的方法中，还包括：设置第一插帧标志，响应于所述第一视频帧和所述第二视频帧之间存在所述画面切换，将所述第一插帧标志修改为所述第二插帧标志。

例如，在本公开至少一个实施例提供的方法中，还包括：响应于所述第一视频帧和所述第二视频帧之间存在所述画面切换，获取第四视频帧；基于所述第二视频帧和所述第四视频帧，获取所述第二视频帧和所述第四视频帧之间的第二比较结果；基于所述第二比较结果确定是否在所述第二视频帧和所述第四视频之间插帧。所述第四视频帧和所述第二视频帧在时域上相邻，所述第二视频帧是所述第四视频帧的前向帧；所述第二比较结果指示所述第二视频帧和所述第四视频帧之间是否存在所述画面切换。

例如，在本公开至少一个实施例提供的方法中，基于所述第二比较结果确定是否在所述第二视频帧和所述第四视频之间插帧，包括：响应于所述第二比较结果指示所述第二视频帧和所述第四视频帧之间不存在所述画面切换，在所述第二视频帧和所述第四视频之间插入多帧视频帧。所述多帧视频帧的帧数基于所述第二插帧标志。

例如，在本公开至少一个实施例提供的方法中，基于所述第二比较结果确定是否在所述第二视频帧和所述第四视频之间插帧，包括：响应于所述第二比较结果指示所述第二视频帧和所述第四视频帧之间存在所述画面切换，确定不在所述第二视频帧和所述第四视频之间插入视频帧；以及将所述第二插帧标志修改为第三插帧标志，其中，所述第三插帧标志用于指示下一次插帧的帧数。

例如，在本公开至少一个实施例提供的方法中，还包括：响应于在所述第一视频帧和所述第二视频帧之间插入第三视频帧，获取所述第一视频帧的第一子图像，获取所述第三视频帧的第三子图像，基于所述第一子图像和所述第三子图像，确定是否用所述第一视频帧替换所述第三视频帧。所述第一子图像对应于所述第一视频帧中的第一字幕内容，所述第三子图像对应于所述第三视频帧中的第三字幕内容。

例如，在本公开至少一个实施例提供的方法中，基于所述第一子图像和所述第三子图像，确定是否用所述第一视频帧替换所述第三视频帧，包括：获取所述第一子图像中的第一像素的像素值；基于所述第一子图像的第一像素的像素值，设置所述第三子图像的第三像素的像素值，基于所述第一子图像和所述设置后的第三子图像，确定是否用所述第一视频帧替换所述第三视频帧。所述第一像素的像素值大于第三阈值；所述第三像素在所述第三子图像中的相对位置和所述第一像素在所述第一子图像的相对位置相同。

本公开至少一个实施例还提供一种视频插帧处理装置，包括：获取模块、比较模块和操作模块。获取模块被配置为获取视频的第一视频帧和第二视频帧。所述第一视频帧和所述第二视频帧在时域上相邻，所述第一视频帧是所述第二视频帧的前向帧。比较模块被配置为基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的第一比较结果。所述第一比较结果指示所述第一视频帧和所述第二视频帧之间是否存在画面切换。操作模块被配置为基于所述第一比较结果确定是否在所述第一视频帧和所述第二视频帧之间插帧。

本公开至少一个实施例还提供一种视频插帧处理装置，包括：处理器和存储器。存储器包括一个或多个计算机程序模块。所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行上述任一实施例中的视频插帧处理方法的指令。

本公开至少一个实施例还提供一种非瞬时可读存储介质，其上存储有计算机指令。所述计算机指令被处理器执行时执行上述任一实施例中的视频插帧处理方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开至少一个实施例提供的一种视频插帧方法的示意图；

图2为本公开至少一个实施例提供的视频插帧处理方法的流程示意图；

图3为本公开至少一个实施例提供的判断字幕切换的方法的流程图；

图4为本公开至少一个实施例提供的一种文本识别方法的流程示意图；

图5为本公开至少一个实施例提供的另一种判断字幕是否切换的方法的流程示意图；

图6为本公开至少一个实施例提供的又一种判断字幕是否切换的方法的示意框图；

图7为本公开至少一个实施例提供的另一视频插帧处理方法的示意图；

图8为本公开至少一个实施例提供的一种后处理方法的示意流程图；

图9为本公开至少一个实施例提供的另一种视频插帧处理方法的示意图；

图10为本公开至少一实施例提供的又一种视频插帧处理方法的示意框图；

图11为本公开至少一个实施例提供的一种视频插帧处理装置的示意框图；

图12为本公开至少一个实施例提供的另一种视频插帧处理装置的示意框图；

图13为本公开至少一个实施例提供的又一种视频插帧处理装置的示意框图；

图14为本公开至少一个实施例提供的一种非瞬时可读存储介质的示意框图；

图15为本公开至少一个实施例提供的一种电子设备的示意框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开中使用了流程图来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1为本公开至少一个实施例提供的一种视频插帧方法的示意图。

如图1所示，视频插帧技术通常是合成视频的两个连续帧之间的中间帧，用于提高帧速率和增强视觉质量。此外，视频插帧技术还可以支持各种应用，例如慢动作生成、视频压缩和用于视频运动去模糊的训练数据生成等。例如，视频插帧可以用光流预测算法来预测中间帧，并插入两帧之间。光流，就像光的流动一样，是一种通过颜色来表示图像中目标移动方向的方式。光流预测算法通常根据前后两帧视频来预测中间的某一帧。将预测完成的图像插进去后，视频看起来就会变得更流畅。例如，如图1所示，通过网络对输入的连续两帧估计中间流信息，通过反向扭曲输入帧得到粗略的结果，并将该结果与输入帧和中间流信息一起输入融合网络，最终得到中间帧。

目前，通常使用的视频插帧算法，都无法很好地处理形变问题，例如，由于视频的场景切换、字幕切换等导致的形变问题。因为大多数视频插帧算法都需要利用视频的前后帧的信息。当视频的前后帧的字幕/场景等发生切换时，无法正确地估计前后帧的光流信息，所以会产生明显的形变。

至少为了克服上述技术问题，本公开至少一个实施例提供一种视频插帧处理方法，该方法包括：获取视频的第一视频帧和第二视频帧；基于第一视频帧和第二视频帧，获取第一视频帧和第二视频帧之间的第一比较结果；基于第一比较结果确定是否在第一视频帧和第二视频帧之间插帧。第一视频帧和第二视频帧在时域上相邻，第一视频帧是第二视频帧的前向帧。第一比较结果指示第一视频帧和第二视频帧之间是否存在画面切换。

相应地，本公开至少一个实施例还提供了一种对应于上述视频插帧处理方法的视频插帧处理装置和非瞬时可读存储介质。

通过本公开至少一个实施例提供的视频插帧处理方法，可以解决在插帧处理中由于视频画面发生切换而导致的明显形变问题，保证视频的流畅度，从而提升用户的观看体验。

下面通过几个示例或实施例对根据本公开的至少一个实施例提供的布局设计方法进行非限制性的说明，如下面所描述的，在不相互抵触的情况下这些具体示例或实施例中不同特征可以相互组合，从而得到新的示例或实施例，这些新的示例或实施例也都属于本公开保护的范围。

图2为本公开至少一个实施例提供的视频插帧处理方法的流程示意图。

本公开至少一个实施例提供了一种视频插帧处理方法10，如图2所示。例如，该视频插帧处理方法10可以应用于任何需要视频插帧的场景，例如，可以应用于电视剧、电影、纪录片、广告、MV等的各种视频产品和服务，还可以应用于其他方面，本公开的实施例对此不作限制。如图2所示，该视频插帧处理方法10可以包括如下步骤S101至S103。

步骤S101：获取视频的第一视频帧和第二视频帧。第一视频帧和第二视频帧在时域上相邻，第一视频帧是第二视频帧的前向帧。

步骤S102：基于第一视频帧和第二视频帧，获取第一视频帧和第二视频帧之间的第一比较结果。第一比较结果指示第一视频帧和第二视频帧之间是否存在画面切换。

步骤S103：基于第一比较结果确定是否在第一视频帧和第二视频帧之间插帧。

需要说明的是，在本公开的实施例中，“第一视频帧”和“第二视频帧”用于指代视频或者视频帧序列中任意两个在时间上连续的或者相邻的两帧图像或者视频帧。“第一视频帧”用于指代在时间上相邻的两帧图像中的前一帧图像，“第二视频帧”用于指代在时间上相邻的两帧图像中的后一帧图像，“第三视频帧”用于指代插入到在时间上相邻的两帧图像之间的一帧中间帧或者插入帧。“第一视频帧”、“第二视频帧”和“第三视频帧”均不受限于特定的某一帧图像，也不受限于特定的顺序。“第一比较结果”用于指代视频中相邻的两帧图像之间的比较结果，不受限于特定的某一种比较结果，也不受限于特定的顺序。还需要说明的是，本公开的实施例是以相邻两帧的前向帧为参考，也可以以相邻两帧的后向帧为参考，只要整个视频插帧处理方法中保持一致即可。

例如，在本公开至少一个实施例中，对于步骤S102，为了避免由于视频的前后帧发生画面切换而导致的形变问题，可以将相邻的第一视频帧和第二视频帧进行比较，以确定第一视频帧和第二视频帧之间是否存在画面切换。

例如，在本公开至少一个实施例中，对于步骤S103，可以基于第一视频帧和第二视频帧的第一比较结果来确定是否在第一视频帧和第二视频帧之间执行插帧操作。例如，在一些示例中，插帧操作可以是通过光流预测方法，基于相邻的第一视频帧和第二视频帧计算得到中间帧/插入帧。

需要说明的是，本公开的实施例对如何获取中间帧/插入帧(即第三视频帧)的方法不作具体限制，可以采用各种常规的插帧方法得到第三视频帧。例如，中间帧/插入帧可以是基于相邻的两帧视频帧生成，可以是基于相邻的更多帧生成，也可以是基于某一特定或者某些特定的视频帧生成，本公开对此不作限制，可以根据实际情况来设置。例如，在本公开至少一个实施例中，对于步骤S103，可以包括响应于第一比较结果指示第一视频帧和第二视频帧之间不存在画面切换，确定在第一视频帧和第二视频之间插帧。响应于第一比较结果指示第一视频帧和第二视频帧之间存在画面切换，确定不在第一视频帧和第二视频之间插帧。

因此，在本公开至少一个实施例提供的视频插帧处理方法10中，根据相邻视频帧之间的比较结果，来选择性地执行插帧操作，从而有效避免在插帧处理中，由于视频画面发生切换而导致的明显形变问题，保证视频的流畅度，从而提升用户的观看体验。

例如，在本公开的至少一个实施例中，第一视频帧和第二视频帧之间的画面切换可以包括字幕切换，可以包括场景切换等，本公开的实施例对此不作限制。

例如，在一个示例中，第一视频帧中的字幕是“你要去什么地方”，第二视频帧中的字幕是“我准备去学校”。第一视频帧中的字幕和第二视频帧中的字幕不同，则可以视为第一视频帧和第二视频之间发生了字幕切换。需要说明的中，本公开的实施例对字幕内容不作限制。

又例如，在一个示例中，第一视频帧中的场景是在商场，第二视频帧中的场景是在学校，第一视频帧的场景和第二视频帧的场景不同，则可以认为第一视频帧和第二视频帧之间发生了场景切换。需要说明的中，在本公开的实施例中，各个视频帧中的场景可以包括商场、学校、景点等任意场景，本公开的实施例对此不作限制。

例如，在本公开的至少一个实施例中，对于步骤S102，基于第一视频帧和第二视频帧，获取第一视频帧和第二视频帧之间的第一比较结果，可以包括：基于第一视频帧和第二视频帧的字幕内容是否相同，确定第一视频帧和第二视频帧之间是否存在字幕切换。

例如，在本公开至少一个实施例中，对于判断相邻两帧之间是否发生字幕切换，可以通过定位视频的音频的每句话的起始与结束，从而获取音频对应的两帧视频帧，按照对应音频帧的时间信息进行标记，以此来判断对应字幕是否切分。

图3为本公开至少一个实施例提供的判断字幕切换的方法的示例流程图。

例如，在本公开的至少一个实施例中，基于第一视频帧和第二视频帧的字幕内容是否相同，确定第一视频帧和第二视频帧之间是否存在字幕切换，可以包括以下步骤S201至S203，如图3所示。

S201：获取第一视频帧对应的音频段。

S202：基于音频段，获取与音频段对应的起始视频帧和结束视频帧。

S203：基于起始视频帧和结束视频帧，确定第一视频帧和第二视频帧之间是否存在字幕切换。

需要说明的是，在本公开的实施例中，“起始视频帧”和“结束视频帧”用于指代基于相应的音频段的时间信息来确定的两帧视频帧，“起始视频帧”和“结束视频帧”不受限于特定的视频帧，也不受限于特定的顺序。

例如，在本公开的至少一个实施例中，对于步骤S201，可以将相应的音频数据输入到语音识别系统进行语音切分，得到语音识别结果以及相应的时间信息。例如，该时间信息包括对应的音频段的起始时间和结束时间。基于该语音识别结果以及相应的时间信息可以得到与第一视频帧对应的音频段。

例如，在本公开的至少一个实施例中，对于步骤S202，根据识别到的相应音频段的时间信息，可以确定与该音频段对应的起始视频帧和结束视频帧。

需要说明的是，本公开的实施例对语音识别方法不作限制，可以采用任何有效的语音识别方法。

例如，在本公开的至少一个实施例中，对于步骤S203，可以包括：响应于第二视频帧在起始视频帧和结束视频帧之间，确定第一视频帧和第二视频帧之间不存在字幕切换，以及响应于第二视频帧不在起始视频帧和结束视频帧之间，确定第一视频帧和第二视频帧之间存在字幕切换。

例如，在本公开至少一个示例中，一个视频包括视频帧序列，例如，包括在时间上相邻的视频帧1、视频帧2、视频帧3、视频帧4、视频帧5……假设第一视频帧是视频帧2，第一视频帧对应的音频段是“你要去什么地方”，根据该音频段的时间信息(例如，一句话的起始时刻和结束时刻)，确定该音频段对应的起始视频帧是视频帧1，并且结束视频帧是视频帧4。在这种情况下，说明从视频帧1到视频帧4的画面上显示的字幕都是“你要去什么地方”，即显示相同的字幕内容。例如，假设第二视频帧是视频帧3，在视频帧1和视频帧4之间，那么第一视频帧和第二视频帧之间不存在字幕切换。又例如，假设第二视频帧是视频帧5，不在视频帧1和视频帧4之间，那么第一视频帧和第二视频帧之间发生了字幕切换。通过上述操作，可以通过与视频对应的音频来判断哪些视频帧发生了字幕切换。

例如，在本公开至少一个实施例中，对于判断相邻视频帧之间是否发生字幕切换，除了通过音频来判断，还可以通过文本识别的方法。例如，在一些示例中，通过采用文本识别算法来获取第一视频帧和第二视频帧上显示的字幕内容，比较后判断第一视频帧和第二视频帧之间是否发生了字幕切换。需要说明的是，本公开的实施例对文本识别算法不作具体限制，只要能识别文本内容即可。

图4为本公开至少一个实施例提供的一种文本识别方法的流程示意图。

例如，在本公开至少一个实施例中，如图4所示。通过文本识别算法，除了获取识别文本内容以外，还可以得到文本的坐标。例如，在一些示例中，所获取的文本坐标可以是一句完整字幕的左上、左下、右上、右下四个顶点位置的坐标。例如，在一些示例中，可以对输入的图像(也可以是单帧视频)进行文本检测，确定文本所在的区域，然后对每个字单独进行分割，接着使用单体文字分类器(例如，采用基于文本特征向量相关性的算法、基于神经网络的算法等)完成单体文字的分类(对于置信度大于某一阈值的则认为是这个字)，最后输出文本的识别结果以及其坐标。需要说明的是，本公开的实施例对文本识别方法的具体操作不做限制，可以采用任何有效的文本识别方法。

例如，在本公开至少一个实施例中，对于判断视频的相邻帧(第一视频帧和第二视频帧)之间是否发生字幕切换，可以包括：获取第一视频帧的第一识别文本内容，获取第二视频帧的第二识别文本内容，响应于第一识别文本内容和第二识别文本内容相同，确定第一视频帧和第二视频帧之间不存在字幕切换。

需要说明的是，在本公开的实施例中，“第一识别文本内容”和“第二识别文本内容”用于指代对相应的视频帧执行文本识别操作得到的识别文本内容。“第一识别文本内容”和“第二识别文本内容”不受限于特定的文本内容，也不受限于特定的顺序。

例如，在本公开至少一个实施例中，为了更准确地识别字幕，可以提前设置文本识别操作应用的范围。由于字幕在视频画面中的显示位置通常是固定的，因此可以提前设置字幕所在的大致区域。

图5为本公开至少一个实施例提供的另一种判断字幕切换的方法的流程示意图。

通常，文本识别算法无法达到100％的准确率，例如，会使得文字切分的结果不是完全准确而产生其他问题。例如，在一些示例中，识别到了除字幕以外位置上的字体导致前后帧识别的文字序列无法匹配等。为了更加准确地判断字幕是否切换，本公开的实施例所提供的视频插帧处理方法10可以包括以下步骤S301-S303，如图5所示。

步骤S301：响应于第一识别文本内容和第二识别文本内容不同，获取第一视频帧的第一子图像。第一子图像对应于第一视频帧的第一字幕内容。

步骤S302：获取第二视频帧的第二子图像，第二子图像对应于第二视频帧的第二字幕内容。

步骤S303：基于第一子图像和第二子图像，确定第一视频帧和第二视频帧之间是否存在字幕切换。

需要说明的是，在本公开的实施例中，“第一字幕内容”和“第二字幕内容”分别用于指代相应的视频帧中显示的字幕内容。“第一字幕内容”和“第二字幕内容”不受限于特定的字幕内容，也不受限于特性的顺序。

还需要说明的是，在本公开的实施例中，“第一子图像”、“第二子图像”和“第三子图像”分别用于指代相应的视频帧中字幕所在区域的图像。“第一子图像”、“第二子图像”和“第三子图像”不受限于特定的图像，也不受限于特定的顺序。

例如，在本公开的至少一个实施例中，对某一视频帧执行文本识别操作，识别到该视频帧中的字幕的坐标(例如，一句完整字幕的左上、左下、右上、右下四个顶点位置的坐标)，基于该坐标，可以得到该视频帧中字幕所在的区域，从而得到该视频帧的对应于字幕内容的子图像。

例如，在本公开至少一个实施例中，对于步骤S303，可以包括：基于第一子图像和第二子图像，确定第一子图像和第二子图像之间的第一相似度；响应于第一相似度大于第一阈值，确定第一视频帧和第二视频帧之间不存在字幕切换；响应于第一相似度不大于第一阈值，确定第一视频帧和第二视频帧之间存在字幕切换。

需要说明的是，在本公开的实施例中，“第一相似度”用于指代相邻两帧视频帧的字幕子图像之间的图像相似性。“第二相似度”用于指代相邻两帧视频帧之间的图像相似性。“第一相似度”和“第二相似度”不受限于特定的相似度，也不受限于特定的顺序。

还需要说明的是，本公开的实施例中对“第一阈值”、第二阈值”和“第三阈值”的取值不作限制，可以根据实际需求来设置。“第一阈值”、第二阈值”和“第三阈值”均不受限于某些特定的值，也不受限于特定的顺序。

例如，在本公开的实施例中，两个图像之间的图像相似性可以采用各种方法来计算。例如，通过余弦相似度算法、直方图算法、感知哈希算法、基于互信息的算法等。本公开的实施例对计算图像相似性的方法不作限制，可以根据实际需求来选择。

例如，在本公开至少一个实施例中，可以采用结构相似性(Structural Similarity，SSIM)算法来计算两个图像之间的相似性。对于SSIM，是一种全参考的图像质量评价指标，分别从亮度、对比度、结构三个方面度量图像相似性。计算SSIM的公式如下所示：

其中，μ_x表示x的平均值，μ_y表示y的平均值，表示x的方差，表示y的方差，σ_xy表示x和y的协方差。c₁＝(k₁L)²,c₂＝(k₂L)²表示用来维持稳定的常数。L表示像素值的动态范围。k₁＝0.01，k₂＝0.03。结构相似性的取值范围为-1到1。数值越大，表示图像失真越小。当两张图像一模一样的时候，SSIM的值等于1。

例如，在本公开至少一个实施例中，可以设置“第一阈值”为0.6，也可以设置为0.8。需要说明的是，本公开的实施例对“第一阈值”的取值不作限制，可以根据实际需求来设置。

图6为本公开至少一个实施例提供的又一种关于判断字幕是否切换的方法的示意框图。

例如，在本公开至少一个实施例中，如图6所示，分别通过对第一视频帧I₀的大致字幕区域Z₀和第二视频帧I₁的大致字幕区域Z₁执行文本识别操作，得到第一文本识别内容T₀和第二识别文本内容T₁，以及相应的坐标C₀和C₁。然后，计算第一文本识别内容T₀和第二识别文本内容T₁之间的文本相似度，以确定第一文本识别内容T₀和第二识别文本内容T₁是否相同。如果该相似度大于某一阈值，则视为第一文本识别内容T₀和第二识别文本内容T₁相同，也即字幕没有发生切换。如果该相似度不大于某一阈值，则进一步判断第一视频帧I₀中对应字幕区域Z₀的第一子图像和第二视频帧I₁中对应字幕区域Z₁的第二子图像的相似度。例如，如图6所示，判断识别到的坐标C₀和坐标C₁范围内图像(即上述第一子图像和第二子图像)的SSIM是否大于阈值。如果SSIM大于阈值(例如，0.8)，则表明字幕没有发生切换。如果SSIM不大于阈值(例如，0.8)，则表明字幕发生了切换。

需要说明的是，本公开的实施例对计算文本相似度的方法不作限制。例如，可以采用欧氏距离、曼哈顿距离、余弦相似度等方法来计算文本相似度。还需要说明的是，本公开的实施例对于文本相似度的阈值也不作具体限制，可以根据实际需求来设置。

例如，在本公开至少一个实施例中，画面切换除了包括字幕切换以外，还可以包括场景切换。例如，对于步骤S102，可以包括：基于第一视频帧和第二视频帧的场景是否相同，确定第一视频帧和第二视频帧之间是否存在场景切换。

例如，在本公开至少一个实施例中，当视频涉及场景切换的时候，前后两帧图像的图像相似度(例如SSIM数值)会明显的降低。因此，可以通过计算图像相似度的方法来实现场景切分。

例如，在本公开至少一个实施例中，对于判断相邻两帧视频帧之间是否发生场景切换，可以包括如下步骤：获取第一视频帧和第二视频帧之间的第二相似度；响应于第二相似度大于第二阈值，确定第一视频帧和第二视频帧之间不存在场景切换；响应于第二相似度不大于第二阈值，确定第一视频帧和第二视频帧之间存在场景切换。

例如，在本公开至少一个实施例中，第二相似度可以是结构相似度(SSIM)，也可以是例如，感知哈希算法、直方图算法等来计算图片(即视频帧)之间的相似度，本公开的实施例对计算图像相似度的算法不作限制。

需要说明的是，在本公开的实施例中，所插帧数量是以2倍插帧为例。，例如由30fps(每秒传输帧数)插帧为60fps，即为每秒传输的帧数由30帧提高到60帧。当检测到相邻的两帧视频帧之间出现场景切换或是字幕切换时，当前的两帧之间不再执行插帧操作，为了保证帧数一致，下一次插帧时会插两帧。又例如，当场景切换以及字幕切换连续两次出现时，会导致两次未执行插帧操作，如果下一次插帧时只插两帧，会导致整体视频少帧。

图7为本公开至少一个实施例提供的另一视频插帧处理方法的示意图。

例如，为了避免上述少帧情况的出现，在本公开至少一个实施例中，视频插帧处理方法10除了步骤S10-S103以外，可以包括：设置第一插帧标志；

响应于第一视频帧和第二视频帧之间存在画面切换，将第一插帧标志修改为第二插帧标志。

需要说明的是，在本公开的实施例中，“第一插帧标志”、“第二插帧标志”和“第三插帧标志”指代不同时间点或不同阶段的插帧标志，以用于指示视频中存在连续多少次画面切换。“第一插帧标志”、“第二插帧标志”和“第三插帧标志”均不受限于特定的值，也不受限于特定的顺序。

例如，在一些示例中，假设视频包括视频帧序列，例如，包括在时间上相邻的视频帧1、视频帧2、视频帧3、视频帧4、视频帧5……例如，在一个示例中，设置一个插帧标志，例如，该插帧标志Flag被初始化为(0，0)。输入相邻的两个视频帧(例如，第一视频帧和第二视频帧)，假设第一视频帧是视频帧2，第二视频帧是视频帧3。通过上述实施例中所述的方法确定视频帧2和视频帧3之间是否存在画面切换(字幕切换或者场景切换)。如果视频帧2 和视频帧3之间存在画面切换，则将插帧标志Flag从(0,0)修改为(0,1)。例如，在一些示例中，当确定相邻两帧视频帧之间发生画面切换时，对插帧标志Flag(0,0)附加一个值“1”，并弹出前一个值“0”，即更新后的插帧标志为(0,1)。当确定相邻两帧视频帧之间没有发生画面切换时，对插帧标志Flag(0,0)附加一个值“0”，并弹出前一个值“0”，即更新后的插帧标志为(0,0)。

需要说明的是，插帧标志也可以初始化为其他数值，例如，(1,1)、(0，0，0)等，本公开的实施例对此不作限制。

例如，在本公开至少一个实施例中，响应于第一视频帧和第二视频帧之间存在画面切换，获取第四视频帧。基于第二视频帧和第四视频帧，获取第二视频帧和第四视频帧之间的第二比较结果。基于第二比较结果确定是否在第二视频帧和第四视频之间插帧。第四视频帧和第二视频帧在时域上相邻，第二视频帧是第四视频帧的前向帧。第二比较结果指示第二视频帧和所述第四视频帧之间是否存在画面切换。

例如，在本公开至少一个实施例中，基于第二比较结果确定是否在第二视频帧和第四视频之间插帧，包括：响应于第二比较结果指示第二视频帧和第四视频帧之间不存在画面切换，在第二视频帧和第四视频之间插入多帧视频帧。多帧视频帧的帧数基于第二插帧标志。

例如，在本公开至少一个实施例中，基于第二比较结果确定是否在第二视频帧和第四视频之间插帧，包括：响应于第二比较结果指示第二视频帧和第四视频帧之间存在画面切换，确定不在第二视频帧和第四视频之间插帧；以及将第二插帧标志修改为第三插帧标志。该第三插帧标志用于指示下一次插帧的帧数。

需要说明的是，“第四视频帧”用于指代在时间上与“第二视频帧”相邻的后一帧图像，第四视频帧不受限于特定的某一帧图像，也不受限于特定的顺序。“第二比较结果”用于指代视频中相邻的两帧图像(第二视频帧和第四视频帧)之间的比较结果，不受限于特定的某一种比较结果，也不受限于特定的顺序。

例如，在一些示例中，假设视频包括视频帧序列，例如，包括在时间上相邻的视频帧1、视频帧2、视频帧3、视频帧4、视频帧5……假设第一视频帧是视频帧1，第二视频帧是视频帧2，第四视频帧是视频帧3。如图7所示，若输入视频帧1和视频帧2，确定视频帧1和视频帧2之间存在画面切换(字幕切换或者场景切换)，在这种情况下，视频帧1和视频帧2之间不进行插帧操作，且设置插帧标志Flag为(0,1)。然后，再输入相邻的2帧视频帧，即视频帧2和视频帧3，通过上述实施例提供的方法判断视频帧2和视频帧3之间是否存在画面切换(字幕切换或者场景切换)。例如，如果判断视频帧2和视频帧3之间不存在画面切换，则在视频帧2和视频帧3之间执行插帧操作。在这种情况下，插帧标志Flag为(0，1)，说明出现了一次画面切换(即视频帧1和视频帧2之间没有插帧)，为了避免出现少帧的问题，需要在视频帧2和视频帧3之间插入两帧视频帧。又例如，如果判断视频帧2和视频帧3之间仍然存在画面切换，则不在视频帧2和视频帧3之间执行插帧操作。在这种情况下，将插帧标志Flag从(0，1)修改为(1,1)。例如，对插帧标志Flag(0,1)附加一个值“1”，并弹出前一个值“0”。插帧标志Flag(1,1)可以说明视频帧序列中已连续两次出现画面切换。例如，视频帧1和视频帧2之间存在画面切换，并且视频帧2和视频帧3之间仍然存在画面切换。例如，通过类似的操作，继续比较视频帧3和视频帧4。如果视频帧3和视频帧4之间不存在画面切换，可以进行插帧操作。为了避免出现少帧的问题，基于插帧标志(1,1)可知，需要在视频帧3和视频帧4之间插入3帧视频帧。由此，保证了视频插帧后的整体完整性。

需要说明的是，在实际应用中，很少发生连续几帧相邻的视频帧均出现画面切换，因此，本公开的上述实施例以最多连续发生2次画面切换为示例，将插帧标志初始化为(0,0)。本公开的实施例对此不作限制，可以根据实际需求来设置。

图8为本公开至少一个实施例提供的一种插帧后处理方法的示意流程图。

例如，在本公开至少一个实施例中，视频插帧处理方法10还包括以下步骤S401-S403，如图8所示。

步骤S401：响应于在第一视频帧和第二视频帧之间插入第三视频帧，获取第一视频帧的第一子图像。第一子图像对应于第一视频帧中的第一字幕内容。

步骤S402：获取第三视频帧的第三子图像。第三子图像对应于第三视频帧中的第三字幕内容。

步骤S403：基于第一子图像和第三子图像，确定是否用第一视频帧替换第三视频帧。

例如，在本公开至少一个实施例中，对于步骤S403，可以包括：获取第一子图像中的第一像素的像素值；基于第一子图像的第一像素的像素值，设置第三子图像的第三像素的像素值；以及基于第一子图像和设置后的第三子图像，确定是否用第一视频帧替换第三视频帧。第一像素的像素值大于第三阈值，第三像素在第三子图像中的相对位置和第一像素在第一子图像的相对位置相同。

例如，在本公开的实施例中，第三像素在第三子图像中的相对位置和第一像素在第一子图像的相对位置相同可以理解为例如，以第一子图像的左上角顶点为坐标原点，第一像素在该坐标系下的位置坐标与以第三子图像的左上角顶点为坐标原点，第三像素在该坐标系下的位置坐标相同。

结合图9的详细描述，包括图8所示的操作的视频插帧处理方法10可以解决在视频插帧处理中由于字幕背景发生较大运动而导致的形变问题。图9为本公开至少一个实施例提供的另一种视频插帧处理方法的示意图。

例如，在一些示例中，当在第一视频帧和第二视频帧之间插入第三视频帧之后，为了提高插帧准确性，可以判断第一视频帧和第三视频帧的字幕是否相同，即是否发生字幕切换，如图9所示。例如，可以通过上述实施例中提供的判断相邻视频帧之间是否发生字幕切换的方法来判断。例如，该部分操作可以参考对应于图6的相关描述，在此不再赘述。例如，在通过图6的方法判断第一视频帧和第三视频帧之间不存在字幕切换后，还可以进一步进行处理。

例如，在一些示例中，因为字幕的颜色通常保持稳定，例如，大部分字幕都是白色，因此可以选择第一视频帧的第一子图像(即识别到的坐标C₀对应的区域)中大于某一阈值(即第三阈值)的像素(即第一像素)。例如，设置第三阈值为220，像素值范围一般为0-255。将第一像素的值赋值给第三子图像(即识别到的坐标C_t对应的区域)中与第一像素位于相同位置的像素(即第三像素)。例如，在图9中，将赋值后的第三子图像记为C_t’。由于字幕背景如果存在较大幅度的运动会导致字幕的形变通常是明显超出原始字符的范围。因此，通过比较第一子图像和赋值后的第三子图像可以判断插帧字幕是否存在明显形变。

例如，在本公开至少一个实施例中，比较第一子图像和赋值后的第三子图像，将第一子图像和赋值后的第三子图像各个对应像素的像素值相减，判断像素差值的绝对值超过某一阈值(例如，150)的像素的数量是否大于另一个阈值(例如，30)。如果像素差值的绝对值超过150的像素的数量大于30个，则视为插入的第三视频帧的字幕存在明显的形变，直接将第一视频帧复制，以替换发生形变的插入帧(即第三视频帧)。当然，也可以用第二视频帧来替换发生形变的插入帧(即第三视频帧)，本公开的实施例对此不作限制。这样，可以避免字幕背景发生较大运动时带来的形变问题。

图10为本公开至少一实施例提供的一种视频插帧处理方法的示意框图。

如图10所示，本公开至少一实施例提供的一种视频插帧处理方法不仅可以解决场景切换、字幕切换导致的形变问题，还可以通过插帧后的后处理来解决字幕背景大运动导致的明显形变问题。关于图10中所述方法的各个框中的操作在上文中都有详细描述，在此不再赘述。

因此，通过本公开至少一个实施例提供的视频插帧处理方法10，可以解决在插帧处理中，由于视频画面发生切换而导致以及字幕背景发生较大运动而导致的明显形变问题，从而保证视频的流畅度，提升用户的观看体验。

还需要说明的是，在本公开的各个实施例中，视频插帧处理方法10的各个步骤的执行顺序不受限制，虽然上文以特定顺序描述了各个步骤的执行过程，但这并不构成对本公开实施例的限制。视频插帧处理方法10中的各个步骤可以串行执行或并行执行，这可以根据实际需求而定。例如，视频插帧处理方法10还可以包括更多或更少的步骤，本公开的实施例对此不作限制。

本公开至少一个实施例还提供一种视频插帧处理装置，该视频插帧处理装置可以根据相邻视频帧之间的比较结果，来选择性地执行插帧处理，从而有效避免在插帧处理中，由于视频画面发生切换而导致的明显形变问题，保证视频的流畅度，从而提升用户的观看体验。

图11为本公开至少一个实施例提供的一种视频插帧处理装置的示意框图。

例如，在本公开至少一个实施例中，如图11所示，视频插帧处理装置80包括获取模块801、比较模块802和操作模块803。

例如，在本公开至少一个实施例中，获取模块801配置为获取视频的第一视频帧和第二视频帧。第一视频帧和第二视频帧在时域上相邻，第一视频帧是第二视频帧的前向帧。例如，该获取模块801可以实现步骤S101，其具体实现方法可以参考步骤S101的相关描述，在此不再赘述。

例如，在本公开至少一个实施例中，比较模块802被配置为基于第一视频帧和第二视频帧，获取第一视频帧和第二视频帧之间的第一比较结果。第一比较结果指示第一视频帧和第二视频帧之间是否存在画面切换。例如，该比较模块802可以实现步骤S102，其具体实现方法可以参考步骤S102的相关描述，在此不再赘述。

例如，在本公开至少一个实施例中，操作模块803被配置为基于第一比较结果确定是否在第一视频帧和第二视频帧之间插帧。例如，该操作模块803可以实现步骤S103，其具体实现方法可以参考步骤S103的相关描述，在此不再赘述。

需要说明的是，这些获取模块801、比较模块802和操作模块803可以通过软件、硬件、固件或它们的任意组合实现，例如，可以分别实现为获取电路801、比较电路802和操作电路803，本公开的实施例对它们的具体实施方式不作限制。

应当理解的是，本公开实施例提供的视频插帧处理装置80可以实施前述视频插帧处理方法10，也可以实现与前述视频插帧处理方法10相似的技术效果，在此不作赘述。

需要注意的是，在本公开的实施例中，该用于视频插帧处理装置80可以包括更多或更少的电路或单元，并且各个电路或单元之间的连接关系不受限制，可以根据实际需求而定。各个电路的具体构成方式不受限制，可以根据电路原理由模拟器件构成，也可以由数字芯片构成，或者以其他适用的方式构成。

图12是本公开至少一个实施例提供另一种视频插帧处理装置的示意框图。

本公开至少一个实施例还提供了一种视频插帧处理装置90。如图12所示，视频插帧处理装置90包括处理器910和存储器920。存储器920包括一个或多个计算机程序模块921。一个或多个计算机程序模块921被存储在存储器920中并被配置为由处理器910执行，该一个或多个计算机程序模块921包括用于执行本公开的至少一个实施例提供的视频插帧处理方法10的指令，其被处理器910执行时，可以执行本公开的至少一个实施例提供的视频插帧处理方法10中的一个或多个步骤。存储器920和处理器910可以通过总线系统和/或其它形式的连接机构(未示出)互连。

例如，处理器910可以是中央处理单元(CPU)、数字信号处理器(DSP)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元，例如现场可编程门阵列(FPGA)等；例如，中央处理单元(CPU)可以为X86或ARM 架构等。处理器910可以为通用处理器或专用处理器，可以控制视频插帧处理装置90中的其它组件以执行期望的功能。

例如，存储器920可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序模块921，处理器910可以运行一个或多个计算机程序模块921，以实现视频插帧处理装置90的各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据以及应用程序使用和/或产生的各种数据等。视频插帧处理装置90的具体功能和技术效果可以参考上文中关于视频插帧处理方法10的描述，此处不再赘述。

图13为本公开至少一个实施例提供的又一种视频插帧处理装置300的示意框图。

本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图13示出的视频插帧处理装置300仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

例如，如图13所示，在一些示例中，视频插帧处理装置300包括处理装置(例如中央处理器、图形处理器等)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有计算机系统操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304被此相连。输入/输出(I/O)接口305也连接至总线304。

例如，以下部件可以连接至I/O接口305：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306；包括诸如液晶显示器(LCD)、扬声器、振动器等的输出装置307；包括例如磁带、硬盘等的存储装置308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信装置309。通信装置309可以允许视频插帧处理装置300与其他设备进行无线或有线通信以交换数据，经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储装置308。虽然图13示出了包括各种装置的视频插帧处理装置300，但是应理解的是，并不要求实施或包括所有示出的装置。可以替代地实施或包括更多或更少的装置。

例如，该视频插帧处理装置300还可以进一步包括外设接口(图中未示出)等。该外设接口可以为各种类型的接口，例如为USB接口、闪电(lighting)接口等。该通信装置309可以通过无线通信来与网络和其他设备进行通信，该网络例如为因特网、内部网和/或诸如蜂窝电话网络之类的无线网络、无线局域网(LAN)和/或城域网(MAN)。无线通信可以使用多种通信标准、协议和技术中的任何一种，包括但不局限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi(例如基于IEEE 802.11a、IEEE 802.11b、IEEE 802.11g和/或IEEE 802.11n标准)、基于因特网协议的语音传输(VoIP)、Wi-MAX，用于电子邮件、即时消息传递和/或短消息服务(SMS)的协议，或任何其他合适的通信协议。

例如，视频插帧处理装置300可以为手机、平板电脑、笔记本电脑、电子书、游戏机、电视机、数码相框、导航仪等任何设备，也可以为任意的数据处理装置及硬件的组合，本公开的实施例对此不作限制。

例如，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置309从网络上被下载和安装，或者从存储装置308被安装，或者从ROM302被安装。在该计算机程序被处理装置301执行时，执行本公开实施例所公开的视频插帧处理方法10。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述视频插帧处理装置300中所包含的；也可以是单独存在，而未装配入该视频插帧处理装置300中。

图14为本公开至少一个实施例提供的一种非瞬时可读存储介质的示意框图。

本公开的实施例还提供一种非瞬时可读存储介质。图14是根据本公开至少一个实施例的一种非瞬时可读存储介质的示意框图。如图14所示，非瞬时可读存储介质140上存储有计算机指令111，该计算机指令111被处理器执行时执行如上所述的视频插帧处理方法10中的一个或多个步骤。

例如，该非瞬时可读存储介质140可以是一个或多个计算机可读存储介质的任意组合，例如，一个计算机可读存储介质包含用于获取视频的第一视频帧和第二视频帧的计算机可读的程序代码，另一个计算机可读存储介质包含用于基于第一视频帧和所述第二视频帧，获取第一视频帧和第二视频帧之间的第一比较结果的计算机可读的程序代码，又一个计算机可读存储介质包含用于基于第一比较结果确定是否在第一视频帧和第二视频帧之间插帧的计算机可读的程序代码。当然，上述各个程序代码也可以存储在同一个计算机可读介质中，本公开的实施例对此不作限制。

例如，当该程序代码由计算机读取时，计算机可以执行该计算机存储介质中存储的程序代码，执行例如本公开任一个实施例提供的视频插帧处理方法10。

例如，存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。例如，该可读存储介质也可以为图12中的存储器920，相关描述可以参考前述内容，此处不再赘述。

本公开的实施例还提供一种电子设备。图15是根据本公开至少一个实施例的一种电子设备的示意框图。如图15所示，该电子设备120可以包括如上所述的视频插帧处理装置80/90/300。例如，该电子设备120可以实施本公开任一个实施例提供的视频插帧处理方法10。

在本公开中，术语“多个”指两个或两个以上，除非另有明确的限定。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种视频插帧处理方法，包括：

获取视频的第一视频帧和第二视频帧，其中，所述第一视频帧和所述第二视频帧在时域上相邻，所述第一视频帧是所述第二视频帧的前向帧；

基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的第一比较结果，其中，所述第一比较结果指示所述第一视频帧和所述第二视频帧之间是否存在画面切换；

基于所述第一比较结果确定是否在所述第一视频帧和所述第二视频帧之间插帧。
根据权利要求1所述的方法，其中，所述画面切换包括字幕切换和/或场景切换。
根据权利要求2所述的方法，其中，基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的所述第一比较结果，包括：

基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换。
根据权利要求3所述的方法，其中，基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：

获取所述第一视频帧对应的音频段；

基于所述音频段，获取与所述音频段对应的起始视频帧和结束视频帧；

基于所述起始视频帧和所述结束视频帧，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换。
根据权利要求4所述的方法，其中，基于所述起始视频帧和所述结束视频帧，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：

响应于所述第二视频帧在所述起始视频帧和所述结束视频帧之间，确定所述第一视频帧和所述第二视频帧之间不存在所述字幕切换；

响应于所述第二视频帧不在所述起始视频帧和所述结束视频帧之间，确定所述第一视频帧和所述第二视频帧之间存在所述字幕切换。
根据权利要求3-5中任一项所述的方法，其中，基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：

获取所述第一视频帧的第一识别文本内容；

获取所述第二视频帧的第二识别文本内容；

响应于所述第一识别文本内容和所述第二识别文本内容相同，确定所述第一视频帧和所述第二视频帧之间不存在所述字幕切换。
根据权利要求6所述的方法，其中，基于所述第一视频帧和所述第二视频帧的字幕内容是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，还包括：

响应于所述第一识别文本内容和所述第二识别文本内容不同；

获取所述第一视频帧的第一子图像，其中，所述第一子图像对应于所述第一视频帧的第一字幕内容；

获取所述第二视频帧的第二子图像，其中，所述第二子图像对应于所述第二视频帧的第二字幕内容；

基于所述第一子图像和所述第二子图像，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换。
根据权利要求7所述的方法，其中，基于所述第一子图像和所述第二子图像，确定所述第一视频帧和所述第二视频帧之间是否存在所述字幕切换，包括：

基于所述第一子图像和所述第二子图像，确定所述第一子图像和所述第二子图像之间的第一相似度；

响应于所述第一相似度大于第一阈值，确定所述第一视频帧和所述第二视频帧之间不存在所述字幕切换；

响应于所述第一相似度不大于所述第一阈值，确定所述第一视频帧和所述第二视频帧之间存在所述字幕切换。
根据权利要求2-8中任一项所述的方法，其中，基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的所述第一比较结果，包括：

基于所述第一视频帧和所述第二视频帧的场景是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述场景切换。
根据权利要求9所述的方法，其中，基于所述第一视频帧和所述第二视频帧的场景是否相同，确定所述第一视频帧和所述第二视频帧之间是否存在所述场景切换，包括：

获取所述第一视频帧和所述第二视频帧之间的第二相似度；

响应于所述第二相似度大于第二阈值，确定所述第一视频帧和所述第二视频帧之间不存在所述场景切换；

响应于所述第二相似度不大于所述第二阈值，确定所述第一视频帧和所述第二视频帧之间存在所述场景切换。
根据权利要求1-10中任一项所述的方法，其中，基于所述第一比较结果确定是否在所述第一视频帧和所述第二视频之间插帧，包括：

响应于所述第一比较结果指示所述第一视频帧和所述第二视频帧之间不存在所述画面切换，确定在所述第一视频帧和所述第二视频之间插帧；

响应于所述第一比较结果指示所述第一视频帧和所述第二视频帧之间存在所述画面切换，确定不在所述第一视频帧和所述第二视频之间插帧。
根据权利要求1-11中任一项所述的方法，还包括：

设置第一插帧标志；

响应于所述第一视频帧和所述第二视频帧之间存在所述画面切换，将所述第一插帧标志修改为第二插帧标志。
根据权利要求12所述的方法，还包括：

响应于所述第一视频帧和所述第二视频帧之间存在所述画面切换，获取第四视频帧，其中，所述第四视频帧和所述第二视频帧在时域上相邻，所述第二视频帧是所述第四视频帧的前向帧；

基于所述第二视频帧和所述第四视频帧，获取所述第二视频帧和所述第四视频帧之间的第二比较结果，其中，所述第二比较结果指示所述第二视频帧和所述第四视频帧之间是否存在所述画面切换；

基于所述第二比较结果确定是否在所述第二视频帧和所述第四视频之间插帧。
根据权利要求13所述的方法，其中，基于所述第二比较结果确定是否在所述第二视频帧和所述第四视频之间插帧，包括：

响应于所述第二比较结果指示所述第二视频帧和所述第四视频帧之间不存在所述画面切换，在所述第二视频帧和所述第四视频之间插入多帧视频帧，其中，所述多帧视频帧的帧数基于所述第二插帧标志。
根据权利要求13所述的方法，基于所述第二比较结果确定是否在所述第二视频帧和所述第四视频之间插帧，包括：

响应于所述第二比较结果指示所述第二视频帧和所述第四视频帧之间存在所述画面切换，确定不在所述第二视频帧和所述第四视频之间插帧；以及

将所述第二插帧标志修改为第三插帧标志，其中，所述第三插帧标志用于指示下一次插帧的帧数。
根据权利要求1-15中任一项所述的方法，还包括：

响应于在所述第一视频帧和所述第二视频帧之间插入第三视频帧，获取所述第一视频帧的第一子图像，其中，所述第一子图像对应于所述第一视频帧中的第一字幕内容；

获取所述第三视频帧的第三子图像，其中，所述第三子图像对应于所述第三视频帧中的第三字幕内容；

基于所述第一子图像和所述第三子图像，确定是否用所述第一视频帧替换所述第三视频帧。
根据权利要求16所述的方法，其中，基于所述第一子图像和所述第三子图像，确定是否用所述第一视频帧替换所述第三视频帧，包括：

获取所述第一子图像中的第一像素的像素值；其中，所述第一像素的像素值大于第三阈值；

基于所述第一子图像的第一像素的像素值，设置所述第三子图像的第三像素的像素值，其中，所述第三像素在所述第三子图像中的相对位置和所述第一像素在所述第一子图像的相对位置相同；

基于所述第一子图像和所述设置后的第三子图像，确定是否用所述第一视频帧替换所述第三视频帧。
一种视频插帧处理装置，包括：

获取模块，被配置为获取视频的第一视频帧和第二视频帧，其中，所述第一视频帧和所述第二视频帧在时域上相邻，所述第一视频帧是所述第二视频帧的前向帧；

比较模块，被配置为基于所述第一视频帧和所述第二视频帧，获取所述第一视频帧和所述第二视频帧之间的第一比较结果，其中，所述第一比较结果指示所述第一视频帧和所述第二视频帧之间是否存在画面切换；

操作模块，被配置为基于所述第一比较结果确定是否在所述第一视频帧和所述第二视频帧之间插帧。
一种视频插帧处理装置，包括：

处理器；

存储器，包括一个或多个计算机程序模块；

其中，所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行权利要求1-17中任一项所述的视频插帧处理方法的指令。
一种非瞬时可读存储介质，其上存储有计算机指令，其中，所述计算机指令被处理器执行时执行权利要求1-17中任一项所述的视频插帧处理方法。