WO2022100093A1

WO2022100093A1 - 一种视频字幕制作方法

Info

Publication number: WO2022100093A1
Application number: PCT/CN2021/101069
Authority: WO
Inventors: 邱思琳; 魏博
Original assignee: 深圳市前海手绘科技文化有限公司
Priority date: 2020-11-13
Filing date: 2021-06-18
Publication date: 2022-05-19
Also published as: CN112312196A

Abstract

提供了一种字幕制作方法，通过解析字幕内容和视频画面，自动将字幕文稿分割成字幕段并分配基本属性。通过该字幕制作方法可以降低字幕导入、编辑及样式设置的时间，既提高了字幕添加效率，也丰富了字幕的表现形式。

Description

一种视频字幕制作方法

技术领域

本发明属于视频技术领域，尤其涉及一种视频字幕制作方法、装置、电子设备和存储介质。

背景技术

现有技术中，字幕添加通常是逐句往视频中添加，即使整段输入字幕文档也无法实现自动切分，并且字幕字体大小、颜色及位置无法根据视频分辨率及所处时刻画面颜色主动变换，需手动调整，操作成本较高。

发明内容

为解决上述技术缺陷，本发明提供一种视频字幕制作方法，包括如下步骤：

向视频中导入字幕文稿；

根据所述字幕文稿的标点符号拆分所述字幕文稿，生成多个字幕段。

对应的，本发明提供一种视频字幕制作的装置，其特征在于，包括：

导入模块，用于向视频中导入字幕文稿；

处理模块，用于根据所述字幕文稿的标点符号拆分所述字幕文稿，生成多个字幕段。

技术效果说明：本发明通过读取字幕文稿的信息，将字幕文稿根据标点符号切分成字幕段，并同时根据字幕段的标点符号分配该字幕段的出现时长及与另一个字幕段的间隔时长。

具体的，生成多个字幕段的步骤后还包括：

读取视频的画面色彩；

设置与所述画面色彩适配的字幕段字体颜色。

本发明还提供一种对应的装置，包括：

读取模块，读取视频的画面色彩；

设置模块，设置与所述画面色彩适配的字幕段字体颜色。

技术效果说明：本发明通过读取字幕段开始时刻的视频画面中占据最大面积的颜色明度值设置该字幕段的字体颜色，使视频中不同时刻的字幕不会因画面颜色的变化而混入背景颜色无法识别。

需要进一步说明的是，字幕段的起始时间是允许用户做自定义修改的，在用户修改后由于字幕段开始时刻画面的改变，字幕段的字体颜色也会相应改变。

具体的，生成多个字幕段的步骤后还包括：

读取视频的分辨率；

根据所述分辨率，设置所述字幕段的字体大小。

本发明还提供一种对应的装置，包括：

读取视频的分辨率；

根据所述分辨率，设置所述字幕段的字体大小。

技术效果说明：本发明通过读取视频的分辨率设置字幕段的字体大小，使字幕段所占屏幕百分比处于最佳观赏大小，并且允许用户自行调整，为避免遮挡重要信息，也允许用户自行调整字幕段在屏幕中的位置。

具体的，生成多个字幕段的步骤后还包括：

读取视频的时长；

根据所述时长及所述字幕段字数，设置所述字幕段出现及消失时刻。

本发明还提供一种对应的装置，包括：

读取模块，读取视频的时长；

设置模块，根据所述时长及所述字幕段字数，设置所述字幕段出现及消失时刻。

技术效果说明：本发明通过读取视频的时长及字幕段字数，分配字幕段出现时长，字幕段字数多分配时间长字数少分配时间短。

具体的，根据所述分辨率，设置所述字幕段的字体大小包括：

预先训练识别模型；

所述识别模型根据所述分别率输出字幕段的字体大小。

具体的，预先训练识别模型包括：

接收训练样本，所述训练样本包括分别率和字体大小的一一对应关系；

基于所述训练样本对识别模型训练以使识别模型能够输出与待识别分别率对应的字体大小。

具体的，还包括：

判断待识别的分别率与训练样本中的分辨率是否相同；

若不同，则确定与待识别的分别率最接近的训练样本分辨率所对应的字体大小输出。

具体的，还包括：

接收使用者输入的反馈信息；

基于所述反馈信息对识别模型进行更新。

具体的，基于所述反馈信息对识别模型进行更新包括：

所述反馈信息包括对识别模型输出的字体大小进行纠正的纠正信息，所述纠正信息对应一种纠正字体大小；

将所述纠正字体大小以及该纠正字体对应的分辨率作为样本反馈以更新所述识别模型。

对应的，所述设置模块包括：

训练单元，用于预先训练识别模型；

识别单元，用于所述识别模型根据所述分别率输出字幕段的字体大小。

对应的，所述训练单元还用于执行以下步骤，包括：

对应的，还包括：

判断单元，用于判断待识别的分别率与训练样本中的分辨率是否相同；

确定单元，用于若不同，则确定与待识别的分别率最接近的训练样本分辨率所对应的字体大小输出。

对应的，还包括：

接收单元，用于接收使用者输入的反馈信息；

更新单元，用于基于所述反馈信息对识别模型进行更新。

对应的，所述更新单元还用于执行以下步骤，包括：

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序在所述处理器中执行可实现上述任一种方法，其中，电子设备可以为移动终端或web端。

本发明还提供一种存储介质，存储计算机程序，所述计算机程序在处理器中执行可实现上述任一种方法。

附图说明

图1为一实施例提供的一种视频字幕制作方法流程图；

图2为一实施例提供的对图1中方法的装置架构图；

图3为一实施例提供的对字幕段字体颜色设置流程图；

图4为一实施例提供的对图3的装置架构图；

图5为一实施例提供的对字幕段字体大小设置流程图；

图6为一实施例提供的对图5的装置架构图；

图7为一实施例提供的对字幕段起止时刻设置流程图；

图8为一实施例提供的对图7的装置架构图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，在本发明的描述中，除非另有明确的规定和限定，术语“存储介质”可以是ROM、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。术语“处理器”可以是CPLD(Complex Programmable Logic Device：复杂可编程逻辑器件)、FPGA(Field－Programmable Gate Array：现场可编程门阵列)、MCU(Microcontroller Unit：微控制单元)、PLC(Programmable Logic Controller：可编程逻辑控制器)以及CPU(Central Processing Unit：中央处理器)等具备数据处理功能的芯片或电路。术语“电子设备”可以是具有数据处理功能和存储功能的任何设备，通常可以包括固定终端和移动终端。固定终端如台式机等。移动终端如手机、PAD以及移动机器人等。此外，后续所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

下面，本发明提出部分优选实施例以教导本领域技术人员实现。

实施例一：

参见图1，本实施例提供一种视频字幕制作方法，包括如下步骤：

S1、向视频中导入字幕文稿；

S2、根据所述字幕文稿的标点符号拆分所述字幕文稿，生成多个字幕段；

实施例二

参见图2，对应的，本发明提供一种视频字幕制作的装置，包括：

导入模块1，用于向视频中导入字幕文稿；

处理模块2，用于根据所述字幕文稿的标点符号拆分所述字幕文稿，生成多个字幕段。；

实施例三

参见图3，具体的，步骤S2后还包括：

S21、读取视频的画面色彩；

S22、设置与所述画面色彩适配的字幕段字体颜色。

实施例四

参见图4，本发明还提供一种对应的装置，包括：

读取模块21，读取视频的画面色彩；

设置模块22，设置与所述画面色彩适配的字幕段字体颜色。

实施例五

参见图5，具体的，步骤S2后还包括：

S23、读取视频的分辨率；

S24、根据所述分辨率，设置所述字幕段的字体大小。

实施例六

参见图6，本发明还提供一种对应的装置，包括：

读取模块23，读取视频的分辨率；

设置模块24，根据所述分辨率，设置所述字幕段的字体大小。

实施例七

参见图7，具体的，步骤S2后还包括：

S25、读取视频的时长；

S26、根据所述时长及所述字幕段字数，设置所述字幕段出现及消失时刻。

实施例八

参见图8，本发明还提供一种对应的装置，包括：

读取模块25，读取视频的时长；

设置模块26，根据所述时长及所述字幕段字数，设置所述字幕段出现及消失时刻。

实施例九

本发明根据所述分辨率，设置所述字幕段的字体大小包括：

预先训练识别模型。本发明在得到字幕段的字体大小时会通过模型进行判定，因为在实际场景中，每个视频的字幕段的分别率都可能是不同的，人为判定容易出现不一致的情况，所以通过识别模型判定具有速度快、准确性高的优点。

所述识别模型根据所述分别率输出字幕段的字体大小。识别模型能够根据不同视频的不同分别率得到字幕段相应的字体大小，一般来说，每种分辨率会对应一种字幕段的字体大小。

本发明还包括，预先训练识别模型包括：

接收训练样本，所述训练样本包括分别率和字体大小的一一对应关系。本发明将分别率和字体大小作为训练样本，并且使一一对应的关系，以防止输入一个分辨率而得到多个字体大小的情况出现，使得本发明提供的方法较为稳定。

本发明还包括：

判断待识别的分别率与训练样本中的分辨率是否相同。由于不同视频的分辨率种类较多，所以本发明的识别模型在工作过程中很容易出现对没有经过训练的分辨率进行识别的情况。

若不同，则确定与待识别的分别率最接近的训练样本分辨率所对应的字体大小输出。当都不相同时，即此时没有与当前识别的分别率相对应的字体大小，但为了保障能够对字幕段的字体大小实现调整，所以确定最接近的训练样本分辨率所对应的字体大小输出，以实现对字幕段进行调整。

本发明还包括：

接收使用者输入的反馈信息。当识别模型输出一个字体大小后，该字体大小的字幕段可能并不适应于当前的视频，所以此时使用者会手动调整字幕段的字体大小，然后将该字体大小以反馈信息的形式反馈至识别模型。

基于所述反馈信息对识别模型进行更新。识别模型会根据反馈的字体大小调整分别率与字体大小的对应关系，进而实现对识别模型进行更新。

本发明基于所述反馈信息对识别模型进行更新包括：

通过上述步骤，可以使使用者随时对识别模型输出的字体大小进行纠正，以使得识别模型基于使用者的反馈进行主动更新，使得该识别模型更加灵活的适用于不同的应用场景之下。

实施例十

对应的，所述设置模块包括：

训练单元，用于预先训练识别模型。本发明在得到字幕段的字体大小时会通过模型进行判定，因为在实际场景中，每个视频的字幕段的分别率都可能是不同的，人为判定容易出现不一致的情况，所以通过识别模型判定具有速度快、准确性高的优点。

识别单元，用于所述识别模型根据所述分别率输出字幕段的字体大小。识别模型能够根据不同视频的不同分别率得到字幕段相应的字体大小，一般来说，每种分辨率会对应一种字幕段的字体大小。

对应的，所述训练单元还用于执行以下步骤，包括：

对应的，还包括：

判断单元，用于判断待识别的分别率与训练样本中的分辨率是否相同。由于不同视频的分辨率种类较多，所以本发明的识别模型在工作过程中很容易出现对没有经过训练的分辨率进行识别的情况。

确定单元，用于若不同，则确定与待识别的分别率最接近的训练样本分辨率所对应的字体大小输出。当都不相同时，即此时没有与当前识别的分别率相对应的字体大小，但为了保障能够对字幕段的字体大小实现调整，所以确定最接近的训练样本分辨率所对应的字体大小输出，以实现对字幕段进行调整。

对应的，还包括：

接收单元，用于接收使用者输入的反馈信息。当识别模型输出一个字体大小后，该字体大小的字幕段可能并不适应于当前的视频，所以此时使用者会手动调整字幕段的字体大小，然后将该字体大小以反馈信息的形式反馈至识别模型。

更新单元，用于基于所述反馈信息对识别模型进行更新。识别模型会根据反馈的字体大小调整分别率与字体大小的对应关系，进而实现对识别模型进行更新。

对应的，所述更新单元还用于执行以下步骤，包括：

另外，本发明还提供一种电子设备，包括存储器和处理器，存储器存储计算机程序，计算机程序在处理器中执行可实现上述任一种方法，其中，电子设备可以为移动终端或web端。

本发明还提供一种存储介质，存储计算机程序，计算机程序在处理器中执行可实现上述任一种方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种视频字幕制作方法，其特征在于，包括步骤：

向视频中导入字幕文稿；

根据所述字幕文稿的标点符号拆分所述字幕文稿，生成多个字幕段。
如权利要求1所述方法，其特征在于，还包括步骤：

读取视频的画面色彩；

设置与所述画面色彩适配的字幕段字体颜色。
如权利要求1所述方法，其特征在于，还包括步骤：

读取视频的分辨率；

根据所述分辨率，设置所述字幕段的字体大小。
如权利要求1所述方法，其特征在于，还包括步骤：

读取视频的时长；

根据所述时长及所述字幕段字数，设置所述字幕段出现及消失时刻。
一种视频字幕制作的装置，其特征在于，包括：

导入模块，用于向视频中导入字幕文稿；

处理模块，用于根据所述字幕文稿的标点符号拆分所述字幕文稿，生成多个字幕段。
如权利要求5所述装置，其特征在于，还包括：

读取模块，读取视频的画面色彩；

设置模块，设置与所述画面色彩适配的字幕段字体颜色。
如权利要求5所述装置，其特征在于，还包括：

读取模块，读取视频的分辨率；

设置模块，根据所述分辨率，设置所述字幕段的字体大小。
如权利要求5所述装置，其特征在于，还包括：

读取模块，读取视频的时长；

设置模块，根据所述时长及所述字幕段字数，设置所述字幕段出现及消失时刻。
如权利要求3所述方法，其特征在于，

根据所述分辨率，设置所述字幕段的字体大小包括：

预先训练识别模型；

所述识别模型根据所述分别率输出字幕段的字体大小。
如权利要求9所述方法，其特征在于，

预先训练识别模型包括：

接收训练样本，所述训练样本包括分别率和字体大小的一一对应关系；

基于所述训练样本对识别模型训练以使识别模型能够输出与待识别分别率对应的字体大小。
如权利要求10所述方法，其特征在于，还包括：

判断待识别的分别率与训练样本中的分辨率是否相同；

若不同，则确定与待识别的分别率最接近的训练样本分辨率所对应的字体大小输出。
如权利要求11所述方法，其特征在于，还包括：

接收使用者输入的反馈信息；

基于所述反馈信息对识别模型进行更新。
如权利要求12所述方法，其特征在于，

基于所述反馈信息对识别模型进行更新包括：

所述反馈信息包括对识别模型输出的字体大小进行纠正的纠正信息，所述纠正信息对应一种纠正字体大小；

将所述纠正字体大小以及该纠正字体对应的分辨率作为样本反馈以更新所述识别模型。
如权利要求7所述装置，其特征在于，

所述设置模块包括：

训练单元，用于预先训练识别模型；

识别单元，用于所述识别模型根据所述分别率输出字幕段的字体大小。
如权利要求14所述装置，其特征在于，

所述训练单元还用于执行以下步骤，包括：

接收训练样本，所述训练样本包括分别率和字体大小的一一对应关系；

基于所述训练样本对识别模型训练以使识别模型能够输出与待识别分别率对应的字体大小。
如权利要求15所述方法，其特征在于，还包括：

判断单元，用于判断待识别的分别率与训练样本中的分辨率是否相同；

确定单元，用于若不同，则确定与待识别的分别率最接近的训练样本分辨率所对应的字体大小输出。
如权利要求16所述装置，其特征在于，还包括：

接收单元，用于接收使用者输入的反馈信息；

更新单元，用于基于所述反馈信息对识别模型进行更新。
如权利要求17所述装置，其特征在于，

所述更新单元还用于执行以下步骤，包括：

所述反馈信息包括对识别模型输出的字体大小进行纠正的纠正信息，所述纠正信息对应一种纠正字体大小；

将所述纠正字体大小以及该纠正字体对应的分辨率作为样本反馈以更新所述识别模型。
一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，其特征在于，所述计算机程序在所述处理器中执行可实现权利要求1-4、9-13中任一种方法。
一种存储介质，存储计算机程序，其特征在于，所述计算机程序在处理器中执行可实现权利要求1-4、9-13中任一种方法。