WO2022228235A1

WO2022228235A1 - 生成视频语料的方法、装置及相关设备

Info

Publication number: WO2022228235A1
Application number: PCT/CN2022/087908
Authority: WO
Inventors: 李太松; 李明磊; 吴益灵
Original assignee: 华为云计算技术有限公司
Priority date: 2021-04-29
Filing date: 2022-04-20
Publication date: 2022-11-03
Also published as: CN115269884A; EP4322029A1; US20240064383A1

Abstract

一种生成视频语料的方法，具体为获取待处理视频，该待处理视频对应语音内容，并且待处理视频的部分视频图像包括语音内容对应的字幕。然后，根据该语音内容，从待处理视频中获取目标视频片段，并将该目标视频片段中的视频图像包括的字幕作为该目标视频片段的标注文本，得到视频语料。如此，可以实现自动生成视频语料，从而不仅可以避免人工标注过程中因为主观认知误差而导致对于切分精度的影响，而且生成视频语料的效率通常也较高。并且，可以避免生成的视频语料中出现语音内容播放不完整的问题，同时，视频语料的标注文本的准确性更高。此外，还提供了一种视频语料生成装置及相关设备。

Description

生成视频语料的方法、装置及相关设备

技术领域

本申请涉及视频处理技术领域，尤其涉及一种生成视频语料的方法、装置及相关设备。

背景技术

视频，是一种常见的媒体类别，在情感分析、说话人物检测等人工智能场景中存在众多应用，具体可以是利用机器学习算法，基于大量带有文本标注的视频语料进行有监督学习，以满足在多种应用场景的需求。

目前，视频语料的生成，通常是由标注人员观看整段视频，并在观看过程中手动选择每个需要标注的视频片段的起止点，从而设备基于人工选择的起止点对该视频进行切分，然后再对切分得到的各个视频片段的内容进行文字标注，得到至少一个视频语料。这种通过人工标注生成视频语料的方式，不仅耗费较高的人工成本，而且标注人员的主观认知误差通常会导致对于视频片段的切分准确性较低，所生成的视频语料的质量较低。

发明内容

本申请提供了一种生成视频语料的方法，提高生成视频语料的效率以及提高所生成的视频语料的质量。此外，本申请还提供了一种视频语料生成装置、计算机设备、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供了一种生成视频语料的方法，该方法应用于视频语料生成装置。具体的，视频语料生成装置获取待处理视频，该待处理视频对应语音内容，即该待处理视频中的音频包括人类语音中的词汇内容，并且该待处理视频的部分视频图像包括语音内容对应的字幕。然后，视频语料生成装置根据该语音内容，从待处理视频中获取目标视频片段，并将该目标视频片段中的视频图像包括的字幕作为该目标视频片段的标注文本，以此生成得到包括视频图像、音频以及标注文本的视频语料。

如此，在生成视频语料的过程中，视频语料生成装置能够根据待处理视频对应的语音内容自动对待处理视频进行切分，并利用视频图像中的字幕自动为视频标注文本，从而不仅可以避免人工标注过程中因为主观认知误差而导致对于切分精度的影响，而且生成视频语料的效率通常也较高。

并且，当待处理视频中存在字幕与音频不一致的情况时(如字幕超前或语音超前)，根据待处理视频对应的语音内容对待处理视频进行切分，可以避免切分得到的目标视频片段中出现语音内容播放不完整的问题，从而可以提高生成的视频语料的质量。另外，由于是将目标视频片段中的字幕作为该目标视频片段的标注文本，而字幕通常是预先由视频编辑者根据视频语音进行人工添加的准确文本，这相比于将对语音内容进行语音识别所得到的文本作为目标视频片段的标注文本的方式而言，视频语料的标注文本的准确性更高。

在一种可能的实施方式中，视频语料生成装置在从待处理视频中获取目标视频片段时，具体可以是先识别语音内容的目标语音起止点，例如可以是根据ASR技术识别目标语音起止点等，该目标语音起止点包括目标语音起始点以及该目标语音起始点对应的目标语音终止点。示例性地，该目标语音起始点例如可以是待处理视频的音频中的一句语音的起始点，而目标语音终止点为这句语音在音频中的终止点。然后，视频语料生成装置可以根据该目标语音起止点，从待处理视频中目标获取目标视频片段，例如，视频语料生成装置可以根据该目标语音起止点，对待处理视频进行切分，得到目标视频片段等。如此，根据目标语音起止点对待处理视频进行分割，可以避免切分得到的视频片段中出现语音内容播放不完整的问题，从而可以提高生成的视频语料的质量。

在一种可能的实施方式中，视频语料生成装置在根据目标语音起止点从待处理视频中获取目标视频片段时，具体可以先识别语音内容对应的字幕的目标字幕起止点，例如可以是通过OCR技术识别目标字幕起止点等，该目标字幕起止点包括目标字幕起始点以及目标字幕终止点。然后，视频语料生成装置可以根据该目标字幕起止点，从待处理视频中获取候选视频片段，并且，当目标语音起止点与目标字幕起止点不一致时，根据目标语音起止点对候选视频片段进行调整，以得到目标视频片段。如此，可以实现目标视频片段中字幕与语音内容的对齐，避免切分得到的目标视频片段中出现字幕对应的语音内容不完整的问题。。并且，先根据目标字幕起止点对待处理视频进行切分，可以避免目标视频片段为过于碎片化，如可以避免具有相同字幕的连续多帧视频图像被切分成多个视频片段等。

在一种可能的实施方式中，视频语料生成装置在识别语音内容对应的字幕的目标字幕起止点时，具体可以是根据待处理视频中字幕的字幕显示区域，确定目标字幕起止点。例如，视频语料生成装置可以对待处理视频中的多帧视频图像进行采样，得到采样视频图像，然后，视频语料生成装置可以根据字幕在采样视频图像上的显示区域，确定待处理视频中的字幕显示区域。如此，可以通过自动化的采样以及识别过程，确定出待处理视频的字幕显示区域，以便后续根据该字幕显示区域中的字幕确定字幕起止点。

在一种可能的实施方式中，在生成视频语料后，可以利用该视频语料中的音频以及标注文本，完成对语音识别模型的训练。这样，对于文本信息未知的语音，可以通过训练得到的语音识别模型确定该语音对应的文本信息，如针对地域性口音的语音，可以通过该语音识别模型精确识别该语音对应的文本。或者，在生成视频语料后，可以利用该视频语料中的音频以及标注文本，完成对语音生成模型的训练。这样，对于一份特定的文本，可以利用语音生成模型基于该文本输出得到对应的语音。并且，由于生成的视频语料的质量较高，从而基于质量较高的视频语料所生成的语音识别模型或者语音生成模型，其输出结果的准确性通常也较高。

在一种可能的实施方式中，所生成的视频语料的标注文本中，可以包括多个语种的文本。以包括第一语种(如中文)的文本以及第二语种(如英语)的文本为例，可以利用第一语种的文本以及第二语种的文本，完成对机器翻译模型的训练，这样，后续可以利用该机器翻译模型，根据用户输入的第一语种(或第二语种)的待处理文本，翻译得到对应的第二语种(或第一语种)的翻译文本。并且，由于生成的视频语料的质量较高，从而基于质量较高的视频语料所生成的语音识别模型或者语音生成模型，其输出的翻译结果的准确性通常也较高。

在一种可能的实施方式中，在生成视频语料后，可以获取该视频语料的视频图像中的人脸信息，并根据该人脸信息、该视频语料包括的音频以及视频语料的标注文本，生成数字虚拟人。这样，在数字虚拟人与用户进行对话时，若其对话内容与该标注文本的语义相同，则可以根据该视频语料的视频图像中的人脸信息，拟合出数字虚拟人与用户进行对话的面部表情以及对话音频，从而实现更加智能化的人机交互。

在一种可能的实施方式中，视频语料生成装置还可以向用户呈现任务配置界面，该任务配置界面中可以呈现有提示用户指定训练任务的提示信息。这样，视频语料生成装置可以获取用户在该任务配置界面针对所述视频语料的训练任务，以便基于生成的视频语料对该属于该训练任务的模型进行训练。

第二方面，本申请提供一种视频语料生成装置，所述视频语料生成装置包括用于实现第一方面中的生成视频语料的方法的各个模块。

第三方面，本申请提供一种计算机设备，所述计算机设备包括处理器和存储器；该存储器用于存储指令，当该计算机设备运行时，该处理器执行该存储器存储的该指令，以使该计算机设备执行上述第一方面或第一方面任一种可能实现方式中的生成视频语料的方法。需要说明的是，该存储器可以集成于处理器中，也可以是独立于处理器之外。计算机设备还可以包括总线。其中，处理器通过总线连接存储器。其中，存储器可以包括可读存储器以及随机存取存储器。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机设备上运行时，使得计算机设备执行上述第一方面或第一方面的任一种实现方式所述生成视频语料的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行上述第一方面所述生成视频语料的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1为一种生成视频语料的系统架构示意图；

图2为本申请实施例提供的一种生成视频语料的方法流程示意图；

图3为本申请实施例提供的一示例性音频包括的语音内容示意图；

图4为本申请实施例提供的对待处理视频进行切分所得到的视频片段示意图；

图5为本申请实施例提供的一种任务配置界面的示意图；

图6为本申请实施例提供的一种视频语料生成装置的示意图；

图7为本申请实施例提供的一种计算机设备700的结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解，这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。

参见图1，为一种生成视频语料的系统架构示意图。如图1所示，该系统100包括视频采集装置101、视频采集装置102、视频语料生成装置103以及客户端104，不同装置之间可以通过通信网络进行连接。其中，视频采集装置101可以从网络中采集已有的视频，如电影等；视频采集装置102可以现场采集得到视频，如通过摄像头、麦克风等装置采集现场直播视频等。视频采集装置101以及视频采集装置102可以将通过不同途径采集到的视频发送给视频语料生成装置103。此时，若由标注人员通过客户端104对传输至视频语料生成装置103的视频进行人工标注，则不仅会导致生成视频语料的效率较低，而且标注人员的主观认知误差通常会导致视频切分不准确，从而影响所生成的视频语料的质量。

为此，本实施例中，可以由视频语料生成装置103自动对视频进行切分以及标注文本。具体实现时，视频语料生成装置103可以包括视频获取模块1031、切分模块1032、标注模块1033以及识别模块1034。其中，视频获取模块1031可以接收视频采集装置101以视频采集装置102传输的视频，并将该视频提供给切分模块1032。切分模块1032根据该视频对应的语音内容，从视频中获取目标视频片段。然后，标注模块1033将该目标视频片段中的视频图像包括的字幕作为目标视频片段的标注文本，以此得到包括标注文本、音频以及图像的视频语料。其中，视频图像中的字幕可以由识别模块1034对视频图像进行识别得到。如此，在生成视频语料的过程中，视频语料生成装置103能够根据视频对应的语音内容自动对视频进行切分，并利用视频图像中的字幕自动为视频标注文本，从而不仅可以避免人工标注过程中因为主观认知误差而导致对于切分精度的影响，而且生成视频语料的效率通常也较高。

并且，当视频中存在字幕与音频不一致的情况时(如字幕超前或语音超前)，根据视频对应的语音内容对待处理视频进行切分，可以避免切分得到的视频片段中出现语音内容播放不完整的问题，从而可以提高生成的视频语料的质量。另外，由于是将视频片段中的字幕作为视频片段的标注文本，而字幕通常是预先由视频编辑者根据视频语音进行人工添加的准确文本，这相比于将对语音内容进行语音识别所得到的文本作为视频片段的标注文本的方式而言，视频语料的标注文本的准确性更高。

示例性地，视频语料生成装置103可以是由软件实现，例如可以是运行在系统100中的任意设备(如服务器等)上的计算机程序等。或者，视频语料生成装置103也可以是由硬件实现，如视频语料生成装置103可以是系统100中的服务器或者终端设备等；或者，视频语料生成装置103可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

实际应用中，图1所示的视频语料生成装置103可以部署于云端，例如可以是部署于公有云、边缘云或者分布式云等，此时，视频语料生成装置103可以作为云服务，在云端为一个或者多个用户生成其所需的视频语料。或者，视频语料生成装置103可以也可以部署于本地，如可以在本地采集视频并在本地生成视频语料等。本实施例中，对于视频语料生成装置103的具体部署方式景并不进行限定。

需要说明的是，图1所示的视频语料生成装置103仅作为一种示例性说明，并不用于限定该装置的具体实现。例如，在其它可能的实施方式中，切分模块1032与识别模块1034可以集成为一个功能模块，如切分模块1032可以通过具有切分以及识别的功能等，或者，视频语料生成装置103也可以包括具有其它功能模块以支持视频语料生成装置具有更多其它的功能；或者，视频语料生成装置103也可以是通过其它方式获取视频数据，如由用户向该视频语料生成装置103提供视频等。

为便于理解，下面结合附图，对本申请的实施例进行描述。

参见图2，图2为本申请实施例提供的一种生成视频语料的方法流程示意图。其中，图2所示的生成视频语料的方法可以应用于图1所示的视频语料生成装置103，或者应用于其它可适用的视频语料生成装置中。为便于说明，本实施例中以应用于图1所示的视频语料生成装置103为例进行示例性说明。

基于图1所示的视频语料生成装置103，图2所示的生成视频语料的方法具体可以包括：

S201：视频获取模块1031获取待处理视频，该待处理视频对应语音内容，并且该待处理视频的部分视频图像包括该语音内容对应的字幕。

本实施例中，所获取的视频可以是包括连续的多帧视频图像以及音频的视频，并且，该连续多帧的视频图像中包括字幕。为便于描述，以下将获取的视频称之为待处理视频。实际应用场景中，待处理视频中的字幕，可以是由视频编辑者在生成视频的过程中，根据该待处理视频的音频中所包括的语音内容，为该视频编撰以及添加相应的字幕，并且在完成对视频的渲染后，所添加的字幕可以集成在视频的多帧视频图像中。

其中，音频中的语音内容，具体可以是该待处理视频中的角色发出的人类语音中的词汇内容，如语音内容可以是待处理视频中的人物A以及人物B之间的对话内容，或者可以是待处理视频中“旁白”表达的介绍性内容等。通常情况下，音频中的语音内容所表达的语义与视频中的字幕的语义保持一致。并且，待处理视频的音频中，除了包括语音内容，还存在不包括语音内容的音频片段，如在一段人物对话视频中，人物对话之前的视频片段以及人物对话结束的视频片段包括的音频中，可以是不包括语音内容的音频(此时，该视频片段的视频图像中可以不包括人物对话字幕)。

作为一种获取待处理视频的实现示例，视频获取模块1031可以接收其它装置发送的待处理视频。例如，视频获取模块1031可以与图1中的视频采集装置101以及视频采集装置102建立通信连接，并接收视频采集装置101以及视频采集装置102基于该通信连接所发送的待处理视频。或者，视频获取模块1031可以从本地读取待处理视频等。本实施例中，对于获取待处理视频的具体实现方式并不进行限定。然后，视频获取模块301可以将该待处理视频提供给切分模块1032进行后续处理。

实际应用时，视频获取模块1031所获取的待处理视频，例如可以是播放时长大于预设时长阈值的视频，从而后续可以基于该待处理视频生成多个视频语料。

S202：切分模块1032根据语音内容，从待处理视频中获取目标视频片段。

在一些场景中，待处理视频中的音频包括的语音内容可能较多(如可能包括多句语音内容)，并且音频中存在不包括语音内容的音频片段，因此，切分模块1032可以对该待处理视频进行切分，具体可以是根据语音内容，对待处理视频进行切分，得到多个视频片段，所得到的每个视频片段的音频均包含部分语音内容，相应的，每个视频片段包括的语音内容所对应的字幕集成在该视频片段包括的视频图像中。当然，若待处理视频的音频中包括的语音内容较少，如仅包括一句话的语音内容等，则切分模块1032根据音频的语音内容也可以切分得到一个视频片段。为便于描述，下面以根据切分得到的一个视频片段生成一个视频语料为例进行示例性说明，并且，以下将该视频片段称之为目标视频片段。

作为一种实现示例，在切分待处理视频的过程中，切分模块1032可以调用识别模块1034，以获取待处理视频包括的音频对应的语音起止点。具体的，识别模块1034可以识别音频中的每句话，如利用自动语音识别(automatic speech recognition，ASR)算法进行识别等，则每一句语音的结束，即为该句语音的终止点，而这句语音的开始即为这句话的起始点，并且，相邻两句话之间可以存在间隔。其中，一句语音的起始点以及终止点可以通过该音频中的时间戳进行标识。实际应用时，识别模块1034可以结合语音活性检测(voice activity detection，VAD)技术提高确定语音起止点的精度。举例来说，假设音频中的语音内容包括如图3所示的“上次你说的去看电影怎么没去看啊”、“哦，我们在买票的时候发现那部电影的票已经卖完了”，则识别模块1034基于ASR算法可以识别出第一句语音“上次你说的去看电影怎么没去看啊”的起始时刻为“00:00:25”、终止时刻为“00:00:27”，识别出第二语句语音“哦，我们在买票的时候发现那部电影的票已经卖完了”的起始时刻为“00:00:28”、终止时刻为“00:00:31”，从而识别模块1034可以将“00:00:25”以及“00:00:27”分别作为第一句语音的起始点以及终止点，将“00:00:28”以及“00:00:31”分别作为第二句语音的起始点以及终止点。

然后，识别模块1034可以将通过ASR算法识别得到待处理视频包括的语音内容的多个语音起止点提供给切分模块1032。这样，切分模块1032可以根据该多个语音起止点将待处理视频切分成多个视频片段。即，在从待处理视频中获取目标视频片段时(该目标视频片段为多个视频片段中的任意视频片段)，可以先由识别模块1034识别得到目标语音起止点，该目标语音起止点包括目标语音起始点以及该目标语音起始点对应的目标语音终止点，从而切分模块1032根据该目标语音起止点从待处理视频中通过切分得到该目标视频片段。其中，目标视频片段的起始点以及终止点即为该视频片段中语音内容对应的目标语音起始点以及目标语音终止点。

实际应用时，根据音频中的语音起止点对待处理视频进行切分，可能会出现具有相同字幕的多帧视频图像被切分成两个视频片段。比如，仍以图3所示的音频为例，如图4所示，对于“00:00:28”时刻至“00:00:31”时刻的视频片段，其字幕为“哦，我们在买票的时候发现那部电影的票已经卖完了”，但是，利用ASR算法对音频中的语音内容的语音起止点进行识别时，也可能会将语音内容“哦，我们在买票的时候发现那部电影的票已经卖完了”识别为两句语音，如图4所示的“00:00:28”时刻至“00:00:29”时刻之间的语音，以及“00:00:30”时刻至“00:00:31”时刻之间的语音，这使得在基于语音起止点对待处理视频进行切分时，可能会切分得到语音内容为“哦”以及语音内容为“我们在买票的时候发现那部电影的票已经卖完了”的两个视频片段中，均具有相同字幕“哦，我们在买票的时候发现那部电影的票已经卖完了”。

因此，在进一步可能的实施方式中，切分模块1032在从待处理视频中获取目标视频片段时，可以结合字幕起止点以及语音内容的语音起止点切分待处理视频。具体的，在从待处理视频中获取目标视频片段的过程中，识别模块1034不仅可以识别得到目标语音起止点，还可以识别语音内容所对应的字幕的目标字幕起止点，该目标字幕起止点包括目标字幕起始点以及该目标字幕起始点对应的目标字幕终止点。示例性地，目标字幕起始点具体可以是该条字幕在待处理视频中出现的时间点，目标字幕终止点具体可以是该条字幕在待处理视频中结束的时间点。这样，切分模块1032可以先根据该目标字幕起止点对待处理视频进行切分，得到候选视频片段。然后，切分模块1032可以利用目标语音起止点对目标字幕起止点进行一致性校验，并且当目标语音起止点与目标字幕起止点一致时，切分模块1032可以将该候选视频片段作为最终切分得到的目标视频片段；而当目标语音起止点与目标字幕起止点不一致时，切分模块1032可以根据目标语音起止点对候选视频片段进行调整，以得到最终的目标视频片段。

其中，目标语音起止点与目标字幕起止点不一致，可以包括如下情况：

情况一：目标语音起止点包括一组或者多组目标字幕起止点。如图4所示，目标语音起止点包括“00:00:28”、“00:00:29”、“00:00:30”、“00:00:31”，而目标字幕起止点可以包括“00:00:28”、“00:00:31”。此时，切分模块1032可以将该候选视频片段(也即“00:00:28”至“00:00:31”的视频片段)作为最终切分得到的目标视频片段。

情况二：目标语音起止点与目标字幕起止点并不对齐，如语音超前或者字幕超前等，此时，切分模块1032可以先根据目标字幕起止点对待处理视频进行切分，得到候选视频片段，然后，再根据目标语音起止点对切分得到的候选视频片段进行调整，得到所需的目标视频片段。如此，可以避免切分得到的目标视频片段中出现字幕对应的语音内容不完整的问题。

其中，当语音超前时，即目标语音起始点对应的时刻早于目标字幕起始点对应的时刻，此时，基于目标字幕起止点所切分得到的候选视频片段的音频中的语音内容对应于该候选视频片段中的部分字幕，也即候选视频片段的音频中存在部分语音内容缺失，这使得若将该候选视频片段作为目标视频片段，则会导致最终生成的视频语料中的语音内容不完整，从而影响视频语料的质量。基于此，针对于候选视频片段，切分模块1032还可以根据目标语音起始点(或目标语音终止点)，确定目标语音起始点相对于目标字幕起始点的超前时长(或目标语音终止点相对于目标字幕终止点的超前时长)，并且，由于待处理视频中的相邻两条字幕之间通常可以存在不具有字幕的视频图像，因此，切分模块1032可以根据该超前时长在候选视频片段之前选取连续多帧不具有字幕的视频图像，并将该多帧视频图像对应的视频片段划入候选视频片段中，所选取的视频图像的播放时长为该超前时长。如此，可以使得候选视频片段的起始点前移，从而所得到的新的候选视频片段包括选取的连续多帧的视频图像对应的视频片段与之前分割得到的候选视频片段，并将该新的候选视频片段作为最终切片得到的目标视频片段。具体的，该新的候选视频片段的起始点为该候选视频片段中的音频对应的目标语音起始点，该新的候选视频片段的终止点为该候选视频片段中的字幕对应的目标字幕终止点。

举例来说，假设根据目标字幕起止点对待处理视频进行分割，可以得到如图3所示的字幕为“哦，我们在买票的时候发现那部电影的票已经卖完了”的候选视频片段，其对应的起始点为“00:00:28”、终止点为“00:00:31”。若候选视频片段中字幕对应的音频超前0.5秒，则切分模块1032可以将候选视频片段的起始点前移0.5秒，从而得到起始点为“00:00:27.50”、终止点为“00:00:31”的新的候选视频片段，以使得该新的候选视频片段的音频中的语音内容与字幕保持一致。

当语音滞后时，即目标语音起始点对应的时刻晚于目标字幕起始点对应的时刻，此时，切分模块1032针对基于目标字幕起止点分割得到的候选视频片段，可以根据目标语音起始点重新确定该候选视频片段的起始点，如将该目标语音起始点作为该候选视频片段的起始点。并且，当目标语音终止点不晚于目标字幕终止点时，该候选视频片段的终止点仍为目标字幕终止点；而当目标语音终止点晚于目标字幕终止点时，则切分模块1032可以根据目标语音终止点重新确定该候选视频片段的终止点，如可以先确定语音滞后的时长，从而可以在候选视频片段的终止点开始，连续选取多帧视频图像，并且所选取的多帧视频图像的播放时长为该语音滞后的时长，以此得到新的候选视频片段，并将该新的候选视频片段作为最终切片得到的目标视频片段。其中，该新的候选视频片段的起始点为该候选视频片段中的音频对应的目标语音起始点，该新的候选视频片段的终止点为该音频对应的目标语音终止点。如此，可以实现视频片段中字幕与语音内容的对齐。

仍以切分模块1032切分得到图3所示的字幕为“哦，我们在买票的时候发现那部电影的票已经卖完了”的候选视频片段为例，假设候选视频片段中字幕对应的音频滞后0.5秒，则切分模块1032可以将候选视频片段的起始点后移0.5秒。此时，若语音终止点不晚于字幕终止点，则新的候选视频片段的起始点为“00:00:28.50”、终止点为“00:00:31”；而若语音终止点晚于字幕终止点，假设语义终止点为“00:00:31.30”，则新的候选视频片段的起始点为“00:00:28.50”、终止点为“00:00:31.30”。

本实施例中，识别模块1034在识别目标字幕起止点时，可以是根据视频图像之间的差异进行确定。具体实现时，识别模块1034可以先确定待处理视频中的视频图像上的字幕显示区域。通常情况下，待处理视频中的字幕在视频图像上的显示区域(以下简称为字幕显示区域)通常固定，如位于视频图像上的下方等。然后，识别模块1034可以通过依次比较待处理视频的多帧视频图像中相邻两帧视频图像的字幕显示区域之间的差异，以此确定出该待处理视频的多个字幕起止点。示例性地，针对相邻两帧视频图像，识别模块1034可以截取这两帧视频图像中的字幕显示区域，并比对这两个字幕显示区域之间的差异。若这两个字幕显示区域之间的差异较小，如差异程度小于预设阈值，则识别模块1034可以确定这两帧视频图像中显示的字幕没有发生变化，即两帧视频图像上所显示的字幕相同(当然也可能均都不存在字幕，可以进一步通过图像检测等方式确定这两帧视频图像上是否存在字幕)；而若这两个字幕显示区域之间的差异较大，如差异程度大于预设阈值，则识别模块1034可以确定这两帧视频图像中显示的字幕发生变化，相应的，这两帧视频图像中的其中一帧图像即可作为相应的字幕起始点或者字幕终止点。当然，实际应用时，识别模块1034也可以是基于其它方式确定出待处理视频的字幕起止点，本实施例对此并不进行限定。

进一步的，识别模块1034在确定视频图像上的字幕显示区域时，可以通过自动化检测的方式，确定字幕显示区域。例如，识别模块1034可以从待处理视频包括的多帧视频中随机采样n帧视频图像(n为正整数并且取值小于视频图像总帧数)，得到采样视频图像，然后，识别模块1034可以通过光学字符识别(optical character recognition，OCR)技术识别该n帧采样视频图像中的字幕，并统计该字幕在各帧采样视频图像中的大致区域，从而得到采样视频图像上的字幕显示区域，如可以是将统计得到的最大区域作为字幕显示区域等。进一步的，当不同帧采样视频图像中的字幕显示区域不同时，比如对于影视类视频，其字幕在视频图像上的显示位置可能位于视频图像的下方，也可能位于视频图像的右上方等，此时，识别模块1034可以将这两个区域均作为字幕显示区域，或者识别模块1034可以统计n帧采样视频图像中显示字幕最多的区域，并将该区域作为字幕显示区域。实际应用时，识别模块1034也可以是采用其它方式确定字幕显示区域，本实施例对此并不进行限定。

或者，在其他识别字幕起止点的实施方式中，识别模块1034也可以是通过依次比较待处理视频中相邻两帧的整个视频图像之间的差异，识别字幕起止点。本实施例中对于识别模块1034如何识别字幕起止点的具体实现过程并不进行限定。

实际应用时，识别模块1034对于目标字幕起止点以及目标语音起止点的识别精度，可能分别受待处理视频中的视频图像画面以及音频内容影响。比如，当视频图像中的字幕显示区域的背景颜色与字幕颜色相似时，可能会导致识别模块1034难以识别出该视频图像上的字幕，从而导致识别模块1034无法识别出这条字幕对应的字幕起止点。又比如，当音频内容中同时包括人物说话声音以及噪音等，则噪音的存在可能导致识别模块1034难以识别出人物说话声音，从而导致识别模块1034难以识别出人物说话声音对应的语音起止点。为此，本实施例中，当切分模块1032确定语音起止点与字幕起止点之间的重合率达到预设的重合率阈值(如90％等)时，可以按照结合字幕起止点以及语音内容的语音起止点切分待处理视频。而当切分模块1032确定语音起止点与字幕起止点之间的重合率达到一定阈值(如90％等)时，可以仅按照语音内容的语音起止点切分待处理视频等。

进一步的，上述重合率阈值还可以由用户进行设定。比如，视频语料生成装置103可以向用户呈现参数设置界面，从而用户可以在该参数设置界面中对语音起止点与字幕起止点之间的重合率阈值进行设置。实际应用场景中，用户可以根据待处理视频所属的视频类型，决定该重合率阈值的具体取值。比如，对于音乐类型的待处理视频，其包括的音频中的音乐声音通常会对语音内容产生干扰，从而影响识别模块1034识别语音起止点的准确度，此时，用户可以降低重合率阈值的取值，如设定重合率阈值为85％等。而对于纯人声类型的待处理视频，其包括的音频中的干扰声音通常较少，对于识别模块1034识别语音起止点的准确度影响较小，因此，用户可以增大重合率阈值的取值，如设定重合率阈值为95％等。

并且，上述从待处理视频中获取得到目标视频片段的过程，还可以通过相应的硬件进行加速，如可以通过在图像处理方面具有较高性能的图形处理器(graphics processing unit，GPU)进行处理，当然，也可以是采用性能相对较低的CPU进行处理等。为此，在一些可能的实施方式中，视频语料生成装置103可以在与用户的交互界面中呈现是否进行硬件加速的提示信息，以便由用户在该交互界面上选择是否采用硬件加速的方式来加快从待处理视频中获取目标视频片段的过程，从而加快生成视频语料的过程。

S203：标注模块1033将目标视频片段中的视频图像包括的字幕作为目标视频片段的标注文本，得到视频语料。

在切分模块1032从待处理视频中获取目标视频片段后，标注模块1033可以为该目标视频片段自动添加标注文本。本实施例中，标注模块1033为目标视频片段添加的标注文本为该视频片段的视频图像上所显示的字幕。作为一种实现示例，在为目标视频片段添加标注文本时，标注模块1033可以调用识别模块1034来识别目标视频片段中的视频图像上的字幕。识别模块1034可以通过OCR技术，对目标视频片段的视频图像上的字幕进行识别，得到相应的字幕文本，并将其反馈给标注模块1033。标注模块1033可以将接收到的字幕文本作为标注文本对视频片段进行标注，以此生成包括标注语音、音频以及视频图像的视频语料。由于目标视频片段中的字幕，是预先由视频编辑者在制作视频的过程中根据语音内容人工添加至视频中，因此，该字幕与语音内容的一致性较高，从而标注模块1033将目标视频片段中的字幕作为标注文本，可以提高目标视频片段的标注文本的准确性。

值得注意的是，本实施例中是以识别模块1034在切分得到的目标视频片段后，再对目标视频片段上的字幕进行识别为例进行说明，在其它可能的实现方式中，识别模块1034也可以是先识别待处理视频上的字幕，得到整个待处理视频的字幕文本，并且该字幕文本可以记录有不同字幕各自对应的显示时间点。然后，再由切分模块1032完成对待处理视频的切分。这样，当标注模块1033需要获取目标视频片段对应的字幕文本时，可以根据该目标视频片段在待处理视频中的播放时间段，查找字幕文本在该播放时间段内所显示的字幕，以此得到该目标视频片段对应的字幕文本。本实施例中，对于识别模块1034识别字幕以及切分模块1032切分待处理视频的执行顺序，并不进行限定。

上述实施方式中，视频语料生成装置103基于包括字幕的待处理视频生成视频语料，而在其它可能的实施方式中，当待处理视频不包括字幕时，视频语料生成装置103基于该待处理视频也可以生成带有标注文本的视频语料。作为一种实现示例，在视频获取模块1031获取到待处理视频后，切分模块1032可以根据待处理视频包括的音频中的语音内容，对待处理视频进行切分，得到一个或者多个具有语音内容的视频片段。其中，切分模块1032根据音频切分待处理视频的具体实现方式可参见前述相关之处描述。然后，标注模块1033在为每个视频片段添加标注文本时，可以调用识别模块1034针对每个视频片段中的音频进行语音识别，并利用句子边界检测技术确定语音内容中的各句话，以此可以得到各个视频片段的语音内容对应的语音识别文本，从而标注模块1033可以将各个视频片段对应的语音识别文本作为该视频判断的标注文本，生成视频语料。

进一步地，视频语料生成装置103在生成视频语料后，还可以将该视频语料呈现给用户，以便由用户对该视频语料中的视频图像、音频以及标注文本进行人工校验。这样，当生成的视频语料中存在少量质量较低的视频语料时，可以由用户对该部分视频语料进行人工校正，以进一步提高生成的视频语料的质量。

实际应用时，视频语料生成装置103基于待处理视频所生成的一个或者多个视频语料，可以用于语音识别、语音生成、机器翻译、数字虚拟机人构建以及情感分析等场景中。示例性地，视频语料生成装置103可以向用户呈现任务配置界面，该任务配置界面中可以提示用户输入针对视频语料的训练任务，如图5所示，可以在该任务配置上呈现“请输入训练任务”的提示信息。并且，为了方便用户对于训练任务的输入，任务配置界面中还可以呈现有多个训练任务的候选项，如图5所示的语音识别、语音生成、机器翻译、数字虚拟机人构建以及情感分析等训练任务等，从而用户可以在该任务配置界面中对呈现的训练任务进行选择，以便视频语料生成装置103可以获取用户所选择的训练任务，并基于生成的视频语料执行该训练任务。或者，在其他实施方式中，用户也可以是直接在任务配置界面上手动输入训练任务的名称。本实施例中，对于视频语料生成装置103获取用户指定的训练任务的实现方式并不进行限定。

作为一种应用示例，在语音识别场景中，视频语料生成装置103所生成的带有标注文本、音频以及视频图像的视频语料，可以用于对预先构建的语音识别模型进行训练。具体实现时，可以将该视频语料中的音频作为语音识别模型的输入，将视频语料的标注文本作为语音识别模型的输出，以此对语音识别模型进行训练。可选地，在实现利用语音识别模型识别地域性发音(如通常所说的方言等)的音频时，可以通过视频语料生成装置103生成具有地域性口音的视频语料，即该视频语料中音频包括的语音为基于地域性发音的语音，从而利用该视频语料对语音识别模型进行训练后，该语音识别模型能够针对该地域性发音的音频或包括该音频的视频(如方言剧或者地方新闻视频等)，识别出相应的语音文本，以此实现语音识别。

作为又一种应用实例，在语音生成场景中视频语料生成装置103所生成的视频语料，可以用于对预先构建的语音生成模型进行训练。其中，自动化的语音生成可以理解为语音识别的逆向过程，即基于特定的文本生成对应的语音。具体实现时，可以将该视频语料中的标注文本作为语音生成模型的输入，将该视频语料中的音频作为语音生成模型的输出，以此完成对语音生成模型的训练。实际应用时，训练得到的语音生成模型，可以在有声小说、数字虚拟人、语音助手、智能音响等领域中，根据输入的文本输出该文本所对应的语音。可选地，在训练语音生成模型时，可以利用包括特定人物角色的语音的视频语料对该语音生成模型进行训练，从而后续基于训练得到的语音生成模型可以生成包括该人物角色的多条语音，如利用该语音生成模型生成该人物角色播报导航路线的语音等。

作为再一种应用实例，在机器翻译场景中，视频语料中的标注文本可以包括具有相同含义的基于多个语种的文本(如视频语料中的字幕为中英双语字幕等)，以包括第一语种的文本以及第二语种的文本为例。此时，可以从该视频语料的标注文本中分离出多个语种的文本。由于该多个语种的文本通常具有相同的语义，因此，可以利用该标注文本对机器翻译模型进行训练，以提高机器翻译模型在基于一个语种的语音翻译得到另一个语种的语音的准确性。

作为再一种应用实例，在构建数字虚拟人的场景中，可以利用多模态话者检测技术，从视频语料的视频图像中定位出该发音的人物角色，并从该视频图像中检测得到该人物角色在发音时的人脸信息，如脸部表情、脸部动作等信息，从而可以根据该人脸信息、该视频语料包括的音频以及标注文本，生成数字虚拟人。这样，在数字虚拟人与用户进行对话时，若其对话内容与该标注文本的语义相同，则可以根据该视频语料的视频图像中的人脸信息，拟合出数字虚拟人与用户进行对话的面部表情以及对话音频，从而实现更加智能化的人机交互。

当然，上述场景实例仅作为本实施例提供的一些示例性说明，实际应用时，视频语料还可以用于更多其它可使用的场景中，如基于该视频语料进行多模态情感分析、多模态视频分类等，本实施例对此并不进行限定。

上文结合图1至图5对本申请实施例提供的生成视频语料的方法进行了详细介绍，下面将结合附图从功能单元的角度对本申请实施例提供的视频语料生成装置进行介绍。

参见图6所示的视频语料生成装置的结构示意图，该装置600包括：

视频获取模块601，用于获取待处理视频，所述待处理视频对应语音内容，所述待处理视频的部分视频图像包括所述语音内容对应的字幕；

切分模块602，用于根据所述语音内容，从所述待处理视频中获取目标视频片段；

标注模块603，用于将所述目标视频片段中的视频图像包括的字幕作为所述目标视频片段的标注文本，得到视频语料。

示例性地，本实施例中的视频获取模块601所执行的功能与前述实施例中视频获取模块1031所执行的功能类似，具体可参见前述实施例的相关之处描述，在此不做赘述。类似的，本本实施中的切分模块602以及标注模块603所执行的具体功能，可参见前述实施例切分模块1032以及标注模块1033。

在一种可能的实施方式中，所述切分模块602，具体用于：

识别所述语音内容的目标语音起止点，所述目标语音起止点包括目标语音起始点和所述目标语音起始点对应的目标语音终止点；

根据所述目标语音起止点，从所述待处理视频中获取所述目标视频片段。

在一种可能的实施方式中，所述切分模块602，具体用于：

识别所述语音内容对应的字幕的目标字幕起止点，所述目标字幕起止点包括目标字幕起始点和所述目标字幕起始点对应的目标字幕终止点；

根据目标字幕起止点，从所述待处理视频中获取候选视频片段；

当所述目标语音起止点与所述目标字幕起止点不一致时，根据所述目标语音起止点，对所述候选视频片段进行调整，得到所述目标视频片段。

在一种可能的实施方式中，所述切分模块602，具体用于根据所述字幕的字幕显示区域，确定所述目标字幕起止点。

在一种可能的实施方式中，所述装置600还包括：

视频语料应用模块604，用于利用所述视频语料中音频以及标注文本，完成语音识别模型的训练；或者，利用所述视频语料中音频以及标注文本，完成语音生成模型的训练。

在一种可能的实施方式中，所述视频语料的标注文本包括第一语种的文本以及第二语种的文本，所述装置600还包括：

视频语料应用模块604，用于利用所述第一语种的文本以及所述第二语种的文本，完成机器翻译模型的训练。

在一种可能的实施方式中，所述装置600还包括：

信息获取模块605，用于获取所述视频语料的视频图像中的人脸信息；

视频语料应用模块604，用于根据所述人脸信息、所述视频语料包括的音频以及所述视频语料的标注文本，生成数字虚拟人。

在一种可能的实施方式中，所述装置600还包括：

呈现模块606，用于呈现任务配置界面；

信息获取模块605，用于获取用户在所述任务配置界面针对所述视频语料的训练任务。

根据本申请实施例的视频语料生成装置600可对应于执行本申请实施例中描述的方法，并且视频语料生成装置600的各个模块的上述和其它操作和/或功能分别为了实现图2中视频语料生成装置103所执行的各个方法的相应流程，为了简洁，在此不再赘述。

上述各实施例中，生成视频语料的过程也可以以单独的硬件设备实现。下面，对实现生成视频语料的过程的计算设备进行详细介绍。

图7提供了一种计算设备的结构示意图。图7所示的计算设备700具体可以用于实现上述图2所示实施例中视频语料生成装置103的功能，或图6所示实施例中视频语料生成装置600的功能。

计算设备700包括总线701、处理器702、通信接口703和存储器704。处理器702、存储器704和通信接口703之间通过总线701通信。总线701可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口703用于与外部通信，例如接收软件开发者面功能网元发送的目标业务请求等。

其中，处理器702可以为中央处理器(central processing unit，CPU)。存储器704可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器704还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，HDD或SSD。

存储器704中存储有可执行代码，处理器702执行该可执行代码以执行前述视频语料生成装置103或者视频语料生成装置600所执行的方法。

具体地，在实现图2所示实施例的情况下，执行图2中的视频语料生成装置103的功能所需的软件或程序代码存储在存储器704中，计算设备700与其它设备的交互通过通信接口703实现，如计算设备700通过通信接口703获取数据源中的多条待处理数据等。处理器用于执行存储器704中的指令，实现视频语料生成装置600所执行的方法。

此外，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机设备上运行时，使得计算机设备执行上述实施例视频语料生成装置103所执行的方法。

此外，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品被计算机执行时，所述计算机执行前述数据提供方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述数据提供方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

一种生成视频语料的方法，其特征在于，所述方法包括：

获取待处理视频，所述待处理视频对应语音内容，所述待处理视频的部分视频图像包括所述语音内容对应的字幕；

根据所述语音内容，从所述待处理视频中获取目标视频片段；

将所述目标视频片段中的视频图像包括的字幕作为所述目标视频片段的标注文本，得到视频语料。
根据权利要求1所述的方法，其特征在于，所述根据所述语音内容，从所述待处理视频中获取目标视频片段，包括：

识别所述语音内容的目标语音起止点，所述目标语音起止点包括目标语音起始点和所述目标语音起始点对应的目标语音终止点；

根据所述目标语音起止点，从所述待处理视频中获取所述目标视频片段。
根据权利要求2所述的方法，其特征在于，所述根据所述目标语音起止点，从所述待处理视频中获取所述目标视频片段，包括：

识别所述语音内容对应的字幕的目标字幕起止点，所述目标字幕起止点包括目标字幕起始点和所述目标字幕起始点对应的目标字幕终止点；

根据目标字幕起止点，从所述待处理视频中获取候选视频片段；

当所述目标语音起止点与所述目标字幕起止点不一致时，根据所述目标语音起止点，对所述候选视频片段进行调整，得到所述目标视频片段。
根据权利要求3所述的方法，其特征在于，所述识别所述语音内容对应的字幕的目标字幕起止点，包括：

根据所述字幕的字幕显示区域，确定所述目标字幕起止点。
根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

利用所述视频语料中音频以及标注文本，完成语音识别模型的训练；或者，

利用所述视频语料中音频以及标注文本，完成语音生成模型的训练。
根据权利要求1至5任一项所述的方法，其特征在于，所述视频语料的标注文本包括第一语种的文本以及第二语种的文本，所述方法还包括：

利用所述第一语种的文本以及所述第二语种的文本，完成机器翻译模型的训练。
根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

获取所述视频语料的视频图像中的人脸信息；

根据所述人脸信息、所述视频语料包括的音频以及所述视频语料的标注文本，生成数字虚拟人。
根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

呈现任务配置界面；

获取用户在所述任务配置界面针对所述视频语料的训练任务。
一种生成视频语料的装置，其特征在于，所述装置包括：

视频获取模块，用于获取待处理视频，所述待处理视频对应语音内容，所述待处理视频的部分视频图像包括所述语音内容对应的字幕；

切分模块，用于根据所述语音内容，从所述待处理视频中获取目标视频片段；

标注模块，用于将所述目标视频片段中的视频图像包括的字幕作为所述目标视频片段的标注文本，得到视频语料。
根据权利要求9所述的装置，其特征在于，所述切分模块，具体用于：

识别所述语音内容的目标语音起止点，所述目标语音起止点包括目标语音起始点和所述目标语音起始点对应的目标语音终止点；

根据所述目标语音起止点，从所述待处理视频中获取所述目标视频片段。
根据权利要求10所述的装置，其特征在于，所述切分模块，具体用于：

识别所述语音内容对应的字幕的目标字幕起止点，所述目标字幕起止点包括目标字幕起始点和所述目标字幕起始点对应的目标字幕终止点；

根据目标字幕起止点，从所述待处理视频中获取候选视频片段；

当所述目标语音起止点与所述目标字幕起止点不一致时，根据所述目标语音起止点，对所述候选视频片段进行调整，得到所述目标视频片段。
根据权利要求11所述的装置，其特征在于，所述切分模块，具体用于根据所述字幕的字幕显示区域，确定所述目标字幕起止点。
根据权利要求9至12任一项所述的装置，其特征在于，所述装置还包括：

视频语料应用模块，用于利用所述视频语料中音频以及标注文本，完成语音识别模型的训练；或者，利用所述视频语料中音频以及标注文本，完成语音生成模型的训练。
根据权利要求9至13任一项所述的装置，其特征在于，所述视频语料的标注文本包括第一语种的文本以及第二语种的文本，所述装置还包括：

视频语料应用模块，用于利用所述第一语种的文本以及所述第二语种的文本，完成机器翻译模型的训练。
根据权利要求9至14任一项所述的装置，其特征在于，所述装置还包括：

信息获取模块，用于获取所述视频语料的视频图像中的人脸信息；

视频语料应用模块，用于根据所述人脸信息、所述视频语料包括的音频以及所述视频语料的标注文本，生成数字虚拟人。
根据权利要求9至15任一项所述的装置，其特征在于，所述装置还包括：

呈现模块，用于呈现任务配置界面；

信息获取模块，用于获取用户在所述任务配置界面针对所述视频语料的训练任务。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述计算机设备执行权利要求1至8中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算设备上运行时，使得所述计算设备执行如权利要求1至8任一项所述的方法。
一种包含指令的计算机程序产品，当其在计算设备上运行时，使得所述计算设备执行如权利要求1至8任一项所述的方法。