WO2019144839A1

WO2019144839A1 - 一种用于替换视频中的对象的方法和装置

Info

Publication number: WO2019144839A1
Application number: PCT/CN2019/072218
Authority: WO
Inventors: 罗江春; 陈锡岩
Original assignee: 北京一览科技有限公司
Priority date: 2018-01-25
Filing date: 2019-01-17
Publication date: 2019-08-01
Also published as: CN108288249A

Abstract

一种用于替换视频中的对象的方法，其中，该方法包括以下步骤：根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景（S1）；根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象（S2）；将所述适合被替换的对象替换为所述待替换内容（S3）。根据本方法，能够根据待替换内容来自动判断视频中与待替换内容相匹配的视频场景，并确定所述视频场景中适合被替换的对象，以将视频中适合被替换的对象替换为待替换内容，该过程可完全由计算机设备自动执行，而并不需要任何人工参与，且能够极大地节约时间成本。

Description

一种用于替换视频中的对象的方法和装置

相关申请的交叉引用

本申请享有2018年1月25日提交的专利申请号为201810074372.7、名称为“一种用于替换视频中的对象的方法和装置”的中国专利申请的优先权，该在先申请的内容以引用方式合并于此。

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于替换视频中的对象的方法和装置。

背景技术

现有技术中，当要替换视频中的一个对象时，通常直接人工指定或标记视频中的对象，以采用另一个对象来替换该被指定或标记的对象，这需要花费大量的人力成本和时间成本。

发明内容

本发明的目的是提供一种用于替换视频中的对象的方法和装置。

根据本发明的一个方面，提供一种用于替换视频中的对象的方法，其中，该方法包括以下步骤：

根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景；

根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象；

将所述适合被替换的对象替换为所述待替换内容。

根据本发明的另一个方面，还提供了一种用于替换视频中的对象的装置，该装置包括：

用于根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景的装置；

用于根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的装置；

用于将所述适合被替换的对象替换为所述待替换内容的装置。

与现有技术相比，本发明具有以下优点：能够根据待替换内容来自动判断视频中与待替换内容相匹配的视频场景，并确定所述视频场景中适合被替换的对象，以将视频中适合被替换的对象替换为待替换内容，该过程可完全由计算机设备自动执行，而并不需要任何人工参与，且能够极大地节约时间成本；并且，由于仅会对视频中适合被替换的对象执行替换操作，也即并不会去替换视频中并不适合被替换的对象，使得能够实现对待替换内容的高效率推广，且保证不会对待替换内容造成负面影响，这对于待替换内容的提供方来说极为有利。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一个实施例的用于替换视频中的对象的方法的流程示意图；

图2为本发明另一个实施例的用于替换视频中的对象的方法的流程示意图；

图3为本发明一个实施例的用于替换视频中的对象的装置的结构示意图；

图4为本发明另一个实施例的用于替换视频中的对象的装置的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“计算机设备”，也称为“电脑”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的程序指令来执行预定处理过程，或是由ASIC、FPGA、DSP等硬件执行预定处理过程，或是由上述二者组合来实现。

所述计算机设备例如包括用户设备与网络设备。其中，所述用户设备包括但不限于PC机、平板电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

图1为本发明一个实施例的用于替换视频中的对象的方法的流程示意图。根据本实施的方法包括步骤S1、步骤S2和步骤S3。

在步骤S1中，计算机设备根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景。

其中，所述待替换内容包括任何能够在视频中呈现的内容，如人物头像、食品、家具等。优选地，所述待替换内容为广告商提供的广告内容。

其中，一个视频场景对应所述视频中的一帧或连续多帧。优选地，与所述待替换内容相匹配的视频场景中的每一帧均包括与所述待替换内容相同或相关联的对象。需要说明的是，此处所指“相同或相关联”表示种类相同或相关联，如待替换内容的种类为“啤酒”，与该待替换内容相同的对象为“啤酒”，与该待替换内容相关联的对象为“炸鸡”。优选地，计算机设备可预先存储有与待替换内容相关联的对象。优选地，可基于两个对象之间的匹配度来确定该两个对象是否向关联，或者，由待替换内容的提供方直接指定与待替换内容相关联的对象。

具体地，计算机设备可采用多种方式根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景。

例如，计算机设备确定视频的内容与待替换内容之间的相关度，当所述相关度大于预定值时，直接将整个视频作为与待替换内容相匹配的视频场景。

又例如，计算机设备将视频中包括与待替换内容相同或相关联的对象的每一帧，均作为与所述待替换内容相匹配的一个视频场景；优选地，当视频的连续多帧中均包含与待替换内容相同或相关联的对象时，计算机设备将该多帧作为与所述待替换内容相匹配的一个视频场景。

作为一种优选方案，计算机设备获得所述视频的视频场景信息，并根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景。该优选方案将在后续实施例中予以详述，在此不再赘述。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景的实现方式，均应包含在本发明的范围内。

在步骤S2中，计算机设备根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象。

具体地，计算机设备根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的实现方式包括但不限于：

1)所述步骤S2进一步包括步骤S21。在所述步骤S21中，计算机设备根据所述视频场景以及所述待替换内容，从所述视频场景中获得与所述待替换内容相匹配的至少一个对象，并针对所述至少一个对象中的每个对象执行以下操作：

-获得该对象的与所述视频场景相对应的特征信息；

-当所述特征信息满足预定替换条件时，将该对象确定为所述视频场景中适合被替换的对象。

其中，所述特征信息包括任何用于指示对象在视频场景中的特征的信息。优选地，所述特征信息包括但不限于以下至少一项：

a)对象在所述视频场景中的呈现特征信息。

其中，所述呈现特征信息包括对象在视频场景中直接呈现出的任何特征信息。优选地，所述呈现特征信息包括但不限于：对象在所述视频场景中的位置信息、对象在所述视频场景中的尺寸信息、对象在所述视频场景中的完整性信息。

其中，所述位置信息包括任何用于指示对象在视频场景中的呈现位置的信息，如对象在视频场景中的坐标或方位、对象距离视频场景中心的远近程度等。优选地，将视频场景划分为多个区域，所述位置信息用于指示对象所位于的区域；其中，每个区域可对应不同的用户关注度。

其中，所述尺寸信息包括任何用于指示对象的尺寸的信息，如对象的尺寸大小、对象的尺寸等级(如较大、适中、较小、极小等)等。

其中，所述完整性信息包括任何用于指示对象在视频场景中的完整性的信息，如用于指示对象是否被完整呈现或者是否被遮挡的信息、对象的完整程度或被遮挡比例等。

需要说明的是，上述呈现特征信息仅为举例，而非对本发明的限制，本领域技术人员应能理解，对象在视频场景中直接呈现出的任何特征信息，均应包含在本发明所述的呈现特征信息的范围内。

b)对象在所述视频场景中的运动趋势信息。

其中，所述运动趋势信息包括任何用于指示对象在视频场景中的运动趋势的信息，例如，所述运动趋势信息用于指示对象在视频场景中的运动方向和/或运动速度、对象与视频场景中的其他对象之间的相对运动趋势等。

其中，视频场景对应视频中的连续多帧，计算机设备可根据对象在该多帧中的位置变化，来获得对象在视频场景中的运动趋势信息。其中，对象在视频场景中的运动趋势能够在一定程度上反应用户对该对象的关注可能性，例如，视频场景中包含在运行的多辆汽车，速度最快的汽车被用户关注的可能性更大，则该汽车更适合被替换。

c)对象在所述视频场景中的评价倾向信息。

其中，所述评价倾向信息包括任何用于指示对象在视频场景中的评价倾向的信息，如用于指示对象在视频场景中的评价倾向为正面或者负面的信息、用于指示评价倾向的正面等级或负面等级的信息等。其中，对象在视频场景中的评价倾向越正面或越积极，该对象越适合被替换，对象在视频场景中的评价倾向越负面或越消极，该对象越不适合被替换。其中，所述评价倾向可表示为数值(如数值越高，则评价倾向越正面或越积极)或等级(如等级越高，则评价倾向越正面或越积极)。

其中，计算机设备可根据所述视频场景中的音频特征或字幕来确定对象在所述视频场景中的评价倾向信息。例如，视频场景中包含食品A，计算机设备对该视频场景中的音频特征进行语义分析，确定该视频场景中在评论食品A的质量极差，则计算机设备确定食品A在该视频场景中的评价倾向信息，该评价倾向信息指示食品A的评价倾向是负面的。

需要说明的是，上述特征信息仅为举例，而得对本发明的限制，本领域技术人员应能理解，任何用于指示对象在视频场景中的特征的信息(如，对象在所述视频场景中的呈现时间长度、对象在所述视频场景中的角度；又如，当对象为人物时，特征信息还可指示该人物在视频场景中呈现出的是正面、侧面还是背面等)，均应包含在本发明所述的特征信息的范围内。

其中，所述预定替换条件包括任何预定的用于判断对象是否适合替换的条件。优选地，所述预定替换条件包括但不限于以下至少一项：对象在视频场景中的呈现特征需满足的条件、对象在视频场景中的运动趋势需满足的条件、对象在视频场景中的评价倾向需满足的条件等。例如，所述预定替换条件包括：对象位于视频场景中的指定区域、对象被完整地呈现、对象在视频场景中的评价倾向是正面的。

作为一个示例，待替换内容为旅游用品，预定替换条件包括对象在视频场景中的评价倾向是正面的；则计算机设备根据该视频场景以及待替换内容，从该视频场景中获得与待替换内容相匹配的旅游用品B和C；之后，计算机设备获得B的特征信息，该特征信息指示B的评价倾向是正面的，则B为适合被替换的对象；计算机设备获得C的特征信息，该特征信息指示C的评价倾向是负面的，则C被认为不适合被替换。

2)所述步骤S2进一步包括步骤S22。在所述步骤S22中，计算机设备根据所述视频场景、所述待替换内容以及与所述待替换内容相对应的替换需求信息，确定所述视频场景中适合被替换的对象。

其中，所述替换需求信息包括任何用于指示待替换内容的替换需求的信息，该替换需求是指对被替换的对象的要求，如所述替换需求信息指示被替换的对象在视频场景中被连续呈现的时间长度的最低阈值。优选地，所述替换需求信息包括对被替换的对象在视频场景中的特征的要求，如对被替换的对象的完整性、运动趋势和/或评价倾向的要求。优选地，所述替换需求信息反映的是所述待替换内容的提供方的需求。例如，由手机的广告商提供该手机的替换需求信息。

作为一个示例，待替换内容为手机，该手机的替换需求信息指示视频中被替换的手机被连续呈现的时间长度需大于5秒钟，则计算机设备将视频场景中被连续呈现的时间长度大于5秒钟的手机作为适合被替换的对象。

基于该实现方式2)的方案，待替换内容的提供方可以灵活地定制针对该待替换内容的替换需求信息。该方案尤其适用于对广告内容的推广，广告商可以根据其广告需求灵活定制该广告内容的替换需求信息，且能够基于广告效应和/或用户对该广告内容的反馈来随时调整广告内容的替换需求信息，以使得达到最优的广告推广效果。

需要说明的是，上述实现方式1)和2)可以相结合，例如，计算机设备根据所述视频场景、所述待替换内容以及与所述待替换内容相对应的替换需求信息，确定所述视频场景中适合被替换的至少一个对象，并针对所述至少一个对象中的每个对象执行以下操作：-获得该对象的与所述视频场景相对应的特征信息；-当所述特征信息满足预定替换条件时，将该对象确定为所述视频场景中适合被替换的对象。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的实现方式，均应包含在本发明的范围内。

在步骤S3中，计算机设备将所述适合被替换的对象替换为所述待替换内容。

具体地，对于所述视频场景中的每一帧，计算机设备将该帧中的适合被替换的对象替换为所述待替换内容，以生成新的视频数据。

作为步骤S3的一种优选方案，对于所述视频场景中的每一帧，计算机设备根据所述对象在该帧中的呈现特征信息，对所述待替换内容执行相应调整操作，其中，所述调整操作包括以下至少任一项：

-调整所述待替换内容的尺寸的操作；

-调整所述待替换内容的角度的操作。

其中，对象在该帧中的呈现特征信息包括对象在该帧中直接呈现出的任何特征信息。对象在该帧中的呈现特征信息与前述对象在视频场景中的呈现特征信息相似，在此不再赘述。

作为一个示例，计算机设备根据所述对象在该帧中的呈现特征信息，确定适合被替换的该对象在该帧中的尺寸与待替换内容的尺寸不一致，则计算机设备调整该待替换内容的尺寸，以使调整后的尺寸与该对象在该帧中的尺寸相同。

基于该优选方案，能够避免由于待替换内容与被替换的对象的呈现效果不一致而影响到视频的播放效果，从而使得执行替换操作后获得的新的视频的播放效果与原视频的播放效果保持一致。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何将所述适合被替换的对象替换为所述待替换内容的实现方式，均应包含在本发明的范围内。

现有技术中，当想要替换视频中的一个对象时，通常直接人工指定或标记视频中的对象，以采用另一个对象来替换该被指定或标记的对象，这需要花费大量的人力成本和时间成本。

并且，本发明发现技术中存在以下问题：现有技术在替换视频中的一个对象时，并未意识到在一些场景下对象可能并不适合被替换，或者说，在一些场景下替换对象并没有意义。例如，对象被呈现在视频场景的右下角且大部分被遮挡，用户几乎不会注意到该对象，则在该视频场景中替换该对象并没有实际意义；又例如，一个视频场景中在评价一个对象的负面效果，则若将该视频场景中的该对象替换为另一对象，极大可能会对该另一对象造成负面影响，尤其是当该另一对象为其提供方(如广告商)希望推广的内容时，不仅达不到推广效果，甚至会损害到该提供方的利益。

根据本实施例的方案，能够根据待替换内容来自动判断视频中与待替换内容相匹配的视频场景，并确定所述视频场景中适合被替换的对象，以将视频中适合被替换的对象替换为待替换内容，该过程可完全由计算机设备自动执行，而并不需要任何人工参与，且能够极大地节约时间成本；并且，由于仅会对视频中适合被替换的对象执行替换操作，也即并不会去替换视频中并不适合被替换的对象，使得能够实现对待替换内容的高效率推广，且保证不会对待替换内容造成负面影响，这对于待替换内容的提供方来说极为有利。

图2为本发明另一个实施例的用于替换视频中的对象的方法的流程示意图。根据本实施例的方法包括步骤S1、步骤S2、步骤S3，其中，所述步骤S1进一步包括步骤S11和步骤S12。其中，所述步骤S2和所述步骤S3的实现方式已在参照图1所示实施例中予以详述，在此不再赘述。

在所述步骤S11中，计算机设备获得所述视频的视频场景信息。

其中，所述视频场景信息包括任何与视频中的视频场景相关的信息，优选地，所述视频场景信息包括但不限于以下至少一项：视频中所包含的视频场景的数量、每个视频场景对应的视频帧、每个视频场景对应的帧数或者时间长度、每个视频场景所对应的场景类型(如美食场景、旅游场景、会议场景等)等。

其中，计算机设备可采用多种方式来获得所述视频的视频场景信息。

例如，计算机设备直接根据来自用户的指示信息，确定所述视频的视频场景信息。

又例如，计算机设备的数据库中预先存储有多个特定视觉对象及每个特定视觉对象对应的场景类型，则当判断视频的一帧中出现特定视觉对象时，计算机设备将该帧作为一个视频场景，并将该特定视觉对象对应的场景类型作为该视频场景的场景类型，由此，计算机设备可确定视频的视频场景信息，该视频场景信息用于指示包含特定视觉对象的每个视频场景及其场景类型。

作为一种优选方案，计算机设备根据所述视频的音频特征信息和/或视觉特征信息，对所述视频进行语义理解，获得所述视频的视频场景信息。

其中，所述音频特征信息包括任何与视频的音频特征相关的信息，如音调、音强、音色等。

其中，所述视觉特征信息包括任何与视频的视觉特征相关的信息，如视频的字幕、视频中呈现的对象(如人物、物品等)等。

具体地，计算机设备根据视频的音频特征信息和/或视觉特征信息，对所述视频进行语义理解，来确定视频含义(也即视频在表达什么)，进而基于视频含义，获得所述视频的视频场景信息。

作为一个示例，计算机设备对视频的音频特征信息进行语音识别获得文本识别结果，并通过对该文本识别结果进行语义分析确定该视频从头到尾讲述的是一种美食的制作方法，则计算机设备确定该视频的视频场景信息，该视频场景信息用于指示将该视频整体作为一个视频场景，且该视频场景为美食场景。

优选地，计算机设备根据视频的音频特征信息和/或视觉特征信息，分别对视频的每一帧进行语义理解，当存在含义相同或相近的连续多帧时，将该多帧作为视频中的一个视频场景，并基于该多帧的含义确定该视频场景的场景类型。

作为另一个示例，对于视频中的一帧，计算机设备获得该帧的视觉特征信息，该视觉特征信息指示该帧中呈现的对象包括：人物、背包、帐篷；则计算机设备根据该视觉特征信息进行语义理解，确定该帧中的人物正在旅游；则当判断到视频中的连续多帧的含义均是该人物正在旅游时，计算机设备将该多帧作为视频中的一个视频场景，并确定该视频场景为旅游场景。相类似地，计算机设备可确定视频中的其他视频场景以及其场景类型。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何获得所述视频的视频场景信息的实现方式，均应包含在本发明的范围内。

在步骤S12中，计算机设备根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景。

具体地，计算机设备根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的实现方式包括但不限于：

1)计算机设备根据所述视频场景信息以及所述待替换内容，获得所述视频中包含与所述待替换内容相同或相关联的对象的视频场景，并将所获得的视频场景确定为与所述待替换内容相匹配的视频场景。

作为一个示例，待替换内容为广告商提供的手机图片，则计算机设备根据视频的视频场景信息获得视频中的至少一个视频场景，之后从该至少一个视频场景中获得包含手机的视频场景，作为与待替换内容相匹配的视频场景。

作为另一个示例，替换内容为广告商提供的啤酒图片，其中，“啤酒”与“炸鸡”相关联，则计算机设备根据视频的视频场景信息获得视频中的至少一个视频场景，之后从该至少一个视频场景中获得包含啤酒或炸鸡的视频场景，作为与待替换内容相匹配的视频场景。

2)计算机设备根据所述视频场景信息以及与所述待替换内容相对应的至少一个预定场景类型，确定所述视频中与待替换内容相匹配的视频场景。

作为一个示例，待替换内容为“啤酒”，“啤酒”对应的预定场景类型为美食场景，则计算机设备根据视频的视频场景信息获得视频中的每个视频场景及对应的场景类型，之后根据该预定场景类型，将该视频中所对应的场景类型为美食场景的视频场景，作为与待替换内容相匹配的视频场景。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的实现方式，均应包含在本发明的范围内。

根据本实施例的方案，可先获得视频的视频场景信息，进而确定视频中与待替换内容相匹配的视频场景，使得所确定的视频场景与待替换内容之间的匹配度更高，则在该视频场景中执行替换操作将会产生更好的推广效果；此外，根据所述视频的音频特征信息和/或视觉特征信息，对所述视频进行语义理解，获得所述视频的视频场景信息，进而确定视频中与待替换内容相匹配的视频场景，可以进一步提高所确定的视频场景与待替换内容之间的匹配度。

图3为本发明一个实施例的用于替换视频中的对象的装置的结构示意图。该用于替换视频中的对象的装置(以下简称为“对象替换装置”)包括第一获得装置1、第一确定装置2和第一替换装置3。

第一获得装置1用于根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景。

具体地，第一获得装置1可采用多种方式根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景。

例如，第一获得装置1确定视频的内容与待替换内容之间的相关度，当所述相关度大于预定值时，直接将整个视频作为与待替换内容相匹配的视频场景。

又例如，第一获得装置1将视频中包括与待替换内容相同或相关联的对象的每一帧，均作为与所述待替换内容相匹配的一个视频场景；优选地，当视频的连续多帧中均包含与待替换内容相同或相关联的对象时，计算机设备将该多帧作为与所述待替换内容相匹配的一个视频场景。

作为一种优选方案，第一获得装置1获得所述视频的视频场景信息，并根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景。该优选方案将在后续实施例中予以详述，在此不再赘述。

第一确定装置2用于根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象。

具体地，第一确定装置2根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的实现方式包括但不限于：

1)第一确定装置2进一步第二确定装置(图未示)。第二确定装置用于根据所述视频场景以及所述待替换内容，从所述视频场景中获得与所述待替换内容相匹配的至少一个对象，并针对所述至少一个对象中的每个对象执行以下操作：

-获得该对象的与所述视频场景相对应的特征信息；

a)对象在所述视频场景中的呈现特征信息。

b)对象在所述视频场景中的运动趋势信息。

其中，视频场景对应视频中的连续多帧，第二确定装置可根据对象在该多帧中的位置变化，来获得对象在视频场景中的运动趋势信息。其中，对象在视频场景中的运动趋势能够在一定程度上反应用户对该对象的关注可能性，例如，视频场景中包含在运行的多辆汽车，速度最快的汽车被用户关注的可能性更大，则该汽车更适合被替换。

c)对象在所述视频场景中的评价倾向信息。

其中，第二确定装置可根据所述视频场景中的音频特征或字幕来确定对象在所述视频场景中的评价倾向信息。例如，视频场景中包含食品A，第二确定装置对该视频场景中的音频特征进行语义分析，确定该视频场景中在评论食品A的质量极差，则第二确定装置确定食品A在该视频场景中的评价倾向信息，该评价倾向信息指示食品A的评价倾向是负面的。

作为一个示例，待替换内容为旅游用品，预定替换条件包括对象在视频场景中的评价倾向是正面的；则第二确定装置根据该视频场景以及待替换内容，从该视频场景中获得与待替换内容相匹配的旅游用品B和C；之后，第二确定装置获得B的特征信息，该特征信息指示B的评价倾向是正面的，则B为适合被替换的对象；第二确定装置获得C的特征信息，该特征信息指示C的评价倾向是负面的，则C被认为不适合被替换。

2)第一确定装置2进一步包括第三确定装置(图未示)。第三确定装置根据所述视频场景、所述待替换内容以及与所述待替换内容相对应的替换需求信息，确定所述视频场景中适合被替换的对象。

作为一个示例，待替换内容为手机，该手机的替换需求信息指示视频中被替换的手机被连续呈现的时间长度需大于5秒钟，则第三确定装置将视频场景中被连续呈现的时间长度大于5秒钟的手机作为适合被替换的对象。

需要说明的是，上述实现方式1)和2)可以相结合，例如，第一确定装置2根据所述视频场景、所述待替换内容以及与所述待替换内容相对应的替换需求信息，确定所述视频场景中适合被替换的至少一个对象，并针对所述至少一个对象中的每个对象执行以下操作：-获得该对象的与所述视频场景相对应的特征信息；-当所述特征信息满足预定替换条件时，将该对象确定为所述视频场景中适合被替换的对象。

第一替换装置3将所述适合被替换的对象替换为所述待替换内容。

具体地，对于所述视频场景中的每一帧，第一替换装置3将该帧中的适合被替换的对象替换为所述待替换内容，以生成新的视频数据。

作为一种优选方案，第一替换装置3还包括第二替换装置(图未示)。第二替换装置用于对于所述视频场景中的每一帧，根据所述对象在该帧中的呈现特征信息，对所述待替换内容执行相应调整操作，其中，所述调整操作包括以下至少任一项：

-调整所述待替换内容的尺寸的操作；

-调整所述待替换内容的角度的操作。

作为一个示例，第二替换装置根据所述对象在该帧中的呈现特征信息，确定适合被替换的该对象在该帧中的尺寸与待替换内容的尺寸不一致，则第二替换装置调整该待替换内容的尺寸，以使调整后的尺寸与该对象在该帧中的尺寸相同。

根据本实施例的方案，能够根据待替换内容来自动判断视频中与待替换内容相匹配的视频场景，并确定所述视频场景中适合被替换的对象，以将视频中适合被替换的对象替换为待替换内容，该过程可完全由计算机设备自动执行，而并不需要任何人工干预，且能够极大地节约时间成本；并且，由于仅会对视频中适合被替换的对象执行替换操作，也即并不会去替换视频中并不适合被替换的对象，使得能够实现对待替换内容的高效率推广，且保证不会对待替换内容造成负面影响，这对于待替换内容的提供方来说极为有利。

图4为本发明另一个实施例的用于替换视频中的对象的装置的结构示意图。根据本实施例的对象替换装置包括第一获得装置1、第一确定装置2和第一替换装置3。其中，所述第一获得装置1进一步包括第二获得装置11和第四确定装置12。其中，所述第一确定装置2和第一替换装置3已在参照图3所示实施例中予以详述，在此不再赘述。

第二获得装置11用于获得所述视频的视频场景信息。

其中，第二获得装置11可采用多种方式来获得所述视频的视频场景信息。

例如，第二获得装置11直接根据来自用户的指示信息，确定所述视频的视频场景信息。

又例如，计算机设备的数据库中预先存储有多个特定视觉对象及每个特定视觉对象对应的场景类型，则当判断视频的一帧中出现特定视觉对象时，第二获得装置11将该帧作为一个视频场景，并将该特定视觉对象对应的场景类型作为该视频场景的场景类型，由此，第二获得装置11可确定视频的视频场景信息，该视频场景信息用于指示包含特定视觉对象的每个视频场景及其场景类型。

作为一种优选方案，第二获得装置11进一步包括第三获得装置(图未示)。第三获得装置用于根据所述视频的音频特征信息和/或视觉特征信息，对所述视频进行语义理解，获得所述视频的视频场景信息。

具体地，第三获得装置根据视频的音频特征信息和/或视觉特征信息，对所述视频进行语义理解，来确定视频含义(也即视频在表达什么)，进而基于视频含义，获得所述视频的视频场景信息。

作为一个示例，第三获得装置对视频的音频特征信息进行语音识别获得文本识别结果，并通过对该文本识别结果进行语义分析确定该视频从头到尾讲述的是一种美食的制作方法，则第三获得装置确定该视频的视频场景信息，该视频场景信息用于指示将该视频整体作为一个视频场景，且该视频场景为美食场景。

优选地，第三获得装置根据视频的音频特征信息和/或视觉特征信息，分别对视频的每一帧进行语义理解，当存在含义相同或相近的连续多帧时，将该多帧作为视频中的一个视频场景，并基于该多帧的含义确定该视频场景的场景类型。

作为另一个示例，对于视频中的一帧，第三获得装置获得该帧的视觉特征信息，该视觉特征信息指示该帧中呈现的对象包括：人物、背包、帐篷；则第三获得装置根据该视觉特征信息进行语义理解，确定该帧中的人物正在旅游；则当判断到视频中的连续多帧的含义均是该人物正在旅游时，第三获得装置将该多帧作为视频中的一个视频场景，并确定该视频场景为旅游场景。相类似地，第三获得装置可确定视频中的其他视频场景以及其场景类型。

第四确定装置12根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景。

具体地，第四确定装置12根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的实现方式包括但不限于：

1)第四确定装置12进一步包括第五确定装置(图未示)。第五确定装置用于根据所述视频场景信息以及所述待替换内容，获得所述视频中包含与所述待替换内容相同或相关联的对象的视频场景，并将所获得的视频场景确定为与所述待替换内容相匹配的视频场景。

作为一个示例，待替换内容为广告商提供的手机图片，则第五确定装置根据视频的视频场景信息获得视频中的至少一个视频场景，之后从该至少一个视频场景中获得包含手机的视频场景，作为与待替换内容相匹配的视频场景。

作为另一个示例，替换内容为广告商提供的啤酒图片，其中，“啤酒”与“炸鸡”相关联，则第五确定装置根据视频的视频场景信息获得视频中的至少一个视频场景，之后从该至少一个视频场景中获得包含啤酒或炸鸡的视频场景，作为与待替换内容相匹配的视频场景。

2)第四确定装置12进一步包括第六确定装置(图未示)。第六确定装置用于根据所述视频场景信息以及与所述待替换内容相对应的至少一个预定场景类型，确定所述视频中与待替换内容相匹配的视频场景。

作为一个示例，待替换内容为“啤酒”，“啤酒”对应的预定场景类型为美食场景，则第六确定装置根据视频的视频场景信息获得视频中的每个视频场景及对应的场景类型，之后根据该预定场景类型，将该视频中所对应的场景类型为美食场景的视频场景，作为与待替换内容相匹配的视频场景。

此外，本发明还提出了一种计算机设备，包括：存储器，用于存储一个或多个程序；一个或多个处理器，与所述存储器相连，当所述一个或多个程序被所述一个或者多个处理器执行时，执行本发明的用于替换视频中的对象的方法。

此外，本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，本发明的用于替换视频中的对象的方法被执行。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路 _。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种用于替换视频中的对象的方法，其中，该方法包括以下步骤：

根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景；

根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象；

将所述适合被替换的对象替换为所述待替换内容。
根据权利要求1所述的方法，其中，所述根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的步骤包括：

根据所述视频场景以及所述待替换内容，从所述视频场景中获得与所述待替换内容相匹配的至少一个对象，并针对所述至少一个对象中的每个对象执行以下操作：

-获得该对象的与所述视频场景相对应的特征信息；

-当所述特征信息满足预定替换条件时，将该对象确定为所述视频场景中适合被替换的对象。
根据权利要求2所述的方法，其中，所述特征信息包括以下至少一项：

-对象在所述视频场景中的呈现特征信息；

-对象在所述视频场景中的运动趋势信息；

-对象在所述视频场景中的评价倾向信息。
根据权利要求3所述的方法，其中，所述呈现特征信息包括：

-对象在所述视频场景中的位置信息；

-对象在所述视频场景中的尺寸信息；

-对象在所述视频场景中的完整性信息。
根据权利要求1所述的方法，其中，所述根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的步骤包括：

根据所述视频场景、所述待替换内容以及与所述待替换内容相对应的替换需求信息，确定所述视频场景中适合被替换的对象。
根据权利要求1所述的方法，其中，所述根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景的步骤包括：

获得所述视频的视频场景信息；

根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景。
根据权利要求6所述的方法，其中，所述获得所述视频的视频场景信息的步骤包括：

根据所述视频的音频特征信息和/或视觉特征信息，对所述视频进行语义理解，获得所述视频的视频场景信息。
根据权利要求6所述的方法，其中，所述根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的步骤包括：

根据所述视频场景信息以及所述待替换内容，获得所述视频中包含与所述待替换内容相同或相关联的对象的视频场景，并将所获得的视频场景确定为与所述待替换内容相匹配的视频场景。
根据权利要求6所述的方法，其中，所述根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的步骤包括：

根据所述视频场景信息以及与所述待替换内容相对应的至少一个预定场景类型，确定所述视频中与待替换内容相匹配的视频场景。
根据权利要求1至9中任一项所述的方法，其中，所述将所述适合被替换的对象替换为所述待替换内容的步骤还包括：

对于所述视频场景中的每一帧，根据所述对象在该帧中的呈现特征信息，对所述待替换内容执行相应调整操作，其中，所述调整操作包括以下至少任一项：

-调整所述待替换内容的尺寸的操作；

-调整所述待替换内容的角度的操作。
一种用于替换视频中的对象的装置，该装置包括：

用于根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景的装置；

用于根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的装置；

用于将所述适合被替换的对象替换为所述待替换内容的装置。
根据权利要求11所述的装置，其中，所述用于根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的装置包括：

用于根据所述视频场景以及所述待替换内容，从所述视频场景中获得与所述待替换内容相匹配的至少一个对象，并针对所述至少一个对象中的每个对象执行以下操作的装置：

-获得该对象的与所述视频场景相对应的特征信息；

-当所述特征信息满足预定替换条件时，将该对象确定为所述视频场景中适合被替换的对象。
根据权利要求12所述的装置，其中，所述特征信息包括以下至少一项：

-对象在所述视频场景中的呈现特征信息；

-对象在所述视频场景中的运动趋势信息；

-对象在所述视频场景中的评价倾向信息。
根据权利要求13所述的装置，其中，所述呈现特征信息包括：

-对象在所述视频场景中的位置信息；

-对象在所述视频场景中的尺寸信息；

-对象在所述视频场景中的完整性信息。
根据权利要求11所述的装置，其中，所述用于根据所述视频场景以及所述待替换内容，确定所述视频场景中适合被替换的对象的装置包括：

用于根据所述视频场景、所述待替换内容以及与所述待替换内容相对应的替换需求信息，确定所述视频场景中适合被替换的对象的装置。
根据权利要求11所述的装置，其中，所述用于根据待替换内容，获得视频中与所述待替换内容相匹配的视频场景的装置包括：

用于获得所述视频的视频场景信息的装置；

用于根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的装置。
根据权利要求16所述的装置，其中，所述用于获得所述视频的视频场景信息的装置包括：

用于根据所述视频的音频特征信息和/或视觉特征信息，对所述视频进行语义理解，获得所述视频的视频场景信息的装置。
根据权利要求16所述的装置，其中，所述用于根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的装置包括：

用于根据所述视频场景信息以及所述待替换内容，获得所述视频中包含与所述待替换内容相同或相关联的对象的视频场景，并将所获得的视频场景确定为与所述待替换内容相匹配的视频场景的装置。
根据权利要求16所述的装置，其中，所述用于根据所述视频场景信息，确定所述视频中与所述待替换内容相匹配的视频场景的装置包括：

用于根据所述视频场景信息以及与所述待替换内容相对应的至少一个预定场景类型，确定所述视频中与待替换内容相匹配的视频场景的装置。
根据权利要求11至19中任一项所述的装置，其中，所述用于将所述适合被替换的对象替换为所述待替换内容的装置还包括：

用于对于所述视频场景中的每一帧，根据所述对象在该帧中的呈现特征信息，对所述待替换内容执行相应调整操作的装置，其中，所述调整操作包括以下至少任一项：

-调整所述待替换内容的尺寸的操作；

-调整所述待替换内容的角度的操作。
一种计算机可读介质，其上存储有计算机程序，所述计算机程序可被处理器执行如权利要求1至10中任一项所述的方法。
一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如权利要求1至10中任一项所述的方法被执行。
一种计算机设备，所述计算机设备包括：

存储器，用于存储一个或多个计算机程序；

一个或多个处理器，与所述存储器相连，

当所述一个或多个计算机程序被所述一个或者多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至10中任一项所述的方法。