WO2024104286A1

WO2024104286A1 - 一种视频处理方法、装置、电子设备和存储介质

Info

Publication number: WO2024104286A1
Application number: PCT/CN2023/131208
Authority: WO
Inventors: 温佳伟; 郭亨凯; 夏吉喆; 朱圣楠
Original assignee: 北京字跳网络技术有限公司
Priority date: 2022-11-14
Filing date: 2023-11-13
Publication date: 2024-05-23
Also published as: CN118042217A

Abstract

本发明涉及一种视频处理方法，建立对象素材资源库用于保存对象、属性信息、素材和描述信息及其对应关系，建立源视频资源库用于保存源视频、可植入区域和特征标签及其对应关系，基于匹配规则，为目标对象匹配适合植入的源视频及其目标可植入区域，或者为目标源视频匹配适合植入的对象及其素材，将对象的素材植入源视频的可植入区域获得合成视频。本发明实现了在源视频中自动植入相匹配的对象，降低了人工成本，提高了视频处理效率。

Description

一种视频处理方法、装置、电子设备和存储介质

相关申请的交叉引用

本申请是以申请号为202211426333.1，申请日为2022年11月14日，题为“一种视频处理方法、装置、电子设备和存储介质”的中国申请为基础，并主张其优先权，该中国申请的公开内容在此作为整体引入本申请中。

技术领域

本发明涉及信息处理领域，尤其涉及一种视频处理方法、装置、电子设备和存储介质。

背景技术

视频是互联网最重要的传播信息之一，通过在视频信息中植入一些信息，可以实现不同应用场景下的功能，视频中可以植入与视频内容有关联的信息，对视频内容进行解释和说明，例如教育培训场景下的视频植入信息可以增强学习效果；也可以植入一些跳转链接，例如在一些直播场景下的实时视频中植入商品交易链接可以在观看视频过程中实现交易；也可以植入广告，例如在各种视频资源中植入广告信息可以实现品牌和商品推广。目前，这些都需要对视频进行人工处理来进行信息植入。

发明内容

为了更高效的、智能化的实现视频中的信息植入，本发明提出一种视频处理方法、装置、电子设备、存储介质和计算机程序。

根据本发明的一方面，提供了一种视频处理方法，包括：

响应于接收到的针对目标对象的第一请求，为所述目标对象确定至少一个素材和素材的描述信息，其中，所述第一请求是关于针对所述目标对象进行信息传播的请求，目标对象具有属性信息，素材具有描述信息，描述信息用于表征所述素材的特征；

基于第一匹配规则，针对目标对象确定至少一个源视频，所述至少一个源视频包括至少一个目标可植入区域，所述至少一个目标可植入区域与所述目标对象的至少一个素材相匹配；

通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。

根据本发明的另一方面，提供了一种视频处理方法，包括：

响应于接收到的针对目标源视频的处理请求，确定所述目标源视频中的可植入区域和可植入区域对应的特征标签；其中，所述处理请求是关于针对所述目标源视频进行对象植入的请求；所述特征标签用于表征所述可植入区域的特征；

基于第二匹配规则，针对目标源视频确定至少一个可植入对象，所述可植入对象包括至少一个目标素材，所述目标素材与所述目标源视频中的至少一个可植入区域相匹配；

根据本发明的另一方面，提供了一种视频处理装置，包括：

第一确定模块，用于响应于接收到的针对目标对象的第一请求，为所述目标对象确定至少一个素材和素材的描述信息，其中，所述第一请求是关于针对所述目标对象进行信息传播的请求，目标对象具有属性信息，素材具有描述信息，描述信息用于表征所述素材的特征；

第一匹配模块，用于基于第一匹配规则，针对目标对象确定至少一个源视频，所述至少一个源视频包括至少一个目标可植入区域，所述至少一个目标可植入区域与所述目标对象的至少一个素材相匹配；

合成模块，用于通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。

根据本发明的另一方面，提供了一种视频处理装置，包括：

第二确定模块，用于响应于接收到的针对目标源视频的处理请求，确定所述目标源视频中的可植入区域和可植入区域对应的特征标签；其中，所述处理请求是关于针对所述目标源视频进行对象植入的请求；所述特征标签用于表征所述可植入区域的特征；

第二匹配模块，用于基于第二匹配规则，针对目标源视频确定至少一个可植入对象，所述可植入对象包括至少一个目标素材，所述目标素材与所述目标源视频中的至少一个可植入区域相匹配；

根据本发明的另一面，提供了一种电子设备，包括：

至少一个处理器；

用于存储所述至少一个处理器可执行指令的存储器；

其中，所述至少一个处理器被配置为执行所述指令，以实现如前述中任一项所述的方法。

根据本发明的另一面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序由处理器执行时实现如前述任一项所述的方法。

根据本发明的另一面，提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前述任一项所述方法。

本申请实施例中提供的技术方案，可以实现对源视频的自动识别可植入区域，并基于可植入区域的特征标签匹配可植入的对象的目标素材，以及实现对目标对象的素材自动识别可植入源视频，并未目标对象的素材匹配源视频的目标可植入区域，双向对源视频和对象进行匹配以获得合成视频，并基于用户的视频兴趣向用户进行合成视频推荐。既实现了对源视频的自动植入，减少了人工成本提升了处理效能，又能根据用户的兴趣实现视频推荐并获得商业收益。

附图说明

在下面结合附图对于示例性实施例的描述中，本发明的更多细节、特征和优点被发明，在附图中：

图1为本发明一示例性实施例提供的系统架构图；

图2为本发明一示例性实施例提供的应用场景示意图；

图3为本发明一示例性实施例提供的视频处理平台的示意性框图；

图4为本发明一示例性实施例提供的视频处理方法的流程图；

图5为本发明一示例性实施例提供的视频处理方法的流程图；

图6为本发明一示例性实施例提供的视频预处理方法的流程图；

图7为本发明一示例性实施例提供的视频推荐方法的流程图；

图8A和8B分别为本发明两示例性实施例提供的视频处理装置的功能模块示意性框图；

图9为本发明一示例性实施例提供的电子设备的结构框图；

图10为本发明一示例性实施例提供的计算机系统的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在介绍本发明实施例之前首先对本发明实施例中涉及到的相关名词作如下释义：

视频，基本结构是由帧、镜头、场景和视频节目构成的层次结构，其中帧是一幅静态图像，是组成视频的最小逻辑单元，将时间上连续的帧序列按等间隔连续播放，便形成动态视频。

镜头，是一台摄像机从开机到关机连续拍摄的帧序列，描绘一个事件或一个场面的一部分，不具有或具有较弱的语义信息，强调构成帧的视觉内容相似性。

场景，是语义相关的连续镜头，可以是相同对象的不同角度、不同技法拍摄，也可以是具有相同主体和事件的镜头组合，强调语义的相关性。

视频节目包含一个完整的事件或故事，作为最高层的视频内容结构，它包括视频的组成关系以及对视频的摘要、语义和一般性描述等。

语义分割(Semantic Segmentation)，对图像中的每个像素赋予语义标签，识别不同类别的物体。

实例分割(Instance Segmentation)，首先在图像中确定存在对象的位置区域，然后识别对象的类别。

全景分割(Panoramic Segmentation)，对图像中所有对象包括背景都进行检测和分割。

视觉同时定位与地图重建(Simultaneous Localization and Mapping,SLAM)技术，视觉SLAM视图解决利用视觉传感器获得的视觉信息实现定位和地图重建，即观测本体的运动轨迹并重建环境地图。

3D场景分析，对视频中的场景进行判断，并结合平面识别技术，分析该场景中适合放置3D素材的区域。

以下参照附图描述本发明的方案，具体如下：

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在示例性的场景中，终端向服务器105发出提供视频的请求，服务器105响应于该请求基于预设的视频提供策略向终端发送相应的视频或终端可获取视频的交互界面。

图2示出了应用本发明实施例的技术方案的应用场景图。

如图2所示，视频服务系统包括视频提供方201、对象提供方202、视频处理平台203和终端204。视频提供方向视频处理平台提供各种源视频，例如可以是离线视频或实时视频，例如可以是影视、动画、纪录片、科普知识、短视频、直播视频等，视频提供方可以是源视频的原创方，例如作者，也可以是源视频的授权方，例如视频平台；对象提供方向视频处理平台提供针对目标对象的传播需求，例如品牌宣传需求、商品推广需求、或者信息发布需求等，对象提供方可以是品牌商、商品供应商、销售商、媒体等；视频处理平台基于从视频提供方获得的源视频以及从对象提供方获得的待传播的目标对象，进行视频处理，获得融合了源视频和目标对象的视频，并基于终端的视频请求将融合后的视频提供给终端。

图3示出了本发明实施例的视频处理平台的示意性框图。

如图3所示，视频处理平台对接收的源视频进行处理，并形成源视频资源库，针对每一个源视频，获得至少一个可植入区域，针对每一个可植入区域形成特征标签，所述源视频资源库对应于每个源视频保存源视频、可植入区域、特征标签及其对应关系；视频处理平台针对指定的对象维护对象素材资源库，针对每一个由对象提供方指定的对象，配置有对象的属性信息、相应的素材以及素材的描述信息，例如如图3所示，对于对象ID为00001的商品对象，属性信息可以包括商品名称(例如“天天可乐”)、商品的多个类别信息(例如快消、饮料、无酒精、低糖等)以及其他属性信息，例如保质期等，该商品对象配置有多个素材，每个素材具有相应的描述信息，描述信息例如可以包括素材的内容、表现形式、2D或3D等；视频处理平台具有匹配模块、合成模块和推荐模块，并相应配置有匹配规则和推荐策略，匹配模块用于根据匹配规则实现对源视频及其区域与指定对象及其素材进行匹配，以获得用于进行视频合成的基础材料，并通过合成模块进行视频合成，合成视频保存在合成视频资源库中，推荐模块，用于基于推荐策略对至少一个合成视频进行推荐。

对象素材资源库中保存的素材可以是素材本身，如图3所示，也可以是素材的标识或指向素材的链接；素材可以来自于对象提供方，也可以根据对象提供方的需求，基于指定的对象进行制作生成，也可以从其他渠道获取。相似的，源视频资源库中保存的源视频和可植入区域可以是源视频或者可植入区域本身也可以是相应的标识或相应的链接；合成视频资源库中保存的视频可以是合成的视频本身也可以是相应的标识或相应的链接。

所述视频处理平台可以是集中式服务器的架构也可以是分离式服务器系统的架构，这些并不应成为对本发明的限制。

图4示出了本发明一示例性实施例提供的视频处理方法的流程图。

如图4所示，所述方法包括：

S401，响应于接收到的针对目标对象的第一请求，为所述目标对象确定至少一个素材和素材的描述信息，其中，所述第一请求是关于针对所述目标对象进行信息传播的请求，目标对象具有属性信息，素材具有描述信息，描述信息用于表征所述素材的特征。

第一请求中可以包括所述目标对象的素材，或者第一请求中可以包括所述目标对象的素材需求信息，通过所述素材需求信息可以为目标对象确定对应的素材。

可以在对象素材库中保存目标对象、目标对象的属性、对应的素材和素材的描述信息及其之间的映射关系，在一些实施例中，对象素材资源库如图3所示；目标对象具有至少一个属性信息、至少一个素材、每个素材具有对应的描述信息，用于表征所述素材的特征。

目标对象的属性信息可以包括多种维度的信息，包括但不限于目标对象的名称、类别、成分/材料、功能/功效、外观、结构、使用方法、简介等等。

素材的描述信息可以包括多种维度的信息，包括但不限于素材的内容、形式、2D/3D、图像/视频、场景、情节等。

以目标对象是某瓶装饮料为例，素材可以包括该饮料的品牌、该饮料的商品图、包含以聚会为场景主题的该饮料的2D海报、该饮料的静态3D商品图、该饮料的3D动画图(例如瓶身扭转动画等)等。

以目标对象是某企业为例，素材可以包括该企业的名称及品牌、该企业提供的业务、该企业的宣传短视频、该企业楼宇场所的3D素材等。

可以将目标对象、属性信息、素材和素材的描述信息以及它们之间的映射关系保存在对象素材资源库中。

目标对象的属性信息和素材的描述信息可以通过多种方式获得，例如可以直接由目标对象提供方或素材提供方提供，也可以由视频处理平台人工或自动提取，可以设定不同类型的属性信息或者不同类型的描述信息以便于人工输入，也可以基于机器模型进行自动提取，例如通过决策树的方式对目标对象或素材自决策树的根节点处进行判断，逐层到每个叶子节点处，每个叶子节点对应于一个属性值或描述信息，也可以基于语义算法对与所述目标对象进行自动提取属性信息和描述信息。在一些实施例中，可以基于事先训练好的语义模型对所述目标对象提取属性信息和描述信息。

语义算法和决策树属于本领域常用的人工智能算法，在此不进行展开描述。

S402，基于第一匹配规则，针对目标对象确定至少一个源视频，所述至少一个源视频包括至少一个目标可植入区域，所述至少一个目标可植入区域与所述目标对象的至少一个素材相匹配。

可以在源视频资源库中保存源视频、源视频的可植入区域和可植入区域的特征标签及其之间的映射关系，在一些实施例中，源视频资源库如图3所示；源视频具有至少一个可植入区域，每个可植入区域具有对应的特征标签，用于表征所述可植入区域的特征。

源视频可以是离线的视频，也可以是实时视频；视频的可植入区域可以是视频中的一个具有空间意义的区域，例如视频中的天空、地面等，也可以是具有面(例如平面或曲面)意义的区域，例如视频中的楼宇立面、广告牌、屏幕、咖啡杯的杯身等。

特征标签可以包括多种维度的信息，例如视频分类信息、可植入区域名称(例如天空、地面、桌面、广告牌等)、场景信息(例如聚会、运动等)、地点信息(例如咖啡厅、机场、卧室等)、可植入区域的多种图像特征信息(例如置信度、清晰度、尺寸等)。

在一些实施例中，特征标签包括与源视频对应的视频特征标签和与可植入区域对应的区域特征标签。例如在一条综艺花絮的源视频中，包括两个可植入区域，一个是星空区域，特征标签可以包括综艺、花絮、夜晚、星空等；一个是桌面区域，特征标签可以包括综艺、花絮、比赛、桌面等；两个可植入区域的标签中都包括源视频的视频特征标签综艺和花絮。

特征标签可以通过多种方式获得，例如可以直接由视频提供方提供，也可以由视频处理平台人工或自动提取，可以设定不同类型的特征标签进行人工配置，也可以基于机器模型进行自动提取，例如通过决策树的方式对源视频从决策树的根节点开始判断，每个叶子节点对应于一个特征标签，也可以基于语义算法对与所述源视频进行语义分析，从而自动提取特征标签。

第一匹配规则与可植入区域的特征标签、对象的属性信息和素材的描述信息有关。

在一些实施例中，第一匹配规则可以是预设的映射关系，例如特征标签“聚会”与对象属性“饮料”具有对应关系，特征标签“吧台”与对象属性为“饮料”的描述信息“商品外观”具有对应关系；基于这种匹配规则，当目标对象为饮料时，可以确定源视频中特征标签包含“聚会”和“吧台”的可植入区域为目标可植入区域。

在一些实施例中，步骤S402包括：

步骤S4021，计算可植入区域的各特征标签与目标对象的各属性信息之间的第一匹配度。

其中，特征标签与属性信息之间的匹配度计算，分别采用特征标签对应的特征向量和属性信息对应的特征向量，计算两两特征向量之间的相似度；相似度计算可以采用多种方式，例如皮尔逊相关系数、欧式距离、余弦相似度、点积相似度；对计算得到的各相似度值取平均值获得第一匹配度。

步骤S4022，计算可植入区域的各特征标签与素材的各描述信息之间的第二匹配度。

其中，特征标签与描述信息之间的匹配度计算，分别采用特征标签对应的特征向量和描述信息对应的特征向量，计算两两特征向量之间的相似度；相似度计算可以采用多种方式，例如皮尔逊相关系数、欧式距离、余弦相似度、点积相似度；对计算得到的各相似度值取平均值获得第二匹配度。

步骤S4023，基于所述第一匹配度和所述第二匹配度确定源视频以及目标可植入区域。

在一些实施例中，步骤S4023可以包括：基于第一匹配度确定源视频，并基于第二匹配度从确定的源视频中的可植入区域确定目标可植入区域。基于匹配度确定源视频或目标可植入区域的方式可以包括对匹配度值进行排序，选择排序为预设名次之前的匹配度对应的源视频或可植入区域；也可以设置一预设阈值，确定匹配度值高于预设阈值的源视频或可植入区域。

在一些实施例中，第一匹配规则还包括根据素材的2D和3D分类确定目标可植入区域，当素材为2D类型时，目标可植入区域具有能够表征该目标可植入区域为面的标签，例如桌面、楼宇平面、大屏、广告牌、镜面、玻璃平面、杯身等；当素材为3D类型时，目标可植入区域具有能够表征该目标可植入区域为空间的标签，例如天空、地面、星空、峡谷等。

S403，通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。

在一些实施例中，当所述目标对象的素材为2D素材时，将所述2D素材植入与之相匹配的第一目标可植入区域，该第一目标可植入区域具有表征该区域为面的标签；当所述目标对象的素材为3D素材时，将所述3D素材植入与之相匹配的第二目标可植入区域，该第二目标可植入区域具有表征该区域为空间的标签，例如天空、地面、房间、峡谷等。

在一些实施例中，当目标对象的素材为3D素材时，可以利用平面图像识别技术，使3D模型根据初始位置呈现在视频中对应的位置；以及可以利用运动追踪技术，使得3D模型会根据视频内容视角的变化，呈现对应视角的内容。

在一些实施例中，步骤S403还包括对合成视频进行渲染的步骤，所述渲染包括但不限于光栅化渲染、光线投射、光线跟踪等方式。在一些实施例中，当所述素材为3D素材时，还包括神经辐射场(NeRF)渲染。

在一些实施例中，在步骤S403之后还包括：

S404，基于预设的推荐策略，对至少一条合成视频进行推荐，所述推荐策略与用户的视频历史数据和搜索历史数据有关。

视频处理平台对合成视频的推荐可以基于用户的请求，例如收到来自于用户的直接或间接的视频获取请求时，系统根据推荐策略向用户推荐按至少一条合成视频；也可以基于预设程序或界面的冷启动，例如用户打开某个程序或者进入某个页面时，可以自动对用户进行视频推荐。

用户可以通过一些视频平台上的交互界面来发出视频获取请求，例如点击交互界面中的“搞笑视频”，用户发出的视频获取请求可以直接被发送给本发明的视频处理平台或由其他视频平台接收，并从其他视频平台向本发明的视频处理平台发送获取合成视频的请求。

很容易理解，如果合成的视频中包括的目标对象是来自于广告商的商品对象时，将合成视频推荐给用户进行播放可以为视频处理平台、视频源提供方或者向用户推荐该视频的平台带来一些商业利益，因此其他视频平台可能会出于商业利益的诉求从视频处理平台获取该合成视频。

图5示出了本发明一示例性实施例提供的视频处理方法的流程图。

如图5所示，所述方法包括：

S501，响应于接收到的针对目标源视频的处理请求，确定所述目标源视频中的可植入区域和可植入区域对应的特征标签；其中，所述处理请求是关于针对所述目标源视频进行对象植入的请求；所述特征标签用于表征所述可植入区域的特征。

源视频可以是离线的视频，也可以是实时视频；视频的可植入区域可以是视频中的一个背景区域，例如视频中的天空、地面等，也可以是视频中的一个对象区域，例如视频中的楼宇立面、广告牌、屏幕、咖啡杯的杯身等。

在一些实施例中，特征标签包括两部分，一部分是与源视频对应的特征标签，一部分是与可植入区域对应的特征标签。例如在一条综艺花絮的源视频中，包括两个可植入区域，一个是星空区域，特征标签可以包括综艺、花絮、夜晚、星空等；一个是桌面区域，特征标签可以包括综艺、花絮、比赛、桌面等；两个可植入区域的标签中都包括源视频的特征标签综艺和花絮。

S502，基于第二匹配规则，针对目标源视频确定至少一个可植入对象，所述可植入对象包括至少一个目标素材，所述目标素材与所述目标源视频中的至少一个可植入区域相匹配。

对象的属性信息可以包括多种维度的信息，包括但不限于目标对象的名称、类别、成分/材料、功能/功效、外观、结构、使用方法、简介等等。

目标对象的属性信息和素材的描述信息可以通过多种方式获得，例如可以直接由目标对象提供方或素材提供方提供，也可以由视频处理平台人工或自动提取，可以设定不同类型的属性信息进行人工填写，也可以基于机器模型进行自动提取，例如通过决策树的方式对目标对象进行逐级判断，每个叶子节点对应于一个描述，也可以基于语义算法对与所述目标对象有关的描述进行大数据分析，从而自动提取描述信息。

第二匹配规则与可植入区域的特征标签、对象的属性和素材的描述信息有关。

在一些实施例中，第二匹配规则可以是预设的映射关系，例如特征标签“自驾”与对象属性“车辆”、“轮胎”、“卫星导航”、“提神”等具有对应关系，特征标签“夜空”与对象属性为“卫星导航”的具有描述信息“3D”素材具有对应关系；基于这种匹配规则，当目标源视频为一段夜晚野外自驾的视频时，可以为源视频确定目标对象为某卫星野外护航服务，其包括的3D素材适于植入自驾视频中的夜空区域。

基于第二匹配规则，针对目标源视频确定至少一个可植入对象，所述可植入对象包括至少一个目标素材，所述目标素材与所述目标源视频中的至少一个可植入区域相匹配。

在一些实施例中，第二匹配规则可以是预设的语义模型，包括：

步骤S5021，计算目标源视频区域的各特征标签与可植入对象的各属性信息之间的第三匹配度。

其中，特征标签与属性信息之间的匹配度计算，分别采用特征标签对应的特征向量和属性信息对应的特征向量，计算两两特征向量之间的相似度；相似度计算可以采用多种方式，例如皮尔逊相关系数、欧式距离、余弦相似度、点积相似度；对计算得到的各相似度值取平均值获得第三匹配度。

步骤S5022，计算目标源视频的可植入区域的各特征标签与可植入对象的素材的各描述信息之间的第四匹配度。

其中，特征标签与描述信息之间的匹配度计算，分别采用特征标签对应的特征向量和描述信息对应的特征向量，计算两两特征向量之间的相似度；相似度计算可以采用多种方式，例如皮尔逊相关系数、欧式距离、余弦相似度、点积相似度；对计算得到的各相似度值取平均值获得第四匹配度。

步骤S5023，基于所述第三匹配度和所述第四匹配度确定可植入对象以及目标素材。

在一些实施例中，步骤S5023可以包括：基于第三匹配度确定可植入对象，并基于第四匹配度从确定的可植入对象的素材中确定目标素材。基于匹配度确定可植入对象或目标素材的方式可以包括对匹配度值进行排序，选择排序为预设名次之前的匹配度对应的可植入对象频或目标素材；也可以设置一预设阈值，确定匹配度值高于预设阈值的可植入对象或目标素材。

在一些实施例中，第三匹配规则还包括：当可植入区域的标签表征该目标可植入区域为面区域时，例如桌面、楼宇平面、大屏、广告牌、镜面、玻璃平面、杯身等，从可植入对象中选择2D素材；当可植入区域的标签表征该区域为空间区域时，从可植入对象中选择3D素材，或空间来确定素材的2D和3D分类确定目标可植入区域，当素材为2D类型时，目标可植入区域具有能够表征该目标可植入区域为面的标签；当素材为3D类型时，例如天空、地面、星空、峡谷等目标可植入区域具有能够表征该目标可植入区域为空间的标签。

在一些实施例中，第二匹配规则可以是匹配度算法，基于该匹配度算法计算源视频的特征标签、目标对象的属性、以及素材的描述之间的匹配度值，基于该匹配度值确定源视频的目标可植入区域；例如可以对匹配度值进行排序，选择排序为预设名次之前的可植入区域为目标可植入区域，也可以设置一预设阈值，确定匹配度高于预设阈值的可植入区域为目标可植入区域。

在一些实施例中，第二匹配规则还包括根据素材的2D和3D分类确定目标可植入区域，当素材为2D类型时，目标可植入区域具有能够表征该目标可植入区域为平面的标签，例如桌面、楼宇平面、大屏、广告牌、镜面、玻璃平面等；当素材为3D类型时，目标可植入区域具有能够表征该目标可植入区域为空间的标签，例如天空、地面、星空、峡谷等。

将目标对象、目标对象的属性信息、配置的素材和素材的描述信息以及它们之间的映射关系保存在对象素材资源库中。

S503，通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。

在一些实施例中，步骤S503还包括对合成视频进行渲染的步骤，视频渲染包括但不限于光栅化渲染、光线投射、光线跟踪等方式。在一些实施例中，当所述素材为3D素材时，还包括神经辐射场(NeRF)渲染。

在一些实施例中，在步骤S503之后还包括：

S504，基于预设的推荐策略，对至少一条合成视频进行推荐，所述推荐策略与用户兴趣或所述合成视频的历史数据有关。

图6为本发明一示例性实施例提供的视频预处理方法的流程图。

在上述方法中，还包括对源视频的预处理，以获得至少一个可植入区域及其对应的特征标签。如图6所示，源视频的预处理方法包括：

S601，对源视频进行视频分片以获得多个视频片段。

一段视频中包括连续的很多帧，为了有效识别可植入区域，可以对源视频进行视频分片以获得视频片段。

视频分片方法包括但不限于镜头切分和相似度切分；其中，镜头切分是以镜头为处理单元，即将每个镜头作为一个视频片段；相似度切分是对相邻帧中进行相似度计算，基于预设相似度条件对视频进行切分获得不同的视频片段。

在一些实施例中，基于源视频为视频离线视频和实时视频，对于视频进行预处理，包括：

当所述源视频为离线视频时，对源视频基于镜头切分或相似度切分；

当所述源视频为实时视频时，对源视频基于镜头切分。

S602，对视频片段进行分割以获得多个候选区域及其特征标签。

可以从视频片段中选择目标帧，对目标帧进行分割处理；分割的方式包括但不限于语义分割、实例分割、全景分割以及任意组合。

在一些实施例中，通过实例分割可以获得目标帧的候选区域以及各候选区域的标签信息，标签信息可以包括区域对应的图像分类信息、置信度等。可以采用相应的实例分割模型来实现实例分割，并采用图像帧作为训练样本，对实例分割模型进行训练。

在一些实施例中，通过全景分割可以获得目标帧的候选区域以及各候选区域的场景标签，场景标签基于目标帧的候选区域以及各候选区域在该目标帧之间的关联关系确定。例如当目标帧的候选区域为天空、海洋、沙滩、遮阳棚时，该场景标签可以为度假、海边、沙滩。

S603，基于候选区域确定可植入区域及其特征标签。

在一些实施例中，通过对目标帧的候选区域进行聚类，以确定源视频中的可植入区间。例如选择置信度超过预设阈值的为可植入区域。例如按照面积值或区域可连通性进行聚类确定可植入区域。

在一些实施例中，通过对目标帧的候选区域进行最大矩形搜索以确定源视频的可植入区域。例如选面积最大、区域空白的核心区域为可植入区域。例如选择平面类的区域和空间类的区域，例如收银台的台面和立面，长椅的椅面，跑步机的跑带等。

步骤S601-S603可以作为步骤S501中的确定所述目标源视频中的可植入区域和可植入区域对应的特征标签的具体实现方式；可以在步骤S402之前完成，以确定源视频的可植入区域，以便于步骤S402中从中确定与素材相匹配的目标可植入区域。

图7为本发明一示例性实施例提供的视频推荐方法的流程图。

如图7所示，前述方法中步骤S404和步骤S504，进一步包括：

S701，基于视频历史数据和搜索历史数据确定用户的视频兴趣。

经用户授权，获取用户的视频历史数据和搜索历史数据，所述视频历史数据包括用户观看的视频来源、类型、时长和频次等信息，所述搜索历史数据包括用户发生的与视频有关的搜索数据，例如包括搜索的视频关键词、点击和观看的信息等。

基于上述历史数据，确定用户的视频兴趣。确定方式例如可以是深度学习模型，基于大量视频历史数据和搜索历史数据样本来训练该深度学习模型，并利用训练后的学习模型分析上述历史数据，确定给用户的视频兴趣。

S702，基于所述视频兴趣和预设的推荐策略，推荐至少一条合成视频。

可以在合成视频资源库中保存合成的视频、视频标签及其之间的映射关系，在一些实施例中，合成视频资源库如图3所示；合成视频具有至少一个视频标签、视频标签用于表征所述合成视频的特征。

视频标签可以包括多种维度的信息，包括但不限于合成视频的名称(例如可以使用源视频的名称)、视频分类(例如主题分类、古代/现代、现实/科幻等等多种分类方式)、视频简介、评分等等。

视频标签可以通过多种方式获得，可以使用源视频的标签，也可以重新生成，可以直接由视频提供方提供，也可以由视频处理平台人工或自动对视频进行自动提取，可以设定不同类型的视频标签进行人工填写，也可以基于机器模型进行自动提取，例如通过决策树的方式对视频进行逐级判断，每个叶子节点对应于一个视频标签，也可以基于语义算法自动提取视频标签。

基于所述视频兴趣和所述推荐策略，选择至少一条合成视频进行推荐，所述合成视频的视频标签与所述视频兴趣之间的关系满足所述推荐策略。

在采用对应各个功能划分各个功能模块的情况下，本发明实施例提供了一种视频处理装置，该装置可以为服务器或应用于服务器的芯片。图8A为本发明一示例性实施例提供的视频处理装置的功能模块示意性框图。如图8A所示，该装置800包括：

第一确定模块801，用于响应于接收到的针对目标对象的第一请求，为所述目标对象确定至少一个素材和素材的描述信息，其中，所述第一请求是关于针对所述目标对象进行信息传播的请求，目标对象具有属性信息，素材具有描述信息，描述信息用于表征所述素材的特征；

第一匹配模块802，用于基于第一匹配规则，针对目标对象确定至少一个源视频，所述至少一个源视频包括至少一个目标可植入区域，所述至少一个目标可植入区域与所述目标对象的至少一个素材相匹配；

合成模块803，用于通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。

图8B为本发明一示例性实施例提供的视频处理装置的功能模块示意性框图。如图8B所示，该装置800’包括：

第二确定模块801’，用于响应于接收到的针对目标源视频的处理请求，确定所述目标源视频中的可植入区域和可植入区域对应的特征标签；其中，所述处理请求是关于针对所述目标源视频进行对象植入的请求；所述特征标签用于表征所述可植入区域的特征；

第二匹配模块802’，用于基于第二匹配规则，针对目标源视频确定至少一个可植入对象，所述可植入对象包括至少一个目标素材，所述目标素材与所述目标源视频中的至少一个可植入区域相匹配；

合成模块803’，用于通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。

本发明实施例还提供一种电子设备，包括：至少一个处理器；用于存储所述至少一个处理器可执行指令的存储器；其中，所述至少一个处理器被配置为执行所述指令，以实现本发明实施例发明的上述方法。

图9为本发明一示例性实施例提供的电子设备的结构示意图。如图9所示，该电子设备1800包括至少一个处理器1801以及耦接至处理器1801的存储器1802，该处理器1801可以执行本发明实施例发明的上述方法中的相应步骤。

上述处理器1801还可以称为中央处理单元(central processing unit，CPU)，其可以是一种集成电路芯片，具有信号的处理能力。本发明实施例发明的上述方法中的各步骤可以通过处理器1801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1801可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所发明的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器1802中，例如随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质。处理器1801读取存储器1802中的信息，结合其硬件完成上述方法的步骤。

另外，根据本发明的各种操作/处理在通过软件和/或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机系统，例如图10所示的计算机系统1900安装构成该软件的程序，该计算机系统在安装有各种程序时，能够执行各种功能，包括诸如前文所述的功能等等。图10为本发明一示例性实施例提供的计算机系统的结构框图。

计算机系统1900旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图10所示，计算机系统1900包括计算单元1901，该计算单元1901可以根据存储在只读存储器(ROM)1902中的计算机程序或者从存储单元1908加载到随机存取存储器(RAM)1903中的计算机程序，来执行各种适当的动作和处理。在RAM 1903中，还可存储计算机系统1900操作所需的各种程序和数据。计算单元1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(I/O)接口1905也连接至总线1904。

计算机系统1900中的多个部件连接至I/O接口1905，包括：输入单元1906、输出单元1907、存储单元1908以及通信单元1909。输入单元1906可以是能向计算机系统1900输入信息的任何类型的设备，输入单元1906可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1907可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1908可以包括但不限于磁盘、光盘。通信单元1909允许计算机系统1900通过网络诸如因特网的与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1901执行上文所描述的各个方法和处理。例如，在一些实施例中，本发明实施例发明的上述方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1902和/或通信单元1909而被载入和/或安装到电子设备1900上。在一些实施例中，计算单元1901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本发明实施例发明的上述方法。

本发明实施例还提供一种计算机可读存储介质，其中，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本发明实施例发明的上述方法。

本发明实施例中的计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。上述计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。更具体的，上述计算机可读存储介质可以包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器 (RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

本发明实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本发明实施例发明的上述方法。

在本发明的实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块、部件或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示例性的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本发明的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中发明的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

一种视频处理方法，包括：

响应于接收到的针对目标对象的第一请求，为所述目标对象确定至少一个素材和素材的描述信息，其中，所述第一请求是关于针对所述目标对象进行信息传播的请求，目标对象具有属性信息，素材具有描述信息，描述信息用于表征所述素材的特征；

基于第一匹配规则，针对目标对象确定至少一个源视频，所述至少一个源视频包括至少一个目标可植入区域，所述至少一个目标可植入区域与所述目标对象的至少一个素材相匹配；

通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。
如权利要求1所述的方法，在所述通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频之后，还包括：

基于预设的推荐策略，对至少一条合成视频进行推荐，所述推荐策略与用户的视频历史数据和搜索历史数据有关。
如权利要求1所述的方法，所述通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频还包括：

对所述合成视频进行渲染的步骤，所述渲染包括以下至少之一：光栅化渲染、光线投射、光线跟踪和神经辐射场渲染。
如权利要求1-3之一所述的方法，在所述基于第一匹配规则，针对目标对象确定至少一个源视频之前，包括：

对源视频进行视频分片以获得多个视频片段；

对所述视频片段进行分割以获得多个候选区域及其特征标签；

基于所述候选区域确定可植入区域及其特征标签。
如权利要求4所述的方法，所述基于第一匹配规则，针对目标对象确定至少一个源视频，包括：

计算可植入区域的各特征标签与目标对象的各属性信息之间的第一匹配度；

计算可植入区域的各特征标签与素材的各描述信息之间的第二匹配度；

基于所述第一匹配度和所述第二匹配度确定至少一个源视频以及目标可植入区域。
一种视频处理方法，包括：

响应于接收到的针对目标源视频的处理请求，确定所述目标源视频中的可植入区域和可植入区域对应的特征标签；其中，所述处理请求是关于针对所述目标源视频进行对象植入的请求；所述特征标签用于表征所述可植入区域的特征；

基于第二匹配规则，针对目标源视频确定至少一个可植入对象，所述可植入对象包括至少一个目标素材，所述目标素材与所述目标源视频中的至少一个可植入区域相匹配；

通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。
一种视频处理装置，包括：

第一确定模块，用于响应于接收到的针对目标对象的第一请求，为所述目标对象确定至少一个素材和素材的描述信息，其中，所述第一请求是关于针对所述目标对象进行信息传播的请求，目标对象具有属性信息，素材具有描述信息，描述信息用于表征所述素材的特征；

第一匹配模块，用于基于第一匹配规则，针对目标对象确定至少一个源视频，所述至少一个源视频包括至少一个目标可植入区域，所述至少一个目标可植入区域与所述目标对象的至少一个素材相匹配；

合成模块，用于通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。
一种视频处理装置，包括：

第二确定模块，用于响应于接收到的针对目标源视频的处理请求，确定所述目标源视频中的可植入区域和可植入区域对应的特征标签；其中，所述处理请求是关于针对所述目标源视频进行对象植入的请求；所述特征标签用于表征所述可植入区域的特征；

第二匹配模块，用于基于第二匹配规则，针对目标源视频确定至少一个可植入对象，所述可植入对象包括至少一个目标素材，所述目标素材与所述目标源视频中的至少一个可植入区域相匹配；

合成模块，用于通过将目标对象的素材植入与之相匹配的源视频的目标可植入区域中生成合成视频。
一种电子设备，包括：

至少一个处理器；

用于存储所述至少一个处理器可执行指令的存储器；

其中，所述至少一个处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序由处理器执行时实现如权利要求1-6中任一项所述的方法。
一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述方法。