WO2023060759A1

WO2023060759A1 - 视频推送方法、设备及存储介质

Info

Publication number: WO2023060759A1
Application number: PCT/CN2021/139233
Authority: WO
Inventors: 孙思凯
Original assignee: 深圳创维－Rgb电子有限公司
Priority date: 2021-10-11
Filing date: 2021-12-17
Publication date: 2023-04-20
Also published as: CN113923523B; CN113923523A

Abstract

本申请属于多媒体领域，公开了一种视频推送方法、设备及存储介质。该方法包括：获取显示界面播放的多媒体文件的音视频信息；通过预设场景识别模型对音视频信息进行场景识别，获得场景识别结果；根据场景识别结果确定视频推送类别，并根据视频推送类别进行视频推送。

Description

视频推送方法、设备及存储介质

本申请要求于2021年10月11日申请的、申请号为202111184229.1的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及多媒体技术领域，尤其涉及一种视频推送方法、装置、设备及存储介质。

背景技术

现有的短视频播放深受用户喜爱，但是短视频使用用户的时间一般比较碎片化，当用户进入视频显示页面时，当前推送的短视频内容是随机的，是从后台短视频引擎随机推送的短视频，因为当前的投递多半是盲投，造成投递的短视频与用户的感兴趣的内容和产品并不一致，造成了投递效果未达预期甚至引起用户的投诉的问题。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

技术问题

本申请的主要目的在于提供了一种视频推送方法、装置、设备及存储介质，旨在解决现有技术中用户观看视频时推送的视频内容是随机的，不能满足用户的观看需要的技术问题。

技术解决方案

为实现上述目的，本申请提供了一种视频推送方法，所述方法包括以下步骤：

获取显示界面播放的多媒体文件的音视频信息；

通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果；

根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。

在一实施例中，所述音视频信息包括图像信息和/或音频信息：

所述获取显示界面播放的多媒体文件的音视频信息的步骤，包括:

在预设采样周期内，按预设截取频率截取显示界面播放的多媒体文件的图像信息；

和/或，在预设采样周期内，按预设录制频率和录制时长录制显示界面播放的多媒体文件的音频信息。

在一实施例中，所述场景识别结果包括：图像场景识别结果和/或音频场景识别结果；

所述通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果的步骤，包括:

通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果；

和/或，通过预设场景识别模型提取所述音频信息中的声纹特征，并对提取的声纹特征进行场景识别，获得音频场景识别结果。

在一实施例中，所述通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果的步骤之后，还包括:

根据所述图像场景识别结果确定各图像信息所对应的图像场景类别；

根据所述图像场景类别统计视频类别数量；

判断所述视频类别数量是否小于预设数量；

在所述视频类别数量小于所述预设数量时，对所述预设采样周期进行调整；

根据调整后的采样周期，按预设截取频率截取显示界面播放的多媒体文件的图像信息。

在一实施例中，所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤之前，还包括:

获取所述多媒体文件的历史场景识别结果；

判断所述历史场景识别结果是否与所述场景识别结果一致；

若是，则统计所述历史场景识别结果与所述场景识别结果一致的次数，在所述次数达到预设次数阈值时，执行所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤。

在一实施例中，所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤，包括:

根据所述场景识别结果确定所述多媒体文件的视频类别和所述视频类别对应的播放时长；

根据所述播放时长确定所述视频类别对应的播放权重；

根据所述播放权重确定视频推送类别，并根据所述视频推送类别进行视频推送。

在一实施例中，所述获取显示界面播放的多媒体文件的音视频信息的步骤之前，包括:

获取历史视频推送类别；

根据所述历史视频推送类别确定当前的待推送视频，并展示所述待推送视频。

此外，为实现上述目的，本申请还提供一种视频推送装置，所述装置包括：

获取模块，用于获取显示界面播放的多媒体文件的音视频信息；

识别模块，用于通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果；

推送模块，用于根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。

此外，为实现上述目的，本申请还提出一种视频推送设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频推送程序，所述视频推送程序配置为实现如上文所述的视频推送方法的步骤。

此外，为实现上述目的，本申请还提出一种存储介质，所述存储介质上存储有视频推送程序，所述视频推送程序被处理器执行时实现如上文所述的视频推送方法的步骤。

有益效果

本申请获取显示界面播放的多媒体文件的音视频信息；通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果；根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。由于本申请是通过预设场景识别模型对音视频信息进行场景识别，获得场景识别结果；根据场景识别结果确定视频推送类别，并根据视频推送类别进行视频推送。相对于现有的随机为用户展示视频的方式，本申请上述方式能够推送用户感兴趣的视频，提升用户体验感。且视频内容中做为引流的商品链接也不会引起用户的反感，反而可以提升用户点击并进入后台商城的成功率，更好满足用户使用习惯的同时提升引流的成功率，提升运营收入的同时，还可降低用户使用的投诉率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的视频推送设备的结构示意图；

图2为本申请视频推送方法第一实施例的流程示意图；

图3为本申请视频推送方法第二实施例的流程示意图；

图4为本申请视频推送装置第一实施例的结构框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的视频推送设备结构示意图。

如图1所示，该视频推送设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（Random Access Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对视频推送设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频推送程序。

在图1所示的视频推送设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本申请视频推送设备中的处理器1001、存储器1005可以设置在视频推送设备中，所述视频推送设备通过处理器1001调用存储器1005中存储的视频推送程序，并执行本申请实施例提供的视频推送方法。

基于上述视频推送设备，本申请实施例提供了一种视频推送方法，参照图2，图2为本申请视频推送方法第一实施例的流程示意图。

本实施例中，所述视频推送方法包括以下步骤：

步骤S10：获取显示界面播放的多媒体文件的音视频信息。

需要说明的是，本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备，例如手机、平板电脑、个人电脑等，或者是一种能够实现上述功能的电子设备或视频播放设备。以下以所述视频播放设备为例，对本实施例及下述各实施例进行说明。

需要说明的是，所述显示界面可以是具有视频浏览功能的电视或手机等设备的显示界面。所述多媒体文件可以是所述显示界面正在播放的视频文件或音频文件。所述音视频信息可以是所述多媒体文件中包含的图像信息和/或音频信息。

在具体实施中，视频播放设备获取显示界面当前播放的多媒体文件的音视频信息。

进一步的，为了避免因为没有权限等问题，导致无法直接从后台获取用户观看的音视频信息，所述步骤S10包括：在预设采样周期内，按预设截取频率截取显示界面播放的多媒体文件的图像信息；和/或，在预设采样周期内，按预设录制频率和录制时长录制显示界面播放的多媒体文件的音频信息。

需要说明的是，所述预设采样周期可以是预先设置的采样周期。可以是以10分钟或30分钟等时长作为一个周期。所述预设截取频率可以是预先设置的采样间隔时长。例如，以300ms/次进行截取显示界面播放的多媒体文件的图像信息。所述预设录制频率可以是预先设置的录制间隔时长。例如，以100ms/次进行录制显示界面播放的多媒体文件的音频信息。也可以不设置录制频率，在检测到有声音时，持续进行音频的录制。所述录制时长可以是一次录制音频的时间，若没有设置录制频率，则检测到有声音时，持续进行音频的录制，此时的录制时长为所述预设采样周期。上述预设采样周期、预设截取频率和录制时长均可以根据具体的使用场景自适应设置，本实施例在此不加以限制。

进一步的，为了使推送的视频更加符合用户的期望，提升用户体验感，所述步骤S10之前，还包括：获取历史视频推送类别；根据所述历史视频推送类别确定当前的待推送视频，并展示所述待推送视频。

需要说明的是，所述历史视频推送类别可以是上一次用户使用视频播放设备观看视频时场景识别结果对应的视频推送类别。

应理解的是，在用户刚进入视频浏览页面时，本次的场景识别结果还未完成，需要根据上一次场景识别结果对应的视频推送类别进行当前的视频推送。例如，用户进入视频浏览页面时，每次均采用昨天的视频推送类别进行视频的筛选和推送，在一周中，周二采用周一的视频推送类别进行视频的筛选和推送，周三采用周二的视频推送类别进行视频的筛选和推送。也可以设置一个总结周期，既每隔一个总结周期，则根据该周期内的每次视频推送类别总结综合视频推送类别，根据综合视频推送类别进行视频的筛选和推送。

步骤S20：通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果。

需要说明的是，所述预设场景识别模型可以是预先通过大量的样本数据进行训练得到的场景识别模型，其可以根据输入的音视频信息识别出当前的播放场景。所述场景识别结果包括：图像场景识别结果和/或音频场景识别结果。

进一步的，为了使识别出的场景更加准确，所述步骤S20包括：通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果；和/或，通过预设场景识别模型提取所述音频信息中的声纹特征，并对提取的声纹特征进行场景识别，获得音频场景识别结果。

需要说明的是，所述图像特征可以是所述图像信息中的文字、水印、logo、物品信息等特征，例如，在用户收看篮球类的赛事直播时，获取的图像信息中的左上角有典型的篮球logo图片，图像中也存在篮球因素，因此，可以判定当前的视频类型为篮球类。所述声纹特征可以是录制的音频信息中的声纹。例如，钢琴曲的声纹片段中会有特殊的声纹信息支持预设场景识别模型进行场景判断。

在具体实施中，视频播放设备在检测到当前获取的为图像信息时，通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果，其中，所述图像场景识别结果中所包含的视频类型可能有一种或多种。视频播放设备在检测到当前获取的为音频信息时，通过预设场景识别模型提取所述音频信息中的声纹特征，并对提取的声纹特征进行场景识别，获得音频场景识别结果。所述音频场景识别结果中所包含的音频类型也可能有一种或多种。在所述视频播放设备检测到当前既有图像信息也有音频信息，对所述图像信息和音频信息分别进行场景识别，获得目标场景识别结果。所述目标场景识别结果中包含有视频场景和音频场景。

进一步的，所述通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果的步骤之后，还包括:根据所述图像场景识别结果确定各图像信息所对应的图像场景类别；根据所述图像场景类别统计视频类别数量；判断所述视频类别数量是否小于预设数量；在所述视频类别数量小于所述预设数量时，对所述预设采样周期进行调整；根据调整后的采样周期，按预设截取频率截取显示界面播放的多媒体文件的图像信息。

需要说明的是，所述图像场景类别可以是预设场景识别模型根据图像信息识别出来的图像信息对应的图像场景类别。所述视频类别数量可以是在预设采样周期内，播放过的视频的类别个数。所述预设数量可以是自定义的数量。

应理解的是，为了避免某些特殊情况下图像场景识别结果中只包含一种类别的视频导致推送的视频类别单一，在视频类别数量小于所述预设数量时，对所述预设采样周期进行调整，一般为增加采样周期，使得在采样周期内获取的视频的类别不少于预设数量。相应的，对于音频场景识别结果也同样适用上述的处理逻辑，在识别出来的音频类型数量小于预设数量时，增加采样的时长，使得在采样周期内获取的音频的类别数量不少于预设数量。当音视频信息包括图像信息和音频信息时，可以根据音频场景识别结果和图像场景识别结果确定图像场景类别数量和音频场景类别数量，根据图像场景类别数量和音频场景类别数量之和判断是否大于所述预设数量。

步骤S30：根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。

需要说明的是，根据所述场景识别结果确定视频推送类别可以是根据所述场景识别结果确定用户观看的视频的类别，将用户观看的视频的类别作为所述视频推送类别。根据所述视频推送类别进行视频推送可以是从海量的视频中筛选出属于该视频推送类别的视频进行视频的推送。

进一步的，为了使推送的视频更符合用户的期望，提升用户体验感，所述步骤S30，包括根据所述场景识别结果确定所述多媒体文件的视频类别和所述视频类别对应的播放时长；根据所述播放时长确定所述视频类别对应的播放权重；根据所述播放权重确定视频推送类别，并根据所述视频推送类别进行视频推送。

需要说明的是，所述视频类别对应的播放权重可以根据视频类别对应的播放时长确定，例如，采样周期为30分钟，其中，篮球赛事直播的播放时长为10分钟，新闻的播放时长为8分钟，娱乐类视频播放时长为2分钟，生活类为3分钟，钢琴曲的播放时长为7分钟。则视频类别对应的播放权重分别为篮球赛事为10，新闻为8，娱乐类为2，生活类为3，钢琴曲为7。根据播放权重的排序可知，用户更倾向的推荐类别从大到小排序依次为篮球赛事、新闻、钢琴曲、生活类和娱乐类。根据权重确定视频推送类别即根据播放的时长确定视频推送类别，可以将播放量排名前3的类型作为视频推送的类型，即推送篮球赛事、新闻、钢琴曲类的音视频。也可以是根据占用用户的使用时长选取更多的视频类别进行推送，其中，权重更大的视频类别在进行推送时，对应的推送的视频的数量也更多，例如，当前的视频推送类别为篮球赛事和新闻，篮球赛事的权重为10，新闻的权重为7，若推送的视频数量为20个，可以是推送篮球赛事类的为11个，新闻类的为3个，即推送的该类视频的数量与该类视频的权重相关。

本实施例获取显示界面播放的多媒体文件的音视频信息；通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果；根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。由于本实施例是通过预设场景识别模型对音视频信息进行场景识别，获得场景识别结果；根据场景识别结果确定视频推送类别，并根据视频推送类别进行视频推送。相对于现有的随机为用户展示视频的方式，本实施例上述方式能够推送用户感兴趣的视频，提升用户体验感。且视频内容中做为引流的商品链接也不会引起用户的反感，反而可以提升用户点击并进入后台商城的成功率，更好满足用户使用习惯的同时提升引流的成功率，提升运营收入的同时，还可降低用户使用的投诉率。

参考图3，图3为本申请视频推送方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S30之前，还包括：

步骤S201：获取所述多媒体文件的历史场景识别结果。

需要说明的是，所述历史场景识别结果可以是之前预设场景识别模型对多媒体文件进行场景识别的识别结果。在获取到多媒体文件的音视频信息后，需要通过预设场景识别模型对音视频信息进行多次的场景识别。

在具体实施中，视频播放设备通过预设场景识别模型对音视频信息进行多次的场景识别，可以自定义识别次数，避免单次的识别出现误差，在进行视频推送之前，获取历史场景识别结果。

步骤S202：判断所述历史场景识别结果是否与所述场景识别结果一致。

应理解的是，为了避免场景识别结果出现模型的误判，将历史场景识别结果与所述场景识别结果进行对比，判断所述历史场景识别结果是否与所述场景识别结果一致。

步骤S203：若是，则统计所述历史场景识别结果与所述场景识别结果一致的次数，在所述次数达到预设次数阈值时，执行所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤。

需要说明的是，所述预设次数阈值可以是预先设置的次数。只有在历史场景识别结果中连续该次数的结果与场景识别结果一致，才判定模型不存在误判，进而根据场景识别结果确定视频推送的类别，并根据所述视频推送类别进行视频推送。例如，在获取到多媒体文件的音视频信息后，通过预设场景识别模型对音视频信息进行3次的场景识别。设定的预设次数阈值为2次。所述场景识别结果为新闻权重20，篮球赛事权重10。若历史场景识别结果为第一次识别结果为新闻权重20，篮球赛事权重10；第二次识别结果为新闻权重20，篮球赛事权重10。则可以判定历史场景识别结果与所述场景识别结果一致的次数为2次，而设定的预设次数阈值为2次，则可以根据所述场景识别结果确定视频推送类别。若历史场景识别结果中第一次识别结果为新闻权重10，篮球赛事权重20。则识别结果一致的次数为1次，小于设定的预设次数阈值，则再进行一次场景识别，在场景识别结果为新闻权重20，篮球赛事权重10时，根据所述场景识别结果确定视频推送类别。若历史场景识别结果中第二次识别结果为新闻权重10，篮球赛事权重20。则识别结果一致的次数为0次，因为此处判定条件为连续识别结果一致，此时，最少需要再进行2次识别，在2次识别结果均与所述场景识别结果一致时，根据所述场景识别结果确定视频推送类别。

本实施例获取所述多媒体文件的历史场景识别结果；判断所述历史场景识别结果是否与所述场景识别结果一致；若是，则统计所述历史场景识别结果与所述场景识别结果一致的次数，在所述次数达到预设次数阈值时，执行所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤。本实施例通过对音视频信息进行多次识别，并判断历史场景识别结果是否与场景识别结果一致；在历史场景识别结果与场景识别结果一致的次数达到预设次数阈值时，根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。可以减少模型的误判，使得推送的视频更加符合用户的期望。

参照图4，图4为本申请视频推送装置第一实施例的结构框图。

如图4所示，本申请实施例提出的视频推送装置包括：

获取模块10，用于获取显示界面播放的多媒体文件的音视频信息；

识别模块20，用于通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果；

推送模块30，用于根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。

本实施例获取显示界面播放的多媒体文件的音视频信息；通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果；根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。由于本实施例是通过预设场景识别模型对音视频信息进行场景识别，获得场景识别结果；根据场景识别结果确定视频推送类别，并根据视频推送类别进行视频推送。相对于现有的随机为用户展示视频的方式，本实施例上述方式能够推送用户感兴趣的视频，提升用户体验感。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本申请的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的参数运行方法，此处不再赘述。

基于本申请上述视频推送装置第一实施例，提出本申请视频推送装置的第二实施例。

在本实施例中，所述获取模块10，还用于在预设采样周期内，按预设截取频率截取显示界面播放的多媒体文件的图像信息；和/或，在预设采样周期内，按预设录制频率和录制时长录制显示界面播放的多媒体文件的音频信息。

进一步的，所述获取模块10，还用于通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果；和/或，通过预设场景识别模型提取所述音频信息中的声纹特征，并对提取的声纹特征进行场景识别，获得音频场景识别结果。

进一步的，所述获取模块10，还用于根据所述图像场景识别结果确定各图像信息所对应的图像场景类别；根据所述图像场景类别统计视频类别数量；判断所述视频类别数量是否小于预设数量；在所述视频类别数量小于所述预设数量时，对所述预设采样周期进行调整；根据调整后的采样周期，按预设截取频率截取显示界面播放的多媒体文件的图像信息。

进一步的，所述推送模块30，还用于获取所述多媒体文件的历史场景识别结果；判断所述历史场景识别结果是否与所述场景识别结果一致；若是，则统计所述历史场景识别结果与所述场景识别结果一致的次数，在所述次数达到预设次数阈值时，执行所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤。

进一步的，所述推送模块30，还用于根据所述场景识别结果确定所述多媒体文件的视频类别和所述视频类别对应的播放时长；根据所述播放时长确定所述视频类别对应的播放权重；根据所述播放权重确定视频推送类别，并根据所述视频推送类别进行视频推送。

进一步的，所述获取模块10，还用于获取历史视频推送类别；根据所述历史视频推送类别确定当前的待推送视频，并展示所述待推送视频。

本申请视频推送装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本申请实施例还提出一种存储介质，所述存储介质上存储有视频推送程序，所述视频推送程序被处理器执行时实现如上文所述的视频推送方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种视频推送方法，其中，所述视频推送方法包括以下步骤：

获取显示界面播放的多媒体文件的音视频信息；

通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果；以及

根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送。
如权利要求1所述的视频推送方法，其中，所述音视频信息包括图像信息；

所述获取显示界面播放的多媒体文件的音视频信息的步骤，包括：

在预设采样周期内，按预设截取频率截取显示界面播放的多媒体文件的图像信息。
如权利要求1所述的视频推送方法，其中，所述音视频信息包括音频信息；

所述获取显示界面播放的多媒体文件的音视频信息的步骤，包括：

在预设采样周期内，按预设录制频率和录制时长录制显示界面播放的多媒体文件的音频信息。
如权利要求1所述的视频推送方法，其中，所述场景识别结果包括图像场景识别结果；

所述通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果的步骤，包括：

通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果。
如权利要求1所述的视频推送方法，其中，所述场景识别结果包括音频场景识别结果；

所述通过预设场景识别模型对所述音视频信息进行场景识别，获得场景识别结果的步骤，包括：

通过预设场景识别模型提取所述音频信息中的声纹特征，并对提取的声纹特征进行场景识别，获得音频场景识别结果。
如权利要求4所述的视频推送方法，其中，所述通过预设场景识别模型提取每次截取到的图像信息中的图像特征，并对提取的图像特征进行场景识别，获得图像场景识别结果的步骤之后，还包括:

根据所述图像场景识别结果确定各图像信息所对应的图像场景类别；

根据所述图像场景类别统计视频类别数量；

判断所述视频类别数量是否小于预设数量；

在所述视频类别数量小于所述预设数量时，对所述预设采样周期进行调整；以及

根据调整后的采样周期，按预设截取频率截取显示界面播放的多媒体文件的图像信息。
如权利要求1所述的视频推送方法，其中，所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤之前，还包括：

获取所述多媒体文件的历史场景识别结果；

判断所述历史场景识别结果是否与所述场景识别结果一致；以及

若所述历史场景识别结果与所述场景识别结果一致，则统计所述历史场景识别结果与所述场景识别结果一致的次数，在所述次数达到预设次数阈值时，执行所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤。
如权利要求1所述的视频推送方法，其中，所述根据所述场景识别结果确定视频推送类别，并根据所述视频推送类别进行视频推送的步骤，包括：

根据所述场景识别结果确定所述多媒体文件的视频类别和所述视频类别对应的播放时长；

根据所述播放时长确定所述视频类别对应的播放权重；以及

根据所述播放权重确定视频推送类别，并根据所述视频推送类别进行视频推送。
如权利要求1-8任一项所述的视频推送方法，其中，所述获取显示界面播放的多媒体文件的音视频信息的步骤之前，包括：

获取历史视频推送类别；以及

根据所述历史视频推送类别确定当前的待推送视频，并展示所述待推送视频。
如权利要求1所述的视频推送方法，其中，所述预设场景识别模型预先通过大量的样本数据进行训练得到的场景识别模型，根据输入的音视频信息识别出当前的播放场景。
如权利要求4所述的视频推送方法，其中，所述图像特征为所述图像信息中的文字、水印、logo或物品信息特征。
如权利要求4所述的视频推送方法，其中，所述声纹特征为录制的音频信息中的声纹。
如权利要求1所述的视频推送方法，其中，所述视频类别对应的播放权重根据视频类别对应的播放时长确定。
一种视频推送设备，其中，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频推送程序，所述视频推送程序配置为实现如权利要求1至13中任一项所述的视频推送方法的步骤。
一种存储介质，其中，所述存储介质上存储有视频推送程序，所述视频推送程序被处理器执行时实现如权利要求1至13中任一项所述的视频推送方法的步骤。