WO2020048034A1

WO2020048034A1 - 实现声音与图像同位的方法、装置、设备及存储介质

Info

Publication number: WO2020048034A1
Application number: PCT/CN2018/120528
Authority: WO
Inventors: 赵新科
Original assignee: 深圳创维－Rgb电子有限公司
Priority date: 2018-09-07
Filing date: 2018-12-12
Publication date: 2020-03-12
Also published as: CN109194999A; CN109194999B

Abstract

本文公开了一种实现声音与图像同位的方法，包括：对当前播放视频分别进行图像识别以及声音识别，以获取当前播放视频对应的图像特征和声音特征；在基于所述图像特征确定所述当前播放视频存在发声源的情况下，则获取当前播放视频的发声源在视频显示屏的位置信息；在基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源的情况下，根据所述发声源在视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声。本文还公开了一种实现声音与图像同位的装置、设备以及存储介质。

Description

实现声音与图像同位的方法、装置、设备及存储介质

本申请要求在2018年9月7日提交中国专利局、申请号为201811043120.4的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本公开实施例涉及智能电视技术领域，例如涉及一种实现声音与图像同位的方法、装置、设备及存储介质。

背景技术

目前，电子显示类产品，例如大尺寸液晶电视，在播放视频的时候，视频图像是通过显示屏呈现出来，而视频声音则是通过设置在电视其它位置的扬声器发声，由于视频声音与对应的视频图像不在同一个位置播放，导致视频的播放效果不佳，用户观看视频时的临场感不强。

发明内容

本公开提供一种实现声音与图像同位的方法、装置、设备及存储介质，通过所述方法有效实现声音与图像的同位置呈现，提高视频的播放效果。

在一实施例中，本公开实施例提供了一种实现声音与图像同位的方法，所述方法包括：

对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；

在基于所述图像特征确定所述当前播放视频存在发声源的情况下，基于所述图像特征从预设图像特征数据库中获取所述发声源在视频显示屏的位置信息；

在基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源的情况下，根据所述发声源在所述视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声；

其中，所述预设图像特征数据库依据所述当前播放视频预先构建。

在一实施例中，所述对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征，包括：

对所述当前播放视频进行解码，分别得到所述当前播放视频对应的图像数据和声音数据；

基于所述图像数据调用图像识别接口进行图像识别，得到与所述图像数据对应的图像特征，并基于所述声音数据调用声音识别接口进行声音识别，得到与所述声音数据对应的声音特征。

在一实施例中，所述声音还原元件依据所述视频显示屏预先划分的分区独立设置；

其中，所述分区的数量依据显示屏的尺寸进行设定。

在一实施例中，所述声音还原元件包括扬声器。

在一实施例中，所述根据所述发声源在所述视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声包括；

将所述声音数据通过杜比全景声(Atmosphere，ATMOS)解码，得到集成音频接口(Integrate Interface of Sound，IIS)音频信号；

根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动所述位置信息对应的扬声器发声。在一实施例中，所述基于所述图像特征确定所述当前播放视频存在发声源，包括：

将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配；

当匹配的所述相似度达到设定阈值时，则确定所述当前播放视频存在发声源；

其中，所述预设图像特征数据库中的图像特征包括下述至少一项：人体形态特征和动物形态特征。在一实施例中，所述基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源，包括：

将所述声音特征与预先建立的模型发声源的模型特征进行比对；

若存在与所述声音特征一致的模型特征且所述模型特征对应的模型发声源与所述当前播放视频中存在的发声源相同，则确定所述当前播放视频存在与所述发声源匹配的音源。

在一实施例中，所述控制与所述位置信息对应的声音还原元件发声，包括：

当所述声音还原元件发出的声音幅度超过设定上限时，降低所述声音还原元件的发声增益；

当所述声音还原元件发出的声音幅度没有超过所述设定下限时，提高所述声音还原元件的发声增益。

在一实施例中，所述当前播放视频通过按照单位时间内的预设采样次数对播放的视频进行采样而获得。

在一实施例中，所述视频显示屏包括预设尺寸的液晶显示屏。

在一实施例中，本公开实施例提供了一种实现声音与图像同位的装置，所述装置包括：

识别模块，设置为对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；

获取模块，设置为在基于所述图像特征确定所述当前播放视频存在发声源的情况下，基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在视频显示屏的位置信息；

控制模块，设置为在基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源的情况下，根据所述发声源在视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声；

在一实施例中，本公开实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

在一实施例中，本公开实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现上述的方法。

附图说明

图1a为本公开实施例一提供的一种实现声音与图像同位的方法流程示意图；

图1b为本公开实施例一提供的另一种实现声音与图像同位的方法流程示意图；

图2为本公开实施例一提供的又一种实现声音与图像同位的方法流程示意图；

图3为本公开实施例二提供的一种实现声音与图像同位的方法流程示意图；

图4为本公开实施例二提供的一种显示屏的分区示意图；

图5为本公开实施例二提供的一种根据所述控制信号控制对应功率放大器工作以驱动扬声器发声的流程示意图；

图6为本公开实施例三提供的一种实现声音与图像同位的装置的结构示意图；

图7为本公开实施例四提供的一种电子设备的结构示意图。

具体实施方式

实施例一

图1a为本公开实施例一提供的一种实现声音与图像同位的方法流程示意图。本实施例提供的实现声音与图像同位的方法可应用在具有大尺寸显示屏的电子产品上，例如65寸及以上的电视机产品。当显示屏尺寸较小时，由于声音还原系统与视频图像(即发声源)之间的距离较近，声音与图像同位的音响效果无法被突出体现。所述实现声音与图像同位的方法适用于具有明显方向属性的声音特征的视频的播放过程中。在一实施例中，所述具有明显方向属性的声音特征的视频例如是包含有人物且所述人物发出了说话的声音，吵架的声音或者唱歌的声音的视频，或者包含有动物且所述动物发出了叫声的视频，或者包含有物体且所述物体发出了敲打声(例如打铁、电焊等)或者打碎物体声音(例如打碎玻璃或者碗等陶瓷制品的声音)的视频，即具有明显声音特征且有发出声音的源头的视频。在具有声音但该声音没有明显方向属性的视频播放过程中，本实施例提供的实现声音与图像同位的方法无法正常执行。例如对于只包含有背景音乐的视频，由于所述背景音乐没有明显的发声源头，即不具有明显的方向属性，则无法应用本实施例提供的方法达到提升视频播放效果的目的，对于此类视频播放，只当作普通声音进行呈现，不进行声音与图像的同位操作。所述实现声音与图像同位的方法可以由实现声音与图像同位的装置来执行，该装置可由软件和/或硬件实现，一般集成在具有大尺寸显示屏的电子设备中。所述实现声音与图像同位的方法用于提升视频播放效果，提升用户观看视频的临场感，沉浸感。参见图1a所示，该方法包括如下步骤：

步骤10，对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征。

步骤20，在基于所述图像特征确定所述当前播放视频存在发声源的情况下，基于所述图像特征从预设图像特征数据库中获取所述发声源在视频显示屏的位置信息。

步骤30，在基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源的情况下，根据所述发声源在所述视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声。

图1b为本公开实施例一提供的另一种实现声音与图像同位的方法流程示意图。参见图1b所示，该方法包括：

步骤110，对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征。

其中，所述图像特征是指当前播放视频中包含的人物、动物或者其他的物体、物品等的特征，所述物体例如可以是木凳或者木桌，所述物品例如可以是碗、杯子或者茶壶等陶瓷制品，只要是当前播放视频中包含的物的特征都属于所述图像特征的范畴。所述声音特征是指当前播放视频中包含的音频特征，例如唱歌声、说话声、动物叫喊声或者打碎物品的声音等。

所述当前播放视频通过对播放视频进行定期采样获得，例如每秒中(即，单位时间内)对播放视频采样两次(即，预设采样次数)，每次采样得到的视频均为当前播放视频。即：所述当前播放视频通过按照单位时间内的预设采样次数对播放的视频进行采样而获得。

示例性的，所述对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征，包括：

对当前播放视频进行解码，分别得到当前播放视频对应的图像数据和声音数据；

其中，对当前播放视频进行解码可以利用本领域内成熟的解码算法进行，本实施例中不再赘述。在一实施例中，所述图像识别接口为百度的人脸识别系统，可实现对当前播放视频中的图像特征进行有效识别。在一实施例中，所述声音识别接口为提取声音中的振幅或者频率等能够体现声音特征的信息的程序模块，通过该程序模块可有效提取当前播放视频中的声音特征。

步骤120，基于所述图像特征判断所述当前播放视频是否存在发声源，若所述当前播放视频存在发声源，则继续执行步骤130，若所述当前播放视频不存在发声源，则返回执行步骤110。其中，所述发声源指当前播放视频中发出声音的源头，例如发出声音的人或者物等。

示例性地，所述基于所述图像特征确定所述当前播放视频存在发声源，包括：

其中，所述预设图像特征数据库中的图像特征包括人体形态特征和/或动物形态特征，还可以包括物体、物品的形态特征，所述人体形态特征可以指人发出声音时的口型姿态，所述动物形态特征可以指动物发出声音时的口型姿态，所述物体、物品的形态特征可以指物体、物品发出声音时的姿态，例如物体之间的敲打、摩擦姿态，物品被打碎时的姿态。所述图像特征的实质是当前播放视频中存在的发声源的标识。所述预设图像特征数据库中的图像特征可以基于人工智能技术，通过自主学习功能对所述当前播放视频预先进行学习得到，同时对预设图像特征数据库中的图像特征在当前视频播放设备的显示屏的位置进行标记，因此在自主学习的过程中还要加入设置为播放当前视频的电子设备的屏幕尺寸信息，考虑到成本问题，播放当前视频的电子设备可以仅考虑目前市场上比较流行的配置有65寸液晶显示屏的智能电视机。

由于当前播放视频可通过对播放视频进行定期采样得到，通过设置所述设定阈值，可以将一些图像特征不明显的图像过滤掉，即将当前次采样得到的视频数据放弃，等待下一次的采样数据，从而可减少实现声音与图像同位的方法对系统资源的占用率，同时可提高确定当前播放视频中是否存在发声源的准确性。

若当前播放视频不存在发声源，则表示当前播放视频不存在具有明显方向属性的声音特征，无法体现声音与图像同位的播放效果，因此不对当前播放视频进行声音与图像的同位操作，直接按照常规的视频播放流程进行播放即可，将视频中的声音通过当前视频播放设备的所有声道进行播放即可。

步骤130，基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在视频显示屏的位置信息。

其中，所述视频显示屏是指设置为播放视频的电子设备的显示屏。所述预设图像特征数据库依据所述当前播放视频预先构建，所述预设图像特征数据库中保存有当前播放视频的发声源与其在视频显示屏的位置信息之间的对应关系，通过该对应关系可以查找到所述发声源在视频显示屏的位置信息。

步骤140，基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，若当前播放视频存在与所述发声源匹配的音源，则继续执行步骤 150，若当前播放视频不存在与所述发声源匹配的音源，则返回执行步骤110。

示例性的，所述基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源，包括：

所述模型发声源的模型特征根据所述当前播放视频预先构建，在所述模型发声源中保存有当前播放视频中存在的发声源以及该发声源对应的声音特征，例如所述发声源为人物，对应的声音特征为唱歌声，则表示当前播放视频中的所述发声源对应的人物在唱歌；若所述发声源为人物，对应的声音特征为狗叫声，则表示当前播放视频中所述发声源对应的人物在学狗叫；若所述发声源为玻璃花瓶，对应的声音特征为玻璃打碎的声音，则表示当前播放视频中所述发声源对应玻璃花瓶发出了玻璃打碎的声音。

当从当前播放视频中识别出的声音特征以及确定出的发声源均与所述模型发声源中的模型特征以及对应的发声源匹配时，则表示当前播放视频中存在具有明显方向属性的声音特征，即音源。

其中，所述声音特征是指当前播放视频中包含的音频特征，例如唱歌声、说话声、动物叫喊声或者打碎物品的声音等。

步骤150，根据所述发声源在视频显示屏的位置信息生成控制信号，以控制与所述位置信息对应的声音还原元件发声。

其中，所述声音还原元件包括扬声器，所述声音还原元件依据所述视频显示屏幕预先划分的分区独立设置；

所述分区的数量依据显示屏幕的大小进行设定。

在一实施例中，可以将所述视频显示屏预先划分为特定数量的小区域，每个小区域由独立的声音还原元件进行发声，通过确定所述发声源在哪个小区域，进而控制对应小区域的声音还原元件发声，从而实现了声音与图像同位的目的，给观看视频的用户一种所述声音是由发声源发出的临场效果。例如，假设当前播放视频内容为“皇后娘娘在训斥奴才”，通过本实施例提供的实现声音与图像同位的方法，让观看者感觉训斥奴才的话正好是从皇后娘娘的嘴部发出来的，给观看者一种较强的临场感体验，提高观看者的沉浸感。假设当前播放视频内容为“鸟飞过树林发出悦耳动听的鸟叫声”，通过本实施例提供的实现声音与图像同位的方法，让观看者感觉鸟叫声是从显示屏上某个位置处的鸟发出来的，给观看者一种较强的临场感体验。

本实施例提供的实现声音与图像同位的方法，通过图像识别以及声音识别识别当前播放视频中的发声源以及对应的声音特征，当当前播放视频存在具有明显方向属性的声音特征时，通过获取当前播放视频中的发声源在视频显示屏的位置信息，根据所述位置信息控制发声源处的声音还原元件发声，从而实现了声音与图像的同位，给人一种视频声音从对应的发声源处发出的感觉，提高了观看者的临场感、沉浸感。

在上述技术方案的基础上，本实施例提供了另一种实现声音与图像同位的方法流程示意图，参见图2所示，所述方法包括：

步骤210，视频开始播放。

步骤220，对正在播放的视频进行视频采样。

考虑到系统资源的占用问题以及视频的帧频，本实施例采用每秒2次的采样频率对正在播放的视频进行视频采样，在尽量减少对系统资源的占用的同时保证不对实现声音与图像同位的方法造成影响，不遗落视频中任何一个具有明显方向属性的发声源。

步骤230，对采样得到的视频进行视频解码。

在一实施例中，对采样得到的视频进行视频解码是为了分别得到视频中的图像数据和声音数据。

其中，对采样得到的视频进行视频解码可以利用本领域内成熟的解码算法进行，本实施例中不再赘述。

步骤231，得到视频中的声音数据。

步骤240，得到视频中的图像数据。

步骤250，根据图像数据进行图像识别，得到图像特征。

在一实施例中，可以通过调用图像识别接口进行图像识别操作，示例性地，所述图像识别接口为百度的人脸识别系统，可实现对当前播放视频中的图像特征进行有效识别。

步骤260，将所述图像特征与图像数据库中的图像特征进行匹配。

其中，所述图像数据库依据当前播放视频预先构建，其中保存有当前播放视频中存在的发声源的图像特征。

步骤270，确认是否获得匹配数据，若获得匹配数据，则执行步骤280，若没有获得匹配数据，则放弃当前的采样数据，进行下次采样。

其中，确认是否获得匹配数据的实质是判断图像数据库中是否存在与所述图像特征匹配的数据，若图像数据库中存在与所述图像特征匹配的数据，则执行步骤280的根据声音数据进行声音识别，得到声音特征；若图像数据库中不存在与所述图像特征匹配的数据，则放弃当前的采样数据，进行下次采样。

步骤280，根据声音数据进行声音识别，得到声音特征。

步骤290，将所述声音特征与声音数据库中的声音特征进行匹配。

其中，所述声音数据库依据当前播放视频预先构建，其中保存有当前播放视频中的发声源发出的声音的特征数据。

步骤2100，确认是否获得匹配数据，若获得匹配数据，则执行步骤2110，若没有获得匹配数据，则放弃当前的采样数据，进行下次采样。

其中，确认是否获得匹配数据的实质是判断所述声音数据库中是否存在与所述声音特征匹配的数据。

在一实施例中，所述声场控制信息为控制发声源在当前显示屏的位置处的扬声器发声的控制信息。

步骤2110，根据发声源在视频显示屏的位置信息输出声场控制信息，以控制相应的声场发声。

通过对采样得到的视频数据进行图像识别，实现了确定所述视频数据中是否存在具有明显方向属性的发声源的目的，当存在发声源时，则继续对视频数据进行声音特征识别，当具有与所述发声源匹配的声音特征时，则控制所述发声源在显示屏的位置处的喇叭发声，实现了声音与图像的同位，提高了视频的播放效果，给观看者带来较强的临场感体验。

实施例二

图3为本公开实施例二提供的一种实现声音与图像同位的方法流程示意图。在上述实施例的基础上，本实施例对所述发声源声音还原的实现过程进行了说明。参见图3所示，所述方法包括：

步骤310，对当前播放视频进行解码，分别得到当前播放视频对应的图像数据和声音数据。

步骤320，基于所述图像数据调用图像识别接口进行图像识别，得到与所述图像数据对应的图像特征，并基于所述声音数据调用声音识别接口进行声音识别，得到与所述声音数据对应的声音特征。

步骤330，基于所述图像特征判断所述当前播放视频是否存在发声源，若所述当前播放视频存在发声源，则继续执行步骤340，若所述当前播放视频不存在发声源，则返回执行步骤310。

步骤340，基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在视频显示屏的位置信息。

步骤350，基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源，若存在与所述发声源匹配的音源，则继续执行步骤360，若不存在与所述发声源匹配的音源，则返回执行步骤310。

步骤360，根据所述发声源在视频显示屏的位置信息生成控制信号。

在一实施例中，设置为播放所述视频的电子设备的显示屏能够分区发声是本公开实施例提供的实现声音与图像同位的方法实现的基本前提，只有在显示屏相应位置处安装了发声元件才能实现具有临场感的声音效果。但是由于音源是具备区域大小属性的，因此不可能实现图像与声音的绝对同位。若采用虚拟声音算法将声音虚拟在显示屏上发声，则要实时进行视频图像识别与声场虚拟应用，会占用较多的中央处理单元(Central Processing Unit，CPU)资源，为了节约系统资源同时又能体现声音与图像同位的效果，本实施例将所述显示屏预先划分为特定数量的分区，且为每个分区虚拟出独立的声场，通过为每个分区配置独立的扬声器实现为每个分区虚拟出独立的声场。在一实施例中，所述视频显示屏包括预设尺寸的液晶显示屏。示例性的，所述预设尺寸可以为65寸(即6.5尺)。图4是一种显示屏的分区示意图，如图4所示，为了节约系统资源同时又能体现声像同位的效果，将65寸及以上的显示屏划分为面积相等的6个分区，分别对应6个虚拟声场，所述6个虚拟声场分别为声场1、声场2、声场3、声场4、声场5和声场6；每个虚拟声场由独立的扬声器实现，对应的6个扬声器分别安装在显示屏的左上、左中、左下、右上、右中和右下六个方位。声场1和声场2的两个扬声器通过第一功率放大器驱动来还原声场1和声场2两个声场的声音；声场3和声场4的两个扬声器通过第二功率放大器驱动来还原声场3和声场4两个声场的声音；声场5和声场6对应的两个扬声器通过第三功率放大器驱动来还原声场5和声场6两个声场的声音。

音源是指具备声音信息的视频信号，所述音源可通过对视频进行解码获取，从视频中解码出的音源，即声音数据通过解码，可以从声音数据中分离出多个方向的声音数据，声音解码的方式有很多，例如ATMOS解码、数字化影院系统(Digital Theater System，DTS)解码等，但只有采用ATMOS解码才能将双声道的声音解码成8声道的声音。本实施例中，获取解码出来的6个方向的声音，即声场1、声场2、声场3、声场4、声场5和声场6六个方向的声音信号。由于这6个方向的声音信号都是调制在一个IIS信号中，因此，可以将上述第一功率放大器、第二功率放大器和第三功率放大器的驱动功能连接到同一个IIS信号进行解码。对音源进行解码并根据所述控制信号控制与所述位置信息对应的功率放大器工作以驱动扬声器发声的流程示意图可参见图5所示，所述方法包括：

步骤510，获取音源。

在一实施例中，可以通过对视频进行解码获取视频中的音源。

步骤520，通过ATMOS芯片对所述音源解码。

其中，所述ATMOS芯片配置在播放所述视频的电子设备中，所述IIS音频信号包含有对所述第一功率放大器、第二功率放大器和第三功率放大器进行控制的控制逻辑。

步骤530，得到IIS音频信号。

步骤540，将所述声场控制信息发送至所述IIS音频信号。

其中，所述声场控制信息为控制所述发声源在当前显示屏的位置处的声场发声的控制信息，通过所述位置处的功率放大器驱动所述位置处的扬声器工作。

将所述声场控制信息发送至所述IIS音频信号的目的是将所述声场控制信息编码至所述IIS音频信号。IIS音频信号是一种数字信号，其内部调制了视频中多个方向的声音信号，而声场控制信息中包含有要被触发的声场位置信息，当IIS音频信号被还原成模拟信号时，根据所述声场控制信息来选择还原IIS音频信号中哪个方向的声音，因此可将所述声场控制信息编码至所述IIS音频信号一起被还原为模型信号。

在一实施例中，对视频中的声音进行还原的过程为：对所述IIS音频信号进行解码，获取与上述声场1、声场2、声场3、声场4、声场5和声场6，6个方向对应的声音，并利用解码得到声场控制信息控制与所述位置处的功率放大器工作以驱动对应的扬声器发声，从而实现还原所述位置处所在方向的声音。例如所述声场控制信息为触发声场3的控制信息，则在还原IIS音频信号时，就只还原声场3所在方向的声音信号，其它声场区不输送声音信号。

步骤370，将所述声音数据通过ATMOS解码，得到IIS音频信号。

步骤380，根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声。

例如，通过对当前播放视频进行图像识别，识别到当前播放视频中的发声源位于当前显示屏的声场3的区域，则控制声场3的扬声器发声，同时关闭其他声场的扬声器，只保留声场3的扬声器发声，呈现一种声音的位置与发出声音的人的位置基本一致，给观看者带来较强的临场感体验。

当所述声音还原元件发出的声音幅度超过设定上限时，则降低所述声音还原元件的发声增益，当所述声音还原元件发出的声音幅度没有超过所述设定下限时，提高所述声音还原元件的发声增益。

当视频中没有具有明显方向属性的发声源时，视频声音是通过上述6个声场的扬声器共同发声来呈现的，而如果突然进入具有明显方向属性的发声源的视频画面时，则需仅通过与所述发声源位置对应的扬声器来发声，会导致视频声音的幅度突然变化，给观看者带来不好的体验。因此，通过采用声音幅度动态调整技术，即通过专业音效算法，将声音幅度控制在一个设定的范围，当声音幅度低于设定下限时，则提升与所述发声源位置对应的扬声器的增益；当声音幅度超过设定上限时，则降低与所述发声源位置对应的扬声器的增益，从而实现任何时刻视频的音量都在设定范围内。

本实施例提供的一种实现声音与图像同位的方法，通过将播放视频的电子设备的显示屏预先划分为特定数量的分区，并为每个分区配置独立的扬声器，以为每个分区虚拟出独立的声场，实现了节约系统资源同时又能体现声音与图像同位的播放效果的目的。

实施例三

图6为本公开实施例三提供的一种实现声音与图像同位的装置的结构示意图；参见图6所示，所述装置包括：识别模块610、获取模块620和控制模块630；

其中，识别模块610，设置为对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；获取模块620，设置为在基于所述图像特征获取所述当前播放视频存在发声源的情况下，基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在视频显示屏的位置信息；控制模块630，设置为在基于所述声音特征获取所述当前播放视频存在与所述发声源匹配的音源的情况下，根据所述发声源在所述视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声；其中，所述预设图像特征数据库依据所述当前播放视频预先构建。

在一实施例中，识别模块610是设置为对当前播放视频进行解码，分别得到当前播放视频对应的图像数据和声音数据；基于所述图像数据调用图像识别接口进行图像识别，得到与所述图像数据对应的图像特征，并基于所述声音数据调用声音识别接口进行声音识别，得到与所述声音数据对应的声音特征。

在一实施例中，所述声音还原元件依据所述视频显示屏幕预先划分的分区独立设置；

其中，所述分区的数量依据显示屏幕的尺寸进行设定。

在一实施例中，控制模块630是设置为；将所述声音数据通过ATMOS解码，得到IIS音频信号；根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动所述位置信息对应的扬声器发声。

在一实施例中，获取模块620包括发声源确定子模块640；发声源确定子模块640设置为基于所述图像特征确定所述当前播放视频存在发声源。

在一实施例中，发声源确定子模块640包括：

匹配单元，设置为将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配；

确定单元，设置为当匹配的所述相似度达到设定阈值时，则确定所述当前播放视频存在发声源；

其中，所述预设图像特征数据库中的图像特征包括人体形态特征和/或动物形态特征。

在一实施例中，控制模块630包括音源确定子模块650；所述音源确定子模块650设置为：基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源。

在一实施例中，音源确定子模块650是设置为；将所述声音特征与预先建立的模型发声源的模型特征进行比对；若存在与所述声音特征一致的模型特征且所述模型特征对应的模型发声源与所述当前播放视频中存在的发声源相同，则确定所述当前播放视频存在与所述发声源匹配的音源。

在一实施例中，所述控制模块630还设置为：当所述声音还原元件发出的声音幅度超过设定上限时，降低所述声音还原元件的发声增益，当所述声音还原元件发出的声音幅度没有超过所述设定下限时，提高所述声音还原元件的发声增益。

本实施例提供的实现声音与图像同位的装置，通过图像识别以及声音识别识别当前播放视频中的发声源以及对应的声音特征，当当前播放视频存在具有明显方向属性的声音特征时，通过获取当前播放视频中的发声源在视频显示屏的位置信息，根据所述位置信息控制发声源处的声音还原元件发声，从而实现了声音与图像的同位，给人一种视频声音从对应的发声源处发出的感觉，提高了观看者的临场感、沉浸感。

上述产品可执行本公开任意实施例所提供的方法，具备执行方法相应的功能模块和效果。未在本实施例中详尽描述的技术细节，可参见本公开任意实施例所提供的方法。

本公开的技术方案实现了声音与图像的同位置呈现，使观看视频的用户感觉到视频声音的位置与视频中发出声音的对象的位置基本一致，提高了视频的播放效果，提升了用户体验。

实施例四

图7为本公开实施例四提供的一种电子设备的结构示意图。如图7所示，该电子设备包括：处理器770、存储器771及存储在存储器771上并可在处理器770上运行的计算机程序；其中，处理器770的数量可以是一个或多个，图7中以一个处理器770为例；处理器770执行所述计算机程序时实现如上述实施例所述的实现声音与图像同位的方法。如图7所示，所述电子设备还可以包括输入装置772和输出装置773。处理器770、存储器771、输入装置772和输出装置773可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器771作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开实施例中实现声音与图像同位的方法对应的程序指令/模块(例如，实现声音与图像同位的装置中的识别模块610、获取模块620、和控制模块630等)。处理器770通过运行存储在存储器771中的软件程序、指令以及模块，从而执行电子设备的多种功能应用以及数据处理，即实现上述的实现声音与图像同位的方法。

存储器771可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器771可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器771可以包括相对于处理器770远程设置的存储器，这些远程存储器可以通过网络连接至电子设备/存储介质。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置772可以设置为接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置773可以包括显示屏等显示设备。

实施例五

本公开实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种实现声音与图像同位的方法，该方法包括：

在基于所述图像特征确定所述当前播放视频存在发声源的情况下，基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在视频显示屏的位置信息；

当然，本公开实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的实现声音与图像同位的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及通用硬件来实现，也可以通过硬件实现。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括多个指令用以使得一台计算机设备(可以是个人计算机，存储介质，或者网络设备等)执行本公开一个或多个实施例所述的方法。

Claims

一种实现声音与图像同位的方法，包括：

对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；

在基于所述图像特征确定所述当前播放视频存在发声源的情况下，基于所述图像特征从预设图像特征数据库中获取所述发声源在视频显示屏的位置信息；

在基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源的情况下，根据所述发声源在所述视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声；

其中，所述预设图像特征数据库依据所述当前播放视频预先构建。
根据权利要求1所述的方法，其中，所述对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征，包括：

对所述当前播放视频进行解码，分别得到所述当前播放视频对应的图像数据和声音数据；

基于所述图像数据调用图像识别接口进行图像识别，得到与所述图像数据对应的图像特征，并基于所述声音数据调用声音识别接口进行声音识别，得到与所述声音数据对应的声音特征。
根据权利要求2所述的方法，其中，所述声音还原元件依据所述视频显示屏预先划分的分区独立设置；

其中，所述分区的数量依据显示屏的尺寸进行设定。
根据权利要求1或3所述的方法，其中，所述声音还原元件包括扬声器。
根据权利要求4所述的方法，其中，所述根据所述发声源在所述视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声包括；

将所述声音数据通过杜比全景声ATMOS解码，得到集成音频接口IIS音频信号；

根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动所述位置信息对应的扬声器发声。
根据权利要求1所述的方法，其中，所述基于所述图像特征确定所述当前播放视频存在发声源，包括：

将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配；

当匹配的所述相似度达到设定阈值时，则确定所述当前播放视频存在发声源；

其中，所述预设图像特征数据库中的图像特征包括下述至少一项：人体形态特征和动物形态特征。
根据权利要求1所述的方法，其中，所述基于所述声音特征切断所述当前播放视频存在与所述发声源匹配的音源，包括：

将所述声音特征与预先建立的模型发声源的模型特征进行比对；

若存在与所述声音特征一致的模型特征且所述模型特征对应的模型发声源与所述当前播放视频中存在的发声源相同，则确定所述当前播放视频存在与所述发声源匹配的音源。
根据权利要求1所述的方法，其中，所述控制与所述位置信息对应的声音还原元件发声，包括：

当所述声音还原元件发出的声音幅度超过设定上限时，降低所述声音还原元件的发声增益；

当所述声音还原元件发出的声音幅度没有超过所述设定下限时，提高所述声音还原元件的发声增益。
根据权利要求1-8任一项所述的方法，其中，所述当前播放视频通过按照单位时间内的预设采样次数对播放的视频进行采样而获得。
根据权利要求1-8任一项所述的方法，其中，所述视频显示屏包括预设尺寸的液晶显示屏。
一种实现声音与图像同位的装置，包括：

识别模块，设置为对当前播放视频分别进行图像识别以及声音识别，以获取所述当前播放视频对应的图像特征和声音特征；

获取模块，设置为在基于所述图像特征确定所述当前播放视频存在发声源的情况下，基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在视频显示屏的位置信息；

控制模块，设置为在基于所述声音特征确定所述当前播放视频存在与所述发声源匹配的音源的情况下，根据所述发声源在所述视频显示屏的位置信息生成控制信号，以根据所述控制信号控制与所述位置信息对应的声音还原元件发声；

其中，所述预设图像特征数据库依据所述当前播放视频预先构建。
根据权利要求11所述的装置，其中，所述获取模块包括发声源确定子模块；所述发声源确定子模块设置为：

将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配；

当匹配的所述相似度达到设定阈值时，则确定所述当前播放视频存在发声源；

其中，所述预设图像特征数据库中的图像特征包括下述至少一项：人体形态特征和动物形态特征。
根据权利要求11所述的装置，其中，所述控制模块包括音源确定子模块；所述音源确定子模块设置为：

将所述声音特征与预先建立的模型发声源的模型特征进行比对；

若存在与所述声音特征一致的模型特征且所述模型特征对应的模型发声源与所述当前播放视频中存在的发声源相同，则确定所述当前播放视频存在与所述发声源匹配的音源。
一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-10中任一项所述的方法。
一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-10中任一项所述的方法。