WO2017166483A1

WO2017166483A1 - 一种动态图片处理方法及系统

Info

Publication number: WO2017166483A1
Application number: PCT/CN2016/088859
Authority: WO
Inventors: 姜天宇
Original assignee: 乐视控股（北京）有限公司; 乐视移动智能信息技术（北京）有限公司
Priority date: 2016-03-31
Filing date: 2016-07-06
Publication date: 2017-10-05
Also published as: CN106095764A

Abstract

一种动态图片处理方法及系统，其中动态图片处理方法包括：拍摄动态图片，并在动态图片拍摄过程中进行录音；对录音信息进行声纹特征提取；将提取的声纹特征写入动态图片中，对动态图片进行声纹标注。通过实时计算并提取动态图片拍摄场景的声纹特征，将声纹特征写入动态图片中，实现动态图片的声纹标注，并根据声纹特征对动态图片进行归类，实现动态图片的归类检索和基于声纹特征的快速匹配查询的目的，使用户的检索图片操作更高效、直观。

Description

一种动态图片处理方法及系统

本申请基于申请号为2016101964910、申请日为2016年03月31日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

【技术领域】

本发明涉及动态图片处理技术领域，尤其涉及一种动态图片处理方法及系统。

【背景技术】

自多家移动设备厂商推出诸如Zoe、LivePhoto等新图像媒体格式后，动态图片格式极有可能会在未来替代现有的静态图片格式，成为下一个移动设备创新技术领域的重要竞争环节。现有的动态图片只是记录拍摄范围内的图像信息和单纯的录制原始数字媒体信号，而没有考虑拍摄场景声音的内容信息，因此，在动态图片格式处理领域，用户的使用体验还有很多可提升的空间。

【发明内容】

本发明提供了一种动态图片处理方法及系统，旨在解决现有的动态图片只是记录拍摄范围内的图像信息和单纯的录制原始数字媒体信号，而没有考虑拍摄场景声音的内容信息的技术问题。

为了解决以上提出的问题，本发明实施例采用的技术方案为：一种动态图片处理方法，包括：

拍摄动态图片，并在动态图片拍摄过程中进行录音；

对录音信息进行声纹特征提取；

将提取的声纹特征写入动态图片中，对动态图片进行声纹标注。

本发明实施例采取的技术方案还包括：所述拍摄动态图片，并在动态图片拍摄过程中进行录音还包括：将拍摄的动态图片和录音信息进行存储；所述动态图片的存储形式为缩略图形式，所述录音信息包括语音、环境音或噪音。

本发明实施例采取的技术方案还包括：所述声纹特征提取方法包括以下步骤：

检测是否有效音源数据进入；

对进入的音源数据进行差分和滤波处理；

对流式音源进行离散化处理；

通过哈明窗对帧数据做加窗处理；

通过快速傅氏变换将时域音源转为频域能量；

对音源进行带通滤波与声纹特征提取。

本发明实施例采取的技术方案还包括：所述将提取的声纹特征写入动态图片中的写入方式为：读取存储的动态图片，将提取的声纹特征以序列化的方式写入动态图片的指定文件数据节点。

本发明实施例采取的技术方案还包括：所述将提取的声纹特征写入动态图片中，对动态图片进行声纹标注后还包括：根据声纹特征对声纹标注后的动态图片进行归类并存储；所述归类方式包括语音特征归类、环境音特征归类或噪声特征归类。

本发明实施例采取的技术方案还包括：所述将提取的声纹特征写入动态图片中，对动态图片进行声纹标注后还包括：通过语音输入或者归类查找方式检索具有特定声纹特征的动态图片。

本发明实施例采取的另一技术方案为：一种动态图片处理系统，包括拍摄模块、录音模块、声纹提取模块和声纹标注模块；所述拍摄模块用于拍摄动态图片；所述录音模块用于在动态图片拍摄过程中进行录音；所述声纹提取模块用于对录音信息进行声纹特征提取；所述声纹标注模块用于将提取的声纹特征写入动态图片中，对动态图片进行声纹标注。

本发明实施例采取的技术方案还包括：所述声纹提取模块包括端点检测单元、预加重单元、音频分帧单元、加窗单元、音源转换单元和滤波单元；

所述端点检测单元用于检测是否有效音源数据进入；

所述预加重单元用于对进入的音源数据进行差分和滤波处理；

所述音频分帧单元用于对流式音源进行离散化处理；

所述加窗单元用于通过哈明窗对帧数据做加窗处理；

所述音源转换单元用于通过快速傅氏变换将时域音源转为频域能量；

所述滤波单元用于对音源进行带通滤波与声纹特征提取。

本发明实施例采取的技术方案还包括存储模块，所述存储模块用于将拍摄的动态图片和录音信息进行存储。

本发明实施例采取的技术方案还包括归类模块和检索模块，所述归类模块用于根据声纹特征对声纹标注后的动态图片进行归类并存储；所述归类模块的归类方式包括语音特征归类、环境音特征归类或噪声特征归类；所述检索模块用于通过语音输入或者归类查找方式检索具有特定声纹特征的动态图片。

本发明的有益效果在于：本发明实施例的动态图片处理方法及系统通过充分利用拍摄场景的声音信息，实时计算并提取动态图片拍摄场景的声纹特征，将声纹特征写入动态图片中，实现动态图片的声纹标注，并根据声纹特征对动态图片进行归类，实现动态图片的归类检索和基于声纹特征的快速匹配查询的目的，使用户的检索图片操作更高效、直观。

【附图说明】

图1为本发明实施例的动态图片处理方法的流程图；

图2是本发明实施例的声纹特征提取示意图；

图3为本发明实施例的动态图片处理系统的结构示意图。

【具体实施方式】

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

请参阅图1，是本发明实施例的动态图片处理方法的流程图。本发明实施例的动态图片处理方法包括以下步骤：

步骤100：启动动态拍照功能，开始拍摄动态图片；

步骤200：启动录音功能，在动态图片拍摄过程中进行录音，并将拍摄的动态图片和录音信息进行存储；

在步骤200中，本发明实施例通过Thumbnail+MOV(缩略图)的形式存储动态图片，图片来自相机的Preview(预览)数据，通过对多帧图像数据的编码生成MOV，并裁剪时间中轴图像作为Thumbnail；默认录制的MOV格式(QuickTime影片格式，是Apple公司开发的一种音频、视频文件格式，用于存储常用数字媒体类型)带有音源的视频长度为4秒，录音信息包括语音、环境音或噪音等。

步骤300：通过声纹提取模块对存储的录音信息进行声纹特征提取，并对提取的声纹特征进行存储；

在步骤300中，本发明实施例使用媒体信息特殊段落来存储声纹特征；具体如图2所示，是本发明实施例的声纹特征提取示意图。本发明实施例的声纹特征提取过程包括以下步骤：

步骤301：端点检测:检测是否有效音源数据进入；

步骤302：预加重:对进入的音源数据进行差分和滤波处理；

在步骤302中，所述预加重滤波算法公式为：

步骤303：音频分帧:对流式音源进行离散化处理；

在步骤303中，为了保留音源的一些细节特征，特别是某些环境场景的特殊音质，同时考虑处理数据量的大小，本发明选用1 Channel 44100Hz的采样标准；而按照音频处理的规则，音频帧的时长通常控制在20～30ms左右，因此可以将单个音频帧的采样点数定为1024个，实际对应时长为1024÷44100×1000≈2。

步骤304：加窗处理:选用常见哈明窗对帧数据做加窗处理；

在步骤304中，对经过音频分帧处理的每帧音频数据S(n)进行哈明窗处理，得到处理后的数据S′(n)＝S(n)×W(n)，其中W(n)形式如下：

步骤305：FFT(Fast Fourier Transformation，快速傅氏变换):将时域音源转为频域能量；

在步骤305中，原子运算级快速傅里叶变换将时域音源转换为频域数据，转换公式为：

步骤306：对音源进行带通滤波与声纹特征提取。

在步骤306中，针对分析所需要的不同声源特征，使用特定的滤波器和提取算法进行滤波与声纹特征提取，例如：语音特征则可以使用三角带通滤波器+DCT收集MFCC系数特征；环境音则可以使用对数滤波器+小波变换收集Jaccard系数位元特征等。

步骤400：读取存储的动态图片，将提取的声纹特征以序列化的方式写入动态图片的指定文件数据节点，对动态图片进行声纹标注；

步骤500：根据声纹特征对声纹标注后的动态图片进行归类并存储；

在步骤500中，所述根据声纹特征对声纹标注后的动态图片进行归类的归类方式包括语音特征归类、环境音特征归类或噪声特征归类等。

步骤600：通过语音输入或者归类查找等方式进行检索，从而快速检索出具有特定声纹特征的动态图片；

在步骤600中，语音特征可以直接通过输入语音的相似度识别的方式进行快速索引，而对于较为复杂的环境音特征或噪声特征以及其它声音特征则应按照诸如发声物、场景地点、声音强度等特点进行归类，并按照归类类别进行查找。

请参阅图3，是本发明实施例的动态图片处理系统的结构示意图。本发明实施例的动态图片处理系统包括拍摄模块、录音模块、存储模块、声纹提取模块、声纹标注模块、归类模块和检索模块；

拍摄模块用于拍摄动态图片；

录音模块用于在动态图片拍摄过程中进行录音；

存储模块用于将拍摄的动态图片和录音信息进行存储；

声纹提取模块用于对存储的录音信息进行声纹特征提取，并对提取的声纹特征进行存储；具体地，声纹提取模块还包括端点检测单元、预加重单元、音频分帧单元、加窗单元、音源转换单元和滤波单元

端点检测单元用于检测是否有效音源数据进入；

预加重单元用于对进入的音源数据进行差分和滤波处理；其中，所述预加重滤波算法公式为：

音频分帧单元用于对流式音源进行离散化处理；其中，为了保留音源的一些细节特征，特别是某些环境场景的特殊音质，同时考虑处理数据量的大小，本发明选用1 Channel 44100Hz的采样标准；而按照音频处理的规则，音频帧的时长通常控制在20～30ms左右，因此可以将单个音频帧的采样点数定为1024个，实际对应时长为1024÷44100×1000≈2。

加窗单元用于通过哈明窗对帧数据做加窗处理；其中，对经过音频分帧处理的每帧音频数据S(n)进行哈明窗处理，得到处理后的数据S′(n)＝S(n)×W(n)，其中W（n)形式如下：

音源转换单元用于通过FFT将时域音源转为频域能量；其中，原子运算级快速傅里叶变换将时域音源转换为频域数据，转换公式为：

滤波单元用于对音源进行带通滤波与声纹特征提取；其中，针对分析所需要的不同声源特征，使用特定的滤波器和提取算法进行滤波与声纹特征提取，例如：语音特征则可以使用三角带通滤波器+DCT收集MFCC系数特征；环境音则可以使用对数滤波器+小波变换收集Jaccard系数位元特征等。

声纹标注模块用于读取存储的动态图片，将提取的声纹特征以序列化的方式写入动态图片的指定文件数据节点，对动态图片进行声纹标注；

归类模块用于根据声纹特征对声纹标注后的动态图片进行归类并存储；其中，所述根据声纹特征对声纹标注后的动态图片进行归类的归类方式包括语音特征归类、环境音特征归类或噪声特征归类等。

检索模块用于通过语音输入或者归类查找等方式进行检索，从而快速检索出具有特定声纹特征的动态图片；其中，语音特征可以直接通过输入语音的相似度识别的方式进行快速索引，而对于较为复杂的环境音特征或噪声特征以及其它声音特征则应按照诸如发声物、场景地点、声音强度等特点进行归类，并按照归类类别进行查找。

本发明实施例的动态图片处理方法及系统通过充分利用拍摄场景的声音信息，实时计算并提取动态图片拍摄场景的声纹特征，将声纹特征写入动态图片中，实现动态图片的声纹标注，并根据声纹特征对动态图片进行归类，实现动态图片的归类检索和基于声纹特征的快速匹配查询的目的，使用户的检索图片操作更高效、直观。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

一种动态图片处理方法，其特征在于，包括：

拍摄动态图片，并在动态图片拍摄过程中进行录音；

对录音信息进行声纹特征提取；

将提取的声纹特征写入动态图片中，对动态图片进行声纹标注。
根据权利要求1所述的动态图片处理方法，其特征在于：所述拍摄动态图片，并在动态图片拍摄过程中进行录音还包括：将拍摄的动态图片和录音信息进行存储；所述动态图片的存储形式为缩略图形式，所述录音信息包括语音、环境音或噪音。
根据权利要求1所述的动态图片处理方法，其特征在于：所述声纹特征提取方法包括以下步骤：

检测是否有效音源数据进入；

对进入的音源数据进行差分和滤波处理；

对流式音源进行离散化处理；

通过哈明窗对帧数据做加窗处理；

通过快速傅氏变换将时域音源转为频域能量；

对音源进行带通滤波与声纹特征提取。
根据权利要求1或2所述的动态图片处理系统，其特征在于：所述将提取的声纹特征写入动态图片中的写入方式为：读取存储的动态图片，将提取的声纹特征以序列化的方式写入动态图片的指定文件数据节点。
根据权利要求4所述的动态图片处理系统，其特征在于：所述将提取的声纹特征写入动态图片中，对动态图片进行声纹标注后还包括：根据声纹特征对声纹标注后的动态图片进行归类并存储；所述归类方式包括语音特征归类、环境音特征归类或噪声特征归类。
根据权利要求5所述的动态图片处理系统，其特征在于：所述将提取的声纹特征写入动态图片中，对动态图片进行声纹标注后还包括：通过语音输入或者归类查找方式检索具有特定声纹特征的动态图片。
一种动态图片处理系统，其特征在于，包括拍摄模块、录音模块、声纹提取模块和声纹标注模块；所述拍摄模块用于拍摄动态图片；所述录音模块用于在动态图片拍摄过程中进行录音；所述声纹提取模块用于对录音信息进行声纹特征提取；所述声纹标注模块用于将提取的声纹特征写入动态图片中，对动态图片进行声纹标注。
根据权利要求7所述的动态图片处理系统，其特征在于：所述声纹提取模块包括端点检测单元、预加重单元、音频分帧单元、加窗单元、音源转换单元和滤波单元；

所述端点检测单元用于检测是否有效音源数据进入；

所述预加重单元用于对进入的音源数据进行差分和滤波处理；

所述音频分帧单元用于对流式音源进行离散化处理；

所述加窗单元用于通过哈明窗对帧数据做加窗处理；

所述音源转换单元用于通过快速傅氏变换将时域音源转为频域能量；

所述滤波单元用于对音源进行带通滤波与声纹特征提取。
根据权利要求8所述的动态图片处理系统，其特征在于：还包括存储模块，所述存储模块用于将拍摄的动态图片和录音信息进行存储。
根据权利要求9所述的动态图片处理系统，其特征在于：还包括归类模块和检索模块，所述归类模块用于根据声纹特征对声纹标注后的动态图片进行归类并存储；所述归类模块的归类方式包括语音特征归类、环境音特征归类或噪声特征归类；所述检索模块用于通过语音输入或者归类查找方式检索具有特定声纹特征的动态图片。