WO2019127759A1

WO2019127759A1 - 一种语音图像采集编码方法及装置

Info

Publication number: WO2019127759A1
Application number: PCT/CN2018/073488
Authority: WO
Inventors: 徐奎
Original assignee: 武汉华星光电半导体显示技术有限公司
Priority date: 2017-12-28
Filing date: 2018-01-19
Publication date: 2019-07-04
Also published as: CN108156499A

Abstract

本发明公开了一种语音图像采集编码方法及装置，方法包括：令视频信号采集模块采集的视频信号中的图像共由m行n列像素呈矩阵形式构成，针对每一个图像像素，由像素坐标值进行定位；当进行拍照时，以图像区域坐标值表示某个图像具体区域，根据视频信号采集模块采集的像素感应信号差异及像素坐标值、图像区域坐标值，来判断图像中景的坐标；将视频信号中语音的坐标信息与图像中景的坐标进行匹配。本发明通过赋予语音坐标值，若配合相应的电视机(TV)设备，能够在播放视频信号时，语音能从对应显示图像景物实际发声区域发出，尤其当TV尺寸变大时，语音不再单纯的从TV底部或侧面发出，实现了语音随景物在TV上移动，完美还原视频拍摄现场的临场感。

Description

一种语音图像采集编码方法及装置

技术领域

本发明涉及图像处理技术领域，具体地讲，涉及一种语音图像采集编码方法及装置。

背景技术

平板显示技术的发展，使得电视机(Television，TV)等设备得到了普及。TV为影音娱乐交互设备，不仅可以显示绚丽的图像，还能发出与之匹配的优美的语音。关于目前市面的TV之图像及语音，其采集及编码过程为：图像源→图像采集装置→模数转换→图像编码→数字图像。

在TV上显示时，则是上述流程的逆向，即对数字图像进行DAC(数模转换)，再输送到显示模组上后显示图像。针对图像采集，以常用的拍照相机为例，进行如下说明：

当对景物进行拍照时，相机CCD/CMOS感光Sensor(视频信号采集模块)(以下简称Sensor)对景物感光，由于景物不同区域光的强度及光的颜色不一样，则感光器对应区域感应生成的信号也不一样，这样就记录下所拍摄的景物颜色及亮度信息；同时，景物中的景的位置也被一并记录。

景物与Sensor有对应关系，景物图像分别对应多个Sensor Pixel(以下简称Pixel)，同时由于Pixel在Sensor中有规律地排列，即可根据Pixel坐标信息对景物中的景的位置进行定位。

同时，视频中的语音采集及编码的过程为：语音源→语音采集装置→模数转换→语音编码→数字语音。当需要回放语音时，则是上述流程的逆向，即对数字语音进行DAC(数模转换)，再输送到扬声器(Speaker)上进行播放。

利用照相机拍照，是单纯的采集图像；利用麦克风进行录音，是单纯的采集语音；当同时利用照相机及麦克风进行协同工作时，语音图像即视频就产生了。传统的视频信号包含有：图像信号、语音信号、同步信号，但其图像及语音信息的编码方式简单，图像及语音信息的内容单一，不能很好地给观者真实的临场观感。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种语音图像采集编码方法及装置，通过改变图像及语音信息的编码方式，进一步丰富图像及语音信息的内容，给观者更为真实的临场观感。

为实现上述目的，本发明提供了一种语音图像采集编码方法，包括以下步骤：

步骤1、令视频信号采集模块采集的视频信号中的图像共由m行n列像素呈矩阵形式构成，针对每一个图像像素，由像素坐标值进行定位；

步骤2、当进行拍照时，以图像区域坐标值表示某个图像具体区域，根据视频信号采集模块采集的像素感应信号差异及像素坐标值、图像区域坐标值，来判断图像中景的坐标；

步骤3、将视频信号中语音的坐标信息与图像中景的坐标进行匹配。

上述的一种语音图像采集编码方法，所述步骤2中图像区域坐标值表示为(x1,y1；x2,y2)，(x1,y1；x2,y2)为第x1至x2行及第y1至y2列所包含的图像区域。

上述的一种语音图像采集编码方法，所述图像区域中，景物1坐标区域表示为：(x11,y11；x12,y12)，景物2坐标区域为：(x21,y21；x22,y22)，……，景物N坐标区域为：(xN1,yN1；xN2,yN2)；其中语音1坐标为景物1坐标区域内某一具体位置(x1,y1)，(x1,y1)位置视景物1的发声区域而定；语音2坐标为景物2坐标区域内某一具体位置(x2,y2)，(x2,y2)位置视景物2的发声区域而定；语音N坐标为景物N坐标区域内某一具体位置(xN,yN)，(xN,yN)位置视景物N的发声区域而定。

上述的一种语音图像采集编码方法，所述视频信号采集模块采集的视频信号包括图像信号、语音信号、同步信号、坐标信号。

上述的一种语音图像采集编码方法，所述坐标信号可独立于图像信号、语音信号、同步信号外而单独作为一类信号存在，也可编入图像信号、语音信号、同步信号任一类信号之中。

一种语音图像采集编码装置，包括视频信号采集模块、图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块、图像景物区域坐标与景物区域音频坐标匹配模块、处理后视频信号播放模块，所述视频信号采集模块输出端与图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块连接，所述图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块输出端与景物区域坐标与景物区域音频坐标匹配模块连接，所述图像景物区域坐标与景物区域音频坐标匹配模块、处理后视频信号播放模块相连接。

上述的一种语音图像采集编码装置，所述视频信号采集模块包括图像采集传感器和声音采集传感器。

上述的一种语音图像采集编码装置，所述视频信号采集模块采集的图像区域中，景物1坐标区域通过图像景物区域坐标值生成模块生成为：(x11,y11；x12,y12)，景物2坐标区域生成为：(x21,y21；x22,y22)，……，景物N坐标区域生成为：(xN1,yN1；xN2,yN2)；其中语音1坐标为景物1坐标区域内某一具体位置(x1,y1)，(x1,y1)位置通过图像景物区域音频坐标值判断模块判断的景物1的发声区域而定；语音2坐标为景物2坐标区域内某一具体位置(x2,y2)，(x2,y2)位置通过图像景物区域音频坐标值判断模块判断的景物2的发声区域而定；语音N坐标为景物N坐标区域内某一具体位置(xN,yN)，(xN,yN)位置通过图像景物区域音频坐标值判断模块判断的景物N的发声区域而定。

本发明的有益效果是：

本发明通过赋予语音坐标值，若配合相应的TV设备，能够在播放视频信号时，语音能从对应显示图像景物实际发声区域发出，尤其当TV尺寸变大时，语音不再单纯的从TV底部或侧面发出，实现了语音随景物在TV上移动，完美还原视频拍摄现场，呈现给观者更好的临场感。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

通过结合附图进行的以下描述，本发明的实施例的上述和其它方面、特点和优点将变得更加清楚，附图中：

图1是本发明处理的视频信号组成示意图；

图2是本发明处理的图像像素坐标示意图；

图3是本发明的实际场景图；

图4是本发明的装置结构示意图。

具体实施方式

以下，将参照附图来详细描述本发明的实施例。然而，可以以许多不同的形式来实施本发明，并且本发明不应该被解释为限制于这里阐述的具体实施例。相反，提供这些实施例是为了解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够理解本发明的各种实施例和适合于特定预期应用的各种修改。

本发明提出一种语音图像采集编码方法，包括以下步骤：

步骤1、令视频信号采集模块采集的视频信号中的图像共由m行n列像素呈矩阵形式构成，针对每一个图像像素，由像素坐标值进行定位，如图2所示；

本实施例中，所述步骤2中图像区域坐标值表示为(x1,y1；x2,y2)，(x1,y1；x2,y2)为第x1至x2行及第y1至y2列所包含的图像区域。

如图3所示，本实施例中，所述图像区域中，景物1坐标区域表示为：(x11,y11；x12,y12)，景物2坐标区域为：(x21,y21；x22,y22)，……，景物N坐标区域为：(xN1,yN1；xN2,yN2)；其中语音1坐标为景物1坐标区域内某一具体位置(x1,y1)，(x1,y1)位置视景物1的发声区域而定；语音2坐标为景物2坐标区域内某一具体位置(x2,y2)，(x2,y2)位置视景物2的发声区域而定；语音N坐标为景物N坐标区域内某一具体位置(xN,yN)，(xN,yN)位置视景物N的发声区域而定。

如图1所示，本实施例中，所述视频信号采集模块采集的视频信号包括图像信号、语音信号、同步信号、坐标信号。其中：

1.图像信号：包含图像信息，用以呈现图像；

2.语音信号：包含语音信息，用以呈现语音；

3.同步信号：包含图像信号之行、场同步信息以保证图像正常显示，以及图像与语音同步信息，以保证TV呈现图像时同步播放其对应的语音；

4.坐标信号：包含语音的坐标信息，该坐标信息与图像中景的坐标进行匹配。

坐标信号可独立于图像信号、语音信号、同步信号外而单独作为一类信号存在，也可编入图像信号、语音信号、同步信号任一类信号之中。

如图4所示，一种语音图像采集编码装置，包括视频信号采集模块、图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块、图像景物区域坐标与景物区域音频坐标匹配模块、处理后视频信号播放模块，所述视频信号采集模块输出端与图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块连接，所述图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块输出端与景物区域坐标与景物区域音频坐标匹配模块连接，所述图像景物区域坐标与景物区域音频坐标匹配模块、处理后视频信号播放模块相连接。

本实施例中，所述视频信号采集模块包括图像采集传感器和声音采集传感器。

本实施例中，所述视频信号采集模块采集的图像区域中，景物1坐标区域通过图像景物区域坐标值生成模块生成为：(x11,y11；x12,y12)，景物2坐标区域生成为：(x21,y21；x22,y22)，……，景物N坐标区域生成为：(xN1,yN1；xN2, yN2)；其中语音1坐标为景物1坐标区域内某一具体位置(x1,y1)，(x1,y1)位置通过图像景物区域音频坐标值判断模块判断的景物1的发声区域而定；语音2坐标为景物2坐标区域内某一具体位置(x2,y2)，(x2,y2)位置通过图像景物区域音频坐标值判断模块判断的景物2的发声区域而定；语音N坐标为景物N坐标区域内某一具体位置(xN,yN)，(xN,yN)位置通过图像景物区域音频坐标值判断模块判断的景物N的发声区域而定。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

一种语音图像采集编码方法，其中，包括以下步骤：

步骤1、令视频信号采集模块采集的视频信号中的图像共由m行n列像素呈矩阵形式构成，针对每一个图像像素，由像素坐标值进行定位；

步骤2、当进行拍照时，以图像区域坐标值表示某个图像具体区域，根据视频信号采集模块采集的像素感应信号差异及像素坐标值、图像区域坐标值，来判断图像中景的坐标；

步骤3、将视频信号中语音的坐标信息与图像中景的坐标进行匹配。
如权利要求1所述的一种语音图像采集编码方法，其中，所述步骤2中图像区域坐标值表示为(x1,y1；x2,y2)，(x1,y1；x2,y2)为第x1至x2行及第y1至y2列所包含的图像区域。
如权利要求2所述的一种语音图像采集编码方法，其中，所述图像区域中，景物1坐标区域表示为：(x11,y11；x12,y12)，景物2坐标区域为：(x21,y21；x22,y22)，……，景物N坐标区域为：(xN1,yN1；xN2,yN2)；其中语音1坐标为景物1坐标区域内某一具体位置(x1,y1)，(x1,y1)位置视景物1的发声区域而定；语音2坐标为景物2坐标区域内某一具体位置(x2,y2)，(x2,y2)位置视景物2的发声区域而定；语音N坐标为景物N坐标区域内某一具体位置(xN,yN)，(xN,yN)位置视景物N的发声区域而定。
如权利要求1所述的一种语音图像采集编码方法，其中，所述视频信号采集模块采集的视频信号包括图像信号、语音信号、同步信号、坐标信号。
如权利要求4所述的一种语音图像采集编码方法，其中，所述坐标信号可独立于图像信号、语音信号、同步信号外而单独作为一类信号存在，也可编入图像信号、语音信号、同步信号任一类信号之中。
一种语音图像采集编码装置，其中，包括视频信号采集模块、图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块、图像景物区域坐标与景物区域音频坐标匹配模块、处理后视频信号播放模块，所述视频信号采集模块输出端与图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块连接，所述图像景物区域坐标值生成模块、图像景物区域音频坐标值判断模块输出端与景物区域坐标与景物区域音频坐标匹配模块连接，所述图像景物区域坐标与景物区域音频坐标匹配模块、处理后视频信号播放模块相连接。
如权利要求6所述的一种语音图像采集编码装置，其中，所述视频信号采集模块包括图像采集传感器和声音采集传感器。
如权利要求6所述的一种语音图像采集编码装置，其中，所述视频信号采集模块采集的图像区域中，景物1坐标区域通过图像景物区域坐标值生成模块生成为：(x11,y11；x12,y12)，景物2坐标区域生成为：(x21,y21；x22,y22)，……，景物N坐标区域生成为：(xN1,yN1；xN2,yN2)；其中语音1坐标为景物1坐标区域内某一具体位置(x1,y1)，(x1,y1)位置通过图像景物区域音频坐标值判断模块判断的景物1的发声区域而定；语音2坐标为景物2坐标区域内某一具体位置(x2,y2)，(x2,y2)位置通过图像景物区域音频坐标值判断模块判断的景物2的发声区域而定；语音N坐标为景物N坐标区域内某一具体位置(xN,yN)，(xN,yN)位置通过图像景物区域音频坐标值判断模块判断的景物N的发声区域而定。