WO2020057249A1

WO2020057249A1 - 图像处理方法、装置、系统、网络设备、终端及存储介质

Info

Publication number: WO2020057249A1
Application number: PCT/CN2019/097355
Authority: WO
Inventors: 吴钊; 李明; 吴平
Original assignee: 中兴通讯股份有限公司
Priority date: 2018-09-19
Filing date: 2019-07-23
Publication date: 2020-03-26
Also published as: EP3855750A4; CN110933461B; KR20210059759A; EP3855750A1; CN115883882A; JP7425788B2; CN110933461A; US12058446B2; KR102649812B1; JP2022501902A; US20220053127A1

Abstract

本发明实施例提供一种图像处理方法、装置、系统、网络设备、终端及存储介质，通过获取用于指示视频图像中感兴趣区域之间的合成显示方式的合成指示信息；基于所述合成指示信息生成所述视频图像的媒体流；也即将该合成指示信息写入到视频图像的码流中，实现在存在多个(至少两个)ROI时视频图像的编码过程。

Description

图像处理方法、装置、系统、网络设备、终端及存储介质

交叉引用

本发明要求在2018年9月19日提交中国专利局、申请号为201811095593.9、发明名称为“图像处理方法、装置、系统、网络设备、终端及存储介质”的中国专利申请的优先权，该申请的全部内容通过引用结合在本发明中。

技术领域

本发明实施例涉及但不限于图像编解码技术领域，具体而言，涉及但不限于一种图像处理方法、装置、系统、网络设备、终端及存储介质。

背景技术

时下数字媒体技术快速发展，硬件性能成倍提高，网络带宽大大增加，网速提升，移动设备数量成几何式增长，给视频应用提供了发展的契机。视频应用正逐步从单视点、低分辨率、低码率向多视点、高分辨率、高码率方向迅速发展，以给用户提供全新的视频内容类型和视频呈现特性，以及更好地临场感和观看体验。

360度全景视频(以下简称全景视频)作为一种全新的视频内容类型，用户可以根据主观需求，任意选择某个视角进行观看，从而实现360度的全方位观看。尽管目前网络性能和硬件处理性能较高，但是用户数量的剧增以及全景视频数据量巨大，还是有必要在保证用户观看体验的前提下，降低网络以及硬件资源占用。

目前，感兴趣区域(Region Of Interest,以下简称ROI)技术可以根据用户喜好对全景视频进行截取显示，不必对全部的全景视频进行处理，但是相关技术中ROI一般只有一个，只能有限地展现全景视频中的部分图像，无法满足用户观看多个ROI的需求。因此，存在多个ROI时如何实现编码，以指示各个ROI的合成显示，亟待解决。

发明内容

本发明实施例提供的图像处理方法、装置、系统、网络设备、终端及存储介质，主要解决的技术问题是存在多个ROI时，如何实现编码。

为解决上述技术问题，本发明实施例提供一种图像处理方法，包括：

获取用于指示视频图像中感兴趣区域之间的合成显示方式的合成指示信息；

基于所述合成指示信息生成所述视频图像的媒体流。

本发明实施例还提供一种图像处理方法，包括：

接收视频图像的视频流以及描述数据；

从所述描述数据中解析得到感兴趣区域的合成指示信息；

根据所述合成指示信息控制所述视频流中感兴趣区域图像的合成播放显示。

本发明实施例还提供一种图像处理方法，包括：

网络侧获取用于指示视频图像中各所述感兴趣区域的合成显示方式的合成指示信息，基于所述合成指示信息生成所述视频图像的媒体流，并将媒体流发送给目标节点；

所述目标节点接收所述媒体流，从所述媒体流中解析得到感兴趣区域的合成指示信息，根据所述合成指示信息控制所述媒体流中视频流的播放显示。

本发明实施例还提供一种图像处理装置，包括：

获取模块，用于获取用于指示视频图像中各所述感兴趣区域的合成显示方式的合成指示信息；

处理模块，用于基于所述合成指示信息生成所述视频图像的媒体流。

本发明实施例还提供一种图像处理装置，包括：

接收模块，用于接收视频图像的视频流以及描述数据；

解析模块，用于从所述描述数据中解析得到感兴趣区域的合成指示信息；

控制模块，用于根据所述合成指示信息控制所述视频流中感兴趣区域图像的合成播放显示。

本发明实施例还提供一种图像处理系统，包括如上所述的两种图像处理装置。

本发明实施例还提供一种网络设备，包括第一处理器、第一存储器及第一通信总线；

所述第一通信总线用于实现第一处理器和第一存储器之间的连接通信；

所述第一处理器用于执行第一存储器中存储的一个或者多个计算机程序，以实现如上任一项所述的图像处理方法的步骤。

本发明实施例还提供一种终端，包括第二处理器、第二存储器及第二通信总线；

所述第二通信总线用于实现第二处理器和第二存储器之间的连接通信；

所述第二处理器用于执行第二存储器中存储的一个或者多个计算机程序，以实现如上所述的图像处理方法的步骤。

本发明实施例还提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的图像处理方法的步骤。

本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本发明说明书中的记载变的显而易见。

附图说明

图1为本发明实施例一的图像处理方法流程示意图；

图2为本发明实施例一的ROI图像拼接指示示意图一；

图3为本发明实施例一的ROI图像拼接指示示意图二；

图4为本发明实施例一的ROI图像拼接指示示意图三；

图5为本发明实施例一的ROI图像拼接指示示意图四；

图6为本发明实施例一的ROI图像拼接指示示意图五；

图7为本发明实施例一的ROI图像融合指示示意图一；

图8为本发明实施例一的ROI图像融合指示示意图二；

图9为本发明实施例一的ROI图像重叠区域示意图；

图10为本发明实施例一的ROI图像嵌套指示示意图；

图11为本发明实施例一的ROI图像透明通道处理示意图；

图12为本发明实施例一的ROI图像坐标位置示意图；

图13为本发明实施例一的ROI图像视频流生成示意图一；

图14为本发明实施例一的ROI图像视频流生成示意图二；

图15为本发明实施例二的图像处理方法流程示意图；

图16为本发明实施例三的图像处理方法流程示意图；

图17为本发明实施例四的图像处理装置结构示意图；

图18为本发明实施例五的图像处理装置结构示意图；

图19为本发明实施例六的图像处理系统结构示意图；

图20为本发明实施例七的网络设备结构示意图；

图21为本发明实施例八的终端结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

为了实现视频图像中存在多个ROI时如何进行编码，以满足用户同时对多个ROI进行观看的需求，本发明实施例提供一种图像处理方法，主要应用于网络侧设备、编码器等，包括但不限于服务器、基站等设备，参见图1，包括如下步骤：

S101、获取用于指示视频图像中感兴趣区域之间的合成显示方式的合成指示信息。

在对视频图像进行编码时，获取合成指示信息，用于指示视频图像中ROI之间的合成显示方式。应当理解，当该视频图像不存在或者未划分ROI时，则不存在获取该合成指示信息的过程。只有当存在多个ROI时，才获取相应的合成指示信息。在只存在一个ROI的情形下，也可以采用本方案，控制该一个ROI的显示。

可选的，在编码过程中，可以先确定视频图像中存在ROI时，再获取相应的合成指示信息，用于指示该ROI的合成显示方式。

对于ROI，包括但不限于通过如下方式设定：

1、可以预先通过图像处理、ROI识别等技术对视频图像进行分析，再通过分析结果，划分出全景视频中的特定内容或特定空间位置，从而形成不同的ROI。例如，足球比赛过程中，使用一个相机单独对球的运动轨迹进行追踪拍摄，将其作为ROI；或者通过ROI识别技术对拍摄的视频图像中特定目标(例如某个球员)进行识别追踪，形成ROI。

2、根据用户需求或者预先设定信息，对视频图像进行手动划分特定内容或者特定空间位置，从而形成不同的感兴趣区域。

3、在视频图像播放过程中，收集用户感兴趣区域信息，根据这些信息自动划分出全景视频中的特定内容或特定空间位置，从而形成不同的感兴趣区域。

4、用户观看视频图像的过程中自行选定感兴趣区域。

S102、基于所述合成指示信息生成所述视频图像的媒体流。

基于获取到的合成指示信息生成该视频图像的媒体流。也即，将该合成指示信息进行了编码，写入到了该视频图像的码流中，从而生成该视频图像的媒体流。对于播放设备而言，可以解码该媒体流，至少可以对该视频图像中各ROI进行合成并显示播放。

对于合成指示信息，包括如下至少一种指示信息：

用于指示将感兴趣区域进行拼接显示的第一指示信息、用于指示将感兴趣区域进行融合显示的第二指示信息、用于指示将感兴趣区域进行嵌套显示的第三指示信息、用于指示将感兴趣区域进行缩放显示的第四指示信息、用于指示将感兴趣区域进行旋转显示的第五指示信息、用于指示将感兴趣区域进行截取显示的第六指示信息。

其中，第一指示信息用于指示将各ROI进行拼接，所谓拼接，也即两个ROI之间相邻且不重叠。可以参见图2，A、B、C、D区域是视频图像中的四个感兴趣区域，它们的尺寸一致，可按照它们在全景图出现的位置拼接起来。

可选的，如图3所示，A、B、C、D区域可以按照随意位置，或者指定位置拼接起来。

可选的，如图4所示，A、B、C、D区域尺寸可以不一致。

可选的，如图5所示，A、B、C、D区域位置可以随意安排，同时尺寸也不一致。

可选的，如图6所示，A、B、C、D区域拼接后可以形成非矩形的任意形状。

第二指示信息用于指示将各ROI进行融合，融合使两个ROI之间存在部分重叠区域，但并非将其中一个ROI完全叠加到另一个ROI上。可以参见图7，A、B、C、D区域是视频图像中的四个感兴趣区域，它们以特定范围的区域重叠融合在一起。

可选的，如图8所示，四个感兴趣区域合成显示方式可以是按照固定覆盖顺序进行像素的直接覆盖，叠加的顺序是A→B→C→D，因此，最后覆盖的D是没有被其他三个ROI覆盖的。

可选的，对于融合所产生的重叠部分区域，其像素值可以采用如下方式处理：如图9所示，四个ROI不同区域的重叠部分像素计算生成新的像素值。比如，所有像素均值，或者不同区域像素设置不同的权值，或者根据特征匹配方法计算得到新的像素值，获得自然的图像融合效果。其中，特征匹配方法计算新的像素值，通常应用于视频处理能力较强的网络侧设备，以尽量获取最好的融合效果，对于终端侧理论上也适用，只是对于终端性能要求较高。

第三种指示信息用于指示将ROI进行嵌套显示，嵌套显示为将其中一个ROI完全重叠在另一个ROI之上。可以参见图10，A、B区域是视频图像中的两个感兴趣区域，将B完全重叠在A之上，嵌套在一起，嵌套的位置可以根据实际需要设定，比如根据图像画面大小，将图像画面相对较小的ROI重叠在相对较大的ROI之上，或者根据用户定制。

第四种指示信息用于指示将ROI进行缩放，缩放即改变图像的大小。包括缩放比例值，例如缩放比例值为2时，可以指示对ROI对角线长度放大为原来的2倍。

第五种指示信息用于指示对ROI进行旋转，包括旋转类型以及旋转角度，其中旋转类型包括但不限于水平旋转、垂直旋转。

第六指示信息用于指示对感兴趣区域进行截取显示，参见图11，A、B区域是视频图像中的两个感兴趣区域，将B区域中圆形区域进行截取，可采用Alpha透明通道实现。可选的，还可以将截取出的B与A进行嵌套，以合成该图像。

在实际应用中，通常可以结合上述六种指示信息中的多种，以对相应的ROI进行合成处理，以更好地满足用户对多个ROI的观看需求。

本实施例中，可以采用H.264/AVC标准、H.265/HEVC(High Efficiency Video Coding,高效视频编码)标准对视频图像进行编码。在进行编码的过程中，将获取的合成指示信息写入到视频图像的码流中。

在本发明的其他示例中，还可以获取该视频图像中相应ROI的特征信息，基于上述获取到的合成指示信息以及该特征信息，生成该视频图像的媒体流。也即同时将上述合成指示信息以及特征信息写入到视频图像的码流中。

其中，生成的媒体流中，至少包括如下两部分：描述数据和视频流。本实施例中，是将获取到的合成指示信息以及特征信息写入到该描述数据中。应当说明的是，描述数据主要用于指示对视频流进行解码，实现视频图像的播放。描述数据中可以包含如下信息中的至少一种：例如时间同步信息、文本信息以及其他关联信息等。

还需说明的是，描述数据作为视频图像的一部分，可选的，存在如下两种形式：一是，可以以码流的形式与视频流一起编码，也即属于视频流中的部分数据；也可以与视频流单独编码，与视频流分离。

ROI特征信息包括位置信息和/或编码质量指示信息；其中位置信息包括ROI特定位置的坐标信息、以及ROI的长度值和宽度值。特定位置可以是ROI区域的四个角中其中任意一个角的位置，例如左上角的像素点、右下角的像素点；还是可以ROI区域的中心点的位置。而编码质量指示信息可以是编码过程所采用编码质量等级，不同的编码质量指示信息表征不同的编码质量等级，通过不同的编码质量等级进行编码后，所产生的图像画质也就不同。例如，编码质量指示信息可以是“1”、“2”、“3”、“4”、“5”、“6”，不同的数值代表不同的编码质量等级，例如编码质量指示信息为“1”时，表示采用低质量编码；相对的，当编码质量指示信息为“2”时，表示采用相对于“1”较好的中质量编码；数值越大，编码质量依次递增。

在本发明的其他示例中，ROI位置信息也可以通过如下方式表征：参见图12，ROI区域121的上侧边位于视频图像的第300行，下侧边位于视频图像的第600行，左侧边位于视频图像的第500列，右侧边位于视频图像的第800列。也即通过ROI区域所处行列位置标识其位置信息。对于1920*1080的图像区域，左上角的像素点位置为(0,0)，右下角的像素点位置为(1919,1079)。涉及二维或三维图像区域，可使用笛卡尔坐标系，也可使用其它非笛卡尔的曲线坐标系，例如柱面、球面或者极坐标系。

应当理解，ROI的长度值，以上述图12为，上下侧边的长度，也即左右侧边的距离可以作为ROI的长度值，即800-500＝300像素点，而600-300＝300像素点，可以作为ROI的宽度值。反之亦可。

将ROI的合成指示信息以及特征信息参见如下表1所示：

表1

table_id：表的标识符；

version：版本信息；

length：长度信息；

roi_num：含有感兴趣区域的个数；

(roi_position_x，roi_position_y，roi_position_z)：感兴趣区域在视频图像中的坐标信息；

roi_width：感兴趣区域宽度；

roi_height：感兴趣区域高度；

roi_quality：感兴趣区域质量信息；

relation_type：感兴趣区域的合成指示信息，0为拼接，1为嵌入，2为融合；

(roi_new_position_x，roi_new_position_y，roi_new_position_z)：感兴趣区域在新图像中的坐标信息；

scale：感兴趣区域缩放比例；

rotation：感兴趣区域旋转角度；

flip：感兴趣区域翻转，0为水平翻转，1为垂直翻转；

alpha_flag：透明通道标识符，0为不存在透明通道信息，1为存在透明通道信息；

alpha_info()：透明通道信息，与感兴趣区域结合(截取)产生新的图像；

filter_info()：当relation_type为融合方式，则可以指出融合区域的滤波方式，比如均值，中值等；

user_data()：用户信息。

将上述包含ROI合成指示信息以及特征信息的roi_info_table写入到视频图像的描述数据中，对于描述数据，可选的，包括如下至少一种：补充增强信息(Supplemental Enhancement Information，SEI)、视频可用性信息(Video Usability Information，VUI)、系统层媒体属性描述单元。

将roi_info_table写入视频码流中的补充增强信息中，具体示例可以如下表2所示的结构。

表2

roi_info_table包含了相应ROI的相关信息(合成指示信息、特征信息等)，将其写入到补充增强信息中，可以从SEI信息中获取标识信息为ROI_INFO的信息。相当于将ROI_INFO的信息作为SEI信息的标识信息。

将roi_info_table写入视频可用性信息中，具体示例可以参见如下表3所示的结构。

表3

表3中roi_info_flag取值等于1时，表示后续有ROI信息。roi_info_table() 也即是上述表1中roi_info_table数据结构，包含了ROI相关信息。可以从VUI信息中获取标识信息为roi_info_flag为1的感兴趣区域信息。

将roi_info_table写入系统层媒体属性描述单元，其中系统层媒体属性描述单元包括但不限于传输流的描述子、文件格式的数据单元(例如Box中)、传输流的媒体描述信息(例如媒体呈现描述(Media Presentation Description，MPD)等信息单元)。

将ROI合成指示信息以及特征信息写入到SEI中，还可以进一步结合其时域运动受限瓦片集合(temporal Motion-Constrained Tile Sets，MCTS)，可选的，将ROI的相关信息与使用H.265/HEVC标准的时域运动受限瓦片集合结合。将ROI的合成指示信息与瓦片紧密结合，可以在不增加单独编解码ROI数据的基础上，灵活提取所需瓦片数据，这样可以满足用户的不同需求，更有利于应用中与用户互动。如下表4所示。

表4

其中，roi_info_flag：0表示不存在感兴趣区域的相关信息，1表示存在感兴趣区域的相关信息。

roi_info的一个实例如下表5所示。

表5

length：长度信息；

roi_num：含有感兴趣区域的个数；

(roi_pos_x，roi_pos_y)：感兴趣区域在分片组(Slice Group)或者在瓦片Tile中的坐标信息；

roi_width：感兴趣区域宽度；

roi_height：感兴趣区域高度；

roi_quality：感兴趣区域质量信息；

relation_type：感兴趣区域的关联关系，0为拼接，1为嵌入，2为融合；

(roi_new_pos_x，roi_new_pos_y)：感兴趣区域在新图像中的坐标信息；

scale：感兴趣区域缩放比例；

rotation：感兴趣区域旋转角度；

flip：感兴趣区域翻转，0为水平翻转，1为垂直翻转；

alpha_info()：透明通道信息，可以与感兴趣区域结合生产新的图像；

filter_info()：当relation_type为融合方式，则可以指出融合区域的滤波方式，比如均值，中值等。

对于媒体流中所包含的视频流，包含视频图像数据。其中生成该视频流的过程包括：获取该视频图像的感兴趣区域，将同一图像帧中各感兴趣区域的关联图像，划分在至少一个分片单元中进行独立编码，以生成该视频图像的第一视频流。

参见图13所示，获取视频图像的第一帧图像，确定该第一帧图像中各ROI的关联图像，假设该视频图像存在两个ROI，分别为ROI131和ROI132，且该第一帧图像中假设存在ROI131的关联图像A1，以及ROI132的关联图像B1，此时将ROI131的关联图像A1划分在至少一个分片单元中进行独立编码，同时将ROI132的关联图像B1划分在至少一个分片单元中进行独立编码；或者将关联图像A1和关联图像B1两者划分在至少一个分片单元中进行独立编码；并对该视频图像的其它所有帧进行串行或并行的方式，执行与第一帧图像相似的步骤，直到完成对该视频图像全部图像帧的编码，以生成该第一视频流。

例如将关联图像A1划分为一个分片单元a11进行独立编码，将关联图像B1划分为两个分片单元，分别为b11和b12进行独立编码。

对于视频图像中除ROI关联图像外的其他区域133，可以采用现有任意编码方式进行编码，可以是独立编码，也可以是非独立编码。最终生成的第一视频流中，至少包括各ROI的全部独立编码的分片单元。对于接收端而言，当用户只需要观看ROI图像时，可以只提取第一视频流中ROI对应的分片单元(而不需要提取全部的分片单元)，并对该分片单元进行独立解码，而不需要依赖其他分片即可完成解码，降低对接收端解码性能的要求。

根据需要，还可以只对视频图像中ROI关联图像进行编码，对于除关联图像外的其他区域则不进行编码处理，或者将关联图像与其他区域单独进行编码。

分片单元包括H.264/AVC标准的分片Slice、H.265/HEVC标准的瓦片Tile等。

对于媒体流中的视频流，还可以是第二视频流，其中生成该第二视频流的过程如下：将各关联图像按照合成指示信息进行合成后作为一张待处理图像帧，将待处理图像帧划分在至少一个分片单元中进行编码，以生成感兴趣区域的第二视频流。

参见图14，与第一视频流不同的是，第二视频流是，视频图像的同一图像帧中ROI(图14中包括ROI141和ROI142)的关联图像(分别为C1和D1)，先按照合成指示信息进行合成，这里假设为拼接合成，再将合成后的图像作为一张待处理图像帧E1，然后将该待处理图像帧E1划分在至少一个分片单元(例如e11)中进行编码；编码方式在此可以采用独立编码，也可以采用非独立编码，或者其他编码方式。将该视频图像中的其他图像帧也采用上述方式进行处理，各图像帧可以通过并行或串行方式处理。从而生成该第二视频流。

第二视频流对于解码端而言，可以采用常用的解码方式进行处理，解码后可直接得到合成后的ROI图像，不必再对ROI关联图像进行合并处理，这种编码方式有利于降低解码端的处理负荷，提高解码效率。但是需要在编码时先进行合成处理。

在本发明的其他示例中，网络侧或者编码端可以对同一视频图像，生成上述两种视频流。

对于生成的媒体流，可以进行存储，也可发送给相应的目标节点。例如，在接收到目标节点对视频图像的获取请求时，触发将该媒体流发送给该目标节点。可选的，解析获取请求所指示获取内容的标识信息，根据该标识信息将该媒体流发送给目标节点。

可选的，在标识信息为第一标识时，将第一视频流以及描述数据发送给目标节点；例如，服务器端接收到终端对视频图像的请求，根据该请求将该视频图像的媒体流(包括第一视频流以及描述数据)发送给终端。终端可以解码该媒体流以完整播放该视频图像。当然，终端也可解码该媒体流，提取其中感兴趣区域所在可独立编码分片单元数据，结合描述数据，以对该感兴趣区域图像进行播放显示。

在标识信息为第二标识时，提取第一视频流中感兴趣区域的分片单元(并不进行解码操作)以及所述描述数据，发送给目标节点；例如，可以是服务器端收到终端对感兴趣区域的请求，服务器端根据请求信息找到对应感兴趣区域所在可独立编码分片单元数据，抽取后加上感兴趣区域的相关信息(合成指示信息以及特征信息等)或者修改后的感兴趣区域信息，生成新的码流发送给终端。避免将全部码流发送给终端，降低网络带宽占用以及传输延时。

在标识信息为第三标识时，将第二视频流以及所述描述数据发送给目标节点。例如，服务器还可以根据终端发送的请求，选择将该视频图像的第二视频流以及描述数据发送给终端，终端对其进行解码后可直接得到合成好的ROI图像，不必再根据描述数据中的合成指示信息对ROI进行合成处理，有利于降低终端资源占用，提升终端处理效率。

在本发明的其他示例中，视频图像可以是360度全景视频，立体视频等。当视频图像为立体视频时，ROI的相关信息(包括合成指示信息以及特征信息等)可同时适用于左右视场。

本发明实施例提供的图像处理方法，通过将合成指示信息写入到视频图像码流中，用于指示视频图像中ROI图像的合成显示，实现了视频图像中存在多个ROI的编码过程，满足了用户同时观看多个ROI图像的观看需求。

通过对ROI图像进行独立编码，可以使解码端进行独立解码，而无需依赖其他分片实现解码，在媒体流发送方式上，可以选择提取其中ROI所在可独立解码分片单元数据发送给终端，而不必将全部分片数据发送给终端，因此有利于降低网络带宽占用，提高传输效率以及解码效率。

实施例二：

本发明实施例在实施例一的基础上，提供一种图像处理方法，主要应用于终端、解码器等，包括但不限于移动电话机、个人计算机等。参见图15，该图像处理方法包括如下步骤：

S151、接收视频图像的视频流以及描述数据。

S152、从描述数据中解析得到感兴趣区域的合成指示信息。

根据描述数据的不同类型，也即ROI相关信息放置的不同位置，如SEI、VUI、MPD等，提取感兴趣区域信息的合成指示信息。其中，合成指示信息的描述请参见实施例一，在此不再赘述。可选的，还可以从描述数据中获取ROI的特征信息，包括位置信息以及编码质量指示信息等。

根据上述ROI的相关信息，获取ROI图像数据，也即视频流数据。

S153、根据合成指示信息控制视频流中感兴趣区域图像的合成播放显示。

根据合成指示信息，将ROI图像进行合成后播放显示。

在本发明的其他示例中，在接收视频图像的视频流以及描述数据之前，还包括向网络侧(或者编码端)发送获取请求，所述获取请求中还可以设置用于指示获取内容的标识信息，从而获取到不同的视频流。

例如，将标识信息设置为第一标识时，可以用于指示获取相应视频图像的第一视频流以及描述数据；将标识信息设置为第二标识时，可以用于指示获取相应视频图像的第一视频流中感兴趣区域的分片单元以及描述数据；将标识信息设置为第三标识时，可以用于指示获取相应视频图像的第二视频流以及描述数据。

当获取请求不同时，接收到网络侧发送的媒体流则不相同，后续处理过程也存在相应区别。例如，当获取请求中标识信息为第一标识时，将获取到相应视频图像的第一视频流以及描述数据，此时可以将第一视频流以及描述数据进行解码，得到该视频图像的完整图像，还可以对该完整图像进行播放。或者，提取第一视频流中ROI图像的可独立编码分片单元数据，根据描述数据中的ROI合成指示信息，对该ROI图像进行合成后播放显示。

当获取请求中标识信息为第二标识时，将获取到相应视频图像的ROI所在可独立解码分片单元以及描述数据，此时终端可以直接对该ROI可独立解码分片单元进行解码操作，根据描述数据中合成指示信息对该ROI图像进行合成后，播放显示。

当获取请求中标识信息为第三标识时，将获取到相应视频图像的第二视频流以及描述数据，此时终端可以直接采用常规解码方式对其进行解码，得到合成后的ROI图像，然后进行播放显示。

应当理解，获取请求并不限于包含用于指示获取内容的标识信息，还应当包括其他必要信息，例如本端及对端的地址信息、所请求获取的视频图像的识别信息、验证信息等。

实施例三：

本发明实施例在实施例一和/或实施例二的基础上，提供一种图像处理方法，主要应用于包括网络侧和终端侧的系统，参见图16，该图像处理方法主要包括如下步骤：

S161、网络侧获取用于指示视频图像中各感兴趣区域的合成显示方式的合成指示信息。

S162、网络侧基于合成指示信息生成视频图像的媒体流。

S163、网络侧将媒体流发送给目标节点。

S164、目标节点接收媒体流。

S165、目标节点从媒体流中解析得到感兴趣区域的合成指示信息。

S166、目标节点根据合成指示信息控制媒体流中视频流的播放显示。

具体请参见实施例一和/或实施例二中的相关描述，在此不再赘述。

应当理解的是，网络侧所生成的媒体流与网络侧发送给目标节点的媒体流可以相同，也可以存在区别。如实施例一和/或实施例二所述，网络侧可以根据目标节点的获取请求，灵活选择发送给目标节点的视频流，而并非特定的视频流。因此，可以将网络侧生成的媒体流作为第一媒体流，而将发送给目标节点的媒体流作为第二媒体流，以便于区别。

实施例四：

本发明实施例在实施例一的基础上，提供一种图像处理装置，用于实现如实施例一所述的图像处理方法的步骤。参见图17，该图像处理装置包括：

获取模块171，用于获取用于指示视频图像中各所述感兴趣区域的合成显示方式的合成指示信息；处理模块172，用于基于合成指示信息生成视频图像的媒体流。其中图像处理方法的具体步骤请参见实施例一中的描述，在此不再赘述。

实施例五：

本发明实施例在实施例二的基础上，提供一种图像处理装置，用于实现如实施例二所述的图像处理方法的步骤。参见图18，该图像处理装置包括：

接收模块181，用于接收视频图像的视频流以及描述数据；

解析模块182，用于从描述数据中解析得到感兴趣区域的合成指示信息；

控制模块183，用于根据合成指示信息控制视频流中感兴趣区域图像的播放显示。

其中图像处理方法的具体步骤请参见实施例二中的描述，在此不再赘述。

实施例六：

本发明实施例在实施例三的基础上，提供一种图像处理系统，包括如实施例四的图像处理装置191以及如实施例五中所述的图像处理装置192，参见图19。该图像处理系统用于实现如实施例三中所述的图像处理方法。

其中图像处理方法的具体步骤请参见实施例三中的描述，在此不再赘述。

实施例七：

本发明实施例在实施例一的基础上，提供一种网络设备，参见图20，包括第一处理器201、第一存储器202及第一通信总线203；

其中第一通信总线203用于实现第一处理器201和第一存储器202之间的连接通信；

所述第一处理器201用于执行第一存储器202中存储的一个或者多个计算机程序，以实现如实施例一中所述的图像处理方法的步骤。具体请参见实施例一中的描述，在此不再赘述。

实施例八：

本发明实施例在实施例二的基础上，提供一种终端，参见图21，包括第二处理器211、第二存储器及212第二通信总线213；

其中，第二通信总线213用于实现第二处理器211和第二存储器212之间的连接通信；

所述第二处理器211用于执行第二存储器212中存储的一个或者多个计算机程序，以实现如实施例二中所述的图像处理方法的步骤。具体请参见实施例二中的描述，在此不再赘述。

实施例九：

本发明实施例在实施例一、二的基础上，提供一种存储介质，该存储介质可为计算机可读存储介质，该存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如实施例一或实施例二中所述的图像处理方法的步骤。

具体请参见实施例一、二中的描述，在此不再赘述。

该存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例还提供了一种计算机程序(或称计算机软件)，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述实施例一和/或实施例二中的图像处理方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

本发明的有益效果是：

根据本发明实施例提供的图像处理方法、装置、系统、网络设备、终端及存储介质，通过获取用于指示视频图像中感兴趣区域之间的合成显示方式的合成指示信息；基于所述合成指示信息生成所述视频图像的媒体流；也即将该合成指示信息写入到视频图像的码流中，实现在存在多个(至少两个)ROI时视频图像的编码过程，在视频播放时，可以基于该合成指示信息控制各ROI的合成显示播放，可满足用户同时对多个ROI进行观看的需求，在某些实施过程中可实现包括但不限于上述技术效果。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

一种图像处理方法，其特征在于，包括：

获取用于指示视频图像中感兴趣区域之间的合成显示方式的合成指示信息；

基于所述合成指示信息生成所述视频图像的媒体流。
如权利要求1所述的图像处理方法，其特征在于，所述图像处理方法还包括：获取各所述感兴趣区域的特征信息；

所述基于所述合成指示信息生成所述视频图像的媒体流包括：基于所述合成指示信息以及所述特征信息，生成所述视频图像的媒体流。
如权利要求1所述的图像处理方法，其特征在于，所述合成指示信息包括如下至少一种：用于指示将所述感兴趣区域进行拼接显示的第一指示信息、用于指示将所述感兴趣区域进行融合显示的第二指示信息、用于指示将所述感兴趣区域进行嵌套显示的第三指示信息、用于指示将所述感兴趣区域进行缩放显示的第四指示信息、用于指示将所述感兴趣区域进行旋转显示的第五指示信息、用于指示将所述感兴趣区域进行截取显示的第六指示信息。
如权利要求2所述的图像处理方法，其特征在于，所述特征信息包括位置信息和/或编码质量指示信息；所述位置信息包括所述感兴趣区域特定位置的坐标信息、以及所述感兴趣区域的长度值和宽度值。
如权利要求2所述的图像处理方法，其特征在于，所述媒体流包括描述数据；所述基于所述合成指示信息以及所述特征信息，生成所述视频图像的媒体流包括：

将所述合成指示信息以及所述特征信息写入到所述描述数据中，以生成所述媒体流。
如权利要求5所述的图像处理方法，其特征在于，所述描述数据包括如下至少一种：补充增强信息、视频可用性信息、系统层媒体属性描述单元。
如权利要求5所述的图像处理方法，其特征在于，所述媒体流还包括视频流，所述图像处理方法还包括：

获取所述视频图像的所述感兴趣区域，将同一图像帧中各所述感兴趣区域的关联图像，划分在至少一个分片单元中进行独立编码，以生成所述视频图像的第一视频流。
如权利要求7所述的图像处理方法，其特征在于，所述图像处理方法还包括：将各所述关联图像按照所述合成指示信息进行合成后作为一张待处理图像帧，将所述待处理图像帧划分在至少一个分片单元中进行编码，以生成所述感兴趣区域的第二视频流。
如权利要求8所述的图像处理方法，其特征在于，图像处理方法还包括：将媒体流进行存储或发送给目标节点。
如权利要求9所述的图像处理方法，其特征在于，所述将所述媒体流发送给目标节点之前，还包括：接收到所述目标节点对所述视频图像的获取请求。
如权利要求10所述的图像处理方法，其特征在于，所述将所述媒体流发送给目标节点包括：解析所述获取请求所指示获取内容的标识信息，根据所述标识信息将所述媒体流发送给所述目标节点。
如权利要求11所述的图像处理方法，其特征在于，所述根据所述标识信息将所述媒体流发送给所述目标节点包括：

在所述标识信息为第一标识时，将所述第一视频流以及所述描述数据发送给所述目标节点；

在所述标识信息为第二标识时，提取所述第一视频流中感兴趣区域的分片单元以及所述描述数据，发送给所述目标节点；

在所述标识信息为第三标识时，将所述第二视频流以及所述描述数据发送给所述目标节点。
如权利要求1-12任一项所述的图像处理方法，其特征在于，所述视频图像为全景视频图像。
一种图像处理方法，其特征在于，包括：

接收视频图像的视频流以及描述数据；

从所述描述数据中解析得到感兴趣区域的合成指示信息；

根据所述合成指示信息控制所述视频流中感兴趣区域图像的合成播放显示。
一种图像处理方法，其特征在于，包括：

网络侧获取用于指示视频图像中各所述感兴趣区域的合成显示方式的合成指示信息，基于所述合成指示信息生成所述视频图像的媒体流，并将媒体流发送给目标节点；

所述目标节点接收所述媒体流，从所述媒体流中解析得到感兴趣区域的合成指示信息，根据所述合成指示信息控制所述媒体流中视频流的播放显示。
一种图像处理装置，其特征在于，包括：

获取模块，用于获取用于指示视频图像中各所述感兴趣区域的合成显示方式的合成指示信息；

处理模块，用于基于所述合成指示信息生成所述视频图像的媒体流。
一种图像处理装置，其特征在于，包括：

接收模块，用于接收视频图像的视频流以及描述数据；

解析模块，用于从所述描述数据中解析得到感兴趣区域的合成指示信息；

控制模块，用于根据所述合成指示信息控制所述视频流中感兴趣区域图像的合成播放显示。
一种图像处理系统，其特征在于，包括：如权利要求16所述的图像处理装置以及如权利要求17所述的图像处理装置。
一种网络设备，其特征在于，包括第一处理器、第一存储器及第一通信总线；

所述第一通信总线用于实现第一处理器和第一存储器之间的连接通信；

所述第一处理器用于执行第一存储器中存储的一个或者多个计算机程序，以实现如权利要求1至13中任一项所述的图像处理方法的步骤。
一种终端，其特征在于，包括：第二处理器、第二存储器及第二通信总线；

所述第二通信总线用于实现第二处理器和第二存储器之间的连接通信；

所述第二处理器用于执行第二存储器中存储的一个或者多个计算机程序，以实现如权利要求14中所述的图像处理方法的步骤。
一种存储介质，其特征在于，所述存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如权利要求1至13中任一项，或如权利要求14中所述的图片处理方法的步骤。