WO2021082742A1

WO2021082742A1 - 一种数据显示方法及媒体处理装置

Info

Publication number: WO2021082742A1
Application number: PCT/CN2020/113826
Authority: WO
Inventors: 李波; 李斌斌; 姚亚群; 由佳礼
Original assignee: 华为技术有限公司
Priority date: 2019-10-29
Filing date: 2020-09-07
Publication date: 2021-05-06
Also published as: CN112752130A

Abstract

一种数据显示方法及媒体处理装置，用以解决现有技术中存在的数据显示方式存在的显示位置与观看者的关注焦点不一致的问题，从而提升用户体验。方法包括：确定第一视频帧中的用户感兴趣区域；根据用户感兴趣区域确定第一视频帧中的显示区域，显示区域用于显示第一视频帧对应的待显示数据；将待显示数据对应的图像叠加在显示区域。那么，在第一视频帧中显示待显示数据对应的图像时，显示区域是根据用户感兴趣区域确定的，因而可以在用户感兴趣区域附近显示待显示数据对应的图像，从而更能引起用户关注提升用户体验。

Description

一种数据显示方法及媒体处理装置

相关申请的交叉引用

本申请要求在2019年10月29日提交中国国家知识产权局、申请号为201911040334.0、申请名称为“一种数据显示方法及媒体处理装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及媒体技术领域，尤其涉及一种数据显示方法及媒体处理装置。

背景技术

终端设备在进行媒体文件的播放时，除了显示视频画面以外，有时还需要显示其他数据，例如字幕或图片。以字幕数据为例，在视频画面中显示字幕有助于观看者理解视频的内容，是一种辅助体验的方式。通常，字幕会显示在屏幕上固定的位置(例如显示在屏幕下方)，且文字的字体和颜色通常也是固定的。

随着媒体播放及显示技术的发展，视频画面的分辨率不断提升，终端设备的屏幕尺寸在不断增大。有数据表明，人眼的舒适度可视范围为60度，专注度可视范围为20度。也就是说，人眼的关注范围是有限的。那么，在屏幕尺寸较大的情况下，观看者在观影的同时还要将注意力放在屏幕下方的字幕上，这时观看者可能会错过精彩的画面。尤其是对深度依赖字幕的残障人群来说，在较大的屏幕上观看时，字幕的显示与观看者的关注焦点不一致，会给观看者带来不便，影响用户体验。

综上，现有技术中的数据显示方式存在显示位置与观看者的关注焦点不一致、用户体验差的问题。

发明内容

本申请实施例提供了一种数据显示方法及媒体处理装置，用以解决现有技术中存在的字幕显示方式存在的字幕显示位置与观看者的关注焦点不一致的问题，提升用户体验。

第一方面，本申请实施例提供一种数据显示方法，该方法包括如下步骤：确定第一视频帧中的用户感兴趣区域；根据用户感兴趣区域确定第一视频帧中的显示区域，该显示区域用于显示第一视频帧对应的待显示数据；然后，将待显示数据对应的图像叠加在显示区域。

其中，待显示数据包括字幕数据或图片数据中的至少一项。

采用第一方面提供的数据显示方法，根据第一视频帧中的用户感兴趣区域确定显示区域，可以在用户感兴趣区域附近显示待显示数据对应的图像，使得显示位置与用户关注焦点一致，从而引起用户关注、提升用户体验。

在第一方面提供的数据显示方法中，确定第一视频帧中的用户感兴趣区域可以通过四种方式。

方式一

确定第一视频帧中的用户感兴趣区域，具体通过如下方式实现：分析第一视频帧和第二视频帧，确定第一视频帧中与第二视频帧相比有人物移动的区域；将有人物移动的区域作为用户感兴趣区域。其中，第一视频帧和第二视频帧由同一媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间。

采用上述方案确定用户感兴趣区域，由于人眼关注的焦点通常是画面中运动的地方，因此在此区域附近显示待显示数据容易被用户观察到。

方式二

确定第一视频帧中的用户感兴趣区域，具体通过如下方式实现：对第一视频帧和第二视频帧进行分析，确定第一视频帧中与第二视频帧相比有人物移动的多个区域；将有人物移动的多个区域中面积最大的区域或者人物移动幅度最大的区域作为用户感兴趣区域。其中，第一视频帧和第二视频帧由同一媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间。

若画面中有多个人物移动，那么人物运动幅度和面积最大的区域易被人眼关注，因此采用上述方案确定的用户感兴趣区域是用户在画面中的关注区域。

方式三

确定第一视频帧中的用户感兴趣区域，具体通过如下方式实现：对第一视频帧和第二视频帧进行分析，确定第一视频帧中与第二视频帧相比有人物面部运动的多个区域；将有人物面部运动的多个区域中人物面部运动的幅度最大的区域作为用户感兴趣区域。其中，第一视频帧和第二视频帧由同一媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间。

采用方式三确定用户感兴趣区域时，可以对画面中人物面部运动进行检测，确定第一视频帧与第二视频帧相比人物面部运动幅度比较大的区域，将待显示数据显示在该区域附近，可以将待显示数据与人物对应起来。因此，采用方式三，可以使得确定的用户感兴趣区域更加准确，显示的待显示数据能够精确地跟随画面人物进行移动。

方式四

确定第一视频帧中的用户感兴趣区域，具体通过如下方式实现：接收摄像头输入的坐标信息，该坐标信息用于指示用户观看第一视频帧时的关注区域；根据该坐标信息确定用户感兴趣区域。其中，第一视频帧和第二视频帧由同一媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间。

采用方式四，可以在第一视频帧与第二视频帧相比画面基本未发生变化(相对静止)的情况下捕捉用户的关注区域。当然，方式四所提供的方案也可以适用于其他场景，此处不再赘述。

在一种可能的设计中，在确定用户感兴趣区域之后，还包括：对用户感兴趣区域进行人脸识别和场景识别，确定用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景；将用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景相对应的表情图标叠加在显示区域。

采用上述方案，可以将人物情绪更直观地表现出来，进一步提升用户体验。当然，上述表情图标也可以显示在用户感兴趣区域或者显示在对应的人物或场景的附近，本申请实施例对此不作具体限定。

在一种可能的设计中，根据用户感兴趣区域确定第一视频帧中的显示区域，包括：根据待显示数据的大小确定待显示数据对应的图像的面积；选取用户感兴趣区域周围的多个候选显示区域，多个候选显示区域中的每个候选显示区域的面积均大于或等于待显示数据对应的图像的面积；根据每个候选显示区域的中心点与用户感兴趣区域的中心点之间的距离以及每个候选显示区域内像素的差值算数和，确定多个候选显示区域中的一个候选显示区域为显示区域。

其中，由于待显示数据的类型(文字或图片)的不同，对待显示数据的大小可以有不同的理解。例如，待显示数据为字幕数据等文字数据时，待显示数据的大小可以根据待显示数据包括的文字数量以及字体大小确定；待显示数据为图片数据时，待显示数据的大小可以理解为图片尺寸。

由于显示区域距离用户感兴趣区域(即用户的关注区域)越近，越便于用户观看字幕；候选显示区域的背景颜色越简单、背景颜色差异越小，越便于用户观看待显示数据。因此，采用上述方案，可以综合考虑距离用户感兴趣区域的距离以及候选显示区域的像素差值来选择显示区域。

此外，针对待显示数据为字幕数据等文字数据的情况，在根据用户感兴趣区域确定第一视频帧中的显示区域之后，还包括：确定显示区域内的像素平均值；取像素平均值的反色作为待显示数据的显示颜色。

采用上述方案，取显示区域内的像素平均值的反色作为待显示数据的显示颜色，可以避免待显示数据的颜色与显示区域的颜色混淆，避免字幕显示不清晰以及遮挡画面细节的问题。

在一种可能的设计中，针对待显示数据为字幕数据等文字数据的情况，在将待显示数据对应的图像叠加在显示区域之前，还包括：对待显示数据的语义进行分析，确定待显示数据中的关键词；根据预设配置策略确定关键词在待显示数据对应的图像中的显示方式。

采用上述方案，可以使关键词对用户产生视觉效果上的冲击力，提醒用户注意。

具体地，根据预设配置策略确定关键词在待显示数据对应的图像中的显示方式，可以通过如下方式实现：将关键词在待显示数据对应的图像中加粗显示或通过动画效果显示。

第二方面，本申请实施例提供一种媒体处理装置，该媒体处理装置包括处理器和传输接口；处理器，被配置为通过传输接口调用存储在存储器中的程序代码，以执行如下步骤：确定第一视频帧中的用户感兴趣区域；根据用户感兴趣区域确定第一视频帧中的显示区域，显示区域用于显示第一视频帧对应的待显示数据；将待显示数据对应的图像叠加在显示区域。

其中，待显示数据包括字幕数据或图片数据中的至少一项。

在一种可能的设计中，处理器具体用于：分析第一视频帧和第二视频帧，确定第一视频帧与第二视频帧相比有人物移动的区域，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间；将有人物移动的区域作为用户感兴趣区域。

在另一种可能的设计中，处理器具体用于：分析第一视频帧和第二视频帧，确定第一视频帧与第二视频帧相比有人物移动的多个区域，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间；将有人物移动的多个区域中面积最大的区域或者人物移动幅度最大的区域作为用户感兴趣区域。

在又一种可能的设计中，处理器具体用于：分析第一视频帧和第二视频帧，确定第一视频帧与第二视频帧相比有人物面部运动的多个区域，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间；将有人物面部运动的多个区域中人物面部运动幅度最大的区域作为用户感兴趣区域。

在另一种可能的设计中，处理器具体用于：接收摄像头输入的坐标信息，坐标信息用于指示用户观看第一视频帧时的关注区域；根据坐标信息确定用户感兴趣区域。

在一种可能的设计中，处理器还用于：在确定用户感兴趣区域之后，对用户感兴趣区域进行人脸识别和场景识别，确定用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景；将用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景相对应的表情图标叠加在显示区域。

在一种可能的设计中，处理器具体用于：根据待显示数据的大小确定待显示数据对应的图像的面积；选取用户感兴趣区域周围的多个候选显示区域，多个候选显示区域中的每个候选显示区域的面积均大于或等于待显示数据对应的图像的面积；根据每个候选显示区域的中心点与用户感兴趣区域的中心点之间的距离以及每个候选显示区域内像素的差值算数和，确定多个候选显示区域中的一个候选显示区域为显示区域。

在一种可能的设计中，处理器还用于：在根据用户感兴趣区域确定第一视频帧中的显示区域之后，确定显示区域内的像素平均值；取像素平均值的反色作为待显示数据的显示颜色。

在一种可能的设计中，处理器还用于：在将待显示数据对应的图像叠加在显示区域之前，对待显示数据的语义进行分析，确定待显示数据中的关键词；根据预设配置策略确定关键词在待显示数据对应的图像中的显示方式。

在一种可能的设计中，处理器具体用于：将关键词在待显示数据对应的图像中加粗显示或通过动画效果显示。

第二方面提供的媒体处理装置可用于执行第一方面提供的数据显示方法，第二方面提供的媒体处理装置中未详尽描述的实现方式及技术效果可以参见第一方面提供的数据显示方法中的相关描述，此处不再赘述。

第三方面，本申请实施例还提供一种媒体处理装置，该媒体处理装置包括确定模块和叠加模块；其中，确定模块用于确定第一视频帧中的用户感兴趣区域；根据用户感兴趣区域确定第一视频帧中的显示区域，该显示区域用于显示第一视频帧对应的待显示数据。叠加模块用于将待显示数据对应的图像叠加在显示区域。

其中，待显示数据包括字幕数据或图片数据中的至少一项。

在一种可能的设计中，确定模块具体用于：分析第一视频帧和第二视频帧，确定第一视频帧与第二视频帧相比有人物移动的区域，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间；将有人物移动的区域作为用户感兴趣区域。

在另一种可能的设计中，确定模块具体用于：分析第一视频帧和第二视频帧，确定第一视频帧与第二视频帧相比有人物移动的多个区域，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间；将有人物移动的多个区域中面积最大的区域或者人物移动幅度最大的区域作为用户感兴趣区域。

在又一种可能的设计中，确定模块具体用于：分析第一视频帧和第二视频帧，确定第一视频帧与第二视频帧相比有人物面部运动的多个区域，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间；将有人物面部运动的多个区域中人物面部运动幅度最大的区域作为用户感兴趣区域。

在另一种可能的设计中，确定模块具体用于：接收摄像头输入的坐标信息，坐标信息用于指示用户观看第一视频帧时的关注区域；根据坐标信息确定用户感兴趣区域。

在一种可能的设计中，确定模块还用于：在确定用户感兴趣区域之后，对用户感兴趣区域进行人脸识别和场景识别，确定用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景；叠加模块还用于：将用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景相对应的表情图标叠加在显示区域。

在一种可能的设计中，确定模块具体用于：根据待显示数据的大小确定待显示数据对应的图像的面积；选取用户感兴趣区域周围的多个候选显示区域，多个候选显示区域中的每个候选显示区域的面积均大于或等于待显示数据对应的图像的面积；根据每个候选显示区域的中心点与用户感兴趣区域的中心点之间的距离以及每个候选显示区域内像素的差值算数和，确定多个候选显示区域中的一个候选显示区域为显示区域。

在一种可能的设计中，确定模块还用于：在根据用户感兴趣区域确定第一视频帧中的显示区域之后，确定显示区域内的像素平均值；取像素平均值的反色作为待显示数据的显示颜色。

在一种可能的设计中，确定模块还用于：在叠加模块将待显示数据对应的图像叠加在显示区域之前，对待显示数据的语义进行分析，确定待显示数据中的关键词；根据预设配置策略确定关键词在待显示数据对应的图像中的显示方式。

具体地，确定模块具体用于：将关键词在待显示数据对应的图像中加粗显示或通过动画效果显示。

第三方面提供的媒体处理装置可用于执行第一方面提供的数据显示方法，第三方面提供的媒体处理装置中未详尽描述的实现方式及技术效果可以参见第一方面提供的数据显示方法中的相关描述，此处不再赘述。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有程序指令，当所述程序指令在计算机或处理器上运行时，使所述计算机或处理器执行第一方面或第一方面任意一种实现方式所述的方法。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序在某一计算机或处理器上执行时，将会使该计算机或处理器执行第一方面或第一方面任意一种实现方式所述的方法。

附图说明

图1为现有技术提供的一种媒体处理装置的结构示意图；

图2为本申请实施例提供的一种数据显示方法的流程示意图；

图3为本申请实施例提供的一种用户感兴趣区域的示意图；

图4为本申请实施例提供的第一种显示效果的示意图；

图5为本申请实施例提供的一种第二视频帧和用户感兴趣区域的示意图；

图6为本申请实施例提供的第一种媒体处理装置的结构示意图；

图7为本申请实施例提供的第二种显示效果的示意图；

图8为本申请实施例提供的第二种媒体处理装置的结构示意图；

图9为本申请实施例提供的第三种显示效果的示意图；

图10为本申请实施例提供的第三种媒体处理装置的结构示意图；

图11为本申请实施例提供的第四种显示效果的示意图；

图12为本申请实施例提供的第五种显示效果的示意图；

图13为本申请实施例提供的第五种媒体处理装置的结构示意图；

图14为本申请实施例提供的一种媒体处理装置的结构示意图。

具体实施方式

本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

有数据表明，人眼的舒适度可视范围为60度，专注度可视范围为20度。在屏幕尺寸较大的情况下，若字幕等待显示数据均显示在屏幕上固定的位置，那么显示位置很可能超出人眼的专注度可视范围，甚至超出人眼的舒适度可视范围。这种显示位置与观看者关注焦点不一致的情况，给用户带来较差的观看体验。

下面，以待显示数据为字幕数据为例，对现有技术中的字幕显示技术进行详细说明。

如图1所示，为现有技术中提供的一种媒体处理装置的结构示意图，可选的，该媒体处理装置可以对多媒体文件进行播放相关的处理，该媒体处理装置还可以用于播放媒体文件。在图1所示的媒体处理装置中包括解析器、音频解码器、同步控制模块、视频解码器、视频后处理模块、图像合成模块和字幕渲染模块。其中每个模块可以通过硬件实现，也可以通过软件实现，或者可以通过硬件结合软件实现。例如，视频解码器、字幕渲染模块、视频后处理模块等由硬件逻辑实现，运动区域分析、显示策略处理等模块可以由运行在硬件处理器上的软件代码来实现，音频解码器等其他模块可以通过软件实现。

示例性的，mp4等格式的媒体文件经解析器解析后得到音频编码文件、视频编码文件和字幕数据三部分。其中，音频编码文件可以是音频基本码流(elementary stream，ES)数据，视频编码文件可以是视频ES数据。音频编码文件经音频解码器解码后得到音频数据；字幕数据经字幕渲染处理后得到字幕图像；视频编码文件经视频解码器处理后得到视频帧，然后经视频后处理模块处理之后与字幕图像进行图像合成。此外，同步控制模块还用于将视频后处理得到的图像与音频数据同步，使得音频输出接口的输出和视频输出接口的输出同步，即使得音频输出接口输出的音频与视频输出接口输出的视频画面同步。

示例性的，该媒体处理装置可以为机顶盒、智能电视、智能大屏、移动手机、平板电脑或者其他具有播放显示功能的设备，也可以为机顶盒、显示屏、智能大屏、电视(television，TV)、移动手机或者其他具有播放显示功能的设备中的处理器芯片，示例性地，该处理器芯片器可以是片上系统(system on chip，SoC)或基带芯片。

通过图1所示的媒体处理装置播放媒体文件时，由于字幕渲染时通常将字幕数据设置在屏幕上的固定位置(例如屏幕下方)显示，且字体和颜色通常也是固定的，字幕的显示形式单一，因此观看者难以兼顾视频画面上的关注焦点和字幕，而且若固定位置(例如屏幕下方)的背景色与字幕颜色相近，还会出现观看者难以看清字幕的情况，给用户带来较差的观看体验。

本申请实施例中，主要以视频编码文件和待显示数据(例如，字幕数据)的处理为例进行说明，对音频编码文件的处理可近似类推，不再做详细解释。

为了提升用户体验，解决现有技术中存在的待显示数据的显示位置与观看者的关注焦点不一致的问题，本申请实施例提供一种示例性的数据显示方法及媒体处理装置。在一种可选的情况中，该装置可以为集成芯片。

下面，结合附图对本申请实施例进行详细介绍。

本申请实施例提供一种数据显示方法，如图2所示，该数据显示方法包括如下步骤。

S201：确定第一视频帧中的用户感兴趣区域。

其中，在对视频编码文件进行解码后得到的多个视频帧里，可能所有的视频帧均需要添加字幕，也可能仅有部分视频帧需要添加字幕。第一视频帧为多个视频帧中需要添加字幕的视频帧。

第一视频帧中的用户感兴趣区域为用户观看第一视频帧时的关注区域。具体实现中，由于第一视频帧的画面的不同，用户感兴趣区域可以有不同的理解。

比如，若第一视频帧和第一视频帧之前的视频帧(以下称为第二视频帧)相比仅有一个人物发生移动，那么用户感兴趣区域可以是移动的人物所在的区域，如图3所示，虚线框为第二视频帧中人物所在的位置，实线框为第一视频帧中该人物所在的位置，那么第一视频帧中的实线框的位置可以视为用户感兴趣区域。

比如，若第一视频帧和第二视频帧中均有两个人物，那么用户感兴趣区域可以是第一视频帧与第二视频帧相比动作幅度较大的人物所在的区域。

再比如，若第一视频帧和第二视频帧中有两个人物的面部特写，那么用户感兴趣区域可以是面部运动幅度较大的人物。

又比如，若第一视频帧和第二视频帧相比仅有细小的变化或者没有变化，那么用户感兴趣区域则随用户的审美、习惯、个人喜好等因素而变化。

S202：根据用户感兴趣区域确定第一视频帧中的显示区域。

其中，显示区域用于显示第一视频帧对应的待显示数据。具体地，待显示数据可以是字幕数据等文字数据，也可以是图片数据。比如，在播放视频画面时，可以配以字幕显示，此时待显示数据为字幕数据；再比如，在播放视频画面时，可以在画面中显示文字广告，此时待显示数据为广告数据；又比如，在播放视频画面时，可以在画面中显示另一图片(例如可以是图片广告或者有视频内容相关的图片)，此时待显示数据为图片数据。

在确定用户感兴趣区域之后，可以根据用户感兴趣区域确定第一视频帧中的显示区域。显示区域通常在用户感兴趣区域附近，以便用户在关注用户感兴趣区域的画面的同时，可以方便地看到显示区域中的待显示数据。

具体地，S202中，根据用户感兴趣区域确定第一视频帧中的显示区域，可以通过如下方式实现：根据待显示数据的大小确定待显示数据对应的图像的面积；选取用户感兴趣区域周围的多个候选显示区域，多个候选显示区域中的每个候选显示区域的面积均大于或等于待显示数据对应的图像的面积；根据每个候选显示区域的中心点与用户感兴趣区域的中心点之间的距离以及每个候选显示区域内像素的差值算数和，确定多个候选显示区域中的一个候选显示区域为显示区域。

其中，对每个候选显示区域内像素的差值算数和可以有如下理解：候选显示区域内包括多个像素点，每个像素点可以用一组三原色表示，即用红绿蓝(red green blue，RGB)表示。针对某个候选显示区域，可以计算出每一个像素点与前一个像素点的RGB的差值，将这些差值相加，即可得到候选显示区域内像素的差值算数和。例如，某个候选区域包括1024*1024个像素点，则分别计算第二个像素点与第一个像素点的RGB之差、第三个像素点与第二个像素点的RGB之差……第1024*1024个像素点与第1024*1024-1个像素点的RGB之差。将计算得到的差值相加，即得到该候选显示区域内像素的差值算数和。

其中，每个候选显示区域的面积均大于或等于待显示数据对应的图像的面积，可以使得每个候选显示区域有足够的空间来显示待显示数据对应的图像。

由于待显示数据的类型(文字或图片)的不同，对待显示数据的大小可以有不同的理解。例如，待显示数据为字幕数据等文字数据时，待显示数据的大小可以根据待显示数据包括的文字数量以及字体大小确定；待显示数据为图片数据时，待显示数据的大小可以理解为图片尺寸。

本申请实施例中，根据候选显示区域的中心点与用户感兴趣区域的中心点之间的距离以及候选显示区域内像素的差值算数和来选择显示区域的原因主要是：一、距离用户感兴趣区域(即用户的关注区域)越近，越便于用户观看待显示数据；二、候选显示区域的背景颜色越简单、背景颜色差异越小，越便于用户观看待显示数据。因此，可以综合考虑距离用户感兴趣区域的距离以及区域内的像素差值来选择显示区域。

特别地，对于待显示数据为字幕数据等文字数据的情况，上述确定显示区域的方式可以理解如下：首先，可以根据待显示数据以及预设字体大小确定待显示数据对应的图像的面积(即显示待显示数据所需的显示区域的大小)。然后，在用户感兴趣区域周围选择几个候选显示区域，例如可以选择分别位于用户感兴趣区域的左上角、左下角、右上角、右下角的四个区域为候选显示区域。每个候选显示区域的面积均大于或等于之前计算得到的待显示数据对应的图像的面积。然后综合考虑每个候选显示区域与用户感兴趣区域的距离以及每个候选显示区域的像素差值，选择一个候选显示区域作为显示区域。

示例性地，针对图3所示的用户感兴趣区域，选择的显示区域可以如图4中的b示例所示。在图4的b示例中，将字幕数据“师傅，去哪了”显示在用户感兴趣区域的右上角。此外，图4的a示例中示出了现有技术中的字幕显示方式。通过a示例和b示例的对比可以看出，通过本申请实施例提供的数据显示方法，字幕数据的显示位置与用户感兴趣区域更接近，用户在观看时可以兼顾字幕以及视频画面，提升了用户体验。

此外，对于待显示数据为字幕数据等文字数据的情况，在确定显示区域之后，图2所示方法还可以包括：确定显示区域内的像素平均值；取像素平均值的反色作为待显示数据的显示颜色。

取显示区域内的像素平均值的反色作为待显示数据的显示颜色，可以避免待显示数据的颜色与显示区域的颜色混淆，避免文字显示不清晰以及遮挡画面细节的问题。示例性地，黑色像素值为0，白色像素值为255，若确定显示区域内的像素平均值为50，则待显示数据的显示颜色可以的像素值可以取255-50＝205。

其中，显示区域内的像素平均值的反色可以理解如下：如前所述，每个像素点均可以用RGB表示。那么对于显示区域内包括的多个像素点，可以分别求取多个像素点的RGB平均值。得到RGB平均值后，可以用最大像素值减去RGB平均值，即得到像素平均值的反色。其中，最大像素值根据位宽确定，例如显示系统采用8比特位宽，那么最大像素值为2 ⁸-1＝255。

示例性地，显示区域的RGB平均值为：R＝10、G＝20、B＝30，且显示系统采用8比特位宽，那么像素平均值的反色为R＝245、G＝235、B＝225对应的颜色。

下面示例性地给出确定显示区域的一个具体示例。以用户感兴趣区域为长方形为例，对应的，用户感兴趣区域可以用x、y、w、h四个参数表示，其中x表示用户感兴趣区域的一个顶点在第一视频帧中的横坐标，y表示该顶点在第一视频帧中的纵坐标，w表示用户感兴趣区域的宽，h表示用户感兴趣区域的高。需要说明的是，该顶点的坐标所在坐标系的坐标原点为第一视频帧的某个顶点，示例性地，可以将第一视频帧左上角的顶点视为坐标原点，那么x、y、w、h的含义可以如图5所示。

具体地，确定显示区域的步骤可以如下。

(1)获取用户感兴趣区域、第一视频帧的宽和高、第一视频帧的画面以及待显示数据之后，可以根据预设字体大小以及待显示数据确定显示待显示数据需要的面积S。

(2)在用户感兴趣区域周围(上、下、左、右)选取面积为S的四个区域S1、S2、S3、S4。

(3)计算用户感兴趣区域的中心T与S1、S2、S3和S4的中心之间的距离，分别得到L1、L2、L3和L4。

(4)计算S1、S2、S3和S4区域中画面的纹理复杂度，即计算S1、S2、S3和S4区域内像素的差值算数和，分别得到W1、W2、W3和W4。

(5)选择显示区域。具体地，采用公式Ln*A+Wn*B＝Yn计算得到权重因子Yn，取S1、S2、S3和S4中对应权重因子Yn最小的区域作为显示区域Sx。其中，A和B为预设的系数，n为编号，取值为1～4，Ln为步骤(3)中计算得到的L1、L2、L3和L4，Wn为步骤(4)中计算得到的W1、W2、W3和W4。

(6)计算Sx区域的像素平均值，取其反色作为待显示数据的显示颜色。

S203：将待显示数据对应的图像叠加在显示区域。

如图1所示的媒体处理装置中所述，字幕数据经字幕渲染后得到字幕图像，然后与视频帧进行图像合成后输出。同样地，对于待显示数据来说，无论待显示数据是文字还是图片，均可以经过渲染后形成图像，并叠加在第一视频帧中的显示区域(即对渲染后的图像与第一视频帧进行图像合成)。

具体地，对待显示数据进行渲染的步骤与现有技术中进行字幕渲染的步骤类似，不同之处在于，在图2所示的方法中，需要将待显示数据渲染在S202中确定的显示区域。值得注意的是，若待显示数据为字幕数据等文字数据，字体颜色等可以根据前述取反色的方式确定。此外，待显示数据对应的图像中的文字的字体类型也可以根据需求设置。

以上是对整个数据显示方法的流程介绍。如前所述，S201中确定用户感兴趣区域的方式有多种。下面以待显示数据为字幕数据为例，给出几种确定用户感兴趣区域的具体方式。

方式一

在方式一中，确定第一视频帧中的用户感兴趣区域，可以通过如下方式实现：分析第一视频帧和第二视频帧，确定第一视频帧中与第二视频帧相比有人物移动的区域；将有人物移动的区域作为用户感兴趣区域。

其中，第一视频帧和第二视频帧由媒体文件解码得到，第一视频帧的播放时间早于第二视频帧的播放时间。

实际应用中，对视频编码文件进行解码的操作可以由图1中的视频解码器实现。具体地，对视频编码文件进行解码后可以得到多个视频帧，第一视频帧和第二视频帧是多个视频帧中的两帧，且第二视频帧的播放时间早于第一视频帧的播放时间。示例性地，第二视频帧和第一视频帧可以是在播放时间上相邻的两帧。

方式一适用于第一视频帧和第二视频帧中均只有一个人物的场景。若视频画面中仅有一个人物，用户的关注焦点则会集中在人物的移动上，那么可以将有人物移动的区域作为用户感兴趣区域。采用方式一确定的用户感兴趣区域可以如图3所示。其中，虚线框为第二视频帧中人物所在的位置，实线框为第一视频帧中该人物所在的位置，那么第一视频帧中的实线框的位置可以视为用户感兴趣区域。具体实现时，用户感兴趣区域可以用前述x、y、w、h四个参数表示。

具体实现时，可以在图1所示的媒体处理装置中加入运动区域分析模块来实现方式一所述的确定用户感兴趣区域的方法，在图1所示的媒体处理装置中加入显示策略处理模块来确定显示区域。那么，本申请实施例提供的媒体处理装置的结构示意图可以如图6所示。在图6所示的媒体处理装置中，通过运动区域分析模块确定用户感兴趣区域的参数x、y、w、h(即运动坐标)，显示策略处理模块根据运动区域分析模块的输出x、y、w、h以及其他信息(例如第一视频帧的视频宽高)确定显示区域，字幕渲染模块可以在显示区域中进行字幕渲染。

其中，第一视频帧的视频宽高在确定显示区域时的作用可以理解如下：第一视频帧的视频宽高是在确定候选显示区域时用到的，因为候选显示区域需要一定的面积来显示待显示数据对应的图像，候选显示区域是不能超出第一视频帧的视频宽高范围的，比如用户感兴趣区域在第一视频帧的画面右上角，用户感兴趣区域的右边或上边已经没有太大的区域，那么根据第一视频帧的视频宽高可以确定候选显示区域不能选在用户感兴趣区域的右边或上边，从而避免候选显示区域超出第一视频帧的视频画面。

需要说明的是，在图6所示的媒体处理装置中仅示出了视频编码文件和字幕数据的处理，媒体处理装置中与音频处理有关的模块并未在图6中示出。

采用方式一确定用户感兴趣区域，由于人眼关注的焦点通常是画面中运动的地方，因此在此区域附近显示字幕容易被用户观察到。

方式二

在方式二中，确定第一视频帧中的用户感兴趣区域，可以通过如下方式实现：分析第一视频帧和第二视频帧，确定第一视频帧中与第二视频帧相比有人物移动的多个区域；将有人物移动的多个区域中面积最大的区域或者人物移动幅度最大的区域作为用户感兴趣区域。其中，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间。

方式二与方式一应用的场景类似，不同之处在，方式二中有多个人物移动，那么人物运动幅度和面积最大的区域易被人眼关注，可以选择人物运动幅度和面积最大的区域作为用户感兴趣区域。

方式三

在方式三中，确定第一视频帧中的用户感兴趣区域，可以通过如下方式实现：分析第一视频帧和第二视频帧，确定第一视频帧中与第二视频帧相比有人物面部运动的多个区域；将有人物面部运动的多个区域中人物面部运动的幅度最大的区域作为用户感兴趣区域。其中，第一视频帧和第二视频帧由媒体文件解码得到，第二视频帧的播放时间早于第一视频帧的播放时间。

方式三适用于有多个人物对话的场景。在这种场景下，可以对人物面部进行人工智能(artificial intelligence，AI)分析，例如运用多层神经网络人脸识别模型，对画面中人物面部运动进行检测，确定第一视频帧与第二视频帧相比人物面部运动幅度比较大的区域，将字幕显示在该区域附近，即相当于将字幕与人物对应起来，将人物说的话用字幕的形式显示在人物周围。因此，采用方式三，可以使得确定的用户感兴趣区域更加准确，显示的字幕能够精确地跟随画面人物进行移动。

采用方式三确定用户感兴趣区域后进行字幕显示时，字幕显示效果可以如图7中的b示例所示。在图7的b示例中，人物所说的语言通过字幕的形式显示在人物周围。此外，图7的a示例中示出了现有技术中的字幕显示方式。通过a示例和b示例的对比可以看出，通过方式三中的用户感兴趣区域确定方法，显示的字幕能够精确地跟随画面人物进行移动，便于用户理解，提升用户体验。

需要说明的是，针对有多个人物进行对话的视频画面，每个人物所说的话可以视为一组字幕数据，每一组字幕数据均可以根据本申请实施例提供的数据显示方法显示。值得注意的是，实际应用中，每一组字幕数据并不只在一个视频帧中显示，而是配置有一定的显示时间，也就是说，在采用图2所示方法确定显示区域后，在第一视频帧之后的多个视频帧中，这一组字幕数据均在同样的显示区域显示。那么，针对有多个人物进行对话的视频画面，就可能出现一个视频帧中有多组字幕的情况(例如图7的b示例)。

以图7的b示例为例，假设视频帧1、视频帧2、视频帧3….视频帧64为时间上连续播放的64个视频帧。针对“陈师傅快点回来，脚站软了”这一组字幕数据，可以通过对比视频帧2和视频帧1来确定其显示区域。若“陈师傅快点回来，脚站软了”这一组字幕数据的显示时间持续63帧，则在视频帧2～视频帧64中，相应显示区域内均显示这一组字幕数据。

在播放至视频帧55时，需要添加“老板，我马上把文件送上来，您稍等”这一组字幕数据，那么，可以通过对比视频帧55和视频帧54来确定其显示区域。若“老板，我马上把文件送上来，您稍等”这一组字幕数据的显示时间持续10帧，则在视频帧55～视频帧64中，相应显示区域内均显示这一组字幕数据。那么，对于视频帧55～视频帧64，则会同时显示上述两组字幕数据，如图7的b示例所示。

具体实现时，可以在图1所示的媒体处理装置中加入AI人物识别模块来实现方式三所述的确定用户感兴趣区域的方法，在图1所示的媒体处理装置中加入显示策略处理模块来确定显示区域。那么，本申请实施例提供的媒体处理装置的结构示意图可以如图8所示。在图8所示的媒体处理装置中，通过AI人物识别模块确定用户感兴趣区域的参数x、y、w、h(即人物坐标)，显示策略处理模块根据AI人物识别模块确定的参数x、y、w、h确定显示区域，字幕渲染模块可以在显示区域中进行字幕渲染。

需要说明的是，在图8所示的媒体处理装置中仅示出了视频编码文件和字幕数据的处理，与音频处理有关的模块并未在图8中示出。

方式四

在方式四中，确定第一视频帧中的用户感兴趣区域，可以通过如下方式实现：接收摄像头输入的坐标信息，该坐标信息用于指示用户观看第一视频帧时的关注区域；根据坐标信息确定用户感兴趣区域。示例性的，该摄像头可以是外接摄像头。

方式四适用于任何场景，尤其适用于第一视频帧与第二视频帧相比画面基本未发生变化(相对静止)的情况，这种情况下用户感兴趣区域随用户的审美、习惯、个人喜好等因素而变化，此时可以通过摄像头捕捉用户的关注区域，将用户的关注区域定义为用户感兴趣区域。

需要说明的是，在方式四中，摄像头具有眼球追踪功能，可以捕捉到眼球的关注区域。应当理解，方式四中的摄像头可以为外接摄像头，也可以为显示设备中集成的摄像头，在一种可能的实施方式中，也可以通过其他眼球追踪设备实现上述捕捉眼球关注区域的功能。

采用方式四确定用户感兴趣区域后进行字幕显示时，字幕显示效果可以如图9所示。在图9中，字幕数据(即“十五分钟之后”)显示在眼球关注区域，便于用户观看字幕。

具体实现时，可以在图1所示的媒体处理装置中加入眼球追踪模块来实现方式四所述的确定用户感兴趣区域的方法，在图1所示的媒体处理装置中加入显示策略处理模块来确定显示区域。那么，本申请实施例提供的媒体处理装置的结构示意图可以如图10所示。在图10所示的媒体处理装置中，通过眼球追踪模块确定眼球的关注区域(参数x、y、w、h)作为用户感兴趣区域，显示策略处理模块根据眼球追踪模块输出的参数x、y、w、h确定显示区域，字幕渲染模块可以在显示区域中进行字幕渲染。

需要说明的是，在图10所示的媒体处理装置中仅示出了视频编码文件和字幕数据的处理，与音频处理有关的模块并未在图10中示出。

当然，实际应用中，确定用户感兴趣区域的方式并不限于以上列举的四种。比如，若第一视频帧和第二视频帧中没有人物出现或者人物没有发生移动，那么可以通过对比第一视频帧和第二视频帧确定第一视频帧与第二视频帧相比画面发生变化的区域，将此区域定义为用户感兴趣区域。本申请实施例中对确定用户感兴趣区域的具体方式不做限定。

此外，在图2所示的数据显示方法中，在执行S201确定用户感兴趣区域之后，还可以对用户感兴趣区域进行人脸识别和场景识别，确定用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景；然后，将用户感兴趣区域内人物的情绪以及用户感兴趣区域的场景相对应的表情图标叠加在显示区域。

具体地，可以使用AI神经网络模型对当前的场景(例如雨、雪、阴天、晴天、城市、乡村)和人物情绪(例如喜、怒、哀、乐)进行分析，再匹配表情(emoji)图标，并选择能够表现出当前人物情绪的字体和颜色，跟随运动人物进行显示。

比如，当AI分析出人物面带微笑输出“高兴”，可以在人物附近弹出笑脸的图片；当AI分析出人物面带怒意输出“愤怒”，可以在人物附近弹出生气的图片；当AI分析出人物面带悲伤输出“悲伤”，可以在人物附近弹出哭泣的图片；当AI分析出场景是“下雨”，可以在场景附近弹出下雨的图片；当AI分析出场景是“晴天”，可以在场景附近弹出太阳的图片；当AI分析出场景是“夜晚”，可以在场景附近弹出月亮的图片。

示例性地，采用如上人脸识别和场景识别方式后，显示效果可以如图11所示。在图11的示例中，在“车门锁住了，砸不开”这一待显示数据的显示区域内显示相应的哭泣图标，以表达人物情绪。从图11可以看出，采用上述方式，可以将人物情绪更直观地表现出来，进一步提升用户体验。

以上示例介绍的是将表情图标叠加在显示区域。当然，表情图标也可以叠加在用户感兴趣区域中或者显示在对应的人物或场景的附近，本申请实施例对此不作具体限定。

具体实现时，可以在图8所示的媒体处理装置的AI人物识别模块中加入表情识别和场景识别的功能，以实现上述方案。

此外，对于待显示数据为文字的情况下，还可以对待显示数据的语义进行分析，确定待显示数据中的关键词；然后，根据预设配置策略确定关键词在待显示数据对应的图像中的显示方式。具体地，可以将关键词在待显示数据对应的图像中加粗显示或通过动画效果显示。

具体地，可以使用神经网络模块对待显示数据的语义和关键字进行分析检测，使用最能体现出字幕语义的显示策略进行渲染显示，使其能够对用户体验有冲击力，带来良好的用户体验。

比如，前述预设配置策略可以是：动词、相声词类的关键字(如:救命、滚、砰…)可以进行标红加粗、添加动画效果等醒目提示；名称类关键词可以使用小图片替换文字，比如电话用电话的图片替换、足球用足球的图片替换、雨伞用雨伞的图片替换、玫瑰花用花朵的图片替换等。

示例性地，采用如上关键词分析方式后，显示效果可以如图12所示。在图12中，“砰”和“救命”这两个关键词加粗显示，且添加了爆破的动画效果。从图12可以看出，采用上述方式，可以使关键词对用户产生视觉效果上的冲击力，提醒用户注意。

具体实现时，可以在图1所示的媒体处理装置中加入关键词分析模块来实现上述方案，如图13所示。通过AI综合识别模块确定用户感兴趣区域，通过关键字分析模块对待显示数据进行关键词分析，通过显示策略处理模块来确定显示区域，通过字幕渲染模块进行关键词效果、字体大小、字体颜色等渲染。同样地，在图13所示的媒体处理装置中仅示出了视频编码文件和待显示数据的处理，与音频处理有关的模块并未在图13中示出。

需要说明的是，图6、图8、图10、图13中均示出了本申请实施例提供的媒体处理装置的结构示意图。其中的各个模块可以通过软件实现，也可以通过硬件实现，或者通过软件与硬件相结合的方式实现。特别地，对于运动区域分析模块、AI人物识别模块、眼球追踪模块以及AI综合识别模块，可以将这些模块全部集成在媒体处理装置中(例如通过软件方式将这些模块集成)，也可以根据需求集成上述模块中的部分模块。本申请实施例对此不作限定。

综上，采用本申请实施例提供的数据显示方法，根据第一视频帧中的用户感兴趣区域确定待显示数据的显示区域，可以将待显示数据显示在用户感兴趣区域附近，使得显示位置与用户关注焦点一致，从而提升用户体验。

基于同一发明构思，本申请实施例还提供另一种示例性的媒体处理装置，该媒体处理装置可用于执行图2所示的数据显示方法。示例性的，该媒体处理装置可以为处理器芯片，该处理器芯片可以是机顶盒、显示屏、智能大屏、TV、移动手机或者其他具有显示功能的设备中的芯片处理器，例如可以是SoC或基带芯片。

如图14所示，该媒体处理装置1400包括处理器1401和传输接口1402。传输接口1402可以为单向通信接口或者双向通信接口，以及可以用于例如发送和接收消息来建立连接、确认和交换任何其它与通信链路和/或例如经图像处理的图片数据和/或与数据传输有关的信息。示例性的，传输接口可以包括发送接口和接收接口，示例性的，传输接口可以为根据任何专有或标准化接口协议的任何类别的接口，例如高清晰度多媒体接口(high definition multimedia interface，HDMI)、移动产业处理器接口(Mobile Industry Processor Interface，MIPI)、MIPI标准化的显示串行接口(Display Serial Interface，DSI)、视频电子标准协会(Video Electronics Standards Association，VESA)标准化的嵌入式显示端口(Embedded Display Port，eDP)、Display Port(DP)或者V-By-One接口，V-By-One接口是一种面向图像传输开发的数字接口标准，以及各种有线或无线接口、光接口等。

具体地，处理器1401被配置为通过传输接口1402调用存储在存储器中的程序代码，以执行图2所示的数据显示方法。

在一种可能的实施方式中，媒体处理装置1400中还可以包括存储器，该存储器中存储有上述程序代码。

需要说明的是，媒体处理装置1400可用于执行图2所示的数据显示方法，媒体处理装置1400中未详尽描述的实现方式可参见图2所示的数据显示方法中的相关描述，此处不再赘述。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种数据显示方法，其特征在于，包括：

确定第一视频帧中的用户感兴趣区域；

根据所述用户感兴趣区域确定所述第一视频帧中的显示区域，所述显示区域用于显示所述第一视频帧对应的待显示数据；

将所述待显示数据对应的图像叠加在所述显示区域。
如权利要求1所述的方法，其特征在于，所述确定第一视频帧中的用户感兴趣区域，包括：

分析所述第一视频帧和第二视频帧，确定所述第一视频帧与所述第二视频帧相比有人物移动的区域，所述第一视频帧和所述第二视频帧由媒体文件解码得到，所述第二视频帧的播放时间早于所述第一视频帧的播放时间；

将所述有人物移动的区域作为所述用户感兴趣区域。
如权利要求1所述的方法，其特征在于，所述确定第一视频帧中的用户感兴趣区域，包括：

分析所述第一视频帧和第二视频帧，确定所述第一视频帧与第二视频帧相比有人物移动的多个区域，所述第一视频帧和所述第二视频帧由媒体文件解码得到，所述第二视频帧的播放时间早于所述第一视频帧的播放时间；

将所述有人物移动的多个区域中面积最大的区域或者人物移动幅度最大的区域作为所述用户感兴趣区域。
如权利要求1所述的方法，其特征在于，所述确定第一视频帧中的用户感兴趣区域，包括：

分析所述第一视频帧和第二视频帧，确定所述第一视频帧与第二视频帧相比有人物面部运动的多个区域，所述第一视频帧和所述第二视频帧由媒体文件解码得到，所述第二视频帧的播放时间早于所述第一视频帧的播放时间；

将所述有人物面部运动的多个区域中人物面部运动幅度最大的区域作为所述用户感兴趣区域。
如权利要求1～4任一项所述的方法，其特征在于，在确定所述用户感兴趣区域之后，还包括：

对所述用户感兴趣区域进行人脸识别和场景识别，确定所述用户感兴趣区域内人物的情绪以及所述用户感兴趣区域的场景；

将所述用户感兴趣区域内人物的情绪以及所述用户感兴趣区域的场景相对应的表情图标叠加在所述显示区域。
如权利要求1～5任一项所述的方法，其特征在于，根据所述用户感兴趣区域确定所述第一视频帧中的显示区域，包括：

根据所述待显示数据的大小确定所述待显示数据对应的图像的面积；

选取所述用户感兴趣区域周围的多个候选显示区域，所述多个候选显示区域中的每个候选显示区域的面积均大于或等于所述待显示数据对应的图像的面积；

根据所述每个候选显示区域的中心点与所述用户感兴趣区域的中心点之间的距离以及所述每个候选显示区域内像素的差值算数和，确定所述多个候选显示区域中的一个候选显示区域为所述显示区域。
如权利要求1～6任一项所述的方法，其特征在于，在根据所述用户感兴趣区域确定所述第一视频帧中的显示区域之后，还包括：

确定所述显示区域内的像素平均值；

取所述像素平均值的反色作为所述待显示数据的显示颜色。
如权利要求1～7任一项所述的方法，其特征在于，在将所述待显示数据对应的图像叠加在所述显示区域之前，还包括：

对所述待显示数据的语义进行分析，确定所述待显示数据中的关键词；

根据预设配置策略确定所述关键词在所述待显示数据对应的图像中的显示方式。
如权利要求8所述的方法，其特征在于，根据预设配置策略确定所述关键词在所述待显示数据对应的图像中的显示方式，包括：

将所述关键词在所述待显示数据对应的图像中加粗显示或通过动画效果显示。
如权利要求1～9任一项所述的方法，其特征在于，所述确定第一视频帧中的用户感兴趣区域，包括：

接收摄像头输入的坐标信息，所述坐标信息用于指示用户观看所述第一视频帧时的关注区域；

根据所述坐标信息确定所述用户感兴趣区域。
如权利要求1～10任一项所述的方法，其特征在于，所述待显示数据包括：字幕数据或图片数据中的至少一项。
一种媒体处理装置，其特征在于，包括：处理器和传输接口；

所述处理器，被配置为通过所述传输接口调用存储在存储器中的程序代码，以执行如下步骤：

确定第一视频帧中的用户感兴趣区域；

根据所述用户感兴趣区域确定所述第一视频帧中的显示区域，所述显示区域用于显示所述第一视频帧对应的待显示数据；

将所述待显示数据对应的图像叠加在所述显示区域。
如权利要求12所述的装置，其特征在于，所述处理器具体用于：

分析所述第一视频帧和第二视频帧，确定所述第一视频帧与第二视频帧相比有人物移动的区域，所述第一视频帧和所述第二视频帧由媒体文件解码得到，所述第二视频帧的播放时间早于所述第一视频帧的播放时间；

将所述有人物移动的区域作为所述用户感兴趣区域。
如权利要求12所述的装置，其特征在于，所述处理器具体用于：

分析所述第一视频帧和第二视频帧，确定所述第一视频帧与第二视频帧相比有人物面部运动的多个区域，所述第一视频帧和所述第二视频帧由媒体文件解码得到，所述第二视频帧的播放时间早于所述第一视频帧的播放时间；

将所述有人物面部运动的多个区域中人物面部运动幅度最大的区域作为所述用户感兴趣区域。
如权利要求12～14任一项所述的装置，其特征在于，所述处理器还用于：

在确定所述用户感兴趣区域之后，对所述用户感兴趣区域进行人脸识别和场景识别，确定所述用户感兴趣区域内人物的情绪以及所述用户感兴趣区域的场景；

将所述用户感兴趣区域内人物的情绪以及所述用户感兴趣区域的场景相对应的表情图标叠加在所述显示区域。
如权利要求12～15任一项所述的装置，其特征在于，所述处理器具体用于：

根据所述待显示数据的大小确定所述待显示数据对应的图像的面积；

选取所述用户感兴趣区域周围的多个候选显示区域，所述多个候选显示区域中的每个候选显示区域的面积均大于或等于所述待显示数据对应的图像的面积；

根据所述每个候选显示区域的中心点与所述用户感兴趣区域的中心点之间的距离以及所述每个候选显示区域内像素的差值算数和，确定所述多个候选显示区域中的一个候选显示区域为所述显示区域。
如权利要求12～16任一项所述的装置，其特征在于，所述待显示数据包括：字幕数据或图片数据中的至少一项。
一种媒体处理装置，其特征在于，包括：

确定模块，用于确定第一视频帧中的用户感兴趣区域；根据所述用户感兴趣区域确定所述第一视频帧中的显示区域，所述显示区域用于显示所述第一视频帧对应的待显示数据；

叠加模块，用于将所述待显示数据对应的图像叠加在所述显示区域。
如权利要求18所述的装置，其特征在于，所述确定模块具体用于：

分析所述第一视频帧和第二视频帧，确定所述第一视频帧与第二视频帧相比有人物移动的区域，所述第一视频帧和所述第二视频帧由媒体文件解码得到，所述第二视频帧的播放时间早于所述第一视频帧的播放时间；

将所述有人物移动的区域作为所述用户感兴趣区域。
如权利要求18或19所述的装置，其特征在于，所述待显示数据包括：字幕数据或图片数据中的至少一项。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，当所述程序指令在计算机或处理器上运行时，使所述计算机或处理器执行权利要求1至11任一项所述的方法。