WO2018196614A1

WO2018196614A1 - 图片转码方法、计算设备及存储介质

Info

Publication number: WO2018196614A1
Application number: PCT/CN2018/082626
Authority: WO
Inventors: 刘海军; 王诗涛; 罗斌姬; 黄晓政
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-04-26
Filing date: 2018-04-11
Publication date: 2018-11-01
Also published as: TWI669947B; CN108810537A; CN108810537B; TW201907714A

Abstract

本申请实施例公开了图片转码方法、计算设备及存储介质。其中一种图片转码方法，应用于计算设备，所述方法包括：对目标图片进行解码；在依据解码结果确定所述目标图片为自然图片时，采用有损压缩方式进行转码，并对相应的转码结果进行视频编码；在依据解码结果确定所述目标图片为非自然图片时，采用无损压缩方式进行转码，并对相应的转码结果进行视频编码。

Description

图片转码方法、计算设备及存储介质

本申请要求于2017年04月26日提交中国专利局、申请号为201710283315.5、申请名称为“一种图片转码方法、装置及图像处理设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理领域，特别涉及图片转码方法、计算设备及存储介质。

背景技术

随着移动互联网的发展，终端设备的下载流量大幅增长，用户下载流量中，图片消耗的流量占据很大比例。大量的图片传输给网络带来了很大的承载压力。目前在网络中传输的主流图片格式包括：JPEG(Joint Photographic Experts Group，联合图像专家小组，是第一个国际图像压缩标准)、PNG(Portable Network Graphic Format，图像文件存储格式)、GIF(Graphics Interchange Format，图像互换格式)等。

对于以上提到的JPEG、PNG以及GIF格式图片，目前对图片的转码方案存在压缩效率不高的问题，或者，导致有效信息过量丢失的问题。

发明内容

本申请实施例提供了一种图片转码方案，能够在保留图片必要的有效信息的前提下提升图片压缩效率。

根据本申请一方面，提供一种图片转码方法，应用于计算设备，所述方法包括：对目标图片进行解码；在依据解码结果确定所述目标图片为自然图片时，采用有损压缩方式进行转码，并对相应的转码结果进行视频编码；在依据解码结果确定所述目标图片为非自然图片时，采用无损压缩方式进行转码，并对相应的转码结果进行视频编码。

根据本申请一方面，提供一种图片转码方法，应用于计算设备，所述方法包括：对目标图片进行高频分量检测，获得所述目标图片的高频分量；在目标图片的高频分量小于第一阈值时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；在所述目标图片的高频分量大于第二阈值的情况下，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。

根据本申请一方面，提供一种图片转码方法，应用于计算设备，所述方法包括：获取目标图片；在确定所述目标图片包含文本信息时，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；以及在确定所述目标图片未包含文本信息时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。

根据本申请一方面，提供一种计算设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：对目标图片进行解码；在依据解码结果确定所述目标图片为自然图片时，采用有损压缩方式进行转码，并对相应的转码结果进行视频编码；在依据解码结果确定所述目标图片为非自然图片时，采用无损压缩方式进行转码，并对相应的转码结果进行视频编码。

根据本申请一方面，提供一种计算设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：对目标图片进行高频分量检测，获得所述目标图片的高频分量；在目标图片的高频分量小于第一阈值时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；在所述目标图片的高频分量大于第二阈值的情况下，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。

根据本申请一方面，提供一种计算设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：获取目标图片；在确定所述目标图片包含文本信息时，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；以及在确定所述目标图片未包含文本信息时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。

根据本申请一方面，提供一种非易失性存储介质，存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据本申请的图片转码的指令。

从以上技术方案可以看出，本申请实施例具有以下优点：将目标图片的类型分为自然图片和非自然图片；其中，非自然图片由于包含较多的高频分量，使用较低比率的压缩方式则可以尽量保留有效信息；自然图片会具有较少的高频分量，可以使用更高压缩比率达到更高的压缩效率；因此，采用本申请实施例的方案可以在保留目标图片必要的有效信息的前提下提升图片压缩效率。

附图简要说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A示出了根据本申请一些实施例的应用场景的示意图；

图1B为本申请实施例转码系统的系统架构图；

图2A为本申请实施例目标图片的示意图；

图2B为本申请实施例目标图片的示意图；

图2C为本申请实施例目标图片的示意图；

图3为本申请实施例方法流程示意图；

图4为本申请实施例装置结构示意图；

图5为本申请实施例装置结构示意图；

图6为本申请实施例计算设备结构示意图；

图7为本申请实施例图像处理设备结构示意图；

图8示出根据本申请一些实施例的图片转码方法800的示意图。

实施本申请的方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部份实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

图1A示出了根据本申请一些实施例的应用场景的示意图。如图1A所示，应用场景包括终端设备110和服务系统120。终端设备110例如可以是台式电脑、移动电话、平板电脑等各种设备。服务系统120可以包括一个或多个服务器，本申请对此不做限制。这里，终端设备110例如可以包括社交类、新闻类等各种应用，例如，QQ空间、腾讯体育、天天快报、QQ浏览器等等。服务系统120可以是社交类和新闻类等各种应用后台，例如，社交平台服务器或者即时通讯服务器等等。终端设备110可以通过网络130与服务系统120通信。终端设备110可以从服务系统120下载图片，也可以向服务系统120上传图片。本申请提出了图片转码方案。在一个实施例中，图片转码方案可以应用在终端设备110中。在又一个实施例中，图片转码方案可以应用在服务系统120中。为了简化描述，本申请实施例可以将终端设备110和服务系统统称为计算设备。

图1B示出了根据本申请实施例转码系统的架构图。图1B所示的转码系统例如可以驻留在终端设备110或者服务系统120中。图1B所示转码系统包含如下几个部分：图片解码器、信源选择器、信源转换器以及视频编码器。以上各部分可以通过总线连接，其中，图片解码器负责对输入到转码系统的目标图片进行解码，并将解码后的数据发送给信源选择器。信源选择器依据解码后的数据进行判决，确定是使用有损压缩还是无损压缩，然后由信源转换器将解码后的数据转为相应的YUV格式的数据。信源转换器将YUV格式的数据发给视频编码器。后续流程依视频编码的流程，在此不再赘述。

本申请实施例提供了一种图片转码方法。该图片转码方法可以在计算设备110或者服务系统120中执行。，该方法包括：

101A：在确定目标图片为自然图片的情况下，采用有损压缩方式对目标图片进行转码，并对相应的转码结果进行视频编码；

102A：在确定上述目标图片为非自然图片的情况下，采用无损压缩方式对目标图片进行转码，并对相应的转码结果进行视频编码。

可以理解的是，以上步骤101A和步骤102A并不具有逻辑先后次序，并且以上两个步骤在执行过程中会择一执行，也就是说并不会同时都执行。因为，这取决于目标图像是自然图片还是非自然图片。自然图片和非自然图片，是基于图片的生成方式进行的分类，自然图片是自然生成的图片，例如：相机拍摄的照片和自然风光图像等。换言之，自然图片来源于图像采集设备所拍摄的图像。非自然图片通常是人参与生成或者计算设备渲染生成的图片，例如：即时通讯界面的截图、游戏画面等；即时通讯界面的截图和游戏画面可以既包含人参与的部分，也包含计算设备渲染生成的部分。换言之，非自然图片由计算设备渲染而成。更具地，以游戏画面为例，即时对战游戏中，玩家之间会使用文字进行交流，其中文字部分是人参与的部分；其他部分则是计算设备依计算机程序指令绘制的而成的图片内容。可以理解的是，除了即时通讯界面的截图，这里非自然图片还可以是整个桌面或者其他应用界面的截图。除了游戏画面，非自然图片还可以是其他任意由计算机绘制的图片。以上关于自然图片和非自然图片的举例不应理解为对本申请实施例的唯一性限定。另外，在本实施例中，目标图片是输入到转码系统的图片，该图片的格式可以是任意的图片格式；例如：JPEG、PNG以及GIF格式，或者其他格式。

作为示例性说明，图2A、图2B以及图2C，为前述举例中提到的三种目标图片的示例。其中，图2A为相机拍摄的照片，图2B以及图2C分别为即时通讯界面的截图和游戏画面截图。图2A是自然图片，其高频分量会比较少，即图像过度较为柔和边界过度更为自然。图2B以及图2C，是非自然图片，其高频分量较多，即存在较多突变的边界。例如，图2B中文字的线条与背景之间有鲜明的对比而且边界过渡变化大。图2C中画面元素之间也会有明显的边界，过度不如自然图片过度柔和。

另外说明的是，在本实施例中有损压缩方式和无损压缩方式，是图片的转码使用的压缩算法，通常来说图像压缩都会使图片的有效信息发生减。；因此，在本申请实施例中，“无损”应当理解为相对的无损，也即是说无损压缩方式相比于有损压缩方式可以保留更多的目标图片的有效信息。例如：YUV444相对于YUV420而言，属于无损压缩方式。

从以上技术方案可以看出，本申请实施例具有以下优点：将目标图片的类型分为自然图片和非自然图片；其中，非自然图片由于包含较多的高频分量，使用较低压缩比率的压缩方式则可以尽量保留有效信息；自然图片会具有较少的高频分量，可以使用更高压缩比率达到更高的压缩效率；因此，采用本申请实施例的方案可以在保留目标图片必要的有效信息的前提下提升图片压缩效率。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行的操作，具体地，上述方法还包括：

将上述目标图片输入到转码系统后，对上述目标图片进行解码；

确定上述目标图片为自然图片的情况包括：对上述目标图片进行解码后确定上述目标图片为自然图片；

确定上述目标图片为非自然图片的情况包括：对上述目标图片进行解码后确定上述目标图片为非自然图片。

在本实施例中，目标图片会被首先解码，从而为后续识别图片的类型做准备。这里，目标图片可以解码为RGB格式的数据。

在一种实现方式中，本申请实施例还提供了具体如何判断非自然图片的实现方案，如下：上述目标图片为非自然图片包括：

上述目标图片包含文本信息，或者，上述目标图片由计算设备渲染生成。

由于非自然图片具有一些特性，例如包含文本信息以及计算设备渲染生成，还可能具有其他特性导致其与自然图片之间存在区别；通过这些特性可以迅速的确定目标图片的类型。

在一种实现方式中，本申请实施例还提供了如何确定目标图片包含文本信息。具体地，在确定上述目标图片的格式为PNG且上述目标图片包含文本数据块时，确定目标图片包含文本信息。或者，在确定上述目标图片的格式为GIF并且目标图片包含图片文件扩展数据块时，确定目标图片包含文本信息。

在一种实现方式中，本申请实施例还提供了另一种判断非自然图片和自然图片的实现方案。本申请实施例可以对目标图片进行内容识别。在此基础上，本申请实施例可以依上述内容识别的结果确定上述目标图片包含文本信息。或者，本申请实施例可以依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

内容识别是指对目标图片内所包含的具体内容进行识别的技术，例如：使用滑动窗模式进行文本检测；通过连通域分析进行文本检测。另外，本申请实施例还可以基于深度学习方法来识别具体内容，例如：全卷积神经网络、模式识别以及速率失真优化等。具体如何进行内容识别以区分目标图片的类型，后续实施例将会给出详细说明，在此不再赘述。

在一种实现方式中，本申请实施例还提供了能够快速确定目标图片为自然图片的方案，具体如下：在确定上述目标图片包含摄像头信息时确定目标图片为自然图片。

在前述实施例中，可以优先使用较为快速确定目标图片类型的实现方案，在这些方案无法确定图片格式的情况下，再使用内容识别的方式来确定目标图片的类型。

在一种实现方式中，本申请实施例在转码时可以选择YUV格式作为目标格式。有损的YUV压缩方式例如是YUV420。无损的YUV压缩方式例如是YUV444。

在一种实现方式中，上述对目标图片进行解码包括：将上述目标图片解码为RGB数据。

在一种实现方式中，依据所述解码结果对所述目标图片进行高频分量检测，获得所述目标图片的高频分量。这样，在目标图片的高频分量小于第一阈值时，本申请实施例可以确定目标图片为自然图片。在目标图片的高频分量大于第二阈值时，本申请实施例可以确定目标图片为非自然图片。这里，第一阈值小于或等于第二阈值。

本申请实施例提供了一种图片转码方法，例如可以在计算设备110或者服务系统120中执行。本实施例使用高频分量的大小来对图片类型进行区分，区别于前一实施例使用自然图片和非自然图片来进行图片类型区分，该方法包括：

101B：在目标图片的高频分量小于第一阈值的情况下，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；

102B：在上述目标图片的高频分量大于第二阈值的情况下，采用无损压缩方式对目标图片进行转码，并对相应的转码结果进行视频编码。

基于前述说明可知，高频分量越多，那么如果使用有损压缩将会丢失过多的信息，例如，图2B中文字会变得不清晰；而高频分量较少的情况下，则可以使用比较高的压缩比。

本实施例中，第一阈值和第二阈值是用于确定选用压缩方式的临界点。可以理解的是，为了避免冲突，第一阈值应当小于或等于第二阈值。如果第一阈值等于第二阈值，那么目标图片的高频分量等于第一阈值或第二阈值。这种情况下，本申请实施例可以依图片压缩的技术需求来选用压缩方式：选用有损压缩方式可以获得更高的压缩比，选用无损压缩方式则可以保留更多目标图片的有用信息。如果第一阈值小于第二阈值，那么第一阈值和第二阈值之间会存在一个区间，即大于或等于第一阈值且小于或等于第二阈值这个区间。如果目标图片的高频分量落在这个区间内，本申请实施例可以参考前面关于“目标图片的高频分量等于第一阈值或第二阈值”的处理方案，在此不再赘述。

在一种实现方式中，目标图片的高频分量可以通过高频分量检测直接获得，具体如下：

确定上述目标图片的高频分量小于第一阈值包括：经对上述目标图片进行高频分量检测，确定上述目标图片的高频分量小于第一阈值；

确定上述目标图片的高频分量大于第二阈值包括：经对上述目标图片进行高频分量检测，确定上述目标图片的高频分量大于第二阈值。

在一种实现方式中，目标图片的高频分量也可以不通过高频分量检测来获得，在进行高频分量检测之前先对其内包含的信息进行确认，来分辨其所属的类型，具体如下：

确定上述目标图片的高频分量大于第二阈值包括：确定上述目标图片包含文本信息，或者，确定上述目标图片由计算设备渲染生成。

由于非自然图片相对来说会有更高的高频分量，如图2B和图2C所示，因此基于本实施例可以基于非自然图片具有的一些特性，例如包含文本信息以及计算设备渲染生成，还可能具有的其他特性导致其与自然图片之间存在区别；通过这些特性可以迅速的确定目标图片的类型，相应地确定其高频分量是否高于了第二阈值。

在一种实现方式中，本申请实施例还提供了如何确定目标图片包含文本信息，具体如下：上述目标图片包含文本信息包括：

上述目标图片的格式为PNG，上述目标图片包含文本数据块；

或者，上述目标图片的格式为GIF，上述目标图片包含图片文件扩展数据块。

在一种实现方式中，本申请实施例还提供了另一种判断非自然图片和自然图片的实现方案，如下：上述目标图片包含文本信息，或者，上述目标图片由计算设备渲染生成包括：

对上述目标图片进行内容识别，依上述内容识别的结果确定上述目标图片包含文本信息，或者，依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

内容识别是指对目标图片内所包含的具体内容进行识别的技术，例如：使用滑动窗模式进行文本检测；通过连通域分析进行文本检测。另外，本申请实施例还可以采用基于深度学习方法来识别具体内容的实现方案，例如：全卷积神经网络、模式识别以及速率失真优化等。具体如何进行内容识别以区分目标图片的类型，后续实施例将会给出详细说明，在此不再赘述。

在一种实现方式中，发明实施例还提供了能够快速确定目标图片为自然图片的方案，由于自然图片通常具有较低的高频分量，因此可以通过确定自然图片来确定其高频分量是否小于第一阈值。具体如下：上述目标图片的高频分量小于第一阈值包括：上述目标图片包含摄像头信息。

在前述实施例中，可以优先使用较为快速确定目标图片类型的实现方案，在这些方案无法确定图片格式的情况下，再使用高频分量检测的方式来确定目标图片的类型。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行解码的具体实现方案，如下：在对上述目标图片进行内容识别之前，上述方法还包括：将上述目标图片解码为RGB数据。

在一种实现方式中，在本实施例中还给出了基于后续要进行视频编码，在转码时选择YUV格式作为目标格式。有损压缩方式的YUV格式例如包括：YUV420。上述无损压缩方式的YUV格式例如包括：YUV444。

基于以上说明，本申请实施例还提供了一个实施例。在该实施例中，目标图片被解码为RGB数据、有损压缩方式和无损压缩方式分别为YUV420和YUV444。本实施例可以大大节省图片流量带宽及储存成本，其应用场景广泛，可以应用于社交类、新闻类、工具类等各种应用。例如：在手Q、QQ空间、QQ浏览器、腾讯体育、腾讯新闻、天天快报、腾讯手机管家等各种应用(Application，App)。这是由于设备内会存在各种图片等待转码，转码后进行数据传输或者存储，因此具有节省流量或者节省存储空间的需求。在前述图2A、图2B以及图2C给出的三个应用场景产生的图片作为举例，由于应用场景还有很多不再一一绘图说明。

在本实施例中，由执行信源选择的模块利用原图片的解码信息识别出视频编码器应该采用YUV420还是YUV444编码，基本的方法流程，如图3所示，包括：

301：图片输入到转码系统，调用图片解码器，获得图片的头信息，将原图片解码成RGB数据。

302：确定图片类型。

在本实施例中确定图片类型分为两部分，可以先执行A部分，在A部分无法确定图片类型的情况下，执行B部分。

A部分：

302A：依据图片的头信息对图片进行格式区分。

在本实施例中，以联合图像组(Joint Photographic Group，JPG)，PNG以及GIF格式为例。可以理解的是图片格式并不仅仅只有以上三种，例如还可以有：位图(Bitmap，BMP)等。因此，输入到转码系统内的图片格式也不会只有JPG，PNG和GIF，以上举例不应理解为对本申请实施例的限定。

302A1：如果图片为JPG图片，则读取JPG解码器中的解码信息，判断是否带有包含摄像头可交换图像文件(Exchangeable Image File，exif)信息，如果带有exif信息，则判断是自然拍照相片，即自然图片，采用YUV420作为转码输出格式，并对转码输出结果进行视频编码。

302A2：如果为PNG图片，则读取PNG图片信息中是否包含文本数据块(text或者ztxt)，如果包含这些文本信息则可以确定为非自然图片，直接采用YUV444作为转码输出格式，并对转码输出结果进行视频编码。

302A3：如果为GIF图片，则读取GIF图片信息中是否包含图片文件扩展数据块，如果包含图片文件扩展数据块则直接采用YUV444作为转码输出格式，并对转码输出结果进行视频编码。这里，图片文件扩展数据块是指GIF格式的图片所携带的关于文本的附加信息。

B部分：

302B：通过内容识别确定图片类型，如果是包含文件信息或者为计算机生成图片，采用YUV444作为转码输出格式，并对转码输出结果进行视频编码。否则，采用YUV420作为转码输出格式，并对转码输出结果进行视频编码。B部分可以在以上A部分没有直接决定视频编码器输入信源格式的情况下，采用图片内容识别模块对解码的RGB数据进行分析，来判决RGB是否包含文件信息或者为计算机生成图片。具体的图片内容识别包括以下而不限于以下几个方面：

在一个实施例中，采用滑动窗模式的文本检测方法：基于滑动窗口全图扫描的方式，对每个滑动窗口基于方向梯度直方图(Histogram of Oriented Gradient,HOG)、尺度不变特征变换(Scale-invariant feature transform，SIFT)、加窗傅立叶变换(Gabor)、局部二值模式(Local Binary Patterns，LBP)等纹理特征训练Adaboost(一种迭代算法)，支持向量机(Support Vector Machine，SVM)等二类分类器得到文字区域的概率响应值，然后再利用连通域分析结合形态学等操作定位最终的文字框。如果检测到文字区域则转码系统自动将信源切换为YUV444作为输入进行图片转码,如果没有检测到文字则使用YUV420作为输入进行图片转码

在一个实施例中，采用连通域分析的文本检测方法。具体而言，本申请实施例可以基于底层规则，先分割得到连通的小区域。例如：区域特征提取(Maximally Stable Extremal Regions，MSER)、标准窗口小部件工具包(Standard Widget Toolkit，SWT)分割得到连通的小区域。然后，本申请实施例可以利用颜色、亮度、边缘、形状等信息进行过滤或者分类器判别的方式来分离文字区域与非文字区域。如果检测到文字区域则转码系统自动将信源切换为YUV444进行图片转码。如果没有检测到文字则使用YUV420进行图片转码。

在一个实施例中，基于深度学习方法的全卷积神经网络(Full Convolution Network，FCN)并采用模式识别方法对图片内容进行分析。具体而言，本申请实施例通过机器学习的方法以及互联网特有的大数据训练实现对图片内容识别。这里，识别内容可以包括文字区域以及计算机生成的图片。如果确定识别内容包括以上两个部分，转码系统自动将信源切换为YUV444进行图片转码,如果没有检测到则使用YUV420进行图片转码

在一个实施例中，采用编码器速率失真优化(Rate-Distortion Optimization,RDO)方法。对于文字以及计算机等生成画面图像来说，如果采用YUV420编码那么会明显的导致编码BD-rate(用于表示码率与性能之间关系的参数)结构相似性(structural similarity index，SSIM)或者BD-rate峰值信噪比(Peak Signal to Noise Ratio，PSNR)相比YUV444有明显的损失。因此，转码系统利用这个特性，可以对要转码的图片采用全图片或者部分区域图片进行BD-rate SSIM以及BD-PSNR的比较，然后自动决定是采用哪一种信源输入作为转码系统的视频编码输入。

303：基于图片类型的判决数据，如果为非自然图片，即：包含文本信息或者为计算机生成图片，则需要采用YUV444作为转码输出格式，并对转码输出结果进行视频编码。如果为自然图片，即：不包含文本信息或者为计算机生成图片，则采用YUV420作为转码输出格式，并对转码输出结果进行视频编码。这里，本申请实施例可以将RGB数据通过信源格式转换需求生成YUV420或者YUV444。

304：调用视频编码器对YUV420或者YUV444进行编码操作。

视频编码器可能使用为H.265、AVS(Audio Video coding Standard，音频视频编码标准，属于一种信源编码标准)、H.264或者AVS2等。

305：将视频编码输入的码流以及相关的头信息进行格式封装，转码成新的图片格式。

本申请实施例提供的采用视频压缩方法实现的智能图片转码方法；由于视频编码压缩效率要优于JPEG、PNG以及GIF等图片压缩标准,采用视频压缩标准(比如H.265,AVS2等)能够大幅节省图片的带宽。因此，通过将传统图片格式通过转码系统生成新的图片格式，本申请实施例能够有效的节省应用的运营带宽成本。

同时，本申请实施例针对传统的视频压缩算法作为有损压缩模式，在一些图片(比如带文本的图片以及计算生成的图片上)会造成主观体验的损失，通过引入YUV444的视频压缩方法，将RGB转换成YUV444进行视频压缩，能够减少由于RGB转换成YUV420过程中造成的主观效果损失。另外，本申请实施例通过引入智能的信源格式选择模块，能够让转码系统实现自动识别哪些图片应该使用YUV420，能够保证最大力度的节省带宽成本；同时，也能够识别出哪些图片应该使用YUV444进行压缩，保证主观体验不受损失。综上，智能转码系统能够既最大限度的节省带宽同时不让用户感受不出有主观体验的损失。

本申请实施例的方法采用了更高效的视频编码标准，同时采用有损压缩模式进行编码。因此，压缩效率大大高于JPEG、PNG以及GIF等传统图片格式，这对节省图片带宽流量以及存储成本具有重要意义。目前该方法与系统已经在手Q、QQ空间、QQ浏览器、腾讯体育、腾讯新闻、天天快报、手机管家等多个业务进行测试。根据业务统计，相比于JPEG压缩能节省40％以上流量；对于PNG图片，能节省60％以上流量，对于GIF图片，流量节省更是达到了80％以上。

本申请实施例提供了一种图片转码的装置，该装置例如可以驻留在终端设备110或者服务系统120中。如图4所示，该装置包括：

转码单元401，用于在目标图片为自然图片的情况下，采用有损压缩方式作为输入源进行转码视频编码输入；在上述目标图片为非自然图片的情况下，采用无损压缩方式作为输入源进行转码视频编码输入。

在本实施例中有损压缩方式和无损压缩方式，是图片的转码使用的压缩算法，通常来说图像压缩都会使图片的有效信息发生减少；因此，在本申请实施例中，“无损”应当理解为相对的无损，也即是说无损压缩方式相比于有损压缩方式可以保留更多的目标图片的有效信息。例如：YUV444相对于YUV420而言，属于无损压缩方式。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行的操作，以及这种操作对目标图片的类型确认造成的影响，具体如下：上述装置还包括：

解码单元402，用于将上述目标图片输入到转码系统后，对上述目标图片进行解码；

上述转码单元401，具体用于在对上述目标图片进行解码后确定上述目标图片为自然图片；或者，在对上述目标图片进行解码后确定上述目标图片为非自然图片。

在本实施例中，目标图片会被首先解码，从而为后续识别图片的类型做准备；在这里解码可以解码为RGB格式的数据。

在一种实现方式中，上述目标图片包含文本信息包括：

上述目标图片的格式为PNG，上述目标图片包含文本数据块；

在一种实现方式中，本申请实施例还提供了如何确定目标图片包含文本信息或者计算设备渲染生成的方案，具体如下：上述装置还包括：

内容识别单元403，用于对上述目标图片进行内容识别，依上述内容识别的结果确定上述目标图片包含文本信息，或者，依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

内容识别是指对目标图片内所包含的具体内容进行识别的技术，例如：使用滑动窗模式进行文本检测；通过连通域分析进行文本检测；还有基于深度学习方法来识别具体内容的实现方案，例如：全卷积神经网络、模式识别以及速率失真优化等。具体如何进行内容识别以区分目标图片的类型，前面实施例已经给出了详细说明，在此不再赘述。

在一种实现方式中，本申请实施例还提供了能够快速确定目标图片为自然图片的方案，具体如下：上述目标图片为自然图片包括：

上述目标图片包含摄像头信息。

在一种实现方式中，在本实施例中还给出了基于后续要进行视频编码，在转码时选择YUV格式作为目标格式，对应已经确定的压缩方式具体转码方案如下：上述有损压缩方式包括：YUV420；上述无损压缩方式包括：YUV444。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行解码的具体实现方案，如下：上述解码单元402，具体用于将上述目标图片解码为RGB数据。

本申请实施例提供了一种图片转码的装置，如图5所示，包括：

转码单元501，用于在目标图片的高频分量小于第一阈值的情况下，采用有损压缩方式作为输入源进行转码视频编码输入；在上述目标图片的高频分量大于第二阈值的情况下，采用无损压缩方式作为输入源进行转码视频编码输入。

基于前述说明可知，高频分量越多，那么如果使用有损压缩将会丢失过多的信息，例如，图2B中文字会变得不清晰；而高频分量较少的情况下，则可以使用叫高的压缩比。

本实施例中，第一阈值和第二阈值是用于确定选用压缩方式的临界点，可以理解的是，为了避免冲突，第一阈值应当小于或等于第二阈值。如果第一阈值等于第二阈值，那么目标图片的高频分量等于第一阈值或第二阈值，这种情况下，可以依图片压缩的技术需求来选用压缩方式：选用有损压缩方式可以获得更高的压缩比，选用无损压缩方式则可以保留更多目标图片的有用信息。如果第一阈值小于第二阈值，那么第一阈值和第二阈值之间会存在一个区间，即大于或等于第一阈值且小于或等于第二阈值这个区间，如果目标图片的高频分量落在这个区间内，可以参考前面关于“目标图片的高频分量等于第一阈值或第二阈值”的处理方案，在此不再赘述。

在一种实现方式中，目标图片的高频分量可以通过高频分量检测直接获得，具体如下：上述装置还包括：

分量检测单元502，用于经对上述目标图片进行高频分量检测，确定上述目标图片的高频分量小于第一阈值，或者，确定上述目标图片的高频分量大于第二阈值。

在一种实现方式中，目标图片的高频分量也可以不通过高频分量检测来获得，在进行高频分量检测之前先对其内包含的信息进行确认，来分辨其所属的类型，具体如下：上述目标图片的高频分量大于第二阈值包括：

上述目标图片的格式为PNG，上述目标图片包含文本数据块；

在一种实现方式中，本申请实施例还提供了另一种判断非自然图片和自然图片的实现方案，如下：上述装置还包括：

内容识别单元503，用于对上述目标图片进行内容识别，依上述内容识别的结果确定上述目标图片包含文本信息，或者，依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

内容识别是指对目标图片内所包含的具体内容进行识别的技术，例如：使用滑动窗模式进行文本检测；通过连通域分析进行文本检测；还有基于深度学习方法来识别具体内容的实现方案，例如：全卷积神经网络、模式识别以及速率失真优化等。具体如何进行内容识别以区分目标图片的类型，后续实施例将会给出详细说明，在此不再赘述。

在一种实现方式中，发明实施例还提供了能够快速确定目标图片为自然图片的方案，由于自然图片通常具有较低的高频分量，因此可以通过确定自然图片来确定其高频分量是否小于第一阈值，具体如下：上述目标图片的高频分量小于第一阈值包括：

上述目标图片包含摄像头信息。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行解码的具体实现方案，如下：上述转码单元501，还用于在上述内容识别单元503对上述目标图片进行内容识别之前，将上述目标图片解码为RGB数据。

本申请实施例提供了一种计算设备，如图6所示，计算设备包括：输入输出设备601、处理器602以及存储器603；其中输入输出设备601、处理器602以及存储器603可以通过总线连接；

存储器603包括但不限于是随机存储记忆体(英文：Random Access Memory，简称：RAM)、只读存储器(Read-Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、或便携式只读存储器(Compact Disc Read-Only Memory，CD-ROM)，该存储器603用于相关指令及数据。输入输出设备601用于接收和发送数据。

处理器602可以是一个或多个中央处理器(Central Processing Unit，CPU)，在处理器602是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

该计算设备中的处理器602用于读取上述存储器603中存储的程序代码，执行本申请的图片转码方法。在一个实施例中，处理器602可以执行以下操作：在目标图片为自然图片的情况下，采用有损压缩方式对目标图片进行转码，并对转码输出结果进行视频编码；在上述目标图片为非自然图片的情况下，采用无损压缩方式对目标图片进行转码，并对转码输出结果进行视频编码。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行的操作，以及这种操作对目标图片的类型确认造成的影响，具体如下：上述处理器602，还用于将上述目标图片输入到转码系统后，对上述目标图片进行解码；

在一种实现方式中，本申请实施例还提供了具体如何判断非自然图片的实现方案。当确定上述目标图片包含文本信息，或者，确定上述目标图片由计算设备渲染生成时，可以确定上述目标图片为非自然图片。

在一种实现方式中，上述目标图片包含文本信息包括：上述目标图片的格式为PNG，上述目标图片包含文本数据块；或者，上述目标图片的格式为GIF，上述目标图片包含图片文件扩展数据块。

非自然图片所具有的特性除了可以是图片包含文本信息或者由计算设备渲染生成以外，还可以是其他导致其与自然图片之间存在区别的特性，本申请对此不做限制。通过利用这些特性，本申请实施例可以迅速的确定目标图片的类型。

在一种实现方式中，本申请实施例还提供了如何确定目标图片包含文本信息或者计算设备渲染生成的方案，具体如下。上述处理器602，还用于对上述目标图片进行内容识别，依上述内容识别的结果确定上述目标图片包含文本信息，或者，依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

内容识别是指对目标图片内所包含的具体内容进行识别的技术，例如：使用滑动窗模式进行文本检测；通过连通域分析进行文本检测。另外，本申请实施例还可以基于深度学习方法来识别具体内容的实现方案，例如：全卷积神经网络、模式识别以及速率失真优化等。具体如何进行内容识别以区分目标图片的类型，前面实施例已经给出了详细说明，在此不再赘述。

上述目标图片包含摄像头信息。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行解码的具体实现方案，如下：上述对上述目标图片进行解码包括：将上述目标图片解码为RGB数据。

在一个实施例中，上述处理器602还可以执行如下操作：在确定目标图片的高频分量小于第一阈值的情况下，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；在上述目标图片的高频分量大于第二阈值的情况下，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。

在一种实现方式中，本申请实施例还提供了另一种判断非自然图片和自然图片的实现方案，如下：上述处理器602，还用于对上述目标图片进行内容识别，依上述内容识别的结果确定上述目标图片包含文本信息，或者，依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

在一种实现方式中，本申请实施例还提供了在确定目标图片的类型之前进行解码的具体实现方案，如下：上述处理器602，还用于在对上述目标图片进行内容识别之前，将上述目标图片解码为RGB数据。

本申请实施例还提供了一种图像处理设备，如图7所示，包括：图片解码器701、信源转换器702以及视频编码器703，还包括：信源选择器704；目标图片经上述图片解码器701解码后，输出给上述信源选择器704；

上述信源选择器704在确定上述目标图片为自然图片的情况下选择有损压缩方式，在确定上述目标图片为非自然图片的情况下选择无损压缩方式；

上述信源转换器702器依上述信源选择器704确定的压缩方式对解码后的上述目标图片进行转换处理后输出给上述视频编码器703。

在一种实现方式中，上述信源选择器704在确定上述目标图片包含文本信息的情况下，或者，确定上述目标图片由计算设备渲染生成的情况下，确定上述目标图片为非自然图片。

在一种实现方式中，上述信源选择器704用于确定上述目标图片包含文本信息包括：确定上述目标图片的格式为PNG，上述目标图片包含文本数据块的；或者，确定上述目标图片的格式为GIF，上述目标图片包含图片文件扩展数据块。

在一种实现方式中，上述信源选择器704用于确定上述目标图片由计算设备渲染生成包括：对上述目标图片进行内容识别，依上述内容识别的结果确定上述目标图片包含文本信息，或者，依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

在一种实现方式中，上述信源选择器704确定上述目标图片为自然图片包括：确定上述目标图片包含摄像头信息。

在一种实现方式中，上述有损压缩方式包括：YUV420；上述无损压缩方式包括：YUV444。

在一种实现方式中，上述图片解码器701用于将上述目标图片解码为RGB数据。

在一个实施例中，上述信源选择器704在确定目标图片的高频分量小于第一阈值的情况下选择有损压缩方式，在确定上述目标图片的高频分量大于第二阈值的情况下选择无损压缩方式；

上述信源转换器702依上述信源选择器704确定的压缩方式对解码后的上述目标图片进行转换处理后输出给上述视频编码器703。

在一种实现方式中，上述信源选择器704，还用于对上述目标图片进行高频分量检测，确定上述目标图片的高频分量小于第一阈值，或者，确定上述目标图片的高频分量大于第二阈值。

在一种实现方式中，上述信源选择器704用于确定上述目标图片的高频分量大于第二阈值包括：

确定上述目标图片包含文本信息，或者，确定上述目标图片由计算设备渲染生成。

在一种实现方式中，上述信源选择器704用于确定上述目标图片包含文本信息包括：

确定上述目标图片的格式为PNG，上述目标图片包含文本数据块；或者，确定上述目标图片的格式为GIF，上述目标图片包含图片文件扩展数据块。

在一种实现方式中，上述信源选择器704，还用于对上述目标图片进行内容识别；依上述内容识别的结果确定上述目标图片包含文本信息，或者，依上述内容识别的结果确定上述目标图片由计算设备渲染生成。

在一种实现方式中，上述信源选择器704，用于确定目标图片的高频分量小于第一阈值包括：确定上述目标图片包含摄像头信息。

以上图像处理设备可以是移动设备，例如：手机、个人电脑等；也可以是服务器设备，例如：社交平台服务器、即时通讯服务器等。因此以上图像处理设备可以是这些设备中的组成部分，因此可以基于这些设备的硬件结构，这些设备的硬件结构本申请实施例不赘述。其中图七和图八中各组成部分以硬件形式存在。

值得注意的是，上述图像处理设备实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图8示出根据本申请一些实施例的图片转码方法800的示意图。方法800例如可以在计算设备中执行。如图8所示，方法800包括步骤S801，获取目标图片。目标图片可以由计算设备从本地获取或者从网络获取，本申请对此不做限制。在步骤S802中，在确定目标图片包含文本信息时，采用无损压缩方式对目标图片进行转码，并对相应的转码结果进行视频编码。在一个实施例中，在确定目标图片的格式为PNG并且目标图片包含文本数据块时，步骤S802可以确定目标图片包含文本信息。在一个实施例中，在确定目标图片的格式为GIF并且目标图片包含图片文件扩展数据块时，确定目标图片包含文本信息。在一个实施例中，步骤S802可以对目标图片进行内容识别，依内容识别的结果确定目标图片包含文本信息。

在步骤S803中，在确定目标图片未包含文本信息时，采用有损压缩方式对目标图片进行转码，并对相应的转码结果进行视频编码。综上，方法800通过判断图片是否包含文本，可以自适应确定图片的转码方式，从而可以在保证图片有效信息的前提下挺高图片压缩率。方法800更具体的实施方式请参见图3描述，这里不再赘述。

另外，本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

一种图片转码方法，应用于计算设备，所述方法包括：

对目标图片进行解码；

在依据解码结果确定所述目标图片为自然图片时，采用有损压缩方式进行转码，并对相应的转码结果进行视频编码；

在依据解码结果确定所述目标图片为非自然图片时，采用无损压缩方式进行转码，并对相应的转码结果进行视频编码。
根据权利要求1所述方法，其中，所述依据解码结果确定目标图片为非自然图片，包括：

在确定所述目标图片包含文本信息时，确定所述目标图片为非自然图片。
根据权利要求1所述的方法，其中，所述依据解码结果确定目标图片为非自然图片，包括：

在确定所述目标图片由计算设备渲染生成时，确定所述目标图片为非自然图片。
根据权利要求2所述方法，其中，所述确定目标图片包含文本信息，包括：

在确定所述目标图片的格式为PNG并且所述目标图片包含文本数据块时，确定所述目标图片包含文本信息。
根据权利要求2所述方法，其中，所述确定目标图片包含文本信息，包括：

在确定所述目标图片的格式为GIF并且所述目标图片包含图片文件扩展数据块时，确定所述目标图片包含文本信息。
根据权利要求2所述方法，其中，所述确定目标图片包含文本信息，包括：

对所述目标图片进行内容识别，依所述内容识别的结果确定所述目标图片包含文本信息。
根据权利要求3所述方法，其中，所述确定目标图片由计算设备渲染生成，包括：

对所述目标图片进行内容识别，依所述内容识别的结果确定所述目标图片由计算设备渲染生成。
根据权利要求1所述方法，其中，所述依据解码结果确定目标图片为自然图片，包括：

在确定所述目标图片包含摄像头信息时，确定所述目标图片为自然图片。
根据权利要求1所述方法，其中，所述有损压缩方式包括YUV420，所述无损压缩方式包括YUV444。
根据权利要求1所述方法，其特征在于，所述对所述目标图片进行解码包括：将所述目标图片解码为RGB数据。
根据权利要求1所述的方法，还包括：依据所述解码结果对所述目标图片进行高频分量检测，获得所述目标图片的高频分量；

所述依据解码结果确定目标图片为非自然图片，包括：在所述目标图片的高频分量小于第一阈值时，确定所述目标图片为自然图片；

所述依据解码结果确定目标图片为自然图片，包括：在所述目标图片的高频分量大于第二阈值时，确定所述目标图片为非自然图片。
一种图片转码方法，应用于计算设备，所述方法包括：

对目标图片进行高频分量检测，获得所述目标图片的高频分量；

在目标图片的高频分量小于第一阈值时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；

在所述目标图片的高频分量大于第二阈值的情况下，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。
一种图片转码方法，应用于计算设备，所述方法包括：

获取目标图片；

在确定所述目标图片包含文本信息时，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；以及

在确定所述目标图片未包含文本信息时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。
根据权利要求13所述的方法，其中，所述确定所述目标图片包含文本信息，包括：

在确定所述目标图片的格式为PNG并且所述目标图片包含文本数据块时，确定所述目标图片包含文本信息。
根据权利要求13所述方法，其中，所述确定目标图片包含文本信息，包括：

在确定所述目标图片的格式为GIF并且所述目标图片包含图片文件扩展数据块时，确定所述目标图片包含文本信息。
根据权利要求13所述方法，其中，所述确定目标图片包含文本信息，包括：

对所述目标图片进行内容识别，依所述内容识别的结果确定所述目标图片包含文本信息。
一种计算设备，包括处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：

对目标图片进行解码；

在依据解码结果确定所述目标图片为自然图片时，采用有损压缩方式进行转码，并对相应的转码结果进行视频编码；

在依据解码结果确定所述目标图片为非自然图片时，采用无损压缩方式进行转码，并对相应的转码结果进行视频编码。
根据权利要求17所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：在确定所述目标图片包含文本信息时，确定所述目标图片为非自然图片。
根据权利要求17所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：在确定所述目标图片由计算设备渲染生成时，确定所述目标图片为非自然图片。
根据权利要求18所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：在确定所述目标图片的格式为PNG并且所述目标图片包含文本数据块时，确定所述目标图片包含文本信息。
根据权利要求18所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：在确定所述目标图片的格式为GIF并且所述目标图片包含图片文件扩展数据块时，确定所述目标图片包含文本信息。
根据权利要求18所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：对所述目标图片进行内容识别，依所述内容识别的结果确定所述目标图片包含文本信息。
根据权利要求19所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：对所述目标图片进行内容识别，依所述内容识别的结果确定所述目标图片由计算设备渲染生成。
根据权利要求17所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：在确定所述目标图片包含摄像头信息时，确定所述目标图片为自然图片。
根据权利要求17所述的计算设备，其中，所述有损压缩方式包括YUV420，所述无损压缩方式包括YUV444。
根据权利要求17所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：将所述目标图片解码为RGB数据。
根据权利要求17所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：

依据所述解码结果对所述目标图片进行高频分量检测，获得所述目标图片的高频分量；

在所述目标图片的高频分量小于第一阈值时，确定所述目标图片为自然图片；

在所述目标图片的高频分量大于第二阈值时，确定所述目标图片为非自然图片。
一种计算设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：

获取目标图片；

在确定所述目标图片包含文本信息时，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；以及

在确定所述目标图片未包含文本信息时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。
根据权利要求28所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：

在确定所述目标图片的格式为PNG并且所述目标图片包含文本数据块时，确定所述目标图片包含文本信息。
根据权利要求28所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：

在确定所述目标图片的格式为GIF并且所述目标图片包含图片文件扩展数据块时，确定所述目标图片包含文本信息。
根据权利要求28所述的计算设备，其中，所述处理器进一步执行所述计算机可读指令，用于：

对所述目标图片进行内容识别，依所述内容识别的结果确定所述目标图片包含文本信息。
一种计算设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：

对目标图片进行高频分量检测，获得所述目标图片的高频分量；

在目标图片的高频分量小于第一阈值时，采用有损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码；

在所述目标图片的高频分量大于第二阈值的情况下，采用无损压缩方式对所述目标图片进行转码，并对相应的转码结果进行视频编码。
一种非易失性存储介质，存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1-12中任一项所述方法的指令。