WO2021036906A1

WO2021036906A1 - 一种图片处理方法及装置

Info

Publication number: WO2021036906A1
Application number: PCT/CN2020/110307
Authority: WO
Inventors: 赵一麟; 郭宏伟; 黄向东; 李凯; 马杰延
Original assignee: 华为技术有限公司
Priority date: 2019-08-27
Filing date: 2020-08-20
Publication date: 2021-03-04
Also published as: CN112445922A

Abstract

一种图片处理方法及装置，涉及终端技术领域，通过人工智能技术，解决了逐一对比特征向量导致的图片分类和检索效率太低，用户体验较差的问题。具体方案包括：电子设备对多张图片进行聚类，得到多个图片集合；获取新增的图片与多个图片集合中心点之间的相似距离，从多个图片集合中确定出与新增的图片相似距离最小的第一图片集合；若新增的图片与第一图片集合中心点之间的相似距离小于或等于第一图片集合的分类阈值，则确定新增的图片属于第一图片集合；若新增的图片与第一图片集合中心点之间的相似距离大于第一图片集合的分类阈值，则新建第二图片集合，新增的图片属于第二图片集合。

Description

一种图片处理方法及装置

本申请要求于2019年08月27日提交国家知识产权局、申请号为201910798295.4、申请名称为“一种图片处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种图片处理方法及装置。

背景技术

目前智能终端设备存储着海量的用户照片，因而如何进行用户照片分类，进而能实时、快速地从众多用户照片中搜索到满足特定条件的所有照片成为一个亟待解决的问题。

现有的图片集合和检索技术是基于人脸识别、神经网络和聚类算法来实现的，也就是智能终端设备对图片进行人脸识别，通过神经网络算法得到该图片的特征向量，将该智能终端设备的图库中的所有照片的特征向量进行逐一比对，进行图片聚类；从而可以根据逐一对比结果，搜索出与检索图片的特征向量最接近的图片作为图片检索结果。

上述逐一对比的图片集合和检索技术导致图片检索效率较低，无法实时获取图片检索结果；并且，无法根据新增的图片实时快速地创建新的分类和索引，用户使用体验不好。

发明内容

本申请提供一种图片处理方法及装置，解决了现有技术中逐一对比特征向量的分类和检索效率太低，无法实时获取图片检索结果，且无法根据新增照片实时快速地创建新的分类和索引的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种图片处理方法，应用于电子设备，该方法包括：电子设备对多张图片进行聚类，得到多个图片集合；电子设备获取新增的图片与多个图片集合的中心点之间的相似距离，从多个图片集合中确定出与新增的图片相似距离最小的第一图片集合，其中，相似距离越小，相似度越高；中心点为图片集合中所有图片的特征向量的平均值；若新增的图片与第一图片集合的中心点之间的相似距离小于或等于第一图片集合的分类阈值，则电子设备确定新增的图片属于第一图片集合；若新增的图片与第一图片集合的中心点之间的相似距离大于第一图片集合的分类阈值，则电子设备新建第二图片集合，新增的图片属于第二图片集合。

本申请实施例中，该电子设备可以为智能终端设备，电子设备对新增的图片与经过聚类得到的多个图片集合的中心点进行相似距离的计算，选择相似距离最小的图片集合作为新增的图片的归档结果，避免了对新增的图片和原有图片进行逐一对比特征向量，从而可以快速、实时的对新增图片进行聚类，并且可以对聚类不成功的图片建立新的图片集合，提高了图片聚类的效率，提高用户体验。

在一种可能的设计方式中，电子设备对多张图片进行聚类，得到多个图片集合，具体包括：根据每张图片分别与多张图片的特征向量之间的相似距离，得到每张图片对应的从小到大排序的前K个相似距离，其中，K为大于或等于1的正整数；对每张图片对应的K个相似距离进行差分运算，得到每张图片对应的K个相似距离中的离群点，所述离群点对应的相似距离为每张图片对应的分类阈值；对每张图片分别与多张图片的特征向量之间的相似距离，将相似距离小于或等于分类阈值的图片标记为一个图片集合，得到每张图片对应的图片集合；对生成的多个图片集合进行合并，从而得到多个图片集合。上述可能的实现方式中，电子设备对多张图片进行聚类采用人工智能算法，自动计算分类阈值，也就是通过自动阈值对每一组图片分类进行图片聚类，避免了固定阈值对相似距离差异较大的大量图片进行分类的不准确性，提高了图片聚类的灵活性和准确性。

在一种可能的设计方式中，在对每张图片对应的K个相似距离进行差分运算之前，方法还包括：对于每张图片中的任一图片，若任一图片对应的前K个相似距离中的第m个相似距离大于第二阈值，则将任一图片标记为一个图片集合，其中，m为大于或等于1的正整数。上述可能的实现方式中，电子设备在根据分类阈值进行图片分类之前，现将离散点剔除，减小后续计算的计算量，提高了图片聚类的效率。

在一种可能的设计方式中，对生成的多个图片集合进行合并，从而得到多个图片集合包括：获取每张图片对应的图片集合的中心点；如果任意两个图片集合的中心点之间的相似距离小于任意两个图片集合的任意一个的分类阈值时，将任意两个图片集合合并为一个图片集合。上述可能的实现方式中，电子设备根据图片集合对应的中心点之间的相似距离对相似度较高的图片集合进行类间合并，可以提高图片聚类的效率和准确性。

在一种可能的设计方式中，电子设备获取新增的图片与多个图片集合的中心点之间的相似距离，具体包括：若新增的图片的数量为至少两个，则对新增的图片进行聚类，得到新增的图片对应的多个新增图片集合；计算每个新增图片集合分别与多个图片集合的中心点的相似距离。上述可能的实现方式中，先对新增的多张图片进行聚类，生成新增的多个图片集合，再根据该新增的图片集合与预存储的图片聚类结果计算相似距离，从而进行聚类，加快了图片归档的效率，实现实时、快速的对新增的图片进行聚类，提高图片聚类的效率。

第二方面，提供一种电子设备，该电子设备包括处理器，以及与处理器连接的存储器，存储器用于存储指令，当指令被处理器执行时，使得电子设备用于执行：对多张图片进行聚类，得到多个图片集合；获取新增的图片与多个图片集合的中心点之间的相似距离，从多个图片集合中确定出与新增的图片相似距离最小的第一图片集合，其中，相似距离越小，相似度越高；中心点为图片集合中所有图片的特征向量的平均值；若新增的图片与第一图片集合的中心点之间的相似距离小于或等于第一图片集合的分类阈值，则确定新增的图片属于第一图片集合；若新增的图片与第一图片集合的中心点之间的相似距离大于第一图片集合的分类阈值，则新建第二图片集合，新增的图片属于第二图片集合。

在一种可能的设计方式中，对多张图片进行聚类，得到多个图片集合，具体包括：根据每张图片分别与多张图片的特征向量之间的相似距离，得到每张图片对应的从小到大排序的前K个相似距离，其中，K为大于或等于1的正整数；对每张图片对应的K个相似距离进行差分运算，得到每张图片对应的K个相似距离中的离群点，所述离群点对应的相似距离为每张图片对应的分类阈值；对每张图片分别与多张图片的特征向量之间的相似距离，将相似距离小于或等于分类阈值的图片标记为一个图片集合，得到每张图片对应的图片集合；对生成的多个图片集合进行合并，从而得到多个图片集合。

在一种可能的设计方式中，在对每张图片对应的K个相似距离进行差分运算之前，电子设备还用于执行：对于每张图片中的任一图片，若任一图片对应的前K个相似距离中的第m个相似距离大于第二阈值，则将任一图片标记为一个图片集合，其中，m为大于或等于1的正整数。

在一种可能的设计方式中，对生成的多个图片集合进行合并，从而得到多个图片集合包括：获取每张图片对应的图片集合的中心点；如果任意两个图片集合的中心点之间的相似距离小于任意两个图片集合的任意一个的分类阈值时，将任意两个图片集合合并为一个图片集合。

在一种可能的设计方式中，获取新增的图片与多个图片集合的中心点之间的相似距离，具体包括：若新增的图片的数量为至少两个，则对新增的图片进行聚类，得到新增的图片对应的多个新增图片集合；计算每个新增图片集合分别与多个图片集合的中心点的相似距离。

第三方面，提供一种芯片系统，其特征在于，芯片系统应用于电子设备；芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，电子设备执行第一方面及其任一种可能的设计方式的方法。

第四方面，提供一种可读存储介质，其特征在于，可读存储介质中存储有指令，当可读存储介质在电子设备上运行时，使得电子设备执行第一方面及其任一种可能的设计方式的方法。

第五方面，提供一种计算机程序产品，其特征在于，当计算机程序产品在计算机上运行时，使得计算机执行第一方面及其任一种可能的设计方式的方法。

可以理解地，上述提供的任一种图片处理的电子设备、芯片系统、可读存储介质和计算机程序产品，均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种电子设备的硬件结构示意图；

图2为本申请实施例提供的一种电子设备的软件系统架构图；

图3为本申请实施例提供的一种图片处理方法的流程示意图；

图4为本申请实施例提供的一种电子设备获取图片对应的特征向量的流程示意图；

图5为本申请实施例提供的一种电子设备获取图片的相似度列表中离群点的流程示意图；

图6为本申请实施例提供的一种图片聚类结果中的相似距离分布示意图；

图7为本申请实施例提供的另一种图片处理方法的流程示意图；

图8为本申请实施例提供的另一种图片处理方法的效果示意图；

图9为本申请实施例提供的另一种图片处理方法的流程示意图；

图10为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例提供一种图片处理方法，该方法可以应用于电子设备将图片进行分类显示，或者检索用户照片的过程中，尤其是电子设备上人物照片的分类和检索的使用过程中。通过该方法，电子设备可以实时快速地进行图片检索，并可以根据新增的图片快速进行归类，或创建新的分类和索引，可以提升用户的使用体验。

示例性的，本申请实施例中的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等可以显示图片的电子设备，本申请实施例对该电子设备的具体形态不作特殊限制。

下面将结合附图对本申请实施例的实施方式进行详细描述。图1示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit， GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode， OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图2是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4、H.264、MP3、AAC、AMR、JPG或PNG等。

三维图形处理库用于实现三维图形绘图、图像渲染、合成和图层处理等。2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

以下实施例中的方法均可以在具有上述硬件结构和软件结构的电子设备100中实现。以下实施例中仅以上述电子设备100是手机为例，对本申请实施例的方法进行说明。

手机上的图库应用中存储有许多图片，可以是手机相机拍摄的照片，也可以是手机上的其他应用获取的图片。通过该方法可以将图库中的所有图片进行分类，例如，按照图片内容分类，可以将图库中的图片分为人物、自然风景、动物、地标建筑、事物等图片集合；进一步的，还可以有细化的分类，例如，将人物照片按照不同的人进行分类，例如，按照手机的机主本人的照片，妈妈的照片，女儿的照片和某一位朋友的照片等等标签进行分类；还可以有更为精细的分类，将相同人物的照片按照照片中人物的年龄进行分类，分为儿童时期、青少年时期和中年时期等。

本申请的下述实施例仅以按照不同的人的分类作为示例，通过全量聚类算法将同一个人的图片聚类为一个图片集合，并将该图片集合中的所有图片都标记一个分类标签，方便用户查看。

进一步的，本申请实施例还支持图片检索。用户可以根据一张已有的图片进行检索、或者根据关键字进行检索，或者用手机的相机应用实时拍摄一张照片进行检索，则手机可以根据该检索图片，返回属于同一个图片集合的所有图片，例如具体可以为与检索图片中是同一个人的所有图片。

本申请实施例提供一种图片处理方法，如图3所示，该方法可以包括：

301：电子设备对图片进行人脸检测，得到人脸框的坐标信息。

其中，人脸检测技术用于快速检测图片中的人脸信息，并返回人脸框位置、定位五官与轮廓关键点，准确识别多种人脸属性，返回得到的人脸框的坐标信息。

示例性的，如图4所示，电子设备对图4中的(a)所示的图片进行人脸检测，人脸检测识别该图片对象后，将人脸的图像划分出来，输出图4中的(b)所示的人脸框，和该人脸框图的坐标信息。

302：根据人脸框的坐标信息提取特征，得到图片对应的特征向量。

可以采用人脸特征提取技术，将人脸框中的面部图片进行特征提取，具体可以为利用神经网络的深度学习技术，提取出一个高维的特征向量，例如，图4所示的，根据图4中人脸检测得到的人脸框，提取出一个高维特征向量如(13，423，3......190)。

进一步的，电子设备获取每一张图片对应的特征向量并保存，以便后续进行特征向量之间的比对计算。

303：计算每张图片分别与多张图片的特征向量之间的相似距离，其中，相似距离越小，相似度越高。

根据每张图片与任一图片的特征向量，计算两者的相似距离，该相似距离可以用来表示两张图片之间的相似度的大小；相似距离越大，则表示两张图片之间的相似度越小，越不相似；相似距离越小，则表示两张图片之间的相似度越大，即越相似。

具体的，计算相似距离的算法，可以通过计算两个图片对应的特征向量的欧式距离或者余弦距离等来表示。本申请实施例对此计算算法不做具体限定，以下仅示例性地给出以余弦距离计算相似距离的具体算法。

图片A1对应的特征向量为A1＝{x ₁，x ₂，x ₃，...x _n}，图片A2对应的特征向量为A2＝{y ₁，y ₂，y ₃，...y _n}，则图片A1与图片A2的余弦距离值为：

则图片A1与图片A2的相似距离为：S＝1-cosθ。

进一步可选的，在计算相似距离之前，可以先对图片对应的特征向量进行数据归一化处理，也就是对特征向量进行数据转化，使得数据转化后的归一化特征向量的长度值为1，或者也可以说是，该归一化特征向量的模为1。数据归一化处理可以用于减小运算量，加快数据运算处理的效率。

304：获取每张图片对应的相似度列表。

具体可以为，将每张图片分别与多张图片的特征向量的相似距离从小到大排序后的前K个相似距离，生成每张图片对应的相似度列表。其中，K为大于或等于1的正整数。

示例性的，图库中有A1，A2，A3......AN这N张图片，则图片A1与包括它自身的N张图片对应的特征向量计算相似距离，将计算得到的相似距离按照从小到大的顺序排列，取前K个相似度距离值组成A1对应的相似度列表。例如，图片A1与它自身计算所得的相似距离为0，应该为最小的，为相似度列表的第一个相似距离，即为A1的Top1＝0。

每一张图片都有一个对应的相似度列表，即有N个相似度列表，每个相似度列表有K个从小到大排序的相似距离，即组成一个N*K的相似度矩阵。其中，K可以为本领域技术人员根据图库中图片的数量，和聚类算法的精确度等参数预先进行设定，示例性的，本申请的实施例中可以将K设置为50。

305：若某一图片对应的前K个相似距离中的第m个相似距离大于预设阈值，则将该图片标记为一个图片集合。

其中，m为大于或等于1的正整数。示例性的，可以取m为3，也就是设定为最少将三张图片标记为一个图片集合。因此，当一个图片的相似度列表中的第三个相似距离，也就是Top3小于一个预设的阈值，也就是与该图片的相似度最接近的图片不足三张，不足以分为一类，则将该图片标记为聚类失败的离散点，将离散点进行剔除；或者将该图片单独作为一个分类，用标签进行标记。

该预设阈值用于表示三张图片可以聚为一个图片集合的相似距离门限，可以为本领域技术人员根据图库中图片的数量，和聚类算法的精确度等参数预先进行设定，示例性的，本申请的实施例中可以将该预设阈值设置为0.2。也就是，当某图片的相似度列表中Top3小于0.2时，将该图片标记为一个单独的分类，暂时不与其他图片进行聚类。

进一步的，待执行后续步骤307，进行图片集合之间的合并判断时，可以判断该图片是否满足与其他图片集合进行类间合并的条件。如不满足类间合并的条件或者合并后的图片集合中的图片数量仍小于3，则将该图片标记为暂未聚类成功，待后续有新增的图片时可以对此图片继续参与聚类，判断是否有新增的图片可以与之聚类为一个图片集合。

306：根据相似度列表得到图片的分类阈值，将相似度列表中的相似距离小于或等于该分类阈值的相似距离的图片标记为一个图片集合。

具体可以为：根据每张图片分别与多张图片的相似距离获取每张图片对应的分类阈值，对于每张图片分别与多张图片的相似距离，将相似距离小于或等于分类阈值的图片标记为一个图片集合。

进一步的，该分类阈值的计算方式可以通过：对每张图片对应的K个相似距离进行差分运算，得到每张图片对应的K个相似距离中的离群点，每张图片的离群点对应的相似距离为每张图片对应的分类阈值。

其中，离群点为指一个数值序列中，远离序列的一般水平的极端大值和极端小值。具体可以通过差分运算获得离群点。例如，对K个相似距离进行差分运算得到差分函数，该差分函数的最大的峰值对应的相似距离即为离群点。

示例性的，如图5，根据某图片的相似度列表得到左图中所示的相似距离分布函数，对该相似距离分布函数进行差分运算，得到右图中所示的差分函数，差分函数的最大峰值即可以表示为该图片的相似度列表中的一个离群点，该离群点对应的相似距离即可以设定为分类阈值。

接下来，则可以将该分类列表中相似距离小于或等于该分类阈值的相似距离所对应的图片标记为一个图片集合。

通过该分类阈值的设定，不同的图片集合有不同的分类阈值，该分类阈值是根据该图片集合中的每一张图片之间的相似距离进行动态生成的，该图片集合中新增一张图片或者删除一张图片，都可能会影响该分类阈值的大小。因此其并不是一个固定的阈值，而是根据人工智能的算法得到的，从而可以根据不同图片集合中图片之间的相似度情况动态选择阈值，这样可以提高图片集合的准确性。

例如图6，如果图库中某个人物的多张照片的年龄跨度较大，则该人物的所述多张照片之间的相似距离相对偏高。而如果另一人物的多张照片场景单一、年龄相近、表情等因素也差异不大，则可以预见的是所述多张照片之间的相似距离整体偏低。在这种情况下，如果用一个固定的相似度阈值来作为区分不同照片中人物是否为不同人物的标准的话，则难以避免聚类错误的情况。而采用本申请上述实施例的这种动态阈值的聚类方法，则可以动态地、智能地进行图片集合。

307：确定多个图片集合之间是否可进行合并，对生成的多个图片集合进行合并。

具体可以通过：获取每张图片对应的图片集合的中心点，其中，中心点为该图片集合中所有图片对应的特征向量的平均值。如果任意两个图片集合的中心点之间的相似距离小于这两个图片集合中的任意一个的分类阈值时，将可以将这两个图片集合合并为一个图片集合。

需要说明的是，该中心点可以用来表示该图片集合中特征向量趋于的平均值。因此，可以通过中心点与图片集合的分类阈值之间的关系，来判断这两个图片集合是否可以进行类间合并，将相似度较高的图片集合进行合并，更新为一个新的图片集合。

示例性的，计算图片集合X的中心点为X_1，自动阈值为0.5；图片集合Y的中心点为Y_1，自动阈值为0.6；计算X_1与Y_1之间的相似距离为0.55，判断0.55小于0.5，则将图片集合X与图片集合Y合并为一个分类。则更新该图片集合对应的中心点，和该图片集合对应的K值。

308：判断是否还有需要合并的图片集合。

具体的，可以根据上述类间合并条件，判断是否还有可以合并的图片集合。如果没有需要合并的图片集合，则执行步骤310；如果还有需要合并的图片集合，则执行步骤309。

进一步的，类间合并的终止条件还可以包括：如果一个图片集合的相似度列表中的第二个相似距离大于某一个预设的阈值，则该图片集合不与任意其他图片集合进行合并。

其中，该预设的阈值用于表示该图片集合与其他图片集合的相似度太低，无需进行类间合并的相似距离门限值，可以为本领域技术人员根据图库中图片的数量和聚类算法的精确度等参数预先进行设定的，本申请实施例对此不作具体限定。

309：更新图片集合的中心点，更新该图片集合的图片数量K值。

由上述可知，图片集合进行合并后，该合并后的新的图片集合的中心点可能会发生变化，因此，需要更新该图片集合的中心点。

进一步的，图片集合合并后，图片集合的图片数量也会发生变化，因此需要更新图片集合中的图片数量K值，并且执行步骤306，更新计算该图片集合的分类阈值。

310：完成图片聚类，输出得到的多个图片集合。

当判断没有可以合并的图片集合后，即表示达到聚类的终止条件，完成对图库中所有图片的全量聚类处理，可以根据图片聚类的结果，例如将N个图片聚类为n个图片集合，显示在该电子设备的图库应用中。具体可以为图库应用中显示图片集合的标签的方式，例如，一个标签表示一个图片集合，用户点击该标签，即可查看该图片集合中的所有图片和部分图片。

上述实施例，通过人工智能的方式自动计算分类阈值，实现了用户图片的全量聚类，可以根据不同的用户图片的相似度进行不同的分类标准，提高图片分类的准确性。由该方案实现的图片聚类，一个图片集合中的图片之间的相似距离要小于不同的图片集合之间的相似距离，并且可以快速将用户手机上的照片按照不同的人的照片建立不同的相册，并建立分类标签。

进一步的，手机可以将生成的多个图片集合的中心点、该图片集合的图片数量或者该图片集合的标签等信息存储在手机的存储器中，以便后续进行新增的图片聚类处理时，不需要对已经聚类处理的图片再进行聚类处理，而可以根据存储器中存储的图片集合的信息，进行比对计算，从而可以快速进行图片分类和图片检索。

在实际使用过程中，当电子设备获取一批新的照片后，可以通过增量聚类的算法，快速将新增的图片与原有的图片集合进行聚类，也就是归档到现有的图片集合中；如果新增的照片不可以与现有的图片集合进行归档，且满足新增图片集合的条件时，则电子设备可以根据该新增的照片创建新的图片集合。

具体的增量聚类过程可以包括下述的两种流程，第一种，将新增的M个图片逐一与原有的图片集合计算相似距离，将相似距离最小的图片集合作为该图片的所属集合。

具体可以为：计算新增的图片与原有的多个图片集合中的每个图片集合的中心点的相似距离，相似距离最小的图片集合，例如为第一图片集合；若新增的图片与第一图片集合的相似距离小于或等于第一图片集合的分类阈值，则电子设备确定该新增的图片属于第一图片集合；若新增的图片与第一图片集合的相似距离大于第一图片集合的分类阈值，则电子设备新建第二图片集合，该新增的图片属于第二图片集合。

第二种，将新增的M个图片先进行全量聚类处理，具体的全量聚类的过程可以如上述步骤301-310来实现，生成m个图片集合。再对m个图片集合与上述生成的n个图片集合的中心点计算相似距离，并进行类间合并，将相似距离最小且小于任一图片集合的分类阈值的图片集合作为该图片的所属集合，并将这两个图片集合进行合并；或者，相似距离最小且大于两个图片集合的分类阈值时，且该图片集合中的图片数量大于等于3时，则根据该新增的图片集合创建新的分类。

上述的第二种增量聚类的计算量更小，算法更优，下述的本申请实施例仅以第二种增量聚类作为示例，具体流程可以为如图7，通过如下步骤实现：

701：电子设备提取新增的图片的特征向量。

具体过程可以参见上述的步骤301和302，此处不再赘述。

电子设备获取每一张新增的图片对应的特征向量，并保存，以便后续进行特征向量之间的比对计算。

702：计算新增的图片与多个图片集合的相似度，剔除离散点。

其中，可以用相似距离来表示相似度的大小。具体的相似距离的计算和离散点剔除可以参见上述的步骤303、304和305，此处不再赘述。

703：对新增的图片进行聚类，得到新增的图片对应的多个新增图片集合。

具体过程可以参见上述的步骤306-310，此处不再赘述。例如，将新增的M个图片进行全量聚类处理，生成m个新增图片集合。

704：计算每个新增图片集合分别与多个图片集合的中心点的相似距离，进行类间合并。

该相似距离用于表示新增图片集合与原图片集合的相似度大小，得到相似度最高的图片集合。

其中，所述中心点为新增图片集合或原图片集合中的所有图片的特征向量的平均值。

若新增图片集合与第一图片集合的相似距离小于或等于任一图片集合的分类阈值，则确定该新增图片属于第一图片集合，将该新增图片集合与第一图片集合进行合并，更新为一个图片集合。若新增的图片与第一图片集合的相似距离大于两个图片集合的分类阈值，则电子设备新建第二图片集合，该新增图片集合属于第二图片集合。

进一步的，电子设备新建第二图片集合的条件还可以包括，新增的图片集合中的图片数量大于等于m，则新建图片集合。例如，本申请的实施例可以设定图片不足三张，不足以分为一类，则可以将m设置为3。

705：判断是否还有需要合并的图片集合。

具体的，可以根据前述的类间合并条件，判断是否还有可以合并的图片集合。如果没有需要合并的图片集合，则执行步骤707；如果还有需要合并的图片集合，则执行步骤706。

进一步的，类间合并的终止条件还可以包括：如果一个图片集合的相似度列表中的第二个相似距离大于预设的阈值，则该图片集合不与任意其他图片集合进行合并。

其中，该预设的阈值用于表示该图片集合与其他图片集合的相似度太低，无需进行类间合并的相似距离门限，可以为本领域技术人员根据图库中图片的数量和聚类算法的精确度等参数预先进行设定，本申请实施例对此不作具体限定。

706：更新图片集合的中心点，更新该图片集合的图片数量K值。

进一步的，图片集合进行合并后，图片集合的图片数量也会发生变化，因此需要更新图片数量K值，并且更新计算该图片集合的分类阈值。

707：完成图片聚类，输出得到的多个图片集合。

当判断没有可以合并的图片集合后，即表示达到聚类的终止条件，完成对新增图片的增量聚类处理，可以根据图片聚类的结果，显示在该电子设备的图库应用中。

示例性的，如图8所示，新增的三张图片，经过增量聚类处理，分别归类到不同的图片集合中。将图8中的(a)所示的图片归类到标签1的图片集合中，图8中的(b)所示的图片归类到标签2的图片集合中，图8中的(c)所示的图片归类失败，则可以通过界面显示该图片归类失败，或者可以显示为暂未检索到同一类的图片。用户可以通过点击手机查看上述的相册智能分类的图片集合，查看图片分类标签可以查看该图片集合中的所有图片。

上述实施例，实现了快速对新增的一张或者多张图片进行聚类处理，通过对新增的图片与原有聚类结果的类中心进行比对计算，从而确定新增图片所属的图片集合或者快速创建新的图片集合，简化了新增图片的聚类过程，提高了聚类的效率，优化用户体验。

在实际的应用场景中，当用户打开电子设备上的图库应用，需要电子设备根据人脸图片进行检索时，电子设备进行图片检索的处理与上述增量聚类的过程类似，示例性的，如图9所示，电子设备根据新增人脸图片得到检索结果的流程可以包括：

901：电子设备获取人脸图片。

电子设备获取人脸图片可以选取本地的或者网络的一张或者多张图片，也可以使用摄像头获取实时的拍摄图片。

902：对获取的人脸图片进行特征提取，得到特征向量；如果是多张图片，需要先对该多张图片进行聚类，得到新增图片集合。

903：计算新增图片集合与原有的图片集合的中心点之间的相似距离，相似距离最小的且小于分类阈值的图片集合即作为检索结果输出。

进一步的，计算多个新增图片集合与原有的图片集合的中心点两两之间的相似距离，判断是否满足类间合并条件，进行新增图片集合与原有的图片集合之间的合并。

具体的，类间合并的条件参见上述实施例的步骤307，此处不再赘述。

合并图片集合之后，更新新增图片的分类标签，更新原图片集合的类中心、对应图片集合的图片数量K等相应的参数。

904：如果相似距离中最小的大于分类阈值，则根据该图片集合创建新的图片集合。

进一步的，可以将新增的图片集合中，与原有的图片集合的中心点之间的相似距离中大于分类阈值的，标记为新的图片集合。并且更新图片集合的相关参数。

本申请的上述实施例，通过增量聚类将已有的照片处理结果，如人脸聚类结果，或者场景、时间等信息存储在数据库中缓存并设置索引。则新增照片进行搜索时无需对于之前的每一张照片进行重复比对处理，即可直接调用存储的聚类结果，实现实时搜索。本申请的上述实施例采用增量聚类技术，直接调用图库中缓存的聚类结果，避免了对于照片的逐一特征向量的比对计算。另外，采用动态阈值的聚类方法可以增加对于样本分布不规则时人脸聚类的准确率，提升用户体验。

需要说明的是，上述的实施例中的电子设备还可以为云端设备例如云服务器来实现。

本申请另一些实施例提供了一种电子设备，该电子设备可以包括：存储器和一个或多个处理器，该存储器和处理器耦合。该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。当处理器执行计算机指令时，电子设备可执行上述方法实施例中的各个功能或者步骤。

本申请实施例还提供一种芯片系统，如图10所示，该芯片系统包括至少一个处理器1001和至少一个接口电路1002。处理器1001和接口电路1002可通过线路互联。例如，接口电路1002可用于从其它装置(例如电子设备的存储器)接收信号。又例如，接口电路1002可用于向其它装置(例如处理器1001)发送信号。示例性的，接口电路1002可读取存储器中存储的指令，并将该指令发送给处理器1001。当所述指令被处理器1001执行时，可使得电子设备执行上述实施例中电子设备执行的各个功能或者步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当所述计算机指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述方法实施例中的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种图片处理方法，应用于电子设备，其特征在于，所述方法包括：

电子设备对多张图片进行聚类，得到多个图片集合；

所述电子设备获取新增的图片与所述多个图片集合的中心点之间的相似距离，从所述多个图片集合中确定出与所述新增的图片相似距离最小的第一图片集合，其中，相似距离越小，相似度越高；所述中心点为图片集合中所有图片的特征向量的平均值；

若所述新增的图片与所述第一图片集合的中心点之间的相似距离小于或等于所述第一图片集合的分类阈值，则所述电子设备确定所述新增的图片属于所述第一图片集合；

若所述新增的图片与所述第一图片集合的中心点之间的相似距离大于所述第一图片集合的所述分类阈值，则所述电子设备新建第二图片集合，所述新增的图片属于所述第二图片集合。
根据权利要求1所述的方法，其特征在于，所述电子设备对多张图片进行聚类，得到多个图片集合，具体包括：

根据每张图片分别与所述多张图片的特征向量之间的相似距离，得到每张图片对应的从小到大排序的前K个相似距离，其中，K为大于或等于1的正整数；

对每张图片对应的K个相似距离进行差分运算，得到每张图片对应的K个相似距离中的离群点，所述离群点对应的相似距离为每张图片对应的分类阈值；

将所述每张图片分别与所述多张图片的特征向量之间的相似距离中，相似距离小于或等于所述分类阈值的图片标记为一个图片集合，得到每张图片对应的图片集合；

对生成的多个图片集合进行合并，从而得到所述多个图片集合。
根据权利要求2所述的方法，其特征在于，在对每张图片对应的K个相似距离进行差分运算之前，所述方法还包括：

对于每张图片中的任一图片，若所述任一图片对应的前K个相似距离中的第m个相似距离大于预设阈值，则将所述任一图片标记为一个图片集合，其中，m为大于或等于1的正整数。
根据权利要求2或3所述的方法，其特征在于，对生成的多个图片集合进行合并，从而得到所述多个图片集合包括：

获取每张图片对应的图片集合的中心点；

如果任意两个图片集合的中心点之间的相似距离小于所述任意两个图片集合的任意一个的分类阈值时，将所述任意两个图片集合合并为一个图片集合。
根据权利要求4所述的方法，其特征在于，所述电子设备获取新增的图片与所述多个图片集合的中心点之间的相似距离，具体包括：

若所述新增的图片的数量为至少两个，则对所述新增的图片进行聚类，得到所述新增的图片对应的多个新增图片集合；

计算每个新增图片集合分别与所述多个图片集合的中心点的相似距离。
一种电子设备，其特征在于，所述电子设备包括处理器，以及与处理器连接的存储器，所述存储器用于存储指令，当所述指令被所述处理器执行时，使得所述电子设备用于执行：

对多张图片进行聚类，得到多个图片集合；

获取新增的图片与所述多个图片集合的中心点之间的相似距离，从所述多个图片集合中确定出与所述新增的图片相似距离最小的第一图片集合，其中，相似距离越小，相似度越高；所述中心点为图片集合中所有图片的特征向量的平均值；

若所述新增的图片与所述第一图片集合的中心点之间的相似距离小于或等于所述第一图片集合的分类阈值，则确定所述新增的图片属于所述第一图片集合；

若所述新增的图片与所述第一图片集合的中心点之间的相似距离大于所述第一图片集合的所述分类阈值，则新建第二图片集合，所述新增的图片属于所述第二图片集合。
根据权利要求6所述的电子设备，其特征在于，所述对多张图片进行聚类，得到多个图片集合，具体包括：

根据每张图片分别与所述多张图片的特征向量之间的相似距离，得到每张图片对应的从小到大排序的前K个相似距离，其中，K为大于或等于1的正整数；

对每张图片对应的K个相似距离进行差分运算，得到每张图片对应的K个相似距离中的离群点，所述离群点对应的相似距离为每张图片对应的分类阈值；

将所述每张图片分别与所述多张图片的特征向量之间的相似距离中，相似距离小于或等于所述分类阈值的图片标记为一个图片集合，得到每张图片对应的图片集合；

对生成的多个图片集合进行合并，从而得到所述多个图片集合。
根据权利要求7所述的电子设备，其特征在于，在对每张图片对应的K个相似距离进行差分运算之前，所述电子设备还用于执行：

对于每张图片中的任一图片，若所述任一图片对应的前K个相似距离中的第m个相似距离大于预设阈值，则将所述任一图片标记为一个图片集合，其中，m为大于或等于1的正整数。
根据权利要求7或8所述的电子设备，其特征在于，对生成的多个图片集合进行合并，从而得到所述多个图片集合包括：

获取每张图片对应的图片集合的中心点；

如果任意两个图片集合的中心点之间的相似距离小于所述任意两个图片集合的任意一个的分类阈值时，将所述任意两个图片集合合并为一个图片集合。
根据权利要求9所述的电子设备，其特征在于，所述获取新增的图片与所述多个图片集合的中心点之间的相似距离，具体包括：

若所述新增的图片的数量为至少两个，则对所述新增的图片进行聚类，得到所述新增的图片对应的多个新增图片集合；

计算每个新增图片集合分别与所述多个图片集合的中心点的相似距离。
一种芯片系统，其特征在于，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路和一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1-5中任一项所述的图片处理方法。
一种可读存储介质，其特征在于，所述可读存储介质中存储有指令，当所述可读存储介质在电子设备上运行时，使得所述电子设备执行权利要求1-5中任一项所述的图片处理方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行权利要求1-5中任一项所述的图片处理方法。