WO2015051629A1

WO2015051629A1 - 图片排序方法及装置

Info

Publication number: WO2015051629A1
Application number: PCT/CN2014/075489
Authority: WO
Inventors: 邱石; 王晓刚; 鞠汶奇; 刘健庄; 汤晓鸥
Original assignee: 华为技术有限公司
Priority date: 2013-10-11
Filing date: 2014-04-16
Publication date: 2015-04-16
Also published as: EP3048540A1; US20160224593A1; US10521469B2; EP3048540A4; EP3486804A1; CN104572651A; CN104572651B

Abstract

本发明涉及一种图片排序方法及装置，所述方法包括：利用初始关键词进行图片搜索，根据所述初始关键词的搜索结果，计算得到所述搜索结果的锚文本概念集合，并计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，以所述锚文本概念集合中的锚文本概念为顶点、所述锚文本概念之间的关联度权值为顶点之间的边的权值，构成锚文本概念图结构ACG；利用所述锚文本概念获取训练正样本，并利用所述训练正样本训练分类器；利用所述ACG和所述分类器得到概念投影向量，计算所述初始关键词的搜索结果中各图片之间的ACG距离，根据所述ACG距离对所述各图片进行排序。本发明使得图片的搜索结果的排序更加准确，较为符合用户的搜索意图。

Description

图片排序方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种图片排序方法及装置。背景技术

随着互联网技术的快速发展，网络图片数据正在以惊人的速度快速增加。普通互联网用户要利用这样海量的数据资源，必然需要对图片进行检索。使用关键字检索图片通常会得到很多与关键字有一定关联图片，但是通常还同时会得到很多与用户需要的结果关联很少或者根本没有什么关联的图片。

近年来，以 Goog le、 Bing、 Ba idu为代表的搜索引擎运营商都提供了图片搜索的功能为普通用户进行海量网络图片数据检索提供服务。对图片的检索目前有两种方式：使用关键字的图片检索和基于内容的图片检索。使用关键字检索图片是目前最流行的方式，它能够利用基于用户输入的图片标签 ( tag )信息来进行精准的图片语义匹配。但是，由于普通用户搜索时用词不准确、不专业，与图片所搭配的文章中的文字涵盖内容广等原因导致搜索结果中往往包含很多不符合用户需求的图片。基于内容的图片检索（Content Based Image Retr ieva l , CBIR )是近些年计算机视觉和信息检索领域的研究热点，研究目标是利用图片自身的视觉信息进行有效检索（以图搜图）。然而图片本身的视觉信息的多样性，以及 "语义鸿沟" 的存在，使得 CBIR的检索效果离实际使用仍有一段距离。

总而言之，目前图片检索方式无法给用户带来满意的结果，根据用户本身提供的具体信息重新把已经得到的图片组织和排序，使用户花尽量少的精力就能看到更多符合要求的图片就成为了一个重要的需求。发明内容

本发明提供一种图片排序方法及装置，使得图片的搜索结果的排序更加准确，较为符合用户的搜索意图。

本发明第一方面提供了一种图片排序方法，所述方法包括：

利用初始关键词进行图片搜索，根据所述初始关键词对应的搜索结果，计算得到所述搜索结果的锚文本概念集合，并计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，以所述锚文本概念集合中的锚文本概念为顶点、所述顶点之间的连线为顶点的边，所述顶点的边具有所述锚文本概念之间的关联度权值，构成锚文本 4既念图结构 Anchor Concep t Graph ACG; 所述锚文本概念之间的关联度权值表示所述锚文本概念之间的语义关联度大小；

利用所述锚文本概念获取训练正样本，并利用所述训练正样本训练分类器得到训练好的分类器；

利用所述 ACG和所述训练好的分类器进行概念投影得到概念投影向量，根据所述概念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离，根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。

结合第一方面，在第一方面的第一种可能的实施方式中，所述根据所述初始关键词对应的搜索结果，计算得到锚文本概念集合，具体包括：

利用初始关键词 (？进行图片搜索得到搜索结果，所述搜索结果包括所述初始关键词 (？对应的图片集合 I 和为所述图片集合 I 中图片所配的文本集合 7；；提取所述图片集合 Γ_β中的每一张图片的视觉特征；

对于所述图片集合 I 中的图片 /_fc，将视觉特征与所述图片 /_fc最为相似的 K 个图片组成所述图片 /_¾的相似图片集合，并将所述相似图片臬合 Af(I_k) 中的所有图片所配的文本中出现频率最高的 T个词作为候选词，得到所述图片 I_k的含义的候选词集合^，即 W₄ = }1,，其中， /_fc表示所述图片集合 Γ_¾中第/ c个图片， /c = 1,2,3, ... . , Ν6， Ν6为所述图片集合 1 中的图片数量， ¾表示图片的第个候选词， ί = 1， 2 , 3, ... ... , Τ， Τ为预设正整数；

对所述候选词集合 W₄中的每一个所述候选词 co' 进行权值计算，得到所述候选词 ω 的权值 η 将所述候选词集

)最大的 M_¾个候选词分别与所述初始关键词 (？组合，合并，得到 ^1_¾个锚文本概念，形成锚文本概念集合 ς，其中， Μ。为预设的所述初始关键词 (？对应的锚文本概念集合中的元素个数。

结合第一方面的第一种可能的实施方式，在第一方面的第二种可能的实施方式中，所述对所述候选词集合^中的每一个所述候选词进行权值计算，得到所述候选词的权值 r!

)，具体包括：根据所述候选词 cd的出现频率的大小计算所述候选词 cd的权值 r! [ω )，所述候选词的出现频率越大，所述权值 (6^ )越大。

结合第一方面或第一方面的第一种或第二种可能的实施方式，在第一方面的第三种可能的实施方式中，所述计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，具体包括：

统计网页中与所述锚文本概念同时出现在一个文档中的词，并从中找到最能表征所述锚文本概念语义的前 N1 个词，根据预设赋值方法为所述前 N1 个词赋予权值，利用所述前 N1 个词的权值形成所述锚文本概念对应的向量，其中， N1为预设正整数；

计算任意两个所述锚文本概念对应的向量之间的相似度，作为对应的两个所述锚文本概念之间的关联度权值。

结合第一方面，在第一方面的第四种可能的实施方式中，所述利用所述锚文本概念自动获取训练正样本，利用所述训练正样本训练分类器得到训练好的分类器，具体包括：

利用所述锚文本概念作为关键词进行图片搜索或统计，得到所述锚文本概念的搜索结果集合，并选取所述锚文本概念对应的一个搜索结果集合中排在前 N2个的图片作为所述锚文本概念对应的正样本集合，其中 N2为预设整数， i = 1,2,3, - , Μ^ ;

提取所述锚文本概念对应的正样本集合中 N2个图片的视觉特征，作为所述锚文本概念对应的正样本的特征集合，其中 N2 为预设整数， ί = 1,2,3 M_q ;

利用所述锚文本概念对应的正样本的特征集合训练所述分类器得到所述训练好的分类器。

结合第一方面，在第一方面的第五种可能的实施方式中，所述利用所述 ACG和所述分类器进行概念投影得到概念投影向量，根据所述概念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离，具体包括：

提取所述初始关键词对应的搜索结果中图片的视觉特征，利用所述 ACG 和所述分类器，计算所提取的视觉特征属于各个所述锚文本概念所属类别的概率，作为所述概念投影对应的图片的初始概念投影向量；

根据所述初始概念投影向量，计算所述图片之间的 ACG距离。

结合第一方面的第五种可能的实施方式，在第一方面的第六种可能的实施方式中，所述根据所述初始概念投影向量，计算所述图片之间的 ACG距离，具体包括：

利用公式 _Α* = (_α"^ ,) = (/-_α )-¹ _Α.，对所述初始关键词对应的图片的所

二

述图片初始概念投影向量；进行平滑处理，其中，表示所述初始关键词对应的第 i个所述图片的初始概念投影向量，表示第 i个平滑后的概念投影向量， α表示控制扩散率的阻尼系数，表示列单位化相关矩阵， ^^ -¹， Ζ)为对角元素 D_u = ^Wj,的对角矩阵， M_¾为预设的所述初始关键词对应的锚文本概念集合 C_e中的元素个数；

利用公式^ ^ACC = ||_A* - p ||_i = ||(/ -aWr¹(A - P_i)||₁，计算第 i个所述图片和第个所述图片之间的 ACG距离 dist^ACG。

结合第一方面或第一方面的第一种至第六种中任一可能的实施方式，在第一方面的第七种可能的实施方式中，在所述根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行重排序之后，还包括：

釆用具有相似视觉和语义信息的图片逻辑组织方式展示所述各图片的重排序结果。

结合第一方面的第七种可能的实施方式，在第一方面的第八种可能的实施方式中，所述具有相似视觉和语义信息的图片逻辑组织方式包括：

釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示在一起；

或者，釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概念所属类别的图片；

或者，釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文本概念所属类别的图片；

或者，釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概念所属类别的图片；

或者，在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆用文字的形式标注所述锚文本概念；

或者，在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关联度大小，所述数字越大或者条形物越长，表示关联度越大。

结合第一方面的第八种可能的实施方式，在第一方面的第九种可能的实施方式中，对于釆用所述缩略图层叠的方式展示所述各图片中属于所述同一锚文本概念所属类别的图片时，当选择所述锚文本概念所属类别的区域时，将所选择的区域上的所述锚文本概念所属类别中的图片展示于显示屏幕的最前端，以供用户查看该类别中的全部图片。

第二方面，本发明还提供了一种图片排序装置，所述装置包括：图结构建立模块，用于利用初始关键词进行图片搜索，根据所述初始关键词对应的的搜索结果，计算得到所述搜索结果的锚文本概念集合，并计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，以所述锚文本概念集合中的锚文本概念为顶点、所述顶点之间的连线为顶点的边，所述顶点的边具有所述锚文本概念之间的关联度权值，构成锚文本概念图结构

Anchor Concep t Graph ACG ; 所述锚文本 ^既念之间的关联度权值表示所述锚文本概念之间的语义关联度大小；

训练模块，用于利用所述图结构建立模块得到的所述锚文本概念获取训练正样本，并利用所述正样本训练分类器得到训练好的分类器；

排序模块，用于利用所述图结构建立模块构成的所述 ACG和所述训练模块得到的所述训练好的分类器进行概念投影得到概念投影向量，根据所述概念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离，根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。

结合第二方面，在第二方面的第一种可能的实施方式中，所述图结构建立模块具体包括：

第一搜索单元，用于利用初始关键词 (？进行图片搜索得到搜索结果，所述搜索结果包括所述初始关键词 (？对应的图片集合 I 和为所述图片集合 I 中图片所配的文本集合 7；;

第一提取单元，用于对所述第一搜索单元得到的所述图片集合 Γ_β中的每一个图片，提取图片视觉特征，对于所述图片集合 r 中的图片 /_fc，将视觉特征与所述图片 /_fc最为相似的 K个图片组成所述图片 /_fc的相似图片集合并将所述相似图片集合 Λ "(4)中的所有图片所配的文本中出现频率最高的 T个词作为候选词，得到所述图片的含义的候选词集合，即 ^ ^ ^，其中， /_fc表示所述图片集合 Γ_¾中第/ c个图片， /c = 1,2,3, ... . , Ν6， Ν6为所述图片集合中的图片数量， ^¾表示图片的第个候选词， i = l， 2 , 3, ... ... , T，

Τ为预设正整数；

权值计算单元，用于将所述第一提取单元得到的所述候选词集合^中的每一个所述候选词进行权值计算，得到所述候选词的权值；合并单元，用于根据所述权值计算单元的计算结果，将所述候选词集合 ^中的权值 r, ( )最大的 Μ_¾个候选词分别与所述初始关键词组合，合并，得到 ^1。个锚文本概念，形成锚文本概念集合 C。，其中， Μ_β为预设的所述初始关键词 (？对应的锚文本概念集合 ς中的元素个数。

结合第二方面的第一种可能的实施方式，在第二方面的第二种可能的实施方式中，所述权值计算单元根据所述候选词的出现频率计算所述候选词 ω 的权值 η )

越大。

结合第二方面或第二方面的第一种或第二种可能的实施方式，在第二方面的第三种可能的实施方式中，所述图结构建立模块还包括：

统计单元，统计网页中与所述锚文本概念同时出现在一个文档中的词，并从中找到最能表征所述锚文本概念语义的前 N1个词，根据预设赋值方法为所述前 N1个词赋予权值，利用所述前 N1个词的权值形成所述锚文本概念对应的向量，其中， N1为预设正整数；

关联度计算单元，用于计算任意两个所述锚文本概念对应的向量之间的相似度，作为对应的两个所述锚文本概念之间的关联度权值。

结合第二方面，在第二方面的第四种可能的实施方式中，所述训练模块具体包括：第二搜索单元，利用所述锚文本概念作为关键词进行图片搜索，得到所述锚文本概念的搜索结果集合，并选取所述锚文本概念 ^对应的一个搜索结果集合中排在前 N2个的图片做为所诉锚文本概念 ^对应的正样本集合，其中 N2 为预设整数， i = 1,2,3, ... , Μ^ ;

第二提取单元，用于提取所述锚文本概念 ^对应的正样本集合中 N2个图片的视觉特征，作为所述锚文本概念对应的正样本的特征集合，其中 N2为预设整数， ί = 1,2,3, - , Μ^;

训练单元，利用所述锚文本概念对应的正样本的特征集合训练所述分类器得到所述训练好的分类器。

结合第二方面，在第二方面的第五种可能的实施方式中，所述排序模块具体包括：

第三提取单元，用于利用所述图结构建立模块构成的所述 ACG和所述训练模块得到的所述训练好的分类器，提取所述初始关键词对应的搜索结果中图片的视觉特征，通过分类器计算所提取的视觉特征属于各个所述锚文本概念所属类别的概率，作为所述概念投影对应的图片的初始概念投影向量；距离计算单元，用于根据所述初始概念投影向量，计算所述第三提取单元得到的所述初始关键词对应的搜索结果中各图片之间的 ACG距离。

结合第二方面的第五种可能的实施方式，在第二方面的第六种可能的实施方式中，所述距离计算单元，具体包括：

第一计算子单元，用于利用公式； ^ = (01 " ； ^^ (/— ο^)-¹;^ 对所述图片的初始概念投影向量进行平滑处理，其中， _Ρί表示第 i个所述图片初始概念投影向量，表示初始关键词 (7对应的第 i个平滑后的概念投影向量， α表示控制扩散率的阻尼系数， W表示列单位化相关矩阵， ^^ Τ¹ , Ζ)为对角元素 °„=∑ ^_β的对角矩阵， Μ_¾为预设的所述初始关键词 (7对应的锚文本概念集合

<^中的元素个数；第二计算子单元，用于利用公式 ^ ^ ^ - /^ ^(/ - o^)- p, - ) ，计算第 i个所述图片和第'个所述图片之间的 ACG距离 dist^ACG。

结合第二方面或第二方面的第一种至第六种中任一可能的实施方式，在第二方面的第七种可能的实施方式中，所述装置还包括：

展示模块，用于釆用具有相似视觉和语义信息的图片逻辑组织方式展示所述排序模块得到的所述各图片的重排序结果。

结合第二方面的第七种可能的实施方式，在第二方面的第八种可能的实施方式中，所述具有相似视觉和语义信息的图片逻辑组织方式包括：

结合第二方面的第八种可能的实施方式，在第二方面的第九种可能的实施方式中，对于釆用所述缩略图层叠的方式展示所述各图片中属于所述同一锚文本概念所属类别的图片时，当选择所述锚文本概念所属类别的区域时，所述展示模块将所选择的区域上的所述锚文本概念所属类别中的图片展示于显示屏幕的最前端，以供用户查看该类别中的全部图片。本发明提供的图片排序方法及装置，通过提取图片的视觉特征信息，得出高层次文本语义概念（即锚文本概念 anchor concept ) ，建立锚文本概念图结构 ACG，通过计算得到与高层次语义概念相关的 ACG距离作为重排序的度量尺度，使得图片的搜索结果的排序更加准确，更加符合用户的搜索意图。附图说明

图 1为本发明实施例一提供的图片排序方法流程图；

图 2a为本发明实施例一提供的初始关键词 "panda"的搜索结果示意图；图 2b为图 2a生成的锚文本概念的示意图；

图 2c为图 2a所建立的锚文本概念图结构 ACG的示意图；

图 2d为图 2a经过图片重排序后的图片示意图；

图 2e为图 2a经过图片重排序后的图片索引图的示意图；

图 2f 为图 2b中 "kunfu panda" 分类下的图片示意图；

图 3为本发明实施例二提供的图片排序装置示意图；

图 4为本发明实施例二提供的图结构建立模块的结构示意图；

图 5为本发明实施例二提供的训练模块的结构示意图；

图 6为本发明实施例二提供的排序模块的结构示意图。具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。本发明提供的图片排序方法及装置，适用于需要进行图片搜索或排序的场景，尤其适用于通过搜索引擎进行图片搜索的场合，通过对图片搜索结果进行重排序，可以使用户通过很少的操作即可找到所需要的图片，排序结果更加符合用户的搜索意图。

实施例一

图 1是本实施例提供的图片排序方法流程图，如图 1所示，本发明的图片排序方法包括：

S101、利用初始关键词进行图片搜索，根据所述初始关键词对应的搜索结果，计算得到所述搜索结果的锚文本概念集合，并计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，以所述锚文本概念集合中的锚文本概念为顶点、所述顶点之间的连线为顶点的边，所述顶点的边具有所述锚文本概念之间的关联度权值，构成锚文本概念图结构（Anchor Concept Graph, ACG ) 。

在锚文本（Anchor )链接中，一般将文本关键词作为一个链接，指向别的网页。锚文本链接建立文本关键词与统一资源标识符 ( Uniform Resource Loca tor , URL )链接的关系。锚文本即为该文本关键词，通常锚文本能精确的描述所指向页面的内容。本发明中的锚文本概念是从初始关键词的图片搜索结果中的图片对应的文本关键词（即锚文本）中选取得到的最能表达该些图片的文本。

所述根据所述初始关键词对应的搜索结果，计算得到锚文本概念集合，具体包括：

S101 利用初始关键词 (7进行图片搜索得到搜索结果，所述搜索结果包括所述初始关键词对应的的图片集合 Γ_¾和网页中为所述图片集合 Γ_¾中图片所配的文本集合 7；。

对于用户输入的初始关键词 (？，借助搜索引擎搜索得到相关的图片作为搜索结果。

51012、提取所述图片集合 Γ_β中的每一张图片的视觉特征。

视觉特征可以是图片的颜色、形状、纹理、空间关系等特征。

51013、对所述图片集合中的图片 /_fc，将视觉特征与所述图片 /_fc最为相似的 K个图片组成所述图片 /_¾的相似图片集合并将与所述相似图片集合 Λ/"(/_λ)中的所有图片所配的文本中出现频率最高的 T个词作为候选词，得到所述图片 I_k的含义的候选词集合^，即 W =

,。

其中， /_λ表示相似图片集合 Λ/"(/_λ)中第/ c个图片， k = 1， 2, ...N6, N6为所述图片集合中的图片数量，表示第/ c个图片 /_λ的第 i个候选词， ί = 1, 2， 3, ...... ,Τ， Τ为预设正整数。

51014、对所述候选词集合^中的每一个所述候选词 cd进行权值计算，得到所述候选词的权值 r! 根据所述候选词的

)。所述候选词的出现频率越大，权值 (c^)越大。例如，在对所述候选词集合按候选词出现频率从大到小的顺序排序之后 (比如 ωί_¾表示出现频率最高的词， 0¾表示出现频率第二高的词…… ) , 利用公式^ ) = ^ )+ ( - )，计算所述候选词的权值。其中，表示候选词的权值， ί表示所述候选词在所述候选词集合^中的顺序。例如候选词集合中有 5个候选词，即 Τ=5，则出现频率最高的一个候选词 0^的权值为 ( ) = ^«)₊ (Γ-1)=4，依次类推出现频率第二高的候选词 0^的权值为 3，出现频率第三高的为 2。当然，也可以直接釆用归一化后的候选词的词频作为所述候选词的权值，或者，釆用其他权值计算方法。

51015、将所述候选词集合 ^中的权值最大的的候选词分别与所述初始关键词 (7组合，合并，得到 ^1_¾个锚文本概念，形成锚文本概念集合，其中， Μ_¾为预设的所述初始关键词 (7对应的锚文本概念集合 ς中的元素个数。

所述锚文本概念之间的关联度权值表示所述锚文本概念之间的语义关联度大小。

所述计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，具体包括：

51016、统计网页中与所述锚文本概念同时出现在一个文档中的词，并从中找到最能表征所述锚文本概念语义的前 N1个词，根据预设赋值方法为所述前 N1个词赋予权值，利用所述前 N1个词的权值形成所述锚文本概念对应的向量，其中， N1为预设正整数。

可选的，可以釆用直接利用每一个锚文本概念 a 1在搜索引擎上搜索得到 al对应的前 N3个文档摘要，通过统计 N3个文档摘要中最重要的 N1个词的方式计算出每一个锚文本概念 a 1对应的向量。也可以使用搜索引擎锚文本概念作为关键字搜索网页，或者直接统计网页数据的方式，得到与锚文本概念同时出现在一篇文章中的文本或文本的摘要，把前 N4 个摘要合并为一篇文章，并使用词频-倒文档率（TF-IDF )等统计方法得到所述合并文章的向量，然后对向量归一化等处理得到所述锚文本概念对应的最终的向量。然后，通过计算锚文本概念对应的最终的向量之间的相似度，作为对应的两个锚文本概念之间的关联度权值。其中， N1和 N3和 N4为预设正整数。关于计算锚文本概念更为详细的阐述可以在文章 [M. Sahami and T. D. He i lman. A web-based kerne l funct ion for measur ing the s imi lar i ty of shor t text sni ppet s. In WW, 2006]及其参考文献中找大更为详细的论述。

51017、计算任意两个所述锚文本概念对应的向量之间的相似度，作为对应的两个所述锚文本概念之间的关联度权值。

可选的，可以通过计算任意两个锚文本概念 d和对应的向量的余弦距离或者欧氏距离等等来作为这两个向量之间的相似度，即为所述锚文本概念之间的关联度权值。

重复 S 1015 ~ S 1016，直到完成所有锚文本概念之间的关联度权值的计算。使用 M ^表示锚文本概念和之间的相似度或者关联度权值，将作为矩阵 W的第 i行和第列的元素，同时把 M¾ ( = 1, 2,...,M_¾ ) 置为 1，即可得到图结构 ACG的锚文本概念的相关度矩阵^。这样，以锚文本概念为顶点、锚文本概念之间的关联度权值为边的权值来构成锚文本概念图结构 ACG。

5102、利用所述锚文本概念获取训练正样本，并利用所述训练正样本训练分类器得到训练好的分类器。具体包括：

S102 利用所述锚文本概念作为关键词进行图片搜索或者统计，可以使用现有的搜索引擎完成或者自行统计网页中的图片完成，得到所述锚文本概念的搜索结果集合（即利用所述锚文本概念搜索或者统计得到的结果），并选取所述锚文本概念 ^对应的一个搜索结果集合中排在前 N2个的图片作为所述锚文本概念的正样本集合，其中 N2为预设整数， ί = 1,2,3, ... , Mq。

训练正样本是包含待检验特征的待检验样本，例如，进行人脸检测时，训练正样本是包含人脸特征的待检验样本。在本发明实施例中则是与锚文本概念 (关键词）相关的图片，即为训练正样本。

51022 , 提取所述锚文本概念对应的正样本集合中 N2 个图片的视觉特征，作为所述锚文本概念对应的正样本的特征集合。

51023、对所述锚文本概念对应的正样本训练分类器，得到所述训练好的分类器。

可选的，使用现有的多类别支持向量机（Mul t i-c la s s Suppor t Vec tor Machine , Mul t i-c la s s SVM )等作为分类器。

5103、利用所述 ACG和所述分类器进行概念投影得到概念投影向量，利用所述概念投影向量计算所述初始关键词的搜索结果中各图片之间的 ACG距离，根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。

概念投影是利用已经建立好的 ACG和训练好的分类器，通过一系列运算得到一副待排序的图片与各个 ACG 中的锚文本概念关联度大小的数值组成的向量（概念投影向量）得过程。

所述利用所述 ACG和所述训练好的分类器，计算所述初始关键词的搜索结果中各图片之间的距离，具体包括：

S103 提取所述初始关键词对应的搜索结果中图片的视觉特征，利用所述 ACG和所述分类器，计算所提取的视觉特征属于各个所述锚文本概念所属类别的概率，作为所述概念投影对应的图片 /_έ的初始概念投影向量。

S1032、根据所述初始概念投影向量，计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离。

S1032 对初始关键词 (7对应的图片 /_έ ( i = 1,2, ...,Μ^ ) 的初始概念投影向量 Pi，利用公式/^^^"^)^/-^)-¹/?,.，进行平滑处理处理。其中，表示初始关键词 (7对应的第 i个所述图片的初始概念投影向量，表示; ^平滑后的概念投影向量， α表示控制扩散率的阻尼系数，表示列单位化相关矩阵， = D- Z)为对角元素 Ζ)„=Χ^Μ' ^,的对角矩阵， Μ_β为预设的所述初始关键词 q对应的锚文本概念集合 C_q中的元素个数。

平滑处理是根据图片的初始概念投影向量 _Pi的各个分量之间的相关关系重新调整中各个分量的值，使得一张图片所对应投影向量的中对应视觉特征上更相似的类别的分量值更大。平滑处理的结果使得最后的 ACG距离计算能从高层次语义上更为精确的区分图片的类别。

S10322, 利用公式^ ^G=|p;- /^^(/- o^)- p,- ) 计算第 i个所述图片和第 '个所述图片之间的 ACG距离 dist^ACG

在得到 ACG距离后，根据所述 ACG距离计算图片的重排序得分值，根据重排序得分值对各图片进行排序。

可选的，通过 ACG距离计算出任意两幅初始搜索结果中的图片的距离，从而得到图片的相似度矩阵 K，矩阵 Κ的元素表示初始关键字搜索结果中第 i幅图片和第'幅图片；而后通过把相似度矩阵每一列相加得到总的相似向量 s, 其中 e是所有元素都为 1 的向量， s = Ke; 然后通过公式 min_z|| , ^∑|| ;5丄0≤ 2≤ 1计算得到向量2，其中 e是所有元素都为 1的向量， Lvoce DJ

s = Ke， α是一个给定的平衡参数， D是一个给定的包涵有第一次搜索各个图片排序信息的对角矩阵；最后通过公式 η：；^ ^ !^^,^)计算最后的排名得分，其中 l(_Zm〉。)表示当 z_m〉 0的时候为 1 否则为 0，使向量 z_m是向量 z的第 m个分量 KerQ^p )是一个计算向量相似度的核函数，比如可以使用向量的内积等表示， ^和 ? 分别表示第 i幅图片和第 m幅图片平滑后的概念投影向量。

更多，更为详细的可选方法可以在 [N. Morioka and J. Wang. Robust visual reranking via spars i ty and ranking constraints. In ACM MM, 2011]、 [W. Hsu, L. Kennedy, and S. -F. Chang. Video search reranking through random walk over document-level context graph. In ACM MM, 2007. ]等文章中找到。

举个例子，当用户输入初始关键词" panda"进行图片搜索时，先用 "panda" 作为初始关键词在搜索引擎中进行图片搜索，得到如图 2a 所示的搜索结果，其中包括动物熊猫、汽车、电影海报图片等等不同类型的图片。对搜索结果中的每一幅图片/_¾提取图片视觉特征，其中/ c = 1,2,3, ....,N6， N6为所述图片集合 Γ_β中的图片数量，将搜索结果中视觉特征相似 Κ个图片组成相似图片集合

N(/_fc);然后统计处所有网页中描述 N(/_fc)中图片的文字中出现频率最高的并将与所述相似图片集合）相关的文本中出现频率最高的 T个词作为候选词，得到候选词集合^，即^={ } ；然后利用公式 ^ ) = ( )+( -)，计算所述候选词的权值。其中， r,( )表示候选词的权值， ί表示所述候选词在所述候选词集合 ^中的顺序；最后通过选出最大的 M_q个词和初始关键词 q组成 M_q个锚文本概念。如图 2b所示，我们一共得到了 6个候选词包括 "kunfu" 、 "giant" 、 "zoo" 、 "suv" 、 "fiat" 、 "red" 等等，这些词和 "p_anda "组合得到候选集合锚文本概念，它们分别是"功夫熊猫 kunf u panda" 、 "大熊猫 g iant panda" 、 "熊猫动物园 anda zoo" 、 "熊猫越野车 anda suv" 、 "菲亚特熊猫 f ia t panda" 、 "红熊猫 red panda" 。

再统计网页中与所述锚文本概念同时出现在一个文档中的词，并从中找到最能表征所述锚文本概念语义的前 N1个词，为所述前 N1个词赋予权值，利用所述前 N1个词的权值形成所述锚文本概念对应的向量，其中， N1为预设正整数；通过计算各锚文本概念对应的向量之间的相似度，得到各锚文本概念之间的关联度权值及其关联度权值矩阵。以锚文本概念为顶点、锚文本概念之间的关联度权值为顶点之间的边的权值来构成锚文本概念图结构 ACG，如图 2c所示，该 ACG图中以六个锚文本概念为顶点，锚文本概念之间关联度权值为顶点之间的边的权值。再次利用搜索引擎，将锚文本概念作为关键词进行图片搜索，得到锚文本概念的搜索结果，提取排在前 N2个的图片的视觉特征，作为训练正样本训练分类器，得到训练好的分类器。利用训练好的分类器和 ACG进行概念投影，即，将初始关键词 "panda" 的图片搜索结果中的图片逐一地提取图片的视觉特征，再将提取的视觉特征通过分类器计算得到该图片属于 ACG 中各锚文本概念所属的分类的概率，并作为概念投影对应的图片的初始概念投影向量并得到相应的平滑后的概念投影向量。利用距离计算公式计算任意两个图片（即图片对）的图片平滑后的概念投影向量之间的距离，作为图片对之间的 ACG距离。利用图片对之间 ACG距离计算图片的重排序得分值，根据重排序得分值对各图片进行排序，得到如图 2d所示的重排序结果，包括六个分类，每个分类中的图片按照重排序得分值排列。

可选的，在所述根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序之后，还包括：釆用具有相似视觉和语义信息的图片逻辑组织方式展示所述各图片的排序结果。

所述具有相似视觉和语义信息的图片逻辑组织方式可以有多种形式，包括：釆用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示在一起。例如，釆用椭圓、矩形等边框围住同类图片。

或者，釆用距离大小的差异来展现所述各图片中属于不同所述锚文本概念所属类别的图片。例如，可以不使用边框而釆用距离大小展现不同类别的图片（即一张图和同类图片之间的距离明显小于不同类图片之间的距离）。

或者，釆用分层递归的结构展示所述各图片中每一类属于同一所述锚文本概念所属类别的图片。例如，在大类里面递归表示小类，即大椭圓（矩形）表示的大类里面有若干小椭圓表示的小类（矩形）。

或者，釆用缩略图层叠的方式展示所述各图片中属于同一所述锚文本概念所属类别的图片。

每一类图片釆用缩略图，层叠的方式展现该类图片中最主要的、最有代表性的数张图片（即分类分值最高的几张图片）。釆用这一层叠展现方式目的在于既体现出该类主要图片的内容，又节省网页展示的空间，还能给人模仿现实中放置图片方式的美感。

在呈现图片的类别之后，当选择所述锚文本概念所属类别的区域时，如当鼠标或者其他动态输入设备放到其中一个所述锚文本概念所属类别的区域上时，这个类别将被认为是希望被用户了解的类别，所以应该展现更为详细的情况。将所述光标所在区域上的所述锚文本概念所属类别中的图片展示于显示屏幕的最前端，以供用户查看该类别中的全部图片。或者，当鼠标或者其他动态输入设备放到其中一个类别上的时候，该类别表现为准激活状态，即该类别所占的区域位置明显大于其他类别，同时该类别所包含的图片层叠方式发生緩慢的变化，比如以动画的方式使得上层的图片緩慢移动到下层，下层的图片按层叠的顺序移动到顶层，让用户有机会观看到以前由于空间限制被遮挡的图片。

或者，在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆用文字的形式标注所述锚文本概念。例如，一个类别的图片旁有（也可以没有）一个文字标签作为标识该类图片的高级语义概念，该标签就是本专利中的锚文本 ^既念的文字形式。

或者，在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆用数字或者条形物长度的形式表示所述图片与所述锚文本概念所属类别的关联度大小，所述数字越大或者条形物越长，表示关联度越大。例如，在每张图或每一类图旁可以（也可以没有）有该图片或该类图片与各类图片联系强弱的相关度示意标识，等等。

以上述初始关键词 "panda" 为例，在排序结果中，釆用把图片放到所属锚文本概念附近，通过分类展示的方式形成重新分类后的索引图，如图 2e所示，将重排序的结果进行重新分类显示。当用户观察图 2e所示的重新分类之后的索引图后，当点击其中一类，则可以得到符合用户意图的图片，分类中的图片按照重排序得分值排列。例如点击 "kunfu panda" ，则得到的结果如图 2f 所示，显示 "kunfu panda" 这一锚文本概念所属分类下的图片，按每个图片的分值排序展现该类别的图片，而隐藏其它类别的图片（或者把其他类别图片缩略图放在旁边不显著的位置上）。

当然，本发明的图片检索结果的展示方式还可以釆用其他的展示方式，本发明并不加以限制。

以上是对本发明所提供的图片排序方法进行的详细描述，下面对本发明提供的图片排序装置进行详细描述。

实施例二

图 3是本实施例提供的图片排序装置示意图，如图 3所示，本发明的图片重排序装置包括：图结构建立模块 301、训练模块 302和排序模块 303。

图结构建立模块 301用于利用初始关键词进行图片搜索，根据所述初始关键词的搜索结果，计算得到所述初始搜索结果的锚文本概念集合，并计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，以所述锚文本概念集合中的锚文本概念为顶点、所述锚文本概念之间的关联度权值为顶点之间的边的权值构成锚文本概念图结构 ACG。所述锚文本概念之间的关联度权值表示所述锚文本概念之间的关联度大小。

训练模块 302用于利用图结构建立模块 301得到的所述锚文本概念获取训练正样本，并利用所述正样本训练分类器得到训练好的分类器。

排序模块 303用于利用图结构建立模块 301构成的所述 ACG和训练模块 302得到的所述训练好的分类器进行概念投影得到概念投影向量，根据所述概念投影向量计算所述初始关键词的搜索结果中各图片之间的 ACG距离，根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。

其中，图 4是图结构建立模块的结构示意图，如图 4所示，图结构建立模块 301具体包括：第一搜索单元 301 1、第一提取单元 3012、权值计算单元 301 3、合并单元 3014、统计单元 3015和关联度计算单元 3016。

第一搜索单元 301 1用于利用初始关键词 (7进行图片搜索得到搜索结果。所述搜索结果包括所述初始关键词 (？的图片集合 Γ_¾和网页中为所述图片集合 Γ_β中图片所配的文本集合 7；。

第一提取单元 3012用于提取第一搜索单元 301 1得到的所述图片集合 Γ_β 中的每一张图片 /_fc ( /c = 1， 2 , ... )的视觉特征，将视觉特征与所述图片 /_¾最为相似的 K个图片组成所述图片 /_fc的相似图片集合 Λ/"(/_λ)，并将与所述相似图片集合）中的所有图片所配的文本中出现频率最高的 Τ个词作为候选词，得到所述图片的含义的候选词集合^，即^ = { } 。视觉特征可以是图片的颜色、形状、纹理、空间关系等特征。

其中， /_λ表示相似图片集合 Λ/"(/_λ)中第 k个图片， /c = 1， 2 , ... N6， N6为所述图片集合 I 中的图片数量，表示第 k 个图片 /_λ的第 ί个候选词， ί = 1 , 2 , 3, ... ... , Τ， Τ为预设正整数。

权值计算单元 301 3用于将第一提取单元 3012得到的所述候选词集合^ 中的每一个所述候选词进行权值计算，得到所述候选词的权值。权值计算单元 3013根据所述候选词的出现频率的大小计算所述候选词的权值 η )

越大。例如，在对候选词集合按候选词出现频率从大到小的顺序排序之后 (比如表示出现频率最高的词，表示出现频率第二高的词 ······ ) ，利用公式 r_t ) = η ) + (T - i) ,计算所述候选词的权值。其中， )表示候选词的权值， ί表示所述候选词在所述候选词集合 W₄中的顺序。例如候选词集合中有 5 个候选词，即 T=5，则出现频率最高的一个候选词的权值为 _ri ( )_k ) = _ri ( )_k ) ₊ (T - l)= , 依次类推出现频率第二高的候选词 0^的权值为 3，出现频率第三高的为 2。当然，也可以直接釆用归一化后的候选词的词频作为所述候选词的权值，或者，釆用其他权值计算方法。

合并单元 3014用于根据权值计算单元 3013的计算结果，将所述候选词集合^中的权值 r, ( )最大的 M_¾个候选词分别与所述初始关键词组合，合并，得到 ^1。个锚文本概念，形成锚文本概念集合 C。。

其中， M_¾为预设的所述初始关键词对应的锚文本概念集合 ς中的元素个数。

统计单元 3015用于统计网页中与所述锚文本概念同时出现在一个文档中的词，并从中找到最能表征所述锚文本概念语义的前 N1个词，根据预设赋值方法为所述前 N1个词赋予权值，利用所述前 N1个词的权值形成所述锚文本概念对应的向量，其中， N1为预设正整数。

可选的，可以釆用直接利用每一个锚文本概念 al在搜索引擎上搜索得到 al对应的前 N3个文档摘要，通过统计 N3个文档摘要中最重要的 N1个词的方式计算出每一个锚文本概念 a 1对应的向量。也可以使用搜索引擎锚文本概念作为关键字搜索网页，或者直接统计网页数据的方式，得到与锚文本概念同时出现在一篇文章中的文本或文本的摘要，把前 N4 个摘要合并为一篇文章，并使用 TFI-DF等统计方法得到所述合并文章的向量，然后对向量归一化等处理得到所述锚文本概念对应的最终的向量。然后，通过计算锚文本概念对应的最终的向量之间的，其中， N1和 N3和 N4为预设正整数。关于计算锚文本概念更为详细的阐述可以在文章 [M. Sahami and T. D. He i lman. A web-based kerne l funct ion for measur ing the s imi lar i ty of shor t text sni ppet s. In WW, 2006]及其参考文献中找大更为详细的论述。

关联度计算单元 3016用于计算任意两个所述锚文本概念对应的向量之间的相似度，作为对应的两个所述锚文本概念之间的关联度权值。

可选的，关联度计算单元 3016可以通过计算任意两个锚文本概念和对应的向量的余弦距离或者欧式距离等等来作为这两个向量之间的相似度，即为所述锚文本概念之间的关联度权值。

利用统计单元 3Q15和关联度计算单元 3Q16重复进行统计和计算，直到完成所有锚文本概念之间的关联度权值的计算，使用表示锚文本概念和之间的相似度或者关联度权值，将 w_y.作为矩阵 W的第 i行和第列的元素，同时把^ ( = 1, 2,..., _? ) 置为 1，即可得到图结构 ACG的锚文本概念的相关度矩阵 W。

这样，以锚文本概念为顶点、锚文本概念之间的关联度权值为边的权值来构成锚文本概念图结构 ACG。

图 5是训练模块的结构示意图，如图 5所示，训练模块 302具体包括：第二搜索单元 3021、第二提取单元 3022和训练单元 3023。

第二搜索单元 3021用于利用所述锚文本概念再次进行图片搜索或者统计，将再次搜索或者统计得到的结果作为训练正样本，训练得到分类器。具体包括：利用所述锚文本概念作为关键词进行图片搜索或者统计，可以使用现有的搜索引擎完成或者自行统计网页中的图片完成，得到所述锚文本概念的搜索结果集合（即利用所述锚文本概念搜索或者统计得到的结果），并选取所述锚文本概念对应的一个搜索结果中排在前 N2个的图片作为所述锚文本概念的正样本集合，其中 N2为预设整数， ί = 1,2,3, ...,Mq。

第二提取单元 3022用于提取第二搜索单元 3021得到的所述锚文本概念对应的正样本集合中 N2个图片的视觉特征，作为所述锚文本概念对应的正样本的特征集合。

训练单元 3023用于使用第二提取单元 3022得到的所述锚文本概念对应的正样本训练所述分类器，得到所述训练好的分类器。

可选的，训练单元 3023 使用现有的多类别支持向量机（Multi-calss Support Vector Machine, Multi-calss SVM )等作为分类器。

图 6是排序模块的结构示意图，如图 6所示，排序模块 303具体包括：第三提取单元 3031、距离计算单元 3032和排序单元 3033。

第三提取单元 3031用于提取所述初始关键词对应的搜索结果中图片的视觉特征，利用图结构建立模块 301构成的所述 ACG和所述训练模块 302得到的所述训练好的分类器，计算所提取的视觉特征属于各个所述锚文本概念所属类别的概率，作为所述概念投影对应的图片的初始概念投影向量。

距离计算单元 3032用于根据所述初始概念投影向量，计算所述第三提取单元得到的所述初始关键词对应的搜索结果中各图片之间的 ACG距离。具体包括：第一计算子单元 30321和第二计算子单元 30322。第一计算子单元 30321用于利用公式 _Α*= (α" ； ?,) = (/- 0^)- ，对所述 π二 0

初始关键词 (7对应的图片的初始概念投影向量进行平滑处理。

其中，表示初始关键词 (7对应的第 i个所述图片的初始概念投影向量， p: 表示第 i个平滑后的概念投影向量， α表示控制扩散率的阻尼系数，表示列单位化相关矩阵， = Τ Ζ)为对角元素 Ζ)„=Χ^Μ' ^,的对角矩阵， Μ_β为预设的所述初始关键词 (7对应的锚文本概念集合 ς中的元素个数。

平滑处理是根据原图片的初始概念投影向量 _Ρί的各个分量之间的相关关系重新调整中各个分量的值，使得一张图片所对应投影向量的中对应视觉特征上更相似的类别的分量值更大。平滑处理的结果使得最后的 ACG距离计算能从高层次语义上更为精确的区分图片的类别。

第二计算子单元 30322用于利用公式^ i^ACC=|p;_p;| = (Ι-α Τ^ρ,-ρΛ

II 111 1，计算第 i个所述图片第个所述图片之间的 ACG距离 dist^ACG。

排序单元 3033用于根据距离计算单元 3032计算得到的 ACG距离对所述各图片进行重排序。

排序单元 3033利用所述 ACG距离计算所述各图片的重排序的得分值，对所述各图片进行重排序。可选的，排序单元 3033通过 ACG距离计算出任意两幅初始搜索结果中的图片的距离，从而得到图片的相似度矩阵 K，矩阵 Κ的元素/^表示初始关键字搜索结果中第 i幅图片和第幅图片；而后通过把相似度矩阵每一列相加得到总的相似向量 s，其中 e是所有元素都为 1的向量， s = Ke; 然后通过公式 min_z|| z| ;s.t.O≤ z≤ 1计算得到向量 z，其中 e

Vae^TD

是所有元素都为 1 的向量， s = Ke， α是一个给定的平衡参数， D是一个给定的包涵有第一次搜索各个图片排序信息的对角矩阵；最后通过公式 = SU^ ^Ker ^,^)计算最后的排名得分，其中 l_(Zm〉₀)表示当 z_m > 0 的时候为 1否则为 0，使向量 z_m是向量 z的第 m个分量 KerQ^p )是一个计算向量相似度的核函数，比如可以使用向量的内积等表示， ^和？分别表示第 i 幅图片和第 m幅图片平滑后的^既念投影向量。

可选的，本发明提供图片重排序装置还包括：展示模块（图未示），用于釆用具有相似视觉和语义信息的图片逻辑组织方式展示所述排序模块得到的所述各图片的排序结果。

在呈现图片的类别之后，当选择所述锚文本概念所属类别的区域时，如当鼠标或者其他动态输入设备放到其中一个所述锚文本概念所属类别的区域上时，这个类别将被认为是希望被用户了解的类别，所以应该展现更为详细的情况。将所述光标所在区域上的所述锚文本概念所属类别中的图片展示于显示屏幕的最前端，以供用户查看该类别中的全部图片。或者，当鼠标或者其他动态输入设备放到其中一个类别上的时候，该类别表现为准激活状态，即该类别所占的区域位置明显大于其他类别，同时该类别所包含的图片层叠方式发生緩慢的变化，比如以动画的方式使得上层的图片緩慢移动到下层，下层的图片按层叠的顺序移动到顶层，让用户有机会观看到以前由于空间限制被遮挡的图片。或者，在所述各图片中属于同一所述锚文本概念所属类别的图片附近釆用文字的形式标注所述锚文本概念。例如，一个类别的图片旁有（也可以没有）一个文字标签作为标识该类图片的高级语义概念，该标签就是本专利中的锚文本 ^既念的文字形式。

本发明提供的图片排序方法及装置，通过提取图片的视觉特征信息，得出高层次文本语义概念 (即锚文本概念 anchor concep t )，建立 ACG图结构，并利用锚文本概念作关键字获取训练数据，训练得到分类器，通过训练好的分类器和 ACG得到 ACG距离用于图片重排序需要的度量尺度，根据 ACG距离进行重排序，本发明得到的训练数据各类之间语义相关度很高，获取训练数据成本更低，由于使用了与高层次语义概念相关的 ACG距离作为重排序的度量尺度，使得图片的搜索结果的排序更加准确，更加符合用户的搜索意图。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器

( RAM ) 、内存、只读存储器（ROM ) 、电可编程 R0M、电可擦除可编程 R0M、寄存器、硬盘、可移动磁盘、 CD-R0M、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种图片排序方法，其特征在于，所述方法包括：

2、根据权利要求 1所述的方法，其特征在于，所述根据所述初始关键词对应的搜索结果，计算得到锚文本概念集合，具体包括：

利用初始关键词 (？进行图片搜索得到搜索结果，所述搜索结果包括所述初始关键词 (？对应的图片集合 Γ_β和为所述图片集合 Γ_β中图片所配的文本集合 7；；提取所述图片集合 Γ_β中的每一张图片的视觉特征；

对于所述图片集合 Γ_¾中的图片 /_fc，将视觉特征与所述图片 /_fc最为相似的 K 个图片组成所述图片 /_¾的相似图片集合，并将所述相似图片臬合 Af(l_k) 中的所有图片所配的文本中出现频率最高的 T个词作为候选词，得到所述图片 I_k的含义的候选词集合^，即 W₄ = }1,，其中， /_fc表示所述图片集合 I 中第/ c个图片， /c = 1,2,3, ... . , N6， N6为所述图片集合中的图片数量，表示图片的第个候选词， ί = 1， 2 , 3, ... ... , Τ， Τ为预设正整数；

对所述候选词集合 W₄中的每一个所述候选词 of_Ik进行权值计算，得到所述候选词 ω 的权值 r! )

；将所述候选词集合^中的权值 η (ω^ )最大的 Μ_¾个候选词分别与所述初始关键词 (7组合合并，得到 ^1_¾个锚文本概念，形成锚文本概念集合 ς，其中， Μ_¾ 为预设的所述初始关键词 (7对应的锚文本概念集合 ς中的元素个数。

3、根据权利要求 2所述的方法，其特征在于，所述对所述候选词集合^ 中的每一个所述候选词 cd进行权值计算，得到所述候选词的权值 r! )

，具体包括：

根据所述候选词的出现频率的大小计算所述候选词的权值 η

)，所述候选词的出现频率越大，所述权值 (0越大。

4、根据权利要求 1或 2或 3所述的方法，其特征在于，所述计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，具体包括：

5、根据权利要求 1-4任一项所述的方法，其特征在于，所述利用所述锚文本概念获取训练正样本，利用所述训练正样本训练分类器得到训练好的分类器，具体包括：

6、根据权利要求 1-5任一项所述的方法，其特征在于，所述利用所述 ACG 和所述分类器进行概念投影得到概念投影向量，根据所述概念投影向量计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离，具体包括：

提取所述初始关键词对应的搜索结果中图片的视觉特征，利用所述 ACG 和所述训练好的分类器，计算所提取的视觉特征属于各个所述锚文本概念所属类别的概率，作为所述概念投影对应的图片的初始概念投影向量；

根据所述初始概念投影向量，计算所述初始关键词对应的搜索结果中各图片之间的 ACG距离。

7、根据权利要求 6所述的方法，其特征在于，所述根据所述初始概念投影向量，计算所述图片之间的 ACG距离，具体包括：利用公式 /^^ ^^^/^ ^/ ο^)-¹;^，对所述初始关键词对应的图片的所述图片初始概念投影向量；进行平滑处理，其中，表示所述初始关键词对应的第 i个所述图片的初始概念投影向量，表示第 i个平滑后的概念投影向量， α表示控制扩散率的阻尼系数，表示列单位化相关矩阵， ^^ -¹， Ζ)为对角元素 D_n =∑ W_jt的对角矩阵， M_¾为预设的所述初始关键词对应的锚文本概念集合 C_e中的元素个数；

利用公式^ ; 1; | = (Ι - α Τ^ρ, - ρ .) ，计算第 i个所述图片和第'个所述图片之间的 ACG距离 dist^ACG

8、根据权利要求 1 -7任一项所述的方法，其特征在于，在所述根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行重排序之后，还包括：

9、根据权利要求 8所述的方法，其特征在于，所述具有相似视觉和语义信息的图片逻辑组织方式包括：

1 0、根据权利要求 9 所述的方法，其特征在于，对于釆用所述缩略图层叠的方式展示所述各图片中属于所述同一锚文本概念所属类别的图片时，当选择所述锚文本概念所属类别的区域时，将所选择的区域上的所述锚文本概念所属类别中的图片展示于显示屏幕的最前端，以供用户查看该类别中的全部图片。

1 1、一种图片排序装置，其特征在于，所述装置包括：图结构建立模块，用于利用初始关键词进行图片搜索，根据所述初始关键词对应的搜索结果，计算得到所述搜索结果的锚文本概念集合，并计算得到所述锚文本概念集合中的锚文本概念之间的关联度权值，以所述锚文本概念集合中的锚文本概念为顶点、所述顶点之间的连线为顶点的边，所述顶点的边具有所述锚文本概念之间的关联度权值，构成锚文本概念图结构 Anchor Concep t Graph ACG; 所述锚文本概念之间的关联度权值表示所述锚文本概念之间的语义关联度大小；

12、根据权利要求 1 1所述的装置，其特征在于，所述图结构建立模块具体包括：

第一搜索单元，用于利用初始关键词 (？进行图片搜索得到搜索结果，所述搜索结果包括所述初始关键词 (？对应的图片集合 Γ_¾和为所述图片集合 I 中图片所配的文本集合 7；;

第一提取单元，用于对所述第一搜索单元得到的所述图片集合 Γ_β中的每一个图片，提取图片视觉特征，对于所述图片集合 r 中的图片 /_fc，将视觉特征与所述图片 /_fc最为相似的 K个图片组成所述图片 /_¾的相似图片集合 A "(/J，并将所述相似图片集合中的所有图片所配的文本中出现频率最高的 T个词作为候选词，得到所述图片 4的含义的候选词集合 _t，即 w₄ = {<£，其中， /_fc表示所述图片集合 Γ_¾中第/ c个图片， /c = 1,2,3, ... . , Ν6， Ν6为所述图片集合 I 中的图片数量， ί¾表示图片 4的第个候选词， i = l， 2 , 3, ... ... , T， T为预设正整数；

权值计算单元，用于将所述第一提取单元得到的所述候选词集合 ^中的每一个所述候选词 cd进行权值计算，得到所述候选词 cd的权值 r, ( )；合并单元，用于根据所述权值计算单元的计算结果，将所述候选词集合^ 中的权值最大的 M_¾个候选词分别与所述初始关键词 (7组合，合并，得到 M。个锚文本概念，形成锚文本概念集合 C。，其中， M。为预设的所述初始关键词对应的锚文本概念集合 ς中的元素个数。

1 3、根据权利要求 12所述的装置，其特征在于，所述权值计算单元根据所述候选词的出现频率计算所述候选词的权值 η ( )，所述候选词的出现频率越大，权值越大。

14、根据权利要求 1 1或 12或 1 3所述的装置，其特征在于，所述图结构建立模块还包括：

15、根据权利要求 11-14任一项所述的装置，其特征在于，所述训练模块具体包括：

第二搜索单元，利用所述锚文本概念作为关键词进行图片搜索，得到所述锚文本概念的搜索结果集合，并选取所述锚文本概念 ^对应的一个搜索结果集合中排在前 N2个的图片做为所诉锚文本概念 ^对应的正样本集合，其中 N2 为预设整数， i = 1,2,3, ... , Μ^ ;

第二提取单元，用于提取所述锚文本概念 ^对应的正样本集合中 N2个图片的视觉特征，作为所述锚文本概念对应的正样本的特征集合，其中 N2为预设整数， ί = 1,2,3, -,Μ^;

16、根据权利要求 11-15任一项所述的装置，其特征在于，所述排序模块具体包括：

17、根据权利要求 16所述的装置，其特征在于，所述距离计算单元，具体包括：

第一计算子单元，用于利用公式 _Α*=|;(_α"^ ,)=(/—_α )-^ι _Α.，对所述图片的初始概念投影向量; ^.进行平滑处理，其中， _Ρί表示第 i个所述图片初始概念投影向量， _A*表示初始关键词 (7对应的第 i个平滑后的概念投影向量， α表示控制扩散率的阻尼系数，表示列单位化相关矩阵， ^^ )-¹, D为对角元素的对角矩阵， Μ_¾为预设的所述初始关键词对应的锚文本概念集合

<^中的元素个数；

第二计算子单元，用于利用公式 ^ ^^-/^^(/-o^)- p,- ) ，计算第 i个所述图片和第'个所述图片之间的 ACG距离 dist^ACG

18、根据权利要求 11-17任一项所述的装置，其特征在于，所述装置还包括：

19、根据权利要求 18所述的装置，其特征在于，所述具有相似视觉和语义信息的图片逻辑组织方式包括：

20、根据权利要求 19所述的装置，其特征在于，对于釆用所述缩略图层叠的方式展示所述各图片中属于所述同一锚文本概念所属类别的图片时，当选择所述锚文本概念所属类别的区域时，所述展示模块将所选择的区域上的所述锚文本概念所属类别中的图片展示于显示屏幕的最前端，以供用户查看该类别中的全部图片。