WO2017113592A1

WO2017113592A1 - 模型生成方法、词语赋权方法、装置、设备及计算机存储介质

Info

Publication number: WO2017113592A1
Application number: PCT/CN2016/084312
Authority: WO
Inventors: 邹红建; 方高林
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2015-12-31
Filing date: 2016-06-01
Publication date: 2017-07-06
Also published as: JP2018509664A; JP6428795B2; US10565253B2; US20180210897A1; CN105653701A; CN105653701B

Abstract

一种模型生成方法、词语赋值方法、装置、设备及计算机存储介质。一方面，通过获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片（S101）；从而，根据所述样本图片的文本，获得文本聚簇（S102）；进而，根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征（S103）；以及，根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型（S104），第一回归模型和第一排序模型用于实现对图片中文本的词语赋权。上述技术方案能够提高图片的文本中各词语赋权结果的准确性，从而提高了图片搜索结果的准确性。

Description

模型生成方法、词语赋权方法、装置、设备及计算机存储介质

本申请要求了申请日为2015年12月31日，申请号为201511025975.0发明名称为“模型生成方法及装置、词语赋权方法及装置”的中国专利申请的优先权。

技术领域

本发明涉及互联网应用技术领域，尤其涉及一种模型生成方法、词语赋权方法、装置、设备及计算机存储介质。

背景技术

图片搜索过程包括：用户输入查询词，然后图片搜索引擎从图片集合中查找与查询词相匹配的图片搜索结果，并将图片搜索结果排序后提供给用户。图片搜索引擎是用于查找互联网图片的信息检索工具。目前，进行图片搜索时，图片搜索引擎需要计算查询词与候选图片的相关性，计算相关性主要依据查询词中各词语的权重以及各候选图片的文本中各词语的权重。其中，候选图片的文本中各词语的权重利用词语赋权技术获取。可见，词语赋权的效果会直接影响相关性计算，进而影响图片搜索结果的准确性。

现有技术中，由于图片的文本普遍比较短少，现有技术中在进行图片的词语赋权时一般根据图片的短文本，对文本中各词语进行赋权，因此导致了词语赋权结果的准确性比较低，最终导致图片搜索结果的准确性比较低。

发明内容

有鉴于此，本发明实施例提供了一种模型生成方法、词语赋值方法、装置、设备及计算机存储介质，可以提高图片的文本中各词语赋权结果的准确性，从而提高了图片搜索结果的准确性。

本发明实施例的一方面，提供一种模型生成方法，包括：

获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；

根据所述样本图片的文本，获得文本聚簇；

根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；

根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取与指定图片相同的其它图片，包括：

获取所述指定图片以及各候选图片的签名；

根据所述指定图片以及各候选图片的签名，获取所述指定图片与每个候选图片的相似度；

提取相似度大于或者等于预设的相似阈值的候选图片，以作为与所述指定图片相同的其它图片。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征之前，所述方法还包括：

根据各样本图片所在站点或者页面的权威数据、各样本图片所在页面的时间信息、各样本图片所在站点的点击数据、以及各样本图片的文本的词语向量与所述文本聚簇的词语向量之间的距离中至少一个，对所述文本聚簇中的各文本进行筛选，以获得筛选后的文本聚簇。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述文本特征包括以下特征中至少一个：

所述文本聚簇中各文本的分布特征；

所述文本聚簇中各文本的点击特征；

所述文本聚簇中各文本中词语的语义特征；

所述文本聚簇中各文本的主题词；以及，

所述文本聚簇中各文本中词语的先验属性。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

利用所述第一回归模型获得各样本图片的文本中各词语的回归分值；

利用所述第一排序模块获得各样本图片的文本中各词语的排序结果；

获得与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征；

根据所述回归分值、所述排序结果和所述相关特征，进行机器学习，生成第二回归模型和第二排序模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述相关特征包括以下特征中至少一个：

与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的用户行为特征、各图片的质量特征、以及各图片所在站点或者页面的权威数据。

本发明实施例的一方面，提供一种词语赋权方法，包括：

根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用上述模型生成方法生成的；

根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用上述模型生成方法生成的；

根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值，包括：

根据所述第一回归分值和所述第一排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。

根据所述第一回归分值和所述第一排序结果，利用第二回归模型，获得所述指定图片的文本中各词语的第二回归分值；所述第二回归模型为利用上述模型生成方法生成的；

根据所述第一回归分值和所述第一排序结果，利用第二排序模型，获得所述指定图片的文本中各词语的第二排序结果；所述第二排序模型为利用上述模型生成方法生成的；

根据所述第二回归分值和所述第二排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。

本发明实施例的一方面，提供一种模型生成装置，包括：

图片获取单元，用于获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；

文本聚簇单元，用于根据所述样本图片的文本，获得文本聚簇；

第一特征获取单元，用于根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；

第一生成单元，用于根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述图片获取单元，具体用于：

获取所述指定图片以及各候选图片的签名；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括：

文本处理单元，用于根据各样本图片所在站点或者页面的权威数据、各样本图片所在页面的时间信息、各样本图片所在站点的点击数据、以及各样本图片的文本的词语向量与所述文本聚簇的词语向量之间的距离中至少一个，对所述文本聚簇中的各文本进行筛选，以获得筛选后的文本聚簇。

所述文本聚簇中各文本的分布特征；

所述文本聚簇中各文本的点击特征；

所述文本聚簇中各文本中词语的语义特征；

所述文本聚簇中各文本的主题词；以及，

所述文本聚簇中各文本中词语的先验属性。

分值获取单元，用于利用所述第一回归模型获得各样本图片的文本中各词语的回归分值；

排序获取单元，用于利用所述第一排序模块获得各样本图片的文本中各词语的排序结果；

第二特征获取单元，用于获得与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征；

第二生成单元，用于根据所述回归分值、所述排序结果和所述相关特征，进行机器学习，生成第二回归模型和第二排序模型。

本发明实施例的一方面，提供一种词语赋权装置，包括：

分值获取单元，用于根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用上述模型生成装置生成的；

排序获取单元，用于根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用上述模型生成装置生成的；

词语赋权单元，用于根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述词语赋权单元，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述词语赋权单元进一步包括：

分值获取模块，用于根据所述第一回归分值和所述第一排序结果，利用第二回归模型，获得所述指定图片的文本中各词语的第二回归分值；所述第二回归模型为利用上述模型生成装置生成的；

排序获取模块，用于根据所述第一回归分值和所述第一排序结果，利用第二排序模型，获得所述指定图片的文本中各词语的第二排序结果；所述第二排序模型为利用上述模型生成装置生成的；

词语赋权模块，用于根据所述第二回归分值和所述第二排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。

由以上技术方案可以看出，本发明实施例具有以下有益效果：

本发明实施例提供的技术方案中，通过对图片的文本进行聚簇来获取多个文本，进而基于图片的文本聚簇提取多种特征，进而对多种特征进行机器学习，以生成所需要的模型，该模型可以用于对图片的文本中各词语进行赋权。解决了现有技术中由于图片的文本比较短少带来的词语赋权结果的准确性比较低的问题，因此本发明实施例能够提高图片的文本中各词语赋权结果的准确性，从而提高了图片搜索结果的准确性。

附图说明

图1是本发明实施例所提供的模型生成方法的实施例一的流程示意图；

图2是本发明实施例所提供的生成局部模型和全局模型的示例图；

图3是本发明实施例所提供的图片的文本聚簇的示例图；

图4是本发明实施例所提供的模型生成方法的实施例二的流程示意图；

图5是本发明实施例所提供利用点击特征生成模型的示例图；

图6是本发明实施例所提供的词语赋权方法的流程示意图；

图7是本发明实施例所提供的模型生成装置的实施例一的功能方块图；

图8是本发明实施例所提供的模型生成装置的实施例二的功能方块图；

图9是本发明实施例所提供的模型生成装置的实施例三的功能方块图；

图10是本发明实施例所提供的词语赋权装置的实施例一的功能方块图；

图11是为本发明实施例所提供的词语赋权装置的实施例二的功能方块图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述回归模型，但这些回归模型不应限于这些术语。这些术语仅用来将回归模型彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一回归模型也可以被称为第二回归模型，类似地，第二回归模型也可以被称为第一回归模型。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例一

本发明实施例给出一种模型生成方法，请参考图1，其为本发明实施例所提供的模型生成方法的实施例一的流程示意图，如图所示，该方法包括以下步骤：

S101，获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片。

具体的，图片搜索与网页搜索的显著区别是，图片的相关文本普遍比较短，因此，面对词语赋权任务时会遇到短文本理解的难题，解决该难题的方法之一是赋权任务需要增加预处理步骤，对图片的文本进行聚簇，以获得丰富且准确的文本。即对同一图片的文本进行聚合，利用聚合结果对图片的文本进行相互验证，从而筛选出可信和足量的文本，以提高基于图片的文本的统计特征的有效性。

请参考图2，其为本发明实施例所提供的生成局部模型和全局模型的示例图，如图所示，本发明实施例中，为了实现图片的文本聚簇，需要先根据指定图片，获取与指定图片相同的其它图片，然后将指定图片以及与指定图片相同的其它图片，作为本发明实施例中的样本图片。其中，指定图片的数目可以是一个以上，与每个指定图片相同的其他图片的数目也可以是一个以上。

举例说明，获取与指定图片相同的其它图片的方法可以包括但不限于：

首先，利用指定图片的全部内容或者抽取指定图片的主要特征，获取所述指定图片的签名，并利用相同的方法获得图片集合中各候选图片的签名。然后，根据所述指定图片的前面以及各候选图片的签名，获取所述指定图片与每个候选图片的相似度。将各相似度与预设的相似阈值进行比较，进而提取相似度大于或者等于预设的相似阈值的候选图像，将相似度大于或者等于预设的相似阈值的候选图像作为与所述指定图片相同的其它图片，也就是，认为与指定图片的签名的相似度大于或者等于相似阈值的其它图片与指定照片属于同一图片。这样，就获得了与指定图片相同的其他图片。

S102，根据所述样本图片的文本，获得文本聚簇。

具体的，如图2所示，对于获得的与指定图片相同的其它图片，可以将指定图片的文本以及其它图片的文本进行聚合，获得文本聚簇。

可以理解的是，指定图片的文本或者其它图片的文本可以包括但不限于：图片所在页面的标题、鼠标悬停在图片上时显示的文本、图片的标题和图片所在页面中的文本中至少一种。

可以理解的是，由于文本聚簇中各文本的来源不同，文本质量也不同，有些页面，如来源于博客、论坛的页面，存在文本与配置的图片相关性比较低的情况，所以文本聚簇如果不进行筛选，将会存在噪声，如果直接使用获得的文本聚簇会影响生成模型的准确性。

请参考图3，其为本发明实施例所提供的图片的文本聚簇的示例图，如图3所示，本发明实施例中，对文本聚簇进行筛选的方法可以包括但不限于：根据各样本图片所在站点或者页面的权威数据、各样本图片所在页面的时间信息、各样本图片所在站点的点击数据、以及各样本图片的文本的词语向量与所述文本聚簇的词语向量之间的距离中至少一个，对所述文本聚簇中的各文本进行筛选，以获得筛选后的文本聚簇。可以认为，经过筛选得到的文本聚簇中各文本属于比较优质的文本。

例如，计算各样本图片所在站点或者页面的权威数据，将各权威数据与预设的权威阈值进行比较，在文本聚簇中删除权威数据小于权威阈值的样本图片的文本。

又例如，由于博客、论坛等页面往往引用其他时间更早的页面中的图片，因此，可以根据各样本图片所在页面的时间信息，在文本聚簇中删除来源于时间较近的页面中样本图片的文本，在文本聚簇中保留来源于时间比较早的页面中样本图片的文本。

又例如，计算各样本图片所在站点的点击次数，将各点击次数与预设的次数阈值进行比较，在文本聚簇中删除点击次数小于次数阈值的样本图片的文本。

又例如，分别计算各样本图片的文本的词语向量与所述文本聚簇的词语向量之间的距离，然后将计算出的各距离与预设的距离阈值进行比较，在文本聚簇中删除距离大于或者等于距离阈值的样本图片的文本。

S103，根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征。

具体的，可以根据经过筛选后得到的文本聚簇，获得文本特征，并根据样本图片获得视觉特征。

本发明实施例中，如图2和图3所示，所述文本特征可以包括以下特征中至少一个：

所述文本聚簇中各文本的分布特征；

所述文本聚簇中各文本的点击特征；

所述文本聚簇中各文本中词语的语义特征；

所述文本聚簇中各文本的主题词；以及，

所述文本聚簇中各文本中词语的先验属性。

例如，文本的分布特征可以包括但不限于：文本中各词语在文本聚簇中各文本中出现的文本域、文本中各词语在文本聚簇中的出现次数、文本中各词语在文本聚簇中的各文本中的出现次数、文本中各词语在文本聚簇中各文本中出现时的偏移量以及文本中各词语在不同等级的站点或者页面上的分布特征。其中，文本中各词语在不同等级的站点或者页面上的分布特征可以包括但不限于以下特征中至少一个：文本中各词语在每个等级的页面或者站点中的出现次数、出现频率、出现次数与出现次数最大值的比值、出现次数与出现次数均值的比值等。

如果查询词query为q，用户在与该查询词相匹配的搜索结果中点击了图片p，则称q为p的文本的点击query文本，如果用户同时还点击了图片r，则称r的文本为p的文本的扩展点击文本。例如，所述文本的点击特征可以包括但不限于：文本中各词语在点击query文本以及扩展点击文本上的出现次数、出现频率、出现次数与出现次数最大值的比值、出现次数与出现次数均值的比值等。

例如，文本中词语的语义特征可以包括但不限于文本中各词语在文本聚簇中的语义类别，如植物、动物或者明星等。

例如，可以对文本进行切词，以获得文本中的各词语，然后获得各词语中置信度大于或者等于置信阈值的若干词语，以作为该文本的主题词。

例如，文本中词语的先验属性可以包括但不限于：词语的反文档频率(Inverse Document Frequency，IDF)数据、语义类别、共现词、同义词、近义词和相关词等。在一个具体的实现过程中，可以从语料库和/或用户行为日志上挖掘出词语的先验属性。

本发明实施例中，所述视觉特征指的是样本图片在视觉上的特征，例如，对于一张刘某某的演唱会图片，其视觉特征包括“刘某某”、“演唱会”和“明星”。可以通过对样本图片的内容和用户点击日志进行机器学习，来获得样本图片的视觉特征。

S104，根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。

具体的，如图2所示，在获得文本特征和视觉特征之后，可以根据文本特征和视觉特征进行机器学习，生成局部模型，该局部模型包括第一回归模型和第一排序模型。

可以理解的是，第一回归模型用于获得图片的文本中各词语的回归分值，第一排序模型用于获得图片的文本中各词语的排序分值，该排序分值用于确定该图片的文本中各词语之间的排序。例如，词语A、词语B和词语C的排序分值分别为0.3、-1和1.2，则各词语之间的排序为“词语C>词语A>词语B”。

例如，可以利用梯度提升决策树(Gradient Boosting Decision Tree，GBDT)算法，对文本特征和视觉特征进行机器学习，以生成第一回归模型。

又例如，可以利用梯度提升排序(Gradient Boosting Rank，GBRank)算法，对文本特征和视觉特征进行机器学习，以生成第一排序模型。

实施例二

请参考图4，其为本发明实施例所提供的模型生成方法的实施例二的流程示意图，如图所示，该方法基于实施例一中模型生成方法，该模型生成方法在S104之后还可以包括以下步骤：

S105，利用所述第一回归模型获得各样本图片的文本中各词语的回归分值。

S106，利用所述第一排序模块获得各样本图片的文本中各词语的排序结果。

S107，获得与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征。

S108，根据所述回归分值、所述排序结果和所述相关特征，进行机器学习，生成第二回归模型和第二排序模型。

可以理解的是，实施例一中生成的第一回归模型和第一排序模型只能获得词语在图片的一个文本中的回归分值以及词语在图片的一个文本中各词语的排序位置，如果想要获得词语在不同图片中的回归分值以及不同图片中同一词语的排序位置，则需要基于局部模型进一步生成全局模型，该全局模型包括第二回归模型和第二排序模型。

在一个具体的实现过程中，如图2所示，可以先将各样本图片的文本输入第一回归模型，第一回归模型输出该文本中各词语的回归分值。同理，将各样本图片的文本输入第一排序模型，第一排序模型可以输出该文本中各词语的排序结果。

本实施例中，还需要以各样本图片的文本中各词语作为查询词query进行图片搜索，以获得与各样本图片的文本中各词语相匹配的图片搜索结果。然后获得该图片搜索结果中各图片的相关特征。

本实施例中，图片的相关特征包括以下特征中至少一个：与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的用户行为特征、各图片的质量特征、以及各图片所在站点或者页面的权威数据。

例如，图片的用户行为特征可以包括但不限于：与包含文本中词语且重要度大于指定阈值的查询词相匹配的图片搜索结果中，图片的点击数据。如点击数据可以包括：图片的点击次数、点击频率、点击次数与点击次数最大值的比值、点击次数与点击次数均值的比值等。

例如，图片的质量特征可以包括但不限于：图片的尺寸、图片的清晰度、表示图片是否精美的数据(如true和false)、图片的链接是否为死链接、图片的链接是否为外部站点的连接等。

例如，图片所在站点或页面的权威数据可以包括但不限于：图片所在站点或页面的权威性的绝对值、该绝对值与绝对值最大值的比值等。

在一个具体的实现过程中，如图2所示，在获得与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征之后，可以根据各词语的回归分值、各词语的排序结果以及与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征，进行机器学习，生成全局模型，该全局模型包括第二回归模型和第二排序模型。

可以理解的是，第二回归模型用于获得同一词语对应不同图片的文本时的各回归分值，第二排序模型用于获得同一词语对应不同图片的文本时的排序分值，该排序分值用于该词语对应不同图片的文本时的排序。例如，文本A中的词语s、文本B中的词语s和文本C中的词语s的排序分值分别为0.3、-1和1.2，则排序为“文本C中的词语s>文本A中的词语s>文本B中的词语s”。

例如，可以利用GBDT算法，对各词语的回归分值、各词语的排序结果以及与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征，进行机器学习，以生成第二回归模型。

又例如，可以利用GBRank算法，对各词语的回归分值、各词语的排序结果以及与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征，进行机器学习，以生成第二排序模型。

实施例三

请参考图5，其为本发明实施例所提供利用点击特征生成模型的示例图，如图所示，该利用点击特征生成模型可以包括以下过程：

首先，从用户点击日志中筛选出包含是单个词语的查询词query的用户点击日志。

其次，根据筛选出的用户点击日志，筛选出点击倒置的查询词与对应的搜索结果，以作为候选数据。同时根据搜索结果的点击信息将搜索结果划分为不同等级。利用筛选出的点击倒置的查询词与对应的搜索结果、划分为不同等级的搜索结果，得到数据集合data_a。

然后，根据搜索系统排序和重排序时用到的特征，筛选出候选数据中只有局部特征差异较大的数据，以作为生成局部模型中第一排序模型时所使用的训练数据，筛选出的数据的质量好坏将与局部模型使用的特征密切相关。同时，不同等级的搜索结果可以作为用于生成局部模型中的第一回归模型的训练数据；这两种训练数据可以记作局部训练数据(train_local)。

接着，利用train_local进行机器学习，以生成局部模型，包括第一回归模型和第一排序模型。

然后，利用局部模型获得data_a对应的回归分值和排序结果，回归分值和排序结果添加到数据集合data_a，获得数据集合data_b。根据回归分值和排序结果，并利用赋权函数，获得局部模型得分。

接着，筛选出数据集合data_a中候选数据中只有局部特征差异较小的数据，将只有局部特征差异较小的数据、回归分值和排序结果，作为全局模型中第二回归模型和第二排序模型的训练数据，即全局训练数据train_global。

然后，利用train_global进行机器学习，以生成全局模型，包括第二回归模型和第二排序模型。

最后，可以利用学习得到的局部模型和全局模型对测试集中的测试图片的文本进行赋权并评估测试效果。

实施例四

请参考图6，其为本发明实施例所提供的词语赋权方法的流程示意图，如图所示，可以包括以下步骤：

S601，根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用实施例一所述的模型生成方法生成的。

具体的，将指定图片的文本、指定图片的文本特征和指定图片的视觉特征输入实施例一中生成的第一回归模型，第一回归模型根据输入的信息，获得该指定图片的文本中各词语的第一回归分值。

S602，根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用实施例一所述的模型生成方法生成的。

具体的，将指定图片的文本、指定图片的文本特征和指定图片的视觉特征输入实施例一中生成的第一排序模型，第一排序模型根据输入的信息，获得该指定图片的文本中各词语的第一排序结果。

S603，根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。

具体的，利用所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值的方法可以包括但不限于以下两种：

第一种：根据所述第一回归分值和所述第一排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。这里，可以利用赋权函数将第一回归分值和第一排序结果的拟合结果映射到指定区间内，如指定区间为0～100。

第二种：若上述模型生成方法中还生成了第二回归模型和第二排序模型，则可以根据所述第一回归分值和所述第一排序结果，利用第二回归模型，获得所述指定图片的文本中各词语的第二回归分值；并根据所述第一回归分值和所述第一排序结果，利用第二排序模型，获得所述指定图片的文本中各词语的第二排序结果；最后，根据所述第二回归分值和所述第二排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。

需要说明的是，本发明上述实施例所提供的技术方案不只应用于图片的文本上，还可以应用于互联网上其他网络资源的文本上，如普通页面的文本、多媒体资源的文本等，本发明仅以图片的文本为例进行举例说明。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图7，其为本发明实施例所提供的模型生成装置的实施例一的功能方块图。如图所示，该装置包括：

图片获取单元71，用于获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；

文本聚簇单元72，用于根据所述样本图片的文本，获得文本聚簇；

第一特征获取单元73，用于根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；

第一生成单元74，用于根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。

在一个具体的实现过程中，所述图片获取单元71，具体用于：

获取所述指定图片以及各候选图片的签名；

请参考图8，其为本发明实施例所提供的模型生成装置的实施例二的功能方块图。如图所示，该装置还包括：

文本处理单元75，用于根据各样本图片所在站点或者页面的权威数据、各样本图片所在页面的时间信息、各样本图片所在站点的点击数据、以及各样本图片的文本的词语向量与所述文本聚簇的词语向量之间的距离中至少一个，对所述文本聚簇中的各文本进行筛选，以获得筛选后的文本聚簇。

在一个具体的实现过程中，所述文本特征包括以下特征中至少一个：

所述文本聚簇中各文本的分布特征；

所述文本聚簇中各文本的点击特征；

所述文本聚簇中各文本中词语的语义特征；

所述文本聚簇中各文本的主题词；以及，

所述文本聚簇中各文本中词语的先验属性。

请参考图9，其为本发明实施例所提供的模型生成装置的实施例三的功能方块图。如图所示，该装置还包括：

分值获取单元76，用于利用所述第一回归模型获得各样本图片的文本中各词语的回归分值；

排序获取单元77，用于利用所述第一排序模块获得各样本图片的文本中各词语的排序结果；

第二特征获取单元78，用于获得与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征；

第二生成单元79，用于根据所述回归分值、所述排序结果和所述相关特征，进行机器学习，生成第二回归模型和第二排序模型。

在一个具体的实现过程中，所述相关特征包括以下特征中至少一个：

请参考图10，其为本发明实施例所提供的词语赋权装置的实施例一的功能方块图。如图所示，该装置包括：

分值获取单元80，用于根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用图7和图8所示的模型生成装置生成的；

排序获取单元81，用于根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用图7和图8所示的模型生成装置生成的；

词语赋权单元82，用于根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。

在一个具体的实现过程中，所述词语赋权单元，具体用于：

请参考图11，其为本发明实施例所提供的词语赋权装置的实施例二的功能方块图。如图所示，所述词语赋权单元82进一步包括：

分值获取模块821，用于根据所述第一回归分值和所述第一排序结果，利用第二回归模型，获得所述指定图片的文本中各词语的第二回归分值；所述第二回归模型为利用图9所示的模型生成装置生成的；

排序获取模块822，用于根据所述第一回归分值和所述第一排序结果，利用第二排序模型，获得所述指定图片的文本中各词语的第二排序结果；所述第二排序模型为利用图9所示的模型生成装置生成的；

词语赋权模块823，用于根据所述第二回归分值和所述第二排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。

本发明实施例的技术方案具有以下有益效果：

本发明实施例通过获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；从而，根据所述样本图片的文本，获得文本聚簇；进而，根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；以及，根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型，第一回归模型和第一排序模型用于实现对图片中文本的词语赋权。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

一种模型生成方法，其特征在于，所述方法包括：

获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；

根据所述样本图片的文本，获得文本聚簇；

根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；

根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。
根据权利要求1所述的方法，其特征在于，所述获取与指定图片相同的其它图片，包括：

获取所述指定图片以及各候选图片的签名；

根据所述指定图片以及各候选图片的签名，获取所述指定图片与每个候选图片的相似度；

提取相似度大于或者等于预设的相似阈值的候选图片，以作为与所述指定图片相同的其它图片。
根据权利要求1所述的方法，其特征在于，根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征之前，所述方法还包括：

根据各样本图片所在站点或者页面的权威数据、各样本图片所在页面的时间信息、各样本图片所在站点的点击数据、以及各样本图片的文本的词语向量与所述文本聚簇的词语向量之间的距离中至少一个，对所述文本聚簇中的各文本进行筛选，以获得筛选后的文本聚簇。
根据权利要求1所述的方法，其特征在于，所述文本特征包括以下特征中至少一个：

所述文本聚簇中各文本的分布特征；

所述文本聚簇中各文本的点击特征；

所述文本聚簇中各文本中词语的语义特征；

所述文本聚簇中各文本的主题词；以及，

所述文本聚簇中各文本中词语的先验属性。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用所述第一回归模型获得各样本图片的文本中各词语的回归分值；

利用所述第一排序模块获得各样本图片的文本中各词语的排序结果；

获得与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征；

根据所述回归分值、所述排序结果和所述相关特征，进行机器学习，生成第二回归模型和第二排序模型。
根据权利要求5所述的方法，其特征在于，所述相关特征包括以下特征中至少一个：

与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的用户行为特征、各图片的质量特征、以及各图片所在站点或者页面的权威数据。
一种词语赋权方法，其特征在于，所述方法包括：

根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用权利要求1至4中任一项所述的模型生成方法生成的；

根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用权利要求1至4中任一项所述的模型生成方法生成的；

根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。
根据权利要求7所述的方法，其特征在于，根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值，包括：

根据所述第一回归分值和所述第一排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。
根据权利要求7所述的方法，其特征在于，根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值，包括：

根据所述第一回归分值和所述第一排序结果，利用第二回归模型，获得所述指定图片的文本中各词语的第二回归分值；所述第二回归模型为利用权利要求5或6所述的模型生成方法生成的；

根据所述第一回归分值和所述第一排序结果，利用第二排序模型，获得所述指定图片的文本中各词语的第二排序结果；所述第二排序模型为利用权利要求5或6所述的模型生成方法生成的；

根据所述第二回归分值和所述第二排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。
一种模型生成装置，其特征在于，所述装置包括：

图片获取单元，用于获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；

文本聚簇单元，用于根据所述样本图片的文本，获得文本聚簇；

第一特征获取单元，用于根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；

第一生成单元，用于根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。
根据权利要求10所述的装置，其特征在于，所述图片获取单元，具体用于：

获取所述指定图片以及各候选图片的签名；

根据所述指定图片以及各候选图片的签名，获取所述指定图片与每个候选图片的相似度；

提取相似度大于或者等于预设的相似阈值的候选图片，以作为与所述指定图片相同的其它图片。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

文本处理单元，用于根据各样本图片所在站点或者页面的权威数据、各样本图片所在页面的时间信息、各样本图片所在站点的点击数据、以及各样本图片的文本的词语向量与所述文本聚簇的词语向量之间的距离中至少一个，对所述文本聚簇中的各文本进行筛选，以获得筛选后的文本聚簇。
根据权利要求10所述的装置，其特征在于，所述文本特征包括以下特征中至少一个：

所述文本聚簇中各文本的分布特征；

所述文本聚簇中各文本的点击特征；

所述文本聚簇中各文本中词语的语义特征；

所述文本聚簇中各文本的主题词；以及，

所述文本聚簇中各文本中词语的先验属性。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

分值获取单元，用于利用所述第一回归模型获得各样本图片的文本中各词语的回归分值；

排序获取单元，用于利用所述第一排序模块获得各样本图片的文本中各词语的排序结果；

第二特征获取单元，用于获得与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的相关特征；

第二生成单元，用于根据所述回归分值、所述排序结果和所述相关特征，进行机器学习，生成第二回归模型和第二排序模型。
根据权利要求14所述的装置，其特征在于，所述相关特征包括以下特征中至少一个：

与各样本图片的文本中各词语相匹配的图片搜索结果中各图片的用户行为特征、各图片的质量特征、以及各图片所在站点或者页面的权威数据。
一种词语赋权装置，其特征在于，所述装置包括：

分值获取单元，用于根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用权利要求10至13中任一项所述的模型生成装置生成的；

排序获取单元，用于根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用权利要求10至13中任一项所述的模型生成装置生成的；

词语赋权单元，用于根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。
根据权利要求16所述的装置，其特征在于，所述词语赋权单元，具体用于：

根据所述第一回归分值和所述第一排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。
根据权利要求16所述的装置，其特征在于，所述词语赋权单元进一步包括：

分值获取模块，用于根据所述第一回归分值和所述第一排序结果，利用第二回归模型，获得所述指定图片的文本中各词语的第二回归分值；所述第二回归模型为利用权利要求14或15所述的模型生成装置生成的；

排序获取模块，用于根据所述第一回归分值和所述第一排序结果，利用第二排序模型，获得所述指定图片的文本中各词语的第二排序结果；所述第二排序模型为利用权利要求14或15所述的模型生成装置生成的；

词语赋权模块，用于根据所述第二回归分值和所述第二排序结果，并利用赋权函数，计算所述指定图片的文本中各词语的赋权分值。
一种设备，包括

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，当被所述一个或者多个处理器执行时：

获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；

根据所述样本图片的文本，获得文本聚簇；

根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；

根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。
一种设备，包括

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，当被所述一个或者多个处理器执行时：

根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用权利要求1至4中任一项所述的模型生成方法生成的；

根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用权利要求1至4中任一项所述的模型生成方法生成的；

根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。
一种计算机存储介质，所述计算机存储介质被编码有计算机程序，所述程序在被一个或多个计算机执行时，使得所述一个或多个计算机执行如下操作：

获取与指定图片相同的其它图片，将所述指定图片和所述其他图片作为样本图片；

根据所述样本图片的文本，获得文本聚簇；

根据所述文本聚簇获得文本特征，并根据所述样本图片获得视觉特征；

根据所述文本特征和所述视觉特征进行机器学习，生成第一回归模型和第一排序模型。
一种计算机存储介质，所述计算机存储介质被编码有计算机程序，所述程序在被一个或多个计算机执行时，使得所述一个或多个计算机执行如下操作：

根据指定图片的文本，利用第一回归模型获得所述文本中各词语的第一回归分值；所述第一回归模型为利用权利要求1至4中任一项所述的模型生成方法生成的；

根据所述指定图片的文本，利用第一排序模型获得所述文本中各词语的第一排序结果；所述第一排序模型为利用权利要求1至4中任一项所述的模型生成方法生成的；

根据所述第一回归分值和所述第一排序结果，获得所述指定图片的文本中各词语的赋权分值。