WO2018171295A1

WO2018171295A1 - 一种给文章标注标签的方法、装置、终端及计算机可读存储介质

Info

Publication number: WO2018171295A1
Application number: PCT/CN2018/071607
Authority: WO
Inventors: 潘岸腾
Original assignee: 广州优视网络科技有限公司
Priority date: 2017-03-22
Filing date: 2018-01-05
Publication date: 2018-09-27
Also published as: CN106980667A; CN106980667B

Abstract

提供了一种给文章标注标签的方法、装置、终端及计算机可读存储介质。所述方法包括：从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库；确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重；基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重；基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

Description

一种给文章标注标签的方法、装置、终端及计算机可读存储介质

相关申请的交叉引用

本申请要求于2017年03月22日提交中国专利局的申请号为201710172954.4、名称为“一种给文章标注标签的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及信息处理技术领域，具体而言，涉及一种给文章标注标签的方法、装置、终端及计算机可读存储介质。

背景技术

随着通信网络的推广和智能终端的普及，人们越来越习惯使用电子产品进行阅读。例如，在电子计算机上登录新闻网站或者小说网站阅读各种新闻或小说，也可以登录网上图书馆来阅读各种图书。再例如，使用智能手机或平板电脑等智能移动终端上安装的第三方应用来实现阅读，如新闻类的“今日头条”、小说类的“书旗小说”、还有其它期刊类的APP等等。

无论是在电子计算机上登录新闻网站或者小说，或是在期刊网站等阅读各种新闻、小说、论文等，还是使用提供阅读功能的第三方应用来进行阅读，都需要对大量的新闻内容进行归类整合，对大量的小说或论文进行归类整合，把整合好的数据作为基础数据，这样方便根据内容类别进行展示，或基于用户兴趣进行推荐。

在对新闻、小说或论文等文章归类整合的过程中，很多文章都来自于外部数据源，这些文章没有任何分类信息或标签信息，如何对这些文章进行归类是一件棘手的事情。传统的方法是通过运营人员根据经验判断文章属于哪一类别。这种方法的缺陷有两个：

1、需要耗费巨大的人力成本。对于加入的每一个新文章，尤其是即时性很强的新闻类文章，运营人员需要快速阅读该文章，然后将其归类到已有类别。

2、效率低、成本高，对于专业性很强的文章需要专业人员来判断。依靠人工来一篇一篇归类，效率低；并且对于专业性很强的文章，例如经济、理财、投资等新闻，内容很相似，需要专业人员来判断才能保证正确分类，这会带来高成本。

发明内容

有鉴于此，本发明的目的在于提供一种给文章标注标签的方法、装置、终端及计算机可读存储介质，以改善上述问题中的至少一个。

为了达到上述目的，本发明实施例提供了一种给文章标注标签的方法，其包括：

从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库，该关键词库包括所述多个关键词及每个关键词在已有文章资源库里的每篇文章里出现的词频；

确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重；

基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重；

基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

本发明实施例还提供一种给文章标注标签的装置，其包括：

关键词库建立单元，配置成从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库，该关键词库包括所述多个关键词及每个关键词在已有文章资源库里的每篇文章里出现的词频；

第一权重确定单元，配置成确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重；

第二权重确定单元，配置成基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重；

标签标注单元，配置成基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

可选地，所述关键词库建立单元从已有文章资源库里的所有文章里提取出多个关键词的方式，包括：

使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语，建立分词词语库，所述分词词语库包括所述多个分词词语及每个分词词语在所述已有文章资源库里的每篇文章中的词频；

根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的任意一篇文章中出现的概率，计算该分词词语的分辨率；

根据所述分辨率按预设方式选取一定数量的分词词语作为所述多个关键词。

可选地，所述关键词库建立单元根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的任意一篇文章中出现的概率，计算该分词词语的分辨率的方式，包括：

通过以下计算式确定分词词语库里的每个分词词语的分辨率：

其中：

S _i表示分词词语i的分辨率；

θ为自定义的一个小数；

P _l,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频，如果分词词语i没有出现在文章l中则P _l,i＝0；

|L|表示已有文章资源库里的所有文章的总数量；

pct([P _l,i] _l∈L,θ,1)表示将数组P _l里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和；

pct([P _l,i] _l∈L,0,θ)表示将数组P _l里的元素按数值大小做降序排列并对排名在第1位到第θ分位的多个元素数值进行累加求和；

L表示已有文章资源库里的所有文章的集合。

可选地，所述第一权重确定单元确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重的方式，包括：

根据每个关键词在所述已有文章资源库中的每篇文章中的词频及每个标签在该篇文章中的词频，计算得到该关键词对该标签的第一权重。

可选地，所述第一权重确定单元根据每个关键词在所述已有文章资源库中的每篇文章中的词频及每个标签在该篇文章中的词频，计算得到该关键词对该标签的第一权重的方式，包括：

通过以下计算式计算每个关键词对每个标签的第一权重：

其中：

TW _t,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重，如果标签t的文字内容里没有关键词w时TW _t,w为0；

PLT _l,t表示标签库里的标签t在已有文章资源库里的文章l里出现的词频；

PLW _l,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频；

|L|表示已有文章资源库里的所有文章的总数量；

L表示已有文章资源库里的所有文章的集合。

可选地，所述第二权重确定单元确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重的方式，包括：

针对所述标签库里的每个标签，根据每个关键词对该标签的所述第一权重及该关键词在所述已有文章资源库中的每篇文章中的词频，计算得到该标签对该篇文章的第二权重。

可选地，所述第二权重确定单元针对所述标签库里的每个标签，根据每个关键词对该标签的所述第一权重及该关键词在所述已有资源库中的每篇文章中的词频，计算得到该标签对该篇文章的第二权重的方式，包括：

通过如下计算式计算每个标签对每篇文章的第二权重：

其中：

LP _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重；

TW _t,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重，如果标签t的文字内容里没有关键词w则TW _t,w为0；

n为关键词库里的关键词的总数量。

可选地，所述装置还包括：

相对第二权重确定单元，配置成通过以下计算式对每个标签对每篇文章的第二权重进行标准化处理，以获得所述标签对文章的相对第二权重：

其中：

LPC _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的相对第二权重；

表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的平均权重；

|L|表示已有文章资源库里的所有文章的总数量。

可选地，所述标签标注单元，还配置成基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上的过程包括：根据第二权重的大小顺序选取一定数量的标签给相应的文章标注上；或者选择大于预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。

可选地，所述标签标注单元，还配置成：

针对所述已有文章资源库中的每篇文章，获得所述标签库里的每个标签对该篇文章的第二权重；

选取第二权重最大的预设数量个标签给该篇文章标注上，或者，选取第二权重大于预设值的标签给该篇文章标注上。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现本发明实施例提供的给文章标注标签的方法。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现本发明实施例提供的给文章标注标签的方法。

根据本发明实施例的一种给文章标注标签的方法、装置、终端及计算机可读存储介质，通过建立标签库里的标签与文章之间的关联性，能够实现对来自外部数据源的新文章或者没有标签的文章自动标注上合适的标签，每个标签代表一个分类，或者多个标签指向一个分类，由此可以节省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低运营成本。

附图说明

图1是本发明实施例提供的给文章标注标签的方法的流程图；

图2是本发明实施例提供的给文章标注标签的装置的示意性框图。

具体实施方式

下面将结合本发明实施例和附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种终端，该终端包括存储器、处理器及给文章标注标签的装置。其中，存储器、处理器及其他各元件之间直接或间接地电性连接，以实现数据的传输或交互。其中，所述给文章标注标签的装置包括至少一个可以以软件(software)或固件(firmware)的形式存储在所述存储器中或固化在所述终端的操作系统(Operation System，OS)中的软件功能模块。所述处理器配置成在接收到执行指令时，执行存储在所述存储器中的可执行模块，从而实现相应的功能应用，例如本实施例提供的给文章标注标签的方法。

应当理解，在本实施例中，所述终端还可以包括比上述内容更多、更少或者完全不同的组件，在此不做限制。

图1是本发明实施例提供的一种给文章标注标签的方法的流程图，该方法可应用于上述的终端。如图1所示，本发明的给文章标注标签的方法包括以下步骤：

S1：从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库，该关键词库包括所述多个关键词及每个关键词在已有文章资源库里的每篇文章里出现的词频。

在电子产品上提供文章阅读服务的网络服务商都会在服务器上建立文章资源库，以供用户使用计算机或智能终端等电子产品在线阅读或者下载到终端上阅读。这里所述的文章泛指各种可以进行文字阅读的书籍，包括但不限于：各种类型的小说、论文、期刊、各类学科的教科书、用于考试的各类辅导书、习题集等等。另外，为了管理方便，服务商也可以建立多个文章资源库，例如针对小说类建立小说书籍资源库，针对论文和期刊等建立期刊资源库，针对教科书、辅导书和习题集等书籍建立专门的资源库，针对新闻资讯等文章建立资源库，这些可以根据资源管理策略由服务商自行制定，而不在本发明的讨论范围之内，这里统一称为文章资源库。

在本实施例中，建立的关键词库中还可以包括除关键词及其在每篇文章中的词频之外的信息，例如，还可以包括每个关键词在哪些文章中出现过，即每个关键词所关联的文章。

为了能够给文章自动标上标签，首先需要从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库，可以通过如下步骤实现：

首先，使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语，建立分词词语库，其中，所述分词词语库包括所述多个分词词语及每个分词词语在所述已有文章资源库里的每篇文章中的词频。

如上所述，在提供电子阅读的多个第三方应用的服务商都会在服务器上预先建立文章资源库，在该文章资源库里保存所有文章，这是本领域技术人员的常用方法，这里不多赘述。采用公知的任何分词技术来对已有文章资源库里的每一篇文章提取出多个分词词语，对这些分词词语建立分词词语库。该分词词语库可以包括但不限于：1、每个分词词语与每篇文章的关联性，即每个分词词语都来自于哪些文章；2、每个分词词语在每篇文章里的词频。

接着，根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的任意一篇文章中出现的概率，计算该分词词语的分辨率。

详细地，可以通过如下计算式确定分词词语库里的每个分词词语的分辨率：

其中：

S _i表示分词词语i的分辨率；

θ为自定义的一个小数；

|L|表示已有文章资源库里的所有文章的总数量；

L表示已有文章资源库里的所有文章的集合。

设P为以实数数组，α和β为属于[0,1]区间的实数，其中α<β，定义函数pct(P,α,β)表示对数组P的元素按数值大小做降序排序，对排名在α分位到β分位之间的多个元素的数值进行累加求和。注意：因为0≤α<β≤1，所以α和β的取值位数要小于数组元素的数量，例如数组元素的数量为1000，α和β的取值位数小于 4位，即小数点后面只能取1-3位的位数。在执行分位时需要先将α和β扩大10 ^N倍以整数化，N根据α和β的位数取值，然后从按元素数值大小降序排序的数组元素中选取α*10 ^N位置到β*10 ^N之间的多个元素数值，然后累加求和。例如，函数pct(P,α,β)，数组P的元素有1万个，α＝0.324，β＝0.8792则α*10 ³＝324，β*10 ⁴＝8792，这样从按元素数值大小降序排列的1到1万个数组元素里选取第324位置上的元素-第8792位置上的8469个元素，对这8469个元素的数值进行累加求和。

由上述内容可知：

pct([P _l,i] _l∈L,0,θ)表示将数组P _l里的元素按数值大小做降序排列并且对排名在第1位到第θ分位的多个元素数值进行累加求和；

L表示已有文章资源库里的所有文章的集合，所以l∈L表示所计算的文章l是属于已有文章资源库里的文章。

下面以一个具体实例来解释函数pct(P,α,β)的定义。

假设pct([0,1,3,2,5],0.2,1)，首先对数组[0,1,3,2,5]的元素按数值大小做降序排序，降序排列后为[5,3,2,1,0]，则排名在0.2分位的元素位置是0.2*10＝2，即第2位的元素3，整数1分位的元素位置则为最后1位，即第5位的元素0，那么pct([0,1,3,2,5],0.2,1)＝3+2+1+0＝6。

可选地，在本实施例中，上述的θ可以取值为0.99。此外，还可以通过如下计算式定义θ：

其中，|T|表示所述标签库中的标签的数量。

在上述计算式

中，式子

表示分词词语i在所述已有文章资源库中的各篇文章中的分布比例，当该分词词语i分布在越少的文章中，该分词词语i可能代表某个主题的概率将越大，其对应的分辨率也就越大。式子

表示该分词词语i在所述已有文章资源库中的任意一篇文章中出现的概率，通过该式子可以将冷门词(出现频率极低的分词词语)的分辨率降低。

最后，根据所述分辨率按预设方式选取一定数量的分词词语作为所述多个关键词。这样，针对这些选取出的多个关键词就可以建立关键词库了。当然，选取的多个关键词是来自于所述分词词语库，所以建立的关键词库里包含的内容与所述分词词语库包含的内容一样，包括但不限于：1、每个关键词与每篇文章的关联性，即每个关键词都来自于哪些文章；2、每个关键词在每篇文章里的词频。

另外，根据所述分辨率按预设方式选取一定数量的词语作为多个关键词的方式可以包括：根据所述分辨率的大小顺序选取一定数量的分词词语作为多个关键词，或者从大于或等于预设阈值的分辨率所对应的分词词语里随机选取或者按顺序一定数量的分词词语作为多个关键词。

这里所述的分词词语i的分辨率S _i是用于表述分词词语i对于划分文章主题的能力，分辨率的值越高，其划分能力越强。例如：“考研”这个词直接关联“研究生考试”主题，而“学习”不能明确指向一个主题，那么“考研”的分辨率高于“学习”。

所述词频(TF)为本领域的通用术语，即在一篇给定的文章里，词频(TF)指的是某一个给定的词语在该文章中出现的次数。

该第一步骤的目的选取热门词语作为关键词，而标签内容也都属于热门的关键词，这样为执行下一步骤做好了铺垫。选取的关键词数量可以根据实践需要而定。这里采用的方式是根据文章资源库里的文章数量而定，按文章数量的一定百分比来选取关键词。例如，当文章数量达到千万数量级时，可以选取10万左右个关键词。可以将选取的多个关键词建立关键词库或是关键词列表等。这里以关键词库为例来进行说明。

上面还提到了已有标签库，要想实现给文章标注标签，无论是自动标注还是人工标注，都需要预先建立标签库，这样才能实现标注的标签标准化。所述标签库里的每个标签为指向某一主题的关键词语，例如“考研”、“炒股”等。而建立文章的标签库，可以采用任何公知的方法，例如采用运营人员根据经验提炼出的多个标签的方式来建立标签库；或者采用市面上已经有的文章标签的方式来建立标签库；还可以采用同行业者共同商讨建立统一的文章标签库的方式来来建立标签库，当然也可以是这几种方式的恰当组合来建立标签库，优选是由同行业者共同商讨建立统一的文章标签库。

S2：确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重。

在建立了关键词库后，接着需要确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的权重，这里命名为第一权重。

在本实施例中，步骤S2可以通过如下子步骤实现：

详细地，上述步骤可以通过如下计算式实现：

其中：

|L|表示已有文章资源库里的所有文章的总数量；

L表示已有文章资源库里的所有文章的集合，所以l∈L表示所述文章l是属于已有文章资源库里的文章，∑ _l∈L(PLT _l,t·PLW _l,w)表示计算已有文章资源库里的所有文章的(PLT _l,t·PLW _l,w)值并且对这些值累加求和，也可以写成

|L|表示已有文章资源库里的所有文章的总数量。

这样，以关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重为纽带，为下一步建立标签与文章的关联性做好铺垫。

S3：基于获得的所述第一权重和所述每个关键词的词频，确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重。

统计每个关键词在所述已有文章资源库里的每篇文章里出现的词频，这在建立关键词库时就已经统计完成并且保存在关键词库里。例如，在一篇介绍股票买卖的文章A里，词语“炒股”在该文章里出现20次，则词语“炒股”在文章A里出现的词频为20。

这样，利用获得的所述关键词库里的每个关键词对每个标签的第一权重以及所述记录的每个关键词在文章资源库里的每篇文章里出现的词频，确定所述标签库里的每个标签对已有文章资源库里的每篇文章的权重，命名为第二权重。

可选地，在本实施例中，步骤S3可以包括如下步骤：

针对所述标签库里的每个标签，根据每个关键词对该标签的所述第一权重及该关键词在所述已有资源库中的每篇文章中的词频，计算得到该标签对该篇文章的第二权重。

可选地，上述步骤可以通过以下计算式实现：

其中：

n为关键词库里的关键词的总数量。

S4：基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

在得到预先已建立的标签库中的每个标签对已有文章资源库里的每篇文章的第二权重后，基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。在一种实施方式中，针对需要标注标签的每篇文章，可以根据每个标签对该篇文章的第二权重的大小顺序选取一定数量的标签给相应的文章标注上。例如，在得到标签库里的每个标签对一篇文章A的第二权重后，按照第二权重从大到小顺序选取一定数量的标签，例如选取排名在前1-3个或1-5个标签给这篇文章A标注上。可选地，可以选取第二权重最大的预设数量(如，1-3)个标签给该篇文章标注上。

在另一种实施方式中，还可以预先设定一个阈值，选择大于该预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。

在一种实施方式中，为了使获得的标签库里的每个标签对每篇文章的第二权重放在同一量纲上进行比较大小，以使比较结果更准确，可以通过以下计算式对每个标签对每篇文章的第二权重进行标准化处理，以获得该标签对该篇文章的相对第二权重：

其中：

|L|表示已有文章资源库里的所有文章的总数量。

所以，

为计算预先已建立的标签库中的标签t对已有文章资源库里的所有文章的第二权重的累加之和除以已有文章资源库里的所有文章的总数量。

在得到所述相对第二权重后，可以基于所获得的相对第二权重按预定方式选取一定数量的标签给相应的文章标注上。

在一种实施例中，所述文章资源库的文章可以为主题性强的文章，例如：新闻类文章、论文类文章、描述类文章(例如应用商店应用描述文章)。

根据本发明实施例的一种给文章标注标签的方法，通过建立标签库里的标签与文章之间的关联性，能够实现对来自外部数据源的新文章或者没有标签的文章自动标注上合适的标签，每个标签代表一个分类，或者多个标签指向一个分类，由此可以节省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低运营成本。

图2是本发明实施例提供的给文章标注标签的装置的示意性框图。如图2所示，本发明的给文章标注标签的装置包括：

关键词库建立单元配置成从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库，该关键词库包括所述多个关键词及每个关键词在已有文章资源库里的每篇文章里出现的词频。

在本实施例中，关于关键词库建立单元的描述具体可参考对图1所示步骤S1的详细描述，也即，步骤S1可以由所述关键词建立单元执行。

第一权重确定单元配置成确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重。

在本实施例中，关于所述第一权重确定单元的描述具体可参考对图1所示步骤S2的详细描述，也即，步骤S2可以由所述第一权重确定单元执行。

第二权重确定单元配置成基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重。

在本实施例中，关于所述第二权重确定单元的描述具体可参考对图1所示步骤S3的详细描述，也即，所述步骤S3可以由所述第二权重确定单元执行。

标签标注单元配置成基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。

在本实施例中，关于所述标签标注单元的描述具体可参考对图1所示步骤S4的详细描述，也即，步骤S4可以由所述标签标注单元执行。

可选地，所述关键词库建立单元可以通过如下方式从已有文章资源库里的所有文章里提取出多个关键词：

首先，使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语，建立分词词语库。其中，所述分词词语库包括所述多个分词词语及每个分词词语在所述已有文章资源库里的每篇文章中的词频。

然后，根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的任意一篇文章中出现的概率，计算该分词词语的分辨率。

其中，该分辨率可通过如下计算式计算获得：

其中：

S _i表示分词词语i的分辨率；

θ为自定义的一个小数；

|L|表示已有文章资源库里的所有文章的总数量；

L表示已有文章资源库里的所有文章的集合。

最后，根据所述分辨率按预设方式选取一定数量的分词词语作为所述多个关键词。

可选地，所述第一权重确定单元确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重的方式，可以包括：

进一步地，所述第一权重确定单元可以通过如下计算式计算每个关键词对每个标签的第一权重：

其中：

|L|表示已有文章资源库里的所有文章的总数量；

|L|表示已有文章资源库里的所有文章的总数量。

可选地，所述第二权重确定单元确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重的方式，可以包括：

可选地，所述第二权重确定单元可以通过如下计算式计算每个标签对每篇文章的第二权重：

其中：

n为关键词库里的关键词的总数量。

可选地，在一种实施方式中，所述标签标注单元基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上的方式，可以包括：

根据第二权重的大小顺序选取一定数量的标签给相应的文章标注上；或者，还可以预先设定一个阈值，选择大于该预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。例如，在得到标签库里的每个标签对一篇文章A的第二权重后，按照第二权重从大到小顺序选取一定数量的标签，例如选取排名在前1-3个或1-5个标签给这篇文章A标注上。或者，还可以预先设定一个阈值，选择大于该预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。

在另一种实施方式中，所述标签标注单元基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上的方式，可以包括：

选取第二权重最大的预设数量(如，1-3)个标签给该篇文章标注上，或者，选取第二权重大于预设值的标签给该篇文章标注上。

可选地，为了使获得的标签库里的每个标签对每篇文章的第二权重放在同一量纲上进行比较大小，以使比较结果更准确，本发明的给文章标注标签的装置还可以包括：相对第二权重确定单元(图中未示出)，用于对所述标签对文章的第二权重进行标准化处理以获得所述标签对文章的相对第二权重，过程如下：

其中：

|L|表示已有文章资源库里的所有文章的总数量。

所以，

可选地，所述文章资源库的文章可以为主题性强的文章，例如：新闻类文章、论文类文章、描述类文章(例如应用商店应用描述文章)。

当然，本领域技术人员都知道，所述标签对文章的相对第二权重也可以由第二权重确定单元执行，不是必须由单独的相对第二权重确定单元来执行。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，前述方法实施例中列举的例子和相关描述，同样适用于解释装置的工作过程，在此不再重复描述。

根据本发明实施例提供的一种给文章标注标签的装置，通过建立标签库里的标签与文章之间的关联性，能够实现对来自外部数据源的新文章或者没有标签的文章自动标注上合适的标签，每个标签代表一个分类，或者多个标签指向一个分类，由此可以节省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低运营成本。

本发明实施例所提供的给文章标注标签的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的给文章标注标签的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，智能平板电脑，智能手机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

工业实用性

本发明实施例提供的给文章标注标签的方法、装置、终端及计算机可读存储介质，能够实现对来自外部数据源的新文章或者没有标签的文章自动标注上合适的标签，从而可以节省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低运营成本。

Claims

一种给文章标注标签的方法，其特征在于，包括：

从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库，该关键词库包括所述多个关键词及每个关键词在所述已有文章资源库里的每篇文章里出现的词频；

确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重；

基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重；

基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。
根据权利要求1所述的方法，其特征在于，所述从已有文章资源库里的所有文章里提取出多个关键词，包括：

使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语，建立分词词语库，所述分词词语库包括所述多个分词词语及每个分词词语在所述已有文章资源库里的每篇文章中的词频；

根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的任意一篇文章中出现的概率，计算该分词词语的分辨率；

根据所述分辨率按预设方式选取一定数量的分词词语作为所述多个关键词。
根据权利要求2所述的方法，其特征在于，根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的所有文章中出现的概率，计算该分词词语的分辨率的方式，包括：

通过以下计算式确定分词词语库里的每个分词词语的分辨率：

其中：

S _i表示分词词语i的分辨率；

θ为自定义的一个小数；

P _l,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频，如果分词词语i没有出现在文章l中则P _l,i＝0；

|L|表示已有文章资源库里的所有文章的总数量；

pct([P _l,i] _l∈L,θ,1)表示将数组P _l里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和；

pct([P _l,i] _l∈L,0,θ)表示将数组P _l里的元素按数值大小做降序排列并对排名在第1位到第θ分位的多个元素数值进行累加求和；

L表示已有文章资源库里的所有文章的集合。
根据权利要求3所述的方法，其特征在于，所述θ通过如下计算式进行定义：

其中，|T|表示所述标签库中的标签的数量。
根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重，包括：

根据每个关键词在所述已有文章资源库中的每篇文章中的词频及每个标签在该篇文章中的词频，计算得到该关键词对该标签的第一权重。
根据权利要求5所述的方法，其特征在于，所述根据每个关键词在所述已有文章资源库中的每篇文章中的词频及每个标签在该篇文章中的词频，计算得到该关键词对该标签的第一权重的方式，包括：

通过以下计算式计算每个关键词对每个标签的第一权重：

其中：

TW _t,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重，如果标签t的文字内容里没有关键词w时TW _t,w为0；

PLT _l,t表示标签库里的标签t在已有文章资源库里的文章l里出现的词频；

PLW _l,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频；

|L|表示已有文章资源库里的所有文章的总数量；

L表示已有文章资源库里的所有文章的集合。
根据权利要求1-6任一项所述的方法，其特征在于，所述基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重，包括：

针对所述标签库里的每个标签，根据每个关键词对该标签的所述第一权重及该关键词在所述已有资源库中的每篇文章中的词频，计算得到该标签对该篇文章的第二权重。
根据权利要求7所述的方法，其特征在于，所述针对所述标签库里的每个标签，根据每个关键词对该标签的所述第一权重及该关键词在所述已有资源库中的每篇文章中的词频，计算得到该标签对该篇文章的第二权重的方式，包括：

通过以下计算式计算每个标签对每篇文章的第二权重：

其中：

LP _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重；

TW _t,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重，如果标签t的文字内容里没有关键词w则TW _t,w为0；

PLW _l,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频；

n为关键词库里的关键词的总数量。
根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

通过以下计算式对每个标签对每篇文章的第二权重进行标准化处理，以获得该标签对该篇文章的相对第二权重：

其中：

LPC _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的相对第二权重；

LP _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重；

表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的平均权重；

|L|表示已有文章资源库里的所有文章的总数量。
根据权利要求1-9任一项所述的方法，其特征在于，所述基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上，包括：

根据第二权重的大小顺序选取预设数量的标签给相应的文章标注上；或者

选择与大于预设阈值的1个或多个第二权重相对应的1个或多个标签给相应的文章标注上。
根据1-9任一项所述的方法，其特征在于，所述基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上，包括：

针对所述已有文章资源库中的每篇文章，获得所述标签库里的每个标签对该篇文章的第二权重；

选取第二权重最大的预设数量个标签给该篇文章标注上，或者，选取第二权重大于预设值的标签给该篇文章标注上。
一种给文章标注标签的装置，其特征在于，包括：

关键词库建立单元，配置成从已有文章资源库里的所有文章里提取出多个关键词，建立关键词库，该关键词库所述多个关键词及每个关键词在已有文章资源库里的每篇文章里出现的词频；

第一权重确定单元，配置成确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重；

第二权重确定单元，配置成基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重；

标签标注单元，配置成基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。
根据权利要求12所述的装置，其特征在于，所述关键词库建立单元从已有文章资源库里的所有文章里提取出多个关键词的方式，包括：

使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语，建立分词词语库，所述分词词语库包括所述多个分词词语及每个分词词语在所述已有文章资源库里的每篇文章中的词频；

根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的任意一篇文章中出现的概率，计算该分词词语的分辨率；

根据所述分辨率按预设方式选取一定数量的分词词语作为所述多个关键词。
根据权利要求13所述的装置，其特征在于，所述关键词库建立单元根据每个分词词语在所述已有文章资源库里的各篇文章中的分布比例及该分词词语在所述已有文章资源库里的任意一篇文章中出现的概率，计算该分词词语的分辨率的方式，包括：

通过以下计算式确定分词词语库里的每个分词词语的分辨率：

其中：

S _i表示分词词语i的分辨率；

θ为自定义的一个小数；

P _l,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频，如果分词词语i没有出现在文章l中则P _l,i＝0；

|L|表示已有文章资源库里的所有文章的总数量；

pct([P _l,i] _l∈L,θ,1)表示将数组P _l里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和；

pct([P _l,i] _l∈L,0,θ)表示将数组P _l里的元素按数值大小做降序排列并对排名在第1位到第θ分位的多个元素数值进行累加求和；

L表示已有文章资源库里的所有文章的集合。
根据权利要求12-14任一项所述的装置，其特征在于，所述第一权重确定单元确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重的方式，包括：

根据每个关键词在所述已有文章资源库中的每篇文章中的词频及每个标签在该篇文章中的词频，计算得到该关键词对该标签的第一权重。
根据权利要求15所述的装置，其特征在于，所述第一权重确定单元根据每个关键词在所述已有文章资源库中的每篇文章中的词频及每个标签在该篇文章中的词频，计算得到该关键词对该标签的第一权重的方式，包括：

通过以下计算式计算每个关键词对每个标签的第一权重：

其中：

TW _t,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重，如果标签t的文字内容里没有关键词w时TW _t,w为0；

PLT _l,t表示标签库里的标签t在已有文章资源库里的文章l里出现的词频；

PLW _l,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频；

|L|表示已有文章资源库里的所有文章的总数量；

L表示已有文章资源库里的所有文章的集合。
根据权利要求12-16任一项所述的装置，其特征在于，所述第二权重确定单元确定所述标签库里的每个标签对所述已有文章资源库里的每篇文章的第二权重的方式，包括：

针对所述标签库里的每个标签，根据每个关键词对该标签的所述第一权重及该关键词在所述已有文章资源库中的每篇文章中的词频，计算得到该标签对该篇文章的第二权重。
根据权利要求17所述的装置，其特征在于，所述第二权重确定单元针对所述标签库里的每个标签，根据每个关键词对该标签的所述第一权重及该关键词在所述已有资源库中的每篇文章中的词频，计算得到该标签对该篇文章的第二权重的方式，包括：

通过以下计算式计算每个标签对每篇文章的第二权重：

其中：

LP _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重；

TW _t,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重，如果标签t的文字内容里没有关键词w则TW _t,w为0；

PLW _l,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频；

n为关键词库里的关键词的总数量。
根据权利要求12-18任一项所述的装置，其特征在于，所述装置还包括：相对第二权重确定单元，配置成通过以下计算式对每个标签对每篇文章的第二权重进行标准化处理，以获得所述标签对文章的相对第二权重：

其中：

LPC _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的相对第二权重；

LP _l,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重；

表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的平均权重；

|L|表示已有文章资源库里的所有文章的总数量。
根据权利要求12-19任一项所述的装置，其特征在于，所述标签标注单元，还配置成根据第二权重的大小顺序选取一定数量的标签给相应的文章标注上；或者选择大于预设阈值的1个或多个第二权重所对应的1个或多个标签给相应的文章标注上。
根据权利要求12-19任一项所述的装置，其特征在于，所述标签标注单元，还配置成：

针对所述已有文章资源库中的每篇文章，获得所述标签库里的每个标签对该篇文章的第二权重；

选取第二权重最大的预设数量个标签给该篇文章标注上，或者，选取第二权重大于预设值的标签给该篇文章标注上。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-11任一项所述的方法。
一种终端，其特征在于，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现权利要求1-11任一项所述的方法。