WO2018049960A1

WO2018049960A1 - 一种为文本信息匹配资源的方法及装置

Info

Publication number: WO2018049960A1
Application number: PCT/CN2017/097611
Authority: WO
Inventors: 刘守达; 吴松城; 陈军宏
Original assignee: 厦门幻世网络科技有限公司
Priority date: 2016-09-14
Filing date: 2017-08-16
Publication date: 2018-03-22
Also published as: CN106528588A

Abstract

本申请公开了为文本信息匹配资源的方法，包括：依据文本信息，获取文本关键字；依据文本关键字与资源标签的相似度，确定与文本信息相匹配的资源。进一步，可依据文本关键字与资源标签的相似度、及相对应的资源标签在所属资源项中的权重，计算文本关键字与资源项的匹配程度；依据文本关键字与各资源项的匹配程度，确定与文本信息相匹配的资源。进一步，可依据用户的使用信息，对文本关键字与资源项的匹配程度进行调整。本申请还公开了为文本信息匹配资源的装置，包括获取模块和匹配模块，匹配模块进一步包括计算模块和资源确定模块。本申请能依据文本信息的特征，更准确、更全面地确定与该文本信息相匹配的资源，满足用户对表现形式的多样化需求。

Description

一种为文本信息匹配资源的方法及装置

本申请要求于2016年9月14日提交中国专利局、申请号为201610824080.1、发明名称为“一种为文本信息匹配资源的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种为文本信息匹配资源的方法及装置。

背景技术

用户会通过各种网络平台记录各种各样的信息，例如记录日常生活的信息，同样，用户也会通过通信平台产生其与其他用户进行通信时的信息。本方法中，通过获取上述用户信息，并对信息进行识别转化，将一段静态的文字自动转化成生动有趣的动画。

随着互联网技术的发展，各种多媒体资源日益丰富，各类信息的表现形式也更加灵活、生动、有趣。在用户的实际应用中，有时希望将文本信息采用更多样化的形式展示出来，这就需要找到与这些文本信息相匹配的多媒体资源。例如，发送“祝你生日快乐”的祝福时，可以采用插上蜡烛的生日蛋糕的图片、动画和/或音乐表现，因此，需要依据“祝你生日快乐”的文本信息寻找到与之相匹配的图片、动画和/或音乐。

为了为文本信息找到相匹配的资源，现有的做法通常是通过关键词匹配的方法，为每个资源设定一定的关键词，在用户输入一系列词语之后，将用户输入的词语进行同义词扩展，获得查询词列表(Query词列表)，再根据查询词列表进行查询，获得对应的查询结果。现有技术的缺点在于：

(1)扩展同义词可能使得词语的原本意思出现偏差，而且不好处理否定、以及否定的否定这种关系。

(2)在根据查询词列表进行查询时，将查询词列表中的词语与资源的关键词进行匹配，只有完全一致的词语才认定为相匹配，从而可能会因为同义词扩展不够或含义偏差而无法找到相匹配的资源。

发明内容

本申请实施例提供一种为文本信息匹配资源的方法，目的在于依据文本信息的特征，更准确、更全面地确定与该文本信息相匹配的资源，满足用户对表现形式的多样化需求。

本申请实施例还提供一种为文本信息匹配资源的装置，目的在于依据文本信息的特征，更准确、更全面地确定与该文本信息相匹配的资源，满足用户对表现形式的多样化需求。

本申请实施例采用下述技术方案：

本申请实施例提供的一种为文本信息匹配资源的方法，包括：

依据所述文本信息，获取文本关键字；

依据所述文本关键字与资源标签的相似度，确定与所述文本信息相匹配的资源；其中，所述资源标签与所述资源相对应。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，所述文本关键字与资源标签的相似度的确定包括：

从词向量库中分别获取所述文本关键字的第一词向量和所述资源标签的第二词向量；所述词向量库中包含至少一个分词的词向量；

计算所述第一词向量与所述第二词向量的余弦相似度，作为所述文本关键字与所述资源标签的相似度。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，所述词向量库中词向量的获得包括：

获取用于训练词向量的训练语料；

对所述训练语料进行分词，获得分词集合；

依据所述分词集合中各分词的出现频次和/或与其他分词的共现关系，确定各分词的词向量；所述词向量中每一个元素表示对应分词的出现频次和/或与其他分词的共现频次。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，依据所述文本关键字与资源标签的相似度，确定与所述文本信息相匹配的资源，包括：

对所述文本关键字与所述资源标签的相似度进行排序；

将相似度最高的预设个资源标签输出，用以确定与所述文本信息相匹配的资源。

依据所述文本关键字与所述资源标签的相似度、以及相对应的资源标签在所属资源项中的权重，计算所述文本关键字与所述资源项的匹配程度；其中，所述资源项中包含至少一个所述资源标签；

依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源；其中，所述资源项中包含至少一个所述资源。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，计算所述文本关键字与所述资源项的匹配程度，包括：

计算所述相似度与所述权重的乘积之和，作为所述文本关键字与相对应的资源标签所属资源项的匹配程度。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源，包括：

对所述文本关键字与所述资源项的匹配程度进行排序；

将最匹配的预设个资源项输出，用以确定与所述文本信息相匹配的资源。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，将最匹配的预设个资源项输出，用以确定与所述文本信息相匹配的资源，具体为：

将最匹配的预设个资源项输出，作为备选资源项向用户推荐；

将用户在所述备选资源项中选取的资源项所对应的资源确定为与所述文本信息相匹配的资源。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，所述资源标签在所属资源项中的权重的确定包括：

对所述资源标签在所属资源项中的权重设定初始值；

依据用户在所述备选资源项中选取的资源项，调整所述资源项中的资源标签和/或调整资源标签在所属资源项中的权重。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，所述方法还包括：

获取用户的使用信息，所述使用信息包括用户的历史偏好信息、个人信息和/或同类用户的标签信息；

则在计算所述文本关键字与所述资源项的匹配程度之后，在依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源之前，还包括：

依据用户的所述使用信息，对所述文本关键字与所述资源项的匹配程度进行调整，得到更新后的匹配程度。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，依据所述文本信息，获取文本关键字，包括：

获取所述文本信息；

对所述文本信息进行分词，得到所述文本关键字。

可选地，本申请实施例提供的为文本信息匹配资源的方法中，所述资源的类别包括图片、照片、音乐、语音、音效、动作、表情、动画和/或视频。

本申请实施例提供的一种为文本信息匹配资源的装置，包括：

获取模块，用于依据所述文本信息，获取文本关键字；

匹配模块，用于依据所述文本关键字与资源标签的相似度，确定与所述文本信息相匹配的资源；其中，所述资源标签与所述资源相对应。

可选地，本申请实施例提供的为文本信息匹配资源的装置中，所述匹配模块包括：

计算模块，用于依据所述文本关键字与所述资源标签的相似度、以及相对应的资源标签在所属资源项中的权重，计算所述文本关键字与所述资源项的匹配程度；其中，所述资源项中包含至少一个所述资源标签；

资源确定模块，用于依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源；其中，所述资源项中包含至少一个所述资源。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

(1)依据文本信息获取的文本关键字可以表现出文本信息的特征，资源标签能表现出资源的特征，文本关键字和资源标签都是通过文本信息或资源本身提炼出来的，没有进行类似现有技术中扩展同义词的步骤，因此，不会出现意思偏差，得到的匹配结果更加准确。

(2)引入相似度的概念，通过文本关键字与资源标签的相似度体现文本信息与资源的匹配程度，避免了现有技术中由于无法找到完全一致的关键词而无法找到相匹配的资源的问题。

(3)通过训练语料对词语之间的相似度进行计算，并从词语自身的出现频次和/或在同一语句中与其他词语的共现关系的角度考虑词语之间的相似度，能更全面、更准确的体现词语之间语义上的相似性，而不限于文字上的相似性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中为文本信息匹配资源的方法的流程示意图；

图2为本申请实施例中第二种为文本信息匹配资源的方法的流程示意图；

图3为本申请实施例中第三种为文本信息匹配资源的方法的流程示意图；

图4为本申请实施例中为文本信息匹配资源的装置的结构示意图；

图5为本申请实施例中第二种为文本信息匹配资源的装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

在本申请的各实施例中，资源的类别包括图片、照片、音乐、语音、音效、动作、表情、动画和/或视频。

实施例1

图1给出了一种为文本信息匹配资源的方法的流程示意图，包括：

S101：依据文本信息，获取文本关键字；

S102：依据文本关键字与资源标签的相似度，确定与文本信息相匹配的资源；其中，资源标签与资源相对应。

上述实施例中，采用文本信息获取的文本关键字表现出文本信息的特征，采用资源标签表现出资源的特征，文本关键字和资源标签都是通过文本信息或资源本身提炼出来的，没有进行类似现有技术中扩展同义词的步骤，因此，不会出现意思偏差，得到的匹配结果更加准确。另外，上述实施例中引入相似度的概念，通过文本关键字与资源标签的相似度体现文本信息与资源的匹配程度，避免了现有技术中由于无法找到完全一致的关键词而无法找到相匹配的资源的问题。

上述步骤S101依据文本信息，获取文本关键字，可具体为：先获取文本信息；再对文本信息进行分词，得到文本关键字。

获取文本信息的方法有很多，可以由用户直接输入，也可以由用户导入的文本转化得到。对文本信息进行分词时，采用常用的分词算法即可，此处不作限定。

获取到用户输入的文本信息后，进行分词并筛选特定词性的词语，形成J个词的词列表，记为w＝{w₁,w₂,w₃,...w_J}。现代汉语的词语按照词性可以分为12类。实词包括名词、动词、形容词、数词、量词和代词。虚词包括副词、介词、连词、助词、叹词、拟声词。在形成词列表w时，将虚词筛除，将实词进行切分，得到w₁、w₂、w₃等分词。

上述图1所示实施例中，执行步骤S102时所依据的文本关键字与资源标签的相似度，其确定过程可包括：

从词向量库中分别获取文本关键字的第一词向量和资源标签的第二词向量；词向量库中包含至少一个分词的词向量；

计算第一词向量与第二词向量的余弦相似度，作为文本关键字与资源标签的相似度。

依据对文本信息进行分词得到的词列表w＝{w₁,w₂,w₃,...w_J}，对该词列表中的每一个分词

获取其词向量(即第一词向量)，记为

表示文本信息对应的文本关键字的数量，即词列表中词语的数量。资源标签的词向量(即第二词向量)记为vec(t_k),k＝1,2,3,...K，t_k表示第k个资源标签，K表示资源标签的总数量。则文本关键字w_j的词向量与资源标签t_k的词向量的余弦相似度采用以下公式计算：

sim_jk＝cos(vec(w_j),vec(t_k))(其中，j＝1,2,3,...J，k＝1,2,3,...K)

获取词向量有多种方法，例如可以采用Google公司在2013年开放的一款用于训练词向量的word2vec工具，也可以采用GloVe算法进行词向量的训练，还可以采用以下方式获得词向量库中的词向量，具体可包括：

获取用于训练词向量的训练语料；

对所述训练语料进行分词，获得分词集合；

用于训练词向量的训练语料可以有多种来源，例如采用网页爬虫从网页上抓取的网页文本等。对训练语料进行分词前，还可以进行大小写统一转换为小写、无效字符转换为空格、删除中文字符之间的空格、繁体中文转换为简体中文等方面的预处理。在预处理的基础上，经过分词、去重、词性筛选等过程后获得分词集合，然后对分词集合中各分词的出现频率和/或次数、以及与其他分词在同一句话中共同出现的频率和/或次数进行统计，将统计得到的结果作为该分词的词向量中的分量，构成该分词的词向量。各分量在词向量中的顺序无需特别限定，只要各分词的词向量在各分量上相对应即可。以下举例说明获取词向量的详细过程。

假设有三条训练语料：

语料一：端午节快乐！

语料二：端午节的粽子好吃。

语料三：端午节的习俗有吃粽子和赛龙舟。

对于以上语料进行分词，得到分词集合：

{端午节；快乐；粽子；好吃；习俗；吃；赛；龙舟}

假设各分词的词向量的分量构成规则为(分词出现的频率，分词与第一分词的共现次数，分词与第二分词的共现次数···，分词与第n分词的共现次数)，以获取“端午节”的词向量为例，则分词“端午节”的词向量可表示为：(1,3,1,2,1,1,1,1,1)

第一分量“1”表示“端午节”在训练语料中三条语料出现的概率为100％；

第二分量“3”表示“端午节”在训练语料中出现了3次(分词“端午节”即为第一分词，此时亦可表示分词“端午节”在训练语料中出现的总次数)；

第三分量“1”表示“端午节”与分词“快乐”共同出现了1次(在语料一中)；

第四分量“2”表示“端午节”与分词“粽子”共同出现了2次(在语料二和语料三中)；

第五分量“1”表示“端午节”与分词“好吃”共同出现了1次(在语料二中)；

第六分量“1”表示“端午节”与分词“习俗”共同出现了1次(在语料三中)；

第七分量“1”表示“端午节”与分词“吃”共同出现了1次(在语料三中)；

第八分量“1”表示“端午节”与分词“赛”共同出现了1次(在语料三中)；

第九分量“1”表示“端午节”与分词“龙舟”共同出现了1次(在语料三中)。

采用以上示例的方法，可以取得各词语的词向量，进而可以计算得到文本关键字与资源标签的相似度，从而可以依据文本关键字与资源标签的相似度，确定与文本信息相匹配的资源，具体可包括：

对文本关键字与资源标签的相似度进行排序；

将相似度最高的预设个资源标签输出，用以确定与文本信息相匹配的资源。

相似度高表示文本信息的文本关键字与资源标签非常相似，关联性强，因此，可以将与该资源标签相对应的资源确定为与文本信息相匹配的资源，从而可以用相匹配的资源来多样化地表现文本信息的内容，满足用户对表现形式的多样化需求。

实施例2

在实施例1的基础上，执行步骤S101依据文本信息，获取文本关键字之后，步骤S102依据文本关键字与资源标签的相似度，确定与文本信息相匹配的资源，可以具体包括，参见图2所示：

S1021：依据文本关键字与资源标签的相似度、以及相对应的资源标签在所属资源项中的权重，计算文本关键字与资源项的匹配程度；其中，资源项中包含至少一个资源标签；

S1022：依据文本关键字与各资源项的匹配程度，确定与文本信息相匹配的资源；其中，资源项中包含至少一个资源。

在实施例2中，文本关键字与资源标签的相似度的获取方式与实施例1相同，在此不再赘述。

对于同一资源而言，可能具有多方面的特征，从而可以用多个资源标签来表征，而每一个资源标签与相应资源的关联度不尽相同。例如，一段生日蛋糕上点燃生日蜡烛的动画，可以用资源标签“生日”、“蛋糕”、“快乐”、“祝福”等来表征，在这几个资源标签中，“生日”与这段动画的关联性最大，而“祝福”的关联性最小。因此，在图2所示实施例中，将同一资源对应的资源标签的集合称为资源项，从而引入资源标签在所属资源项中的权重这一概念，结合文本关键字与资源标签的相似度，共同计算出文本关键字与资源项的匹配程度，进而在此基础上确定与文本信息相匹配的资源，从而更有利于准确、全面地确定与该文本信息相匹配的资源。

如实施例1中所述，文本关键字w_j的词向量与资源标签t_k的词向量的余弦相似度采用以下公式计算：

sim_jk＝cos(vec(w_j),vec(t_k))(其中，j＝1,2,3,...J，k＝1,2,3,...K)

假设共有N个资源项，资源项T_n(n＝1,2,3,...N)中有K个资源标签，表示为T_n＝{t₁,t₂,t₃...t_K}，资源标签t_k在所属资源项T_n中的权重表示为q_nk(n＝1,2,3,...N,k＝1,2,3,...K)，资源项中各资源标签的权重之和可取为1，即

资源项中各资源标签的权重可以是系统预先设定的，也可以是基于神经网络训练学习得到的；可以是固定不变的，也可以是根据用户的使用和系统的自学习过程不断调整的。

进一步地，计算相似度与权重的乘积之和，即按照相对应的资源标签在所属资源项中的权重，计算文本关键字与资源标签的相似度的加权和，作为文本关键字与相对应的资源标签所属资源项的匹配程度。将文本关键字w_j与资源项T_n的匹配程度记为S_jn，则按照以下公式计算得到S_jn：

(其中，j＝1,2,3,...J，n＝1,2,3,...N)

在此基础上，可以进一步对文本关键字与资源项的匹配程度进行排序，将最匹配的预设个资源项输出，用以确定与文本信息相匹配的资源。此时，在对匹配程度按照数值大小排序后，可以直接将匹配程度最高(即S_jn的值最大)的资源项作为与文本信息对应的资源项，进而将该资源项对应的资源确定为与文本信息相匹配的资源；也可以将最匹配的预设个资源项输出，作为备选资源项向用户推荐供用户选取；将用户在备选资源项中选取的资源项所对应的资源确定为与文本信息相匹配的资源。

上述资源标签在所属资源项中的权重的确定可以包括以下过程：

首先对资源标签在所属资源项中的权重设定初始值；这一初始值，可以根据经验或者机器学习的结果设定，也可以对每一资源标签设定相同的权重(假设资源项中有K个资源标签，则每一资源标签的初始权重可设定为

)。

然后，当用户在备选资源项中选取了某个资源项y后，可以依据用户选取的资源项y以及用户输入的文本信息，调整资源项y中的资源标签和/或调整资源标签在所属资源项y中的权重。具体地，可以先找到用户输入的文本信息中跟资源项y最匹配的文本关键字

即找到与资源项y的匹配程度最高的文本关键字

满足：

若文本关键字

已经在资源项y所包含的资源标签中，则更新该资源标签在资源项y中的权重(更新的方式可以是增大该资源标签的权重)，否则将文本关键字

作为新的资源标签增加到该资源项y中。对于新增的资源标签

在新资源项y中的初始权重，可以将初始权重设定为

即将文本关键字

与原资源项y的匹配程度

作为新增的资源标签

在新资源项y中的初始权重；也可以计算文本关键字

与原资源项y中各资源标签的相似度的和，作为新增的资源标签

在新资源项y中的初始权重。再进一步对更新了权重的资源标签所在的资源项进行权重归一化。

在依据用户选取的资源项y以及用户输入的文本信息，调整资源项y中的资源标签和/或调整资源标签在所属资源项y中的权重时，也可以直接判断用户选取的资源项中包含有与文本关键字是否完全一致。若用户选取的资源项中包含有与文本关键字完全一致的资源标签(相当于该资源标签与文本关键字的相似度可以取到最高)，则可以增大该资源标签的权重；若用户选取的资源项中不包含与文本关键字完全一致的资源标签，则可以将文本关键字作为资源标签增加入该资源项中，还可相应的设定权重。在调整资源项中的资源标签和/或调整资源标签在所属资源项中的权重之后，还可以进一步对资源项中各资源标签的权重进行归一化处理，即按照原有比例进行调整，使得各资源标签的权重之和保持为1。

实施例3

在实施例2的基础上，参见图3所示，还可以在执行步骤S103获取用户的使用信息，使用信息包括用户的历史偏好信息、个人信息和/或同类用户的标签信息的基础上，在执行步骤S1021计算文本关键字与资源项的匹配程度之后，在执行步骤S1022依据文本关键字与各资源项的匹配程度，确定与文本信息相匹配的资源之前，还执行步骤S104依据用户的使用信息，对文本关键字与资源项的匹配程度进行调整，得到更新后的匹配程度。

用户的历史偏好信息、用户的个人信息(例如年龄、性别、地域等)、以及相似用户的标签信息，可以反映出用户对资源的倾向性选择。因此，依据这些使用信息对文本关键字与资源项的匹配程度进行调整，例如，可以将与用户的使用信息关联更紧密的资源项的匹配程度放大，采用乘以大于1的系数，或者增加一定数值等方式；又例如，可以将与用户的使用信息关联较弱的资源项的匹配程度缩小。针对调整后的匹配程度进行排序，进而对用户进行个性化信息推荐或直接将匹配程度最高的资源项推荐给用户。

需要说明的是，实施例1～实施例3所提供方法的各步骤的执行主体均可以是同一装置，或者，该方法也可由不同装置作为执行主体。

实施例4

本申请还提供了一种为文本信息匹配资源的装置100，参见图4所示，包括：

获取模块101，用于依据文本信息，获取文本关键字；

匹配模块102，用于依据文本关键字与资源标签的相似度，确定与文本信息相匹配的资源；其中，资源标签与资源相对应。

如图5所示，上述匹配模块102可进一步包括：

计算模块1021，用于依据文本关键字与资源标签的相似度、以及相对应的资源标签在所属资源项中的权重，计算文本关键字与资源项的匹配程度；其中，资源项中包含至少一个资源标签；

资源确定模块1022，用于依据文本关键字与各资源项的匹配程度，确定与文本信息相匹配的资源；其中，资源项中包含至少一个资源。

本实施例所提供的为文本信息匹配资源的装置，与实施例1～实施例3所述的方法相对应，在此不再赘述。

实施例5

基于实施例1～实施例4的陈述，以下就本申请所提供的为文本信息匹配资源的方法和装置给出具体的应用实例。

假设有四种资源项：

T₁：生日快乐！(资源标签及其权重为：蛋糕0.2，歌曲0.15，生日0.5，快乐0.15)

T₂：龙舟赛(资源标签及其权重为：龙舟0.8，比赛0.2)

T₃：粽子(资源标签及其权重为：粽子0.7，端午节0.3)

T₄：中秋节快乐(资源标签及其权重为：月饼0.6，团圆0.3，快乐0.1)

每种资源项中包含有至少一段与该资源项相对应的音乐资源。

获取到用户输入的文本信息为：端午节快乐！

则先对文本信息进行分词，获得文本关键字{端午节，快乐}。

根据词向量库中各词语的相似度，假设“端午节”与“龙舟”的相似度为0.8，“端午节”与“粽子”的相似度为0.9。在本例中，“端午节”与其他资源标签的相似度很小，“快乐”与除其自身以外的其他资源标签的相似度也很小，因此，在本例的后续计算中忽略不计。在实际实施时，可以设定一个相似度数值阈值，当两词语的相似度非常小，低于该阈值时，可以将该两词语的相似度的数值置为0，以简化计算。

则文本关键字“端午节”与资源项T₂和T₃的匹配程度分别为：0.8*0.8＝0.64，0.7*0.9＝0.63。

按类似方法计算，假设得到文本关键字“快乐”与资源项T₁和T₄的匹配程度分别为：0.15，0.1。

则按照匹配程度从高到低的顺序对对资源项进行排序，得到：T2，T3，T1，T4。

进一步地，考虑到用户的历史纪录、个人地域/性别等属性，可以对上述资源项进行重新排序。在这里表现为：根据用户的地理信息发现用户是北方人，北方端午节没有龙舟赛，那么，可以相应的降低文本关键字与T₂的匹配程度，假如降权因子为0.9，则T₂新的匹配程度为0.64*0.9＝0.576。从而得到重新排序后的资源项为：T₃，T₂，T₁，T₄。

再进一步地，假如用户点击了T₃，则可以增加T₃中“端午节”的权重。假如用户点击了T₂，则可以在T₂的资源标签中增加“端午节”这一标签。假如用户选择T₁或者T₄，则在相应的资源项中增加对应资源标签“快乐”的权重。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种为文本信息匹配资源的方法，其特征在于，包括：

依据所述文本信息，获取文本关键字；

依据所述文本关键字与资源标签的相似度，确定与所述文本信息相匹配的资源；其中，所述资源标签与所述资源相对应。
按照权利要求1所述方法，其特征在于，所述文本关键字与资源标签的相似度的确定包括：

从词向量库中分别获取所述文本关键字的第一词向量和所述资源标签的第二词向量；所述词向量库中包含至少一个分词的词向量；

计算所述第一词向量与所述第二词向量的余弦相似度，作为所述文本关键字与所述资源标签的相似度。
按照权利要求2所述方法，其特征在于，所述词向量库中词向量的获得包括：

获取用于训练词向量的训练语料；

对所述训练语料进行分词，获得分词集合；

依据所述分词集合中各分词的出现频次和/或与其他分词的共现关系，确定各分词的词向量；所述词向量中每一个元素表示对应分词的出现频次和/或与其他分词的共现频次。
按照权利要求1所述方法，其特征在于，依据所述文本关键字与资源标签的相似度，确定与所述文本信息相匹配的资源，包括：

对所述文本关键字与所述资源标签的相似度进行排序；

将相似度最高的预设个资源标签输出，用以确定与所述文本信息相匹配的资源。
按照权利要求1所述方法，其特征在于，依据所述文本关键字与资源标签的相似度，确定与所述文本信息相匹配的资源，包括：

依据所述文本关键字与所述资源标签的相似度、以及相对应的资源标签在所属资源项中的权重，计算所述文本关键字与所述资源项的匹配程度；其中，所述资源项中包含至少一个所述资源标签；

依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源；其中，所述资源项中包含至少一个所述资源。
按照权利要求5所述方法，其特征在于，计算所述文本关键字与所述资源项的匹配程度，包括：

计算所述相似度与所述权重的乘积之和，作为所述文本关键字与相对应的资源标签所属资源项的匹配程度。
按照权利要求5所述方法，其特征在于，依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源，包括：

对所述文本关键字与所述资源项的匹配程度进行排序；

将最匹配的预设个资源项输出，用以确定与所述文本信息相匹配的资源。
按照权利要求7所述方法，其特征在于，将最匹配的预设个资源项输出，用以确定与所述文本信息相匹配的资源，具体为：

将最匹配的预设个资源项输出，作为备选资源项向用户推荐；

将用户在所述备选资源项中选取的资源项所对应的资源确定为与所述文本信息相匹配的资源。
按照权利要求8所述方法，其特征在于，所述资源标签在所属资源项中的权重的确定包括：

对所述资源标签在所属资源项中的权重设定初始值；

依据用户在所述备选资源项中选取的资源项，调整所述资源项中的资源标签和/或调整资源标签在所属资源项中的权重。
按照权利要求5所述方法，其特征在于，所述方法还包括：

获取用户的使用信息，所述使用信息包括用户的历史偏好信息、个人信息和/或同类用户的标签信息；

则在计算所述文本关键字与所述资源项的匹配程度之后，在依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源之前，还包括：

依据用户的所述使用信息，对所述文本关键字与所述资源项的匹配程度进行调整，得到更新后的匹配程度。
按照权利要求1所述方法，其特征在于，依据所述文本信息，获取文本关键字，包括：

获取所述文本信息；

对所述文本信息进行分词，得到所述文本关键字。
按照权利要求1～11之任一所述方法，其特征在于，所述资源的类别包括图片、照片、音乐、语音、音效、动作、表情、动画和/或视频。
一种为文本信息匹配资源的装置，其特征在于，包括：

获取模块，用于依据所述文本信息，获取文本关键字；

匹配模块，用于依据所述文本关键字与资源标签的相似度，确定与所述文本信息相匹配的资源；其中，所述资源标签与所述资源相对应。
按照权利要求13所述装置，其特征在于，所述匹配模块包括：

计算模块，用于依据所述文本关键字与所述资源标签的相似度、以及相对应的资源标签在所属资源项中的权重，计算所述文本关键字与所述资源项的匹配程度；其中，所述资源项中包含至少一个所述资源标签；

资源确定模块，用于依据所述文本关键字与各所述资源项的匹配程度，确定与所述文本信息相匹配的资源；其中，所述资源项中包含至少一个所述资源。