WO2015127747A1

WO2015127747A1 - 一种添加多媒体文件的方法和设备

Info

Publication number: WO2015127747A1
Application number: PCT/CN2014/082691
Authority: WO
Inventors: 王睿; 关国锋
Original assignee: 华为技术有限公司
Priority date: 2014-02-26
Filing date: 2014-07-22
Publication date: 2015-09-03
Also published as: CN104866511B; CN104866511A

Abstract

一种添加多媒体文件的方法及设备，用于从大量多媒体数据中，检索出多媒体并添加，节省查找时间，提高查找准确率。该方法包括：获取字符文本；对所述字符文本进行解析，得到检索关键词组；根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表；计算所述多媒体列表中多媒体文件的置信度；若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添加至文本。

Description

一种添加多媒体文件的方法和设备

本申请要求于 2014 年 2 月 26 日提交中国专利局、申请号为 201410067024.9、发明名称为 "一种添加多媒体文件的方法及设备" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域，尤其是涉及一种添加多媒体文件的方法及设备。

背景技术

随着社交网络、即时通讯的不断发展，人与人之间沟通交流的信息载体包含了越来越多的多媒体（如图片、音频、视频等）数据。目前，当用户想要在文本编辑过程（如微博、短信、 WORD 文档、电子邮件等）中插入多媒体数据时，一般都需要通过 "复制、粘贴" 的方式，或者通过特定的 "插入工具" 来实现。

可是发明人在实现本发明的过程中发现目前这些插入多媒体数据的方式都不可避免的需要用户去庞大的多媒体库中寻找待插入的目标数据，这种方式操作繁瑣，查找的准确率不高，并且耗时。

发明内容

本发明实施例提供了一种添加多媒体文件的方法及设备，用于从大量多媒体数据中，检索出多媒体并添加，节省查找时间，提高查找准确率。

有鉴于此，本发明第一方面提供一种添加多媒体文件的方法，可包括：获取字符文本；

对所述字符文本进行解析，得到检索关键词组；

根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表；

计算所述多媒体列表中多媒体文件的置信度；

若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添加至文本。

在第一方面第一种可能的实施方式中，所述对所述字符文本进行解析，得到检索关键词组包括：对所述字符文本进行词法解析；

对词法解析得到的结果进行句法解析；

对句法解析得到的结果进行语义解析输出检索关键词组。

结合第一种可能的实施方式，在第二种可能的实施方式中，所述对所述字符文本进行词法解析，包括：

对所述字符文本进行分词；

对分词后得到的词语、词组、短语进行命名实体识别；

根据预置同义词组列表，将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词，所述标准词即为所述词法解析得到的结果。

结合第一种或第二种可能的实施方式，在第三种可能的实施方式中，所述对词法解析得到的结果进行句法解析，包括：

对所述词法解析得到的结果进行词性标注；

对词性标注后的输出结果进行分析，得到输出结果中的词语、词组之间的彼此主从、修饰关系，并生成对应的语法分析树。

结合第一种或第二种或第三种可能的实施方式，在第四种可能的实施方式中，所述对句法解析得到的结果进行语义解析，输出检索关键词组，包括：结合预置知识库，对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析，识别字符文本的语义和意图，并生成检索关键词组，其中，所述检索关键词组包括主属性关键词组和从属性关键词组，所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。

结合第四种可能的实施方式，在第五种可能的实施方式中，所述计算所述多媒体列表中多媒体文件的置信度，包括：

若所述检索关键词组中关键词全部命中多媒体文件，则将全部命中的多媒体文件标记为相关，且将所述全部命中的多媒体文件的置信度设置为 1 ; 若所述检索关键词组中关键词部分命中多媒体文件，则将部分命中的多媒体文件标记为相关，且利用公式：

confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se

计算所述部分命中的多媒体文件的置信度，其中，所述 confidence为所述置信度，所述 w_primary为所述主属性关键词组的权重值，所述 w_se∞ndary为所述从属性关键词组的权重值，所述 hit_ratio_primary为所述主属性关键词组的命中率，所述 hit_ratio_se∞ndary为所述从属性关键词组的命中率，所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。

结合第一方面或第一种至第五种任一种可能的实施方式，在第六种可能的实施方式中，所述若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添加至文本，包括：

将多媒体文件置信度最大确定为满足预设条件，在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件，并将所述多媒体文件置信度最大的多媒体文件添加至文本。

结合第一方面或第一种至第六种任一种可能的实施方式，在第七种可能的实施方式中，所述方法还包括：

若所述检索关键词组的任一关键词均未命中多媒体文件，则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。

结合第一方面或第一种至第六种任一种可能的实施方式，在第八种可能的实施方式中，所述计算所述多媒体列表中多媒体文件的置信度之后，包括：判断所述多媒体文件的置信度与预设可置信阔值；

若多媒体文件的置信度大于或者等于所述预置可置信阔值，则保留所述多媒体文件；

若多媒体文件的置信度小于所述预置可置信阔值，则将所述多媒体文件从其所处的多媒体列表中删除。

结合第一方面或第一种至第六种任一种可能的实施方式，在第九种可能的实施方式中，所述计算所述多媒体列表中多媒体文件的置信度之后，包括：按照多媒体文件的置信度由高到低，对多媒体列表中的多媒体文件进行排序。

本发明第二方面提供一种添加多媒体文件的设备，可包括：

获取模块，用于获取字符文本；

解析模块，用于对所述字符文本进行解析，得到检索关键词组；检索模块，用于根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表；

计算模块，用于计算所述多媒体列表中多媒体文件的置信度；

添加模块，用于若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添加至文本。

在第二方面第一种可能的实施方式中，所述解析模块，包括：

第一解析单元，用于对所述字符文本进行词法解析；

第二解析单元，对词法解析得到的结果进行句法解析；

第三解析单元，对句法解析得到的结果进行语义解析，输出检索关键词组。结合第一种可能的实施方式，在第二种可能的实施方式中，所述第一解析单元，具体用于：对所述字符文本进行分词；对分词后得到的词语、词组、短语进行命名实体识别；根据预置同义词组列表，将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词；所述标准词即为所述词法解析得到的结果。

结合第一种或第二种可能的实施方式，在第三种可能的实施方式中，所述第二解析单元，具体用于：对所述词法解析得到的结果进行词性标注；对词性标注后的输出结果进行分析，得到输出结果中的词语、词组之间的彼此主从、修饰关系，并生成对应的语法分析树。

结合第一种或第二种或第三种可能的实施方式，在第四种可能的实施方式中，所述第三解析单元，具体用于：结合预置知识库，对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析，识别字符文本的语义和意图，并生成检索关键词组，其中，所述检索关键词组包括主属性关键词组和从属性关键词组，所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。

结合第四种可能的实施方式，在第五种可能的实施方式中，所述计算模块，具体用于：

若所述检索关键词组中一个或多个关键词全部命中一个或多个多媒体文件，则将全部命中的多媒体文件标记为相关，且将所述全部命中的多媒体文件的置信度设置为 1 ;

若所述检索关键词组中一个或多个关键词部分命中一个或多个多媒体文件，则将部分命中的多媒体文件标记为相关，且利用公式： confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se

计算所述部分命中的多媒体文件的置信度，其中，所述 confidence为所述置信度，所述 w_primary为所述主属性关键词组的权重值，所述 w_se∞nd ^为所述从属性关键词组的权重值，所述 hit_ratio_primary为所述主属性关键词组的命中率，所述 hit_ratio_se∞ndary为所述从属性关键词组的命中率，所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。

结合第二方面或第一种至第五种任一种可能的实施方式，在第六种可能的实施方式中，所述添加模块具体用于：将多媒体文件置信度最大确定为满足预设条件，在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件，并将所述多媒体文件置信度最大的多媒体文件添加至文本。

结合第二方面或第一种至第六种任一种可能的实施方式，在第七种可能的实施方式中，所述设备还包括确定模块，所述确定模块用于：若所述检索关键词组的任一关键词均未命中多媒体文件，则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。

结合第二方面或第一种至第六种任一种可能的实施方式，在第八种可能的实施方式中，所述设备还包括判断模块，所述判断模块用于：判断所述多媒体文件的置信度与预设可置信阔值；若多媒体文件的置信度大于或者等于所述预置可置信阔值，则保留所述多媒体文件；若多媒体文件的置信度小于所述预置可置信阔值，则将所述多媒体文件从其所处的多媒体列表中删除。

结合第二方面或第一种至第六种任一种可能的实施方式，在第九种可能的实施方式中，所述设备还包括排序模块，所述排序模块用于：按照多媒体文件的置信度由高到低，对多媒体列表中的多媒体文件进行排序。

从以上技术方案可以看出，本发明实施例提供的一种添加多媒体文件的方法及设备具有以下优点：通过对字符文本进行解析，得到检索关键词组，从而可以知道文本的语义以及潜在意图；根据检索关键词检索与检索关键词组相匹配的多媒体列表，并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本，从而使得添加的多媒体文件更符合上下文语境，更准确，简化了添加多媒体文件的操作，提高用户体验。

附图说明为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例提供的一种添加多媒体文件的方法的流程示意图；图 2a为本发明实施例提供的一种音乐多媒体分类树示意图；

图 2b为本发明实施例提供的一种多分类的多媒体库示意图；

图 3a为本发明实施例提供的添加多媒体文件的方法的另一流程示意图；图 3b为本发明实施例提供的一种语法分析树示意图；

图 4为本发明实施例提供的添加多媒体文件的方法的另一流程示意图；图 5为本发明实施例提供的语法分析树另一示意图；

图 6为本发明实施例提供的一种添加多媒体文件的设备的结构示意图；图 7为本发明实施例提供的添加多媒体文件的设备的另一结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语 "第一"、 "第二"、 "第三" "第四" 等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语 "包括" 和 "具有" 以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面通过具体实施例，分别进行详细的说明。

请参考图 1，图 1为本发明实施例提供的一种添加多媒体文件的方法的流程示意图；其中，所述方法包括：

S101、获取字符文本；

S102、对所述字符文本进行解析，得到检索关键词组；

5103、根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表；

5104、计算所述多媒体列表中多媒体文件的置信度；

5105、若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将满足预设条件的多媒体文件添加至文本。

首先应该理解的是，所述添加多媒体文件的方法可基于语言解析系统中应用，该系统中可以包括知识库、分类器、推理规则库以及多媒体库，所述知识库，分类器以及多媒体库为预先预置。

所述知识库中包含了用于辅助解析和所述分类器对多媒体文件进行分类的先验知识；知识库的具体内容包括但不限于：多媒体分类树和推理规则库；其中，所述多媒体分类树表征多媒体数据的常用分类方法。该多媒体分类树是分类器对多媒体库中的多媒体文件进行分类的依据，多媒体分类树包含：通用多媒体分类树。该种类型的分类树规定了使用多媒体文件的通用分类规则，例如： "音乐"可按照流派分为 "流行"、 "摇滚"等， "图片"按照色彩可分为 "黑白"、 "彩色"。正因为此种分类规则对多媒体文件通用，所以任一多媒体文件均可在该分类树上找到一个或多个表征该多媒体文件的分类的节点。可参考图 2a, 图 2a示出了音乐多媒体分类树的一个示例，可以理解的是，根据多媒体库中多媒体数据的实际情况，通用多媒体分类树也会不相同，此处不作具体限定。

所述推理规则库描述了对字符文本或词汇进行语义推理的规则，其构成包括：多媒体分类树的每个节点包含了可用于描述该节点的关键词集，当字符文本中包含了该关键词集合中的一个或者多个关键词时，则可认为该关键词的含义为其在多媒体分类树上对应的节点表征的含义。例如，在如图 2a所示的多媒体分类树上，假设 "音乐" 节点的关键词集为 {音乐，歌曲，单曲，曲子，旋律， music} , 以字符文本是 "周杰伦的最新单曲" 为例，在 "周杰伦的最新单曲" 例子中，对 "单曲" 关键词进行推理可确定整个字符文本的意思是 "周杰伦的最新音乐"。另外，对多媒体分类树上的任一子节点，可沿该子节点到多媒体分类树根节点的路径向上推理。例如，在图 2a描述的多媒体分类树上，假设节点 "伤感" 的关键词集合为{伤心，失落，糟糕 }，当字符文本为 "今天的心情很失落" 时，首先可通过 "失落" 关键词推理得到 "伤感" 节点，然后可沿 "伤感音乐心情音乐" 路径推理得到 "音乐" 节点。即， "今天的心情^^失落" 可以用 "音乐" 来描述。

所述分类器，其利用所述知识库中的多媒体分类树，对多媒体库中的多媒体文件进行分类，输出多分类的多媒体库。即依据多媒体文件的类别信息，将多媒体文件映射到多媒体分类树的节点上。当从不同的角度对多媒体文件进行分类时，一个多媒体文件可能映射到一个或者多个多媒体分类树上的节点。例如： {东风破，歌手：周杰伦，流派：流行 }这首歌，按歌手分类时，被映射到图 2a多媒体分类树的 "周杰伦" 节点；按流派分类时，被映射到 "流行" 节点。

所述多媒体库，其通过分类器按照知识库的多媒体分类树对多媒体进行分类得到，可参考图 2b，图 2b为多分类的多媒体库的一个示例。

其后，根据建立好的知识库和多媒体库，对用户输入的字符文本进行解析，以生成表征字符文本语义及意图的关键词集合，即检索关键词组。

可以理解的是，本发明实施例中，所述置信度也称为可靠度，或置信水平、置信系数，置信度的计算可以根据所述检索关键词组计算得出，此处不作具体限定。

另容易想到的是，本发明实施例中，所述预设条件可以设定为多媒体文件的置信度最高或者多媒体文件的置信度大于等于预设阔值等，在某些实施方式中，若将多媒体文件置信度最大确定为满足预设条件，则在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件，并将所述多媒体文件置信度最大的多媒体文件添加至文本，此处举例并不造成对本发明的限定。

由上述可知，本发明实施例提供的一种添加多媒体文件的方法具有以下优点：通过对字符文本进行解析，得到检索关键词组，从而可以知道文本的语义以及潜在意图；根据检索关键词检索与检索关键词组相匹配的多媒体列表，并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本，从而使得添加的多媒体文件更符合上下文语境，更准确，简化了添加多媒体文件的操作，提高用户体验。

进一步地，在本发明一些实施例中，可参考图 3a，图 3a为所述对所述字符文本进行解析，得到检索关键词组（S102 )可以具体包括：

S1021、对所述字符文本进行词法解析；

在某些实施例方式中，所述对所述字符文本进行词法解析（S1021 ) 可以具体包括：

步骤一、对所述字符文本进行分词；

可具体地，可以将连续的字符文本按照语言中词语、词组、短语的概念、注册、关系、属性等切分成词语、词组、或短语。例如： "周杰伦的歌曲"，分词结果输出 "周杰伦 //的 //歌曲" （其中 "〃" 表示词语间的分隔符）。

步骤二、对分词后得到的词语、词组、短语进行命名实体识别；

即识别词语、词组、或短语中的具有特定意义的实体，主要包括人名、地名等。例如： "周杰伦的东风破"，命名实体识别可输出 "周杰伦-人名"， "东风破 -歌曲名"。

步骤三、根据预置同义词组列表，将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词，所述标准词即为所述词法解析得到的结果。

可以理解的是，所述预置同义词组列表中包括了多个同义词组合，每个同义词组合由拥有多种同义表述的词语构成，并将这些拥有多种同义表述的词语规范化为该同义词组合的标准词。例如： "周杰伦、周董、 Jay" 为一组同义词组，其中 "周杰伦" 为该同义词组的标准词，如将字符文本 "周董的歌曲" 中的 "周董" 规范化为 "周杰伦"。

S 1022、对词法解析得到的结果进行句法解析；

其中，句法分析从自然语言的语法层面，对字符文本进行解析；

在某些实施例方式中，所述对词法解析得到的结果进行句法解析（ S1022 ) 可以具体包括：步骤一、对所述词法解析得到的结果进行词性标注；

即给词法分析的输出结果中的每个词语、词组、短语指派一个合适的词性。例如， "周杰伦的歌曲" 经过词性标注的输出可以为 "周杰伦 I人名〃的 I结构助词 //歌曲 I名词"，其中 Ί" 后的内容表示前面单词的词性。

步骤二、对词性标注后的输出结果进行分析，得到输出结果中的词语、词组之间的彼此主从、修饰关系，并生成对应的语法分析树。

可一并参考图 3b，图 3b为字符文本为 "周杰伦的歌曲" 的例子中，对应输出的语法分析树示意图。

S1023、对句法解析得到的结果进行语义解析，输出检索关键词组。

可以理解的是，语义解析通过分析词组本身的意义、句法结构、结合预置知识库中的先验知识，解析字符文本中涉及的实体、关系、主题、意图等，并生成相关的检索关键词组。

所述检索关键词组可以包括主属性关键词组和从属性关键词组，所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。例如：若检索关键词组形如 "{东风破，歌手：周杰伦，流派：流行 }"，其中， "东风破" 为主属性关键词组， "歌手: 周杰伦" 和 "流派：流行" 为从属性关键词组， "周杰伦" 表示了 "东风破" 的 "歌手" 属性。

其中，可具体地，进行语义解析提供的功能包括：

根据词法分析、句法分析结果，抽取字符文本中的关键词，确定多个关键词之间的主从、修饰关系。例如： "周杰伦的东风破"，依据词法分析中，分词和命名实体识别的结果，可提取出关键词 "周杰伦" 和 "东风破"，然后依据句法分析的句法分析树可知 "周杰伦" 作为 "东风破" 的定语，用于修饰 "东风破"，基于以上信息，便可以获取关键词间的修饰关系： {东风破周杰伦}; 其中， " " 表示修饰关系，周杰伦作为东风破的一个属性值。

依据词法分析、句法分析结果，结合预置知识库，进行语义推理，识别字符文本的潜在语义。例如： "周杰伦的最新单曲"，经过词法分析生成 "周杰伦〃的〃最新 //单曲"；经过句法分析生成 "周杰伦 I名词 //的 I结构助词 //最新 I形容词〃单曲 I名词"；依据知识库中的推理规则，将 "单曲"推理到 "音乐"，将 "最新" 推理到音乐的 "发售时间" 属性，将周杰伦推理到音乐的 "歌手" 属性，则可以得到 "周杰伦的最新单曲"全句的潜在语义为 "歌手是周杰伦的发售时间距离当前时间最近的音乐"，对应的关键词组为 {音乐，歌手：周杰伦，发售时间：最近 }。假如，预置知识库中包含了两首音乐，其详细信息为： {东风破，发售时间： 2012-10-21，歌手：周杰伦 }和{青花瓷，发售时间： 2013-11-30，歌手：周杰伦 }。那么，通过对两首歌的时间属性的比较， "青花瓷" 较 "东风破" 推出晚，是字符文本语义的目标多媒体文件。

依据词法分析、句法分析结果，结合预置知识库，识别字符文本的潜在意图。例如： "今天的心情很失落"，依据知识库中的推理规则，在图 2a描述的多媒体分类树上， 4叚设节点 "伤感" 的关键词集合为{伤心，失落，糟糕 }，当字符文本为 "今天的心情很失落"时，首先可通过 "失落"关键词推理得到 "伤感" 节点，然后可沿 "伤感音乐心情音乐" 路径推理得到 "音乐" 节点。即， "今天的心情很失落" 可以用 "音乐" 来描述。

需要说明的是，所述语言解析系统中包括词库，该词库保存了特定词语、词组、短语和指示其概念、属性、关系的实体之间的关联。另外，词库还可以保存词语的同义词、近义词，实体名词等，以结合多媒体库和知识库实现对字符文本的解析。

更进一步地，在本发明一些实施例中，根据前述 S1021至 S1023得到检索关键词组后，根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表，其中与所述检索关键词组相匹配的多媒体列表的匹配关系可以包括全部命中和部分命中，检索关键词组的主属性关键词组和从属性关键词组命中时可有不同的权重值，分别为 w_primary和 ^secondary , 本发明实施例中，预先设定所述 w_primary和所述 ^secondary的和为 1。

如果多媒体文件的描述中包含了检索关键词组中的某一关键词，则表示该关键词命中，反之该关键词未命中。如：关键词为 "周杰伦"，多媒体文件的描述为 {东风破，演唱者：周杰伦 }，那么关键词 "周杰伦" 命中。所述检索关键词组的 "命中率（hit_ratio )，，为命中的关键词个数占检索关键词组中全部关键词个数的比值。

优选地，所述计算所述多媒体列表中多媒体文件的置信度（confidence ) ( S104 ), 可以包括：一方面，若所述检索关键词组中关键词全部命中多媒体文件，则将全部命中的多媒体文件标记为相关，且将所述全部命中的多媒体文件的置信度设置为 1。例如：检索关键词组为{东风破 }，多媒体库中的歌名为东风破的节点唯一，贝 Ή东风破，歌手：周杰伦，流派：流行 }节点被命中，且关键词 "东风破" 完全匹配，所以将置信度确定为 1。再如：当检索关键词组为 {音乐，歌手：周杰伦 }时，在多媒体分类树上，检索到节点 "周杰伦"，且其所属的分类为 "音乐" 大类下 "歌手" 子类， "周杰伦" 节点下包含了 "东风破"、 "双截棍" 2 个节点，指示命中 2个多媒体文件；该例子中，关键词 "音乐" 与媒体分类的大类 "音乐" 命中；关键词 "歌手：周杰伦" 与 "东风破" 和 "双截棍" 2个节点的 "歌手: 周杰伦"命中，所以，可以认为全部命中，所以将置信度确定为 1

另一方面，若所述检索关键词组中关键词部分命中多媒体文件，则将部分命中的多媒体文件标记为相关，且利用公式：

confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se

计算所述部分命中的多媒体文件的置信度。其中，所述 confidence为所述置信度，所述 w_primary为主属性关键词组的权重值，所述 w_se∞ndary为从属性关键词组的权重值，所述 hit_ratio_primary为主属性关键词组的命中率，所述 1^ ^10 ₁₁₍1_£117为从属性关键词组的命中率。例如：检索关键词组为{吻别，歌手：周杰伦 }，该检索关键词组种，主属性关键词为 "吻别" 从属性关键词为 "歌手：周杰伦"。其主属性关键词部分命中了节点 {吻别，歌手：张学友，音乐心情：伤感、浪漫 }，命中率为 1，从属关键词未命中，所以，该节点的相关性置信度为： w_prim£uy * 1 + w_se∞ndary *0; 从属性关键词命中了 {东风破，歌手：周杰伦，流派：流行 }节点，该节点的相关性置信度为 w_primary * 0 + w_se∞ndary *l 可以理解的是，所述方法还可以包括：

若所述检索关键词组的任一关键词均未命中多媒体文件，则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。即不需要计算多媒体文件置信度，该情况下，不进行对多媒体文件的添加操作。

更进一步地，请看参考图 4，图 4为所述添加多媒体文件的方法的另一流程示意图，其中，所述计算所述多媒体列表中多媒体文件的置信度（S104 )之后，还可以包括：

S 1041、判断所述多媒体文件的置信度与预设可置信阔值；

S1041a、若多媒体文件的置信度大于或者等于所述预置可置信阔值，则保留所述多媒体文件；

S1041b、若多媒体文件的置信度小于所述预置可置信阔值，则将所述多媒体文件从其所处的多媒体列表中删除。

可以理解的是，步骤 S1041a或 S1041b后，将更新后的多媒体列表中多媒体文件置信度最大的多媒体文件添加至文本。

优选地，为了多媒体列表中置信度越高的多媒体文件的位置越靠前，所述计算所述多媒体列表中多媒体文件的置信度之后，还可以包括：

按照多媒体文件的置信度由高到低，对多媒体列表中的多媒体文件进行排序。

可以理解的是，若对于两个置信度相同的多媒体文件，可使用多媒体文件的除检索关键词组中的主、从属性以外的属性辅助进行排序。例如，检索关键词组 {吻别，歌手：刘德华 }检索出的两个置信度相同的多媒体文件 {吻别，歌手：张学友 } (记为 a )和{吻别，歌手：黎明 } (记为 b )。该情况下，可以按多媒体文件 a和多媒体文件 b的 "播放次数"、 "创建时间" 等属性进行排序，此次不作具体限定。

由上述可知，本发明实施例提供的一种添加多媒体文件的方法具有以下优点：通过对字符文本进行词法、句法和语义解析，得到检索关键词组，从而可以知道文本的语义以及潜在意图；根据检索关键词检索与检索关键词组相匹配的多媒体列表，并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本，从而使得添加的多媒体文件更符合上下文语境，更准确，简化了添加多媒体文件的操作，提高用户体验。

为了更好地理解本发明技术方案，下面以字符文本内容是"周杰伦的最新单曲" 为例，并结合图 1、图 3a以及图 4所示的流程图，对所述添加多媒体文件的方法进行分析：

首先，根据词库中的词典、实体名词表、同义词表，对字符文本的内容进行分词，识别分词结果中的命名实体，并对具有同义说法的词语进行标准化，生成词法分析结果。例如： "周杰伦的最新单曲" 的分词结果为 "周杰伦 //的 // 最新 //单曲" ( "//"表示分词结果词汇见的分隔符）；命名实体识别的结果为 "周杰伦-人名"；同义词标准化的结果为 "单曲歌曲"。 "周杰伦的最新单曲" 经过词法分析模块的最终结果转换成 "周杰伦 I人名 //的 //最新 //歌曲"

其后，对词法分析结果进行词性标注，并依据词性标注结果，结合自然语言的语法，分析并生成对应的语法分析树。词性标注结果与语法分析一起构成了词法分析结果。例如： "周杰伦 //的〃最新 //歌曲" 的词性标注结果为 "周杰伦 I人名 //的 I结构助词 //最新 I形容词 //歌曲 I名词" （ Ί" 标志词语的词性注释）；可一并参考图 5，图 5为该实施例中对应的语法分析树示意图。

进一步地，分析词组本身的意义、句法结构、结合知识库中的推理规则，解析句法分析结果中包含的文本语义及意图，输出供检索模块使用的检索关键词组。以句法分析结果数据 "周杰伦 I人名〃的 I结构助词 //最新 I形容词 //歌曲 I名词"及图 5对应的语法树为例，首先确定字符文本的关键词，得到关键词表 {周杰伦 I人名，最新 I形容词，歌曲 I名词 }。同时结合语法分析树，得到关键词之间的主从、修饰关系， "周杰伦" 和 "最新" 均作为歌曲的定语，用于修饰歌曲。于是，可得到修饰关系为 {歌曲周杰伦，歌曲最新 }。然后结合知识库中的推理规则库对关键词组及其修饰关系进行语义推理。通过关键词 "歌曲"推理得知检索的大类为 "音乐"，通过 "最新" 关键词，推理关键词描述的是时间属性。最后，结合语法分析树可得到 "周杰伦 I人名〃的 I结构助词〃最新 I形容词 //歌曲 I名词" 的文本语义为 "歌手是周杰伦的、发售时间离当前时间最近的音乐"，将其形式化描述为 {音乐，歌手：周杰伦，发售时间：最近 }。其中， "音乐" 为文本语义的主属性， "歌手: 周杰伦" 和 "发售时间：最近" 为修饰主属性 "音乐" 的从属性。将这种形式化的描述（即检索关键词组）作为多媒体检索模块的输入。

从多媒体库中检索与检索关键词组（{音乐，歌手：周杰伦，发售时间：最近 } )相匹配的多媒体文件，并计算多媒体文件的置信度。首先，多分类的多媒体库以图 2b为例，由检索关键词组中的主属性 "音乐" 可将检索的目标对象定位到音乐多媒体库；其次，通过从属性 "歌手: 周杰伦" 可见检索对象进一步缩小至关联到 "周杰伦" 节点音乐列表。然后，比较与 "周杰伦"相关联的全部音乐的 "发售时间" 属性，选择 "发售时间" 离当前时间最近的音乐添加到相关多媒体列表。最后，通过置信度计算公式计算该多媒体列表中的每个多媒体文件的置信度。多媒体文件的置信度计算公式可以为：

confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se 比较计算得到的多媒体列表中的每个多媒体文件的置信度与预置可置信阔值的大小，如果计算出来的置信度小于预置可置信阔值，则将该多媒体文件从多媒体列表中移除。经过该步骤的过滤后，得到更新后的可置信的多媒体列表。

对可置信的相关多媒体列表中的多媒体文件进行排序，保证置信度越高的多媒体文件的位置越靠前，以得到排序后的可置信相关多媒体列表。其具体内容为：对于多媒体列表中的多媒体文件，按照其置信度由高到低对相关多媒体进行排序。对于置信度相同的多媒体文件，可使用多媒体文件的除检索关键词组中的主、从属性以外的属性辅助进行排序。例如，以多媒体文件的 "播放次数"、 "创建时间" 等属性进行排序。

为便于更好的实施本发明实施例提供的添加多媒体文件的方法，本发明实施例还提供一种基于上述添加多媒体文件的方法的设备。其中名词的含义与上述添加多媒体文件的方法中相同，具体实现细节可以参考方法实施例中的说明。

请参考图 6，图 6为本发明实施例提供的一种添加多媒体文件的设备 600 的结构示意图，其中，所述添加多媒体文件的设备 600可包括：

获取模块 601，用于获取字符文本；

解析模块 602，用于对所述字符文本进行解析，得到检索关键词组；检索模块 603，用于根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表；

计算模块 604，用于计算所述多媒体列表中多媒体文件的置信度；添加模块 605，用于若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添加至文本。

首先应该理解的是，所述添加多媒体文件的装置可基于语言解析系统中应用，该系统中可以包括知识库，分类器以及多媒体库，所述知识库，分类器以及多媒体库为预先预置。其中，所述知识库、所述推理规则库、所述分类器、所述多媒体库可以参考对应方法实施例中的具体描述，此处不作具体限定。

可选的，本发明实施例中，所述预设条件可以设定为多媒体文件的置信度最高或者多媒体文件的置信度大于等于预设阔值等，在某些实施方式中，若将多媒体文件置信度最大确定为满足预设条件，则所述添加模块 605具体用于：在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件，并将所述多媒体文件置信度最大的多媒体文件添加至文本，容易想到的是，此处举例并不造成对本发明的限定。

进一步地，在本发明一些实施例中，所述解析模块 602，可以具体包括：第一解析单元，用于对所述字符文本进行词法解析；

第二解析单元，对词法解析得到的结果进行句法解析；

第三解析单元，对句法解析得到的结果进行语义解析，输出检索关键词组。在某些实施例方式中，所述第一解析单元，可具体用于：对所述字符文本进行分词；对分词后得到的词语、词组、短语进行命名实体识别；根据预置同义词组列表，将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词，所述标准词即为所述词法解析得到的结果。

可具体地，可以将连续的字符文本按照语言中词语、词组、短语的概念、注册、关系、属性等切分成词语、词组、或短语。例如： "周杰伦的歌曲"，分词结果输出 "周杰伦 //的 //歌曲"（其中 "//"表示词语间的分隔符）；识别词语、词组、或短语中的具有特定意义的实体，主要包括人名、地名等。例如： "周杰伦的东风破"，命名实体识别可输出 "周杰伦-人名"， "东风破 -歌曲名"；可以理解的是，所述预置同义词组列表中包括了多个同义词组合，每个同义词组合由拥有多种同义表述的词语构成，并将这些拥有多种同义表述的词语规范化为该同义词组合的标准词。例如： "周杰伦、周董、 Jay" 为一组同义词组，其中 "周杰伦" 为该同义词组的标准词，如将字符文本 "周董的歌曲" 中的 "周董" 规范化为 "周杰伦"。

所述第二解析单元从自然语言的语法层面，对字符文本进行解析，在某些实施方式中，可具体用于：对所述词法解析得到的结果进行词性标注；对词性标注后的输出结果进行分析，得到输出结果中的词语、词组之间的彼此主从、修饰关系，并生成对应的语法分析树。

可具体地，给词法分析的输出结果中的每个词语、词组、短语指派一个合适的词性。例如， "周杰伦的歌曲" 经过词性标注的输出可以为 "周杰伦 I人名 //的 I结构助词 //歌曲 I名词"，其中 Ί" 后的内容表示前面单词的词性；如图 3b 为字符文本为 "周杰伦的歌曲" 的例子中，对应输出的语法分析树示意图。

在某些实施方式中，所述第三解析单元，可具体用于：结合预置知识库，对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析，识别字符文本的语义和意图，并生成检索关键词组，其中，所述检索关键词组包括主属性关键词组和从属性关键词组，所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。

其中，可具体地，进行语义解析提供的功能包括：

依据词法分析、句法分析结果，结合预置知识库，进行语义推理，识别字符文本的潜在语义。例如： "周杰伦的最新单曲"，经过词法分析生成 "周杰伦 //的 //最新 //单曲"；经过句法分析生成 "周杰伦 I名词 //的 I结构助词 //最新 I形容词〃单曲 I名词"；依据知识库中的推理规则，将 "单曲"推理到 "音乐"，将 "最新" 推理到音乐的 "发售时间" 属性，将周杰伦推理到音乐的 "歌手" 属性，则可以得到 "周杰伦的最新单曲"全句的潜在语义为 "歌手是周杰伦的发售时间距离当前时间最近的音乐"，对应的关键词组为 {音乐，歌手：周杰伦，发售时间：最近 }。假如，预置知识库中包含了两首音乐，其详细信息为： {东风破，发售时间： 2012-10-21，歌手：周杰伦 }和{青花瓷，发售时间： 2013-11-30，歌手：周杰伦 }。那么，通过对两首歌的时间属性的比较， "青花瓷" 较 "东风破" 推出晚，是字符文本语义的目标多媒体文件。

更进一步地，在本发明一些实施例中，得到检索关键词组后，根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表，其中与所述检索关键词组相匹配的多媒体列表的匹配关系可以包括全部命中和部分命中，检索关键词组的主属性关键词组和从属性关键词组命中时可有不同的权重值，分别为 w_primary和 ^secondary , 本发明实施例中，预先设定所述

Wp_rimary和所述 W_seCondary的和为 1。如果多媒体文件的描述中包含了检索关键词组中的某一关键词，则表示该关键词命中，反之该关键词未命中。如：关键词为 "周杰伦"，多媒体文件的描述为 {东风破，演唱者：周杰伦 }，那么关键词 "周杰伦" 命中。所述检索关键词组的 "命中率（hit_ratio )，，为命中的关键词个数占检索关键词组中全部关键词个数的比值。其具体计算分析过程如下：

一方面，所述计算模块 604，用于：

若所述检索关键词组中一个或多个关键词全部命中一个或多个多媒体文件，则将全部命中的多媒体文件标记为相关，且将所述全部命中的多媒体文件的置信度设置为 1。若所述检索关键词组中关键词全部命中多媒体文件，则将全部命中的多媒体文件标记为相关，且将所述全部命中的多媒体文件的置信度设置为 1。例如：检索关键词组为{东风破 }，多媒体库中的歌名为东风破的节点唯一，则{东风破，歌手：周杰伦，流派：流行 }节点被命中，且关键词 "东风破" 完全匹配，所以将置信度确定为 1。再如：当检索关键词组为 {音乐，歌手：周杰伦 }时，在多媒体分类树上，检索到节点 "周杰伦"，且其所属的分类为 "音乐" 大类下 "歌手" 子类， "周杰伦" 节点下包含了 "东风破"、 "双截棍" 2个节点，指示命中 2个多媒体文件；该例子中，关键词 "音乐" 与媒体分类的大类 "音乐" 命中；关键词 "歌手: 周杰伦" 与 "东风破" 和 "双截棍" 2个节点的 "歌手：周杰伦" 命中，所以，可以认为全部命中，所以将置信度确定为 1。

另一方面，所述计算模块 604，还可以用于：

若所述检索关键词组中一个或多个关键词部分命中一个或多个多媒体文件，则将部分命中的多媒体文件标记为相关，且利用公式：

confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se隱 _dary

计算所述部分命中的多媒体文件的置信度，其中，所述 confidence为所述置信度，所述 w_primary为所述主属性关键词组的权重值，所述 w_se∞ndary为所述从属性关键词组的权重值，所述 hit_ratio_primary为所述主属性关键词组的命中率，所述 hit_ratio_se∞ndary为所述从属性关键词组的命中率，所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。例如：检索关键词组为{吻另¹ J，歌手：周杰伦 }，该检索关键词组种，主属性关键词为 "吻别"，从属性关键词为 "歌手：周杰伦"。其主属性关键词部分命中了节点 {吻别，歌手：张学友，音乐心情：伤感、浪漫 }，命中率为 1，从属关键词未命中，所以，该节点的相关性置信度为： w_prim£uy * 1 + w_se∞nd£uy *0; 从属性关键词命中了 {东风破，歌手：周杰伦，流派：流行 }节点，该节点的相关性置信度为 w_primary * 0 + w_se∞ndary *1。

可以理解的是，所述设备还可以包括确定模块，所述确定模块用于：若所述检索关键词组的任一关键词均未命中多媒体文件，则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。即不需要计算多媒体文件置信度，该情况下，不进行对多媒体文件的添加操作。

进一步地，所述设备还可以包括判断模块，所述判断模块用于：判断所述多媒体文件的置信度与预设可置信阔值；若多媒体文件的置信度大于或者等于所述预置可置信阔值，则保留所述多媒体文件；若多媒体文件的置信度小于所述预置可置信阔值，则将所述多媒体文件从其所处的多媒体列表中删除。将更新后的多媒体列表中多媒体文件置信度最大的多媒体文件添加至文本。

优选地，为了多媒体列表中置信度越高的多媒体文件的位置越靠前，所述设备还可以包括排序模块，所述排序模块用于：在计算所述多媒体列表中多媒体文件的置信度之后，按照多媒体文件的置信度由高到低，对多媒体列表中的多媒体文件进行排序。

由上述可知，本发明实施例提供的一种添加多媒体文件的装置具有以下优点：通过对字符文本进行词法、句法和语义解析，得到检索关键词组，从而可以知道文本的语义以及潜在意图；根据检索关键词检索与检索关键词组相匹配的多媒体列表，并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本，从而使得添加的多媒体文件更符合上下文语境，更准确，简化了添加多媒体文件的操作，提高用户体验。

请参考图 7，图 7为本发明实施例提供的添加多媒体文件的设备的另一结构示意图，本发明提供的添加多媒体文件的设备的系统架构包括但不限于一个或者多个处理器、内存、对外接口、输入设备、输出设备、存储设备和和至少一个通信总线，用于实现这些装置之间的连接通信等。

所述处理器可以是任意控制移动终端上的所有操作的设备，包括但不限于执行短消息解析和服务、广告推荐时产生的指令。处理器可以是不限于一个或者多个中央处理器（ CPU， Central Processing Unit )、 GPU ( Graphic Processing Unit )、现场可编程逻辑门阵列（ FPGA ， Field Programmable Gate Array )、 DSP ( Digital Signal Processor )、专用集成电路( ASIC, Application Specific Integrated Circuit ), 可编程逻辑器件（PLD， Programmable Logic Device)等等，或者是上述设备的混合。

所述内存可以是任意緩存处理器执行移动终端上的操作所需要的数据和指令序列的设备，包括但不限于在运行短消息解析和服务、广告推荐所需要用到的数据和指令序列。内存可以是但不限于 RAM、 ROM, 闪存等等，或者是上述设备的混合。

所述对外接口可以是任意移动终端和外部设备或者网络进行交互的接口，包括但不限于获取外部服务和广告信息所需要的接口。外部接口可以是但不限于以太网接口、 DSL接口、 RF接口、蓝牙等，或者是上述接口的混合。外部接口上可以运行任意网络传输协议，包括但不限于 USB、电缆、光纤、无线 (包括但不限于 WiFi、 2G/3G/4G网络）等传输协议。

所述输入设备可以是任意移动终端获取用户输入和信息的设备。输入设备可以是但不限于键盘、鼠标、触摸屏、设备按键、麦克风、各种传感器（如 GPS、水平传感器、重力传感器等等），或者上述设备的混合。

所述输出设备可以是任意展示移动终端的处理结果的设备，包括但不限于展示推荐的服务和广告。输出设备可以是但不限于屏幕、发声器、耳机、打印机、振动器等，或者上述设备的混合。

存储设备可以是任意存储移动终端程序和数据的设备。存储设备包括但不限于闪存、硬盘、 CD-ROM等，或者上述硬件的混合。

如图 7所示，在一些实施方式中，所述存储设备中存储了程序指令，程序指令可以被处理器执行，所述处理器具体执行以下步骤：

获取字符文本；对所述字符文本进行解析，得到检索关键词组；根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表；计算所述多媒体列表中多媒体文件的置信度；若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添力口至文本。

可选地，所述处理器用于对所述字符文本进行解析，得到检索关键词组包括：对所述字符文本进行词法解析；对词法解析得到的结果进行句法解析；对句法解析得到的结果进行语义解析，输出检索关键词组。

可选地，所述处理器用于对所述字符文本进行词法解析，包括：对所述字符文本进行分词；对分词后得到的词语、词组、短语进行命名实体识别；根据预置同义词组列表，将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词，所述标准词即为所述词法解析得到的结果。

可选地，所述处理器用于对词法解析得到的结果进行句法解析，包括：对所述词法解析得到的结果进行词性标注；对词性标注后的输出结果进行分析，得到输出结果中的词语、词组之间的彼此主从、修饰关系，并生成对应的语法分析树。

可选地，所述处理器用于对句法解析得到的结果进行语义解析，输出检索关键词组，包括：

结合预置知识库，对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析，识别字符文本的语义和意图，并生成检索关键词组，其中，所述检索关键词组包括主属性关键词组和从属性关键词组，所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。

可选地，所述处理器用于计算所述多媒体列表中多媒体文件的置信度，包括：

若所述检索关键词组中关键词全部命中多媒体文件，则将全部命中的多媒体文件标记为相关，且将所述全部命中的多媒体文件的置信度设置为 1 ;

若所述检索关键词组中关键词部分命中多媒体文件，则将部分命中的多媒体文件标记为相关，且利用公式：

confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se

可选地，所述处理器用于若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添加至文本，包括：将多媒体文件置信度最大确定为满足预设条件，在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件，并将所述多媒体文件置信度最大的多媒体文件添力口至文本。

进一步可选地，所述处理器还用于若所述检索关键词组的任一关键词均未命中多媒体文件，则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。

进一步可选地，所述处理器计算所述多媒体列表中多媒体文件的置信度之后，还可以用于：判断所述多媒体文件的置信度与预设可置信阔值；若多媒体文件的置信度大于或者等于所述预置可置信阔值，则保留所述多媒体文件；若多媒体文件的置信度小于所述预置可置信阔值，则将所述多媒体文件从其所处的多媒体列表中删除。

进一步可选地，所述处理器计算所述多媒体列表中多媒体文件的置信度之后，还可以用于：按照多媒体文件的置信度由高到低，对多媒体列表中的多媒体文件进行排序。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接辆合或通信连接可以是通过一些接口，装置或单元的间接辆合或通信连接，可以是电性，机械或其它的形式。单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以釆用硬件的形式实现，也可以釆用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ROM， Read-Only Memory ), 随机存取存储器（RAM, Random Access Memory ), 磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明所提供的一种添加多媒体文件的方法及设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种添加多媒体文件的方法，其特征在于，包括：

获取字符文本；

对所述字符文本进行解析，得到检索关键词组；

计算所述多媒体列表中多媒体文件的置信度；

2、根据权利要求 1所述的方法，其特征在于，所述对所述字符文本进行解析，得到检索关键词组包括：

对所述字符文本进行词法解析；

对词法解析得到的结果进行句法解析；

对句法解析得到的结果进行语义解析，输出检索关键词组。

3、根据权利要求 2所述的方法，其特征在于，所述对所述字符文本进行词法解析，包括：

对所述字符文本进行分词；

对分词后得到的词语、词组、短语进行命名实体识别；

4、根据权利要求 2或 3所述的方法，其特征在于，所述对词法解析得到的结果进行句法解析，包括：

对所述词法解析得到的结果进行词性标注；

5、根据权利要求 2至 4任一项所述的方法，其特征在于，所述对句法解析得到的结果进行语义解析，输出检索关键词组，包括：

6、根据权利要求 5所述的方法，其特征在于，所述计算所述多媒体列表中多媒体文件的置信度，包括：

confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se

7、根据权利要求 1至 6任一项所述的方法，其特征在于，所述若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时，将置信度满足预设条件的多媒体文件添加至文本，包括：

8、根据权利要求 1至 7任一项所述的方法，其特征在于，所述方法还包括：

9、根据权利要求 1至 7任一项所述的方法，其特征在于，所述计算所述多媒体列表中多媒体文件的置信度之后，包括：

判断所述多媒体文件的置信度与预设可置信阔值；

10、根据权利要求 1至 7任一项所述的方法，其特征在于，所述计算所述多媒体列表中多媒体文件的置信度之后，包括：

11、一种添加多媒体文件的设备，其特征在于，包括：

获取模块，用于获取字符文本；

解析模块，用于对所述字符文本进行解析，得到检索关键词组；

检索模块，用于根据所述检索关键词组，在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表；

12、根据权利要求 11所述的设备，其特征在于，所述解析模块，包括：第一解析单元，用于对所述字符文本进行词法解析；

第二解析单元，对词法解析得到的结果进行句法解析；

第三解析单元，对句法解析得到的结果进行语义解析，输出检索关键词组。

13、根据权利要求 12所述的设备，其特征在于，所述第一解析单元，具体用于：对所述字符文本进行分词；对分词后得到的词语、词组、短语进行命名实体识别；根据预置同义词组列表，将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词；所述标准词即为所述词法解析得到的结果。

14、根据权利要求 12或 13所述的设备，其特征在于，所述第二解析单元，具体用于：对所述词法解析得到的结果进行词性标注；对词性标注后的输出结果进行分析，得到输出结果中的词语、词组之间的彼此主从、修饰关系，并生成对应的语法分析树。

15、根据权利要求 12至 14任一项所述的设备，其特征在于，所述第三解析单元，具体用于：结合预置知识库，对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析，识别字符文本的语义和意图，并生成检索关键词组，其中，所述检索关键词组包括主属性关键词组和从属性关键词组，所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。

16、根据权利要求 15所述的设备，其特征在于，所述计算模块，具体用于：

confidence = w_primary * hit_ratio_primary + w_secondary * hit_ratio_se

17、根据权利要求 11至 16任一项所述的设备，其特征在于，所述添加模块具体用于：将多媒体文件置信度最大确定为满足预设条件，在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件，并将所述多媒体文件置信度最大的多媒体文件添加至文本。

18、根据权利要求 11至 17任一项所述的装置，其特征在于，所述设备还包括确定模块，所述确定模块用于：若所述检索关键词组的任一关键词均未命中多媒体文件，则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。

19、根据权利要求 11至 17任一项所述的设备，其特征在于，所述设备还包括判断模块，所述判断模块用于：判断所述多媒体文件的置信度与预设可置信阔值；若多媒体文件的置信度大于或者等于所述预置可置信阔值，则保留所述多媒体文件；若多媒体文件的置信度小于所述预置可置信阔值，则将所述多媒体文件从其所处的多媒体列表中删除。

20、根据权利要求 11至 17任一项所述的设备，其特征在于，所述设备还包括排序模块，所述排序模块用于：按照多媒体文件的置信度由高到低，对多媒体列表中的多媒体文件进行排序。