WO2015123950A1

WO2015123950A1 - 一种信息处理方法及装置

Info

Publication number: WO2015123950A1
Application number: PCT/CN2014/080799
Authority: WO
Inventors: 张�杰; 张轶博
Original assignee: 华为技术有限公司
Priority date: 2014-02-24
Filing date: 2014-06-26
Publication date: 2015-08-27
Also published as: CN104866498A; US20160117405A1

Abstract

本发明公开了一种信息处理方法及装置，涉及通信技术领域，为方便用户获取自己需要的信息而发明。所述方法包括：获取用户输入的搜索条件，所述搜索条件包括实体的名称；根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值；显示所述实体的名称、所述实体的属性以及所述属性的属性值。本发明可用于信息处理技术中。

Description

一种信息处理方法及装置技术领域

本发明涉及信息处理技术领域，尤其涉及一种信息处理方法及装置。背景技术

社交媒体（Soc ia l Media) , 也称为社会化媒体，是指允许人们撰写、分享、评价、讨论、相互沟通的网站，如：脸书（Facebook )、微博等。当今社会，社交媒体逐渐演变成为大众化的舆论平台，越来越多机构及公众人物都通过社交媒体来发布或传播信息。因此，社交媒体已经成为了用户获取信息的重要途径。

但是，社交媒体中的信息规模巨大，如何从社交媒体的海量信息中获取对用户有用的信息成为需要解决的一个问题。针对该问题，现有的一种解决方案是利用用户在社交媒体上输入的关键词（字）进行检索，向用户显示一组与输入的关键词（字）相关的信息列表，之后用户就可以从该信息列表中选择自己需要的信息。

但是由于社交媒体信息量巨大，利用现有技术输入关键词（字）后搜索到的信息列表中的信息往往较多，用户需要从信息列表的多条信息中选取自己需要的信息，因而使得用户获取自己需要的信息时不是非常方便。

发明内容

有鉴于此，本发明提供一种信息处理方法及装置，以方便用户获取自己需要的信息。

为达到上述目的，本发明实施例采用如下技术方案：

第一方面，本发明提供了一种信息处理方法，包括：

获取用户输入的搜索条件，所述搜索条件包括实体的名称；

根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值；

显示所述实体的名称、所述实体的属性以及所述属性的属性值。

结合第一方面，在第一方面的第一种可能实现方式中，所述根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组之前，所述方法还包括：

利用在社交媒体上发布的信息创建所述知识库。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述利用在社交媒体上发布的信息创建所述知识库具体包括：

获取在社交媒体上发布的信息中的实体的名称、属性以及属性值；生成包含所述实体的名称、属性以及属性值的三元组；

利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，所述生成包含所述实体的名称、属性以及属性值的三元组具体包括：利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中，根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。

结合第一方面的第二种可能实现方式或第一方面的第三种可能的实现方式，在第一方面的第四种可能实现方式中，所述利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库之前，所述方法还包括：

利用预先制定的模式规范对所述包含所述实体的名称、属性以及属性值的三元组进行校验。

结合第一方面的第一种至第四种任一种可能实现方式，在第一方面的第五种可能实现方式中，所述方法还包括：

实时更新所述知识库。

结合第一方面的第五种可能实现方式，在第一方面的第六种可能实现方式中，所述实时更新所述知识库具体包括：实时获取在社交媒体上发布的信息；

判断所述信息中是否存在所述知识库中的已有的实体名称；

若所述信息中存在所述知识库中已有的实体名称，则利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库；

若所述信息中存在所述知识库中没有的实体名称，则将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。

结合第一方面以及第一方面的第一至第六种任一种可能实现方式，在第一方面的第七种可能实现方式中，所述搜索条件还包括所述实体的属性，所述根据所述实体的名称，从预先创建的知识库中选取包含实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值包括：

根据所述实体的名称和所述实体的属性，从预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元组，所述目标三元组还包括所述属性的属性值。

第二方面，本发明提供了一种信息处理装置，包括：

获取单元，用于获取用户输入的搜索条件，所述搜索条件包括实体的名称；

选取单元，与所述获取单元连接，用于根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值；

显示单元，与所述选取单元连接，用于显示所述实体的名称、所述实体的属性以及所述属性的属性值。

在第二方面的第一种可能实现方式中，所述装置还包括：

知识库创建单元，与所述选取单元连接，用于利用在社交媒体上发布的信息创建所述知识库。结合第二方面的第一种可能实现方式，在第二方面的第二种可能实现方式中，所述知识库创建单元包括：

获取子单元，用于获取在社交媒体上发布的信息中的实体的名称、属性以及属性值；

生成子单元，与所述获取子单元连接，用于生成包含所述获取子单元获取的所述实体的名称、属性以及属性值的三元组；

创建子单元，与所述生成子单元连接，用于利用所述生成子单元生成的包含所述实体的名称、属性以及属性值的三元组创建所述知识库。

结合第二方面的第二种可能实现方式，在第二方面的第三种可能实现方式中，所述生成子单元具体用于：

利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中，根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。

结合第二方面的第二种或第二方面的第三种可能的实现方式，在第二方面的第四种可能实现方式中，所述知识库创建单元还包括：

校验子单元，与所述生成子单元以及所述创建子单元连接，用于利用预属性值的三元组进行校验。

结合第二方面的第一种至第四种任一种可能实现方式，在第二方面的第五种可能实现方式中，所述知识库创建单元还包括：

更新子单元，与所述创建子单元连接，用于实时更新所述创建子单元创建的所述知识库。

结合第二方面的第五种可能实现方式，在第二方面的第六种可能实现方式中，所述更新子单元包括：

获取模块，用于实时获取在社交媒体上发布的信息；

判断模块，与所述获取模块连接，用于判断所述获取模块获取的信息中是否存在所述知识库中的已有的实体名称；更新模块，与所述判断模块连接，用于在所述判断模块确定所述信息中存在所述知识库中已有的实体名称时，利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库；在所述判断模块确定所述信息中存在所述知识库中没有的实体名称时，将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。

结合第二方面以及第二方面的第一至第六种任一可能实现方式，在第二方面的第七种可能实现方式中，所述获取单元获取的所述搜索条件还包括所述实体的属性，

所述选取单元具体用于：

本发明实施例提供的信息处理方法及装置，通过获取用户输入的搜索条件，根据该检索条件从预先创建的知识库中选取与所述搜索条件相关的目标三元组，之后显示所述目标三元组的信息。由于根据用户输入的检索条件，显示给用户的是目标三元组的信息，而现有技术中根据用户输入的检索条件向用户显示的是包含多条信息的列表，因此与现有技术相比，本发明实施例提供的信息处理方法及装置能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷，从而方便用户获取自己需要的信息。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例一信息处理方法的流程图；

图 2为本发明实施例二信息处理方法的流程图；图 3为用户在社交媒体的网站上发布的信息的示意图；

图 4为本发明实施例一步骤 21的具体步骤的流程图；

图 5为本发明实施例二中信息处理过程的示意图；

图 6为本发明实施例三信息处理装置的结构图；

图 Ί为本发明实施例三信息处理装置的一个示意图；

图 8为本发明实施例三信息处理装置的另一个示意图；

图 9为本发明实施例四的信息处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了方便用户从在社交媒体上发布的信息中获取自己需要的信息，如图 1 所示，本发明实施例一提供了一种信息处理方法，包括：

步骤 1 1、获取用户输入的搜索条件，所述搜索条件包括实体的名称。其中，所述搜索条件可以为用户为了获取自己需要的信息而在社交媒体的用户查询界面上输入的查找关键字、关键词或者提问语句等，例如在 XX网

(某个社交媒体网站）上输入的提问语句 "姚明的身高是多少？ "、 "刘德华祖籍是哪里？ " 等；又例如输入的关键词 "姚明身高" 或者 "刘德华祖籍" 等。

所述搜索条件中往往包含实体，而实体又有许多特征，如实体的名称、属性、属性值等。在此，对 "实体" 的概念做一简单介绍。实体为客观存在并可相互区别的事物，可以是具体的人、事、物，也可以是抽象的概念或联系等。其中，可以用实体的名称来标识一个实体。实体的性质或者该实体与其他实体之间的关系都可称为实体的属性。属性值为确切表达一个实体属性的质或量。在本实施例中，将所述搜索条件中的实体称为目标实体。所述搜索条件中包含目标实体的信息，如目标实体的名称、属性、属性值。例如，前面例子中的 "姚明"、 "刘德华" 即为目标实体的名称， "身高"、 "祖籍" 即为目标实体的属性。若已知姚明的身高为 2. 26米，则 "2. 26米"即为属性 "身高" 的属性值。

其中，所述搜索条件可以只包含所述目标实体的名称、属性以及属性值中的一个；大多数情况下，所述搜索条件可只包含所述目标实体名称。例如，若用户想要获取实体 "姚明" 的信息，那么所述搜索条件可以只包含实体的名称 "姚明"。

另外，由于用户经常通过输入提问语句来获取某个问题的答案，因此，在这种情况下，所述搜索条件通常包含所述目标实体的名称、属性以及属性值任意两者的组合，即只包含所述目标实体的名称和属性，或者只包含所述目标实体的名称和属性值，或者只包含所述目标实体的属性和属性值，而目标实体的名称、属性以及属性值三者中剩下的一者即为用户需要获取的信息。例如，若所述搜索条件为 "姚明的身高是多少？ "，那么该搜索条件中就只包含目标实体的名称 "姚明" 以及目标实体的属性 "身高"，所述目标实体的属性值则为用户需要获取的信息。

步骤 12、根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值。

其中，所述预先创建的知识库中存储的是包含实体的名称、属性以及属性值的多个三元组，其中所述 "属性" 可以为 "属性名" 或 "关系名"。当所 "属性" 为 "属性名" 时，所述三元组的形式可以为（实体，属性名，属性值），例如（姚明，身高， 2. 26米）、（香山，人数，不多）等；当所述 "属性" 为 "关系名" 时，所述三元组的形式可以为（实体，关系名，属性值），例如 (谢霆锋，父亲，谢贤）等。

其中，所述目标三元组包括与所述搜索条件中的目标实体的信息相关的实体名称、属性以及属性值。

以步骤 11中的例子为例，用户输入的搜索条件为"姚明的身高是多少？ "。首先对该搜索条件中的目标实体进行识别，识别的结果是：目标实体名称为 "姚明"，目标实体的属性为 "身高"；之后从知识库中选取与目标实体名称 "姚明" 以及目标实体的属性 "身高" 相关的三元组，即包含 "姚明"、 "身高" 的三元组。若知识库中与 "姚明"、 "身高" 相关的三元组为（姚明，身高， 2. 26 米），则三元组（姚明，身高， 2. 26 米）即为在此的目标三元组。其中，所述目标实体的识别可利用现有技术中的命名实体识别的方法实现。

步骤 13、显示所述实体的名称、所述实体的属性以及所述属性的属性值。其中，在实际应用中，此步骤具体为：显示所述目标三元组；或者根据所述搜索条件，显示与所述搜索条件对应的实体的名称；或者根据所述搜索条件，显示与所述搜索条件对应的实体的属性；或者根据所述搜索条件，显示与所述搜索条件对应的实体的属性值。

例如，若所述搜索条件为 "姚明的身高是多少？ "，若从预先创建的知识库中选取的与搜索条件 "姚明的身高是多少？ " 相关的目标三元组为（姚明，身高， 2. 26米），则可以向用户显示目标三元组（姚明，身高， 2. 26米）。或者，根据搜索条件 "姚明的身高是多少？ " 可以知道，用户需要的信息仅为目标三元组（姚明，身高， 2. 26米）中的属性值，即 2. 26米，此时也可只向用户显示 2. 26米。

又如，若用户输入 "谁的父亲是谢贤？ "。若从预先创建的知识库中选取的与搜索条件 "谁的父亲是谢贤？ " 相关的目标三元组为（谢霆锋，父亲，谢贤），则可以向用户显示目标三元组（谢霆锋，父亲，谢贤）。或者，根据搜索条件 "谁的父亲是谢贤？ " 可以知道，用户需要的信息仅为目标三元组

(谢霆锋，父亲，谢贤）中的实体名，即 "谢霆锋"，此时也可只向用户显示

"谢霆锋，，。

由上可以看出，利用本发明实施例一提供的信息处理方法，通过获取用户输入的搜索条件，根据该搜索条件从预先创建的知识库中选取与所述搜索条件相关的目标三元组，之后显示所述目标三元组的信息。由于根据用户输入的检索条件，显示给用户的是目标三元组的信息，而现有技术中根据用户输入的检索条件向用户显示的是包含多条信息的列表，因此与现有技术相比，本发明实施例提供的信息处理方法能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷，从而方便用户获取自己需要的信息。

下面将对本发明的信息处理方法在本发明实施例二中进行更详细地描述。如图 2所述，本发明实施例二提供的信息处理方法包括：

步骤 21、利用在社交媒体上发布的信息创建知识库。

其中，所述在社交媒体上发布的信息指用户在社交媒体的网站上发布的信息，例如如图 3的截图中所示的信息。

在实际应用中，如图 4所示，此步骤具体包括：

步骤 211、抽取在社交媒体上发布的信息中的实体的名称、属性以及属性值。

其中, 可通过爬虫或 API ( Appl i ca t ion Programming Interface , 应用编程接口 )获取在社交媒体上发布的信息，再利预先离线训练的模式抽取器获得所述信息中的实体名称、属性以及属性值。需要指出，此步骤中所述实体的名称、属性以及属性值是在线获取的。

在实际应用中，利用所述模式抽取器获取所述实体的名称、属性以及属性值的具体实施方式如下：先将网络上已有的标注语料或已有的结构化知识库（如百度百科的 infox )作为所述模式抽取器的训练材料，从这些训练材料中获取多个三元组，再将这些三元组回标到自然语言文本的语料库中当作训练数据。之后使用统计机器学习的算法（如 CRF ( Condi t iona l Random Fields , 条件随机场））从训练数据中为每个属性训练单独的属性模式分类器。最后，所述模式抽取器就可利用所述属性模式分类器从在社交媒体上发布的信息中抽取出实体的名称、属性以及属性值。

步骤 212、生成包含所述实体的名称、属性以及属性值的三元组。

在实际应用中，可利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中，根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。

其中，可预先通过统计学习的方法，在语料库中找到各个实体的名称、属性以及属性值对应的自然语言文本，从而为每个实体生成对应的属性摸板。每个实体可有多个属性摸板。所述属性模板如（人名，身高，数字）、（景点名，人数，数字）等。其中，所述属性模板即为在此的预设模板。步骤 21 1 中获取了实体的名称、属性以及属性值后，模式抽取器可将在线获取的所述实体的名称、属性以及属性值加载到所述预设模板中，从而生成包含所述实体的名称、属性以及属性值的三元组。

下面举例对步骤 21 1和步骤 212进行说明。例如，社交媒体上发布的信息为 "姚明，身高 2. 26米， 1980年 9月 12 日生于中国上海，祖籍为江苏苏州市吴江区，毕业于上海交通大学。"。

首先，利用离线训练的模式抽取器抽取实体的名称、属性和属性值。在本例中，实体的名称只有 "姚明"，实体的属性有 "身高"、 "出生日期"、 "出生地"、 "祖籍"、 "毕业学校"，与这些属性对应的属性值分别为 " 2. 26 米"、 " 1980年 9月 12 日"、 "中国上海"、 "江苏苏州市吴江区"、 "上海交通大学"。此时，可利用模式抽取器将实体名称属性、属性值加载到预设模板中。由于本例中实体的属性以及各属性对应的属性值为多个，因此需要用到的预设模板也就有多个。本例中所述预设模板可以为（人名，身高，数字）、（人名，出生日期，日期）、（人名，出生地，地点名）、（人名，祖籍，地点名）、（人名，毕业学校，学校名）。当利用属性抽取器将实体的名称、属性以及属性值设置到预设的模板中后就生成了包含所述实体的名称、属性以及属性值的三元组，即（姚明，身高， 2. 26米）、（姚明，出生日期， 1980年 9月 12 日）、 (姚明，出生地，中国上海）、（姚明，祖籍，江苏苏州市吴江区）、（姚明，毕业学校，上海交通大学）。

从本例中可以看出，利用在社交媒体上发布的信息可以得到多个三元组。虽然在本例中的实体的名称只有一个，但是不难想象，在实际应用中，社交媒体上发布的实体的名称也可以有多个，此时可为每个实体都生成与之对应的三元组。

步骤 213、利用预先制定的模式规范（ schema spec if ica t ion )对所述包含所述实体的名称、属性以及属性值的三元组进行校验。

其中，利用所述预先制定的模式规范对所述三元组进行校验主要是利用所述模式规范来检验步骤 212 中生成的三元组的信息是否符合逻辑，或者是否是正确的，只有通过校验的三元组才能存储在所述知识库中。

例如，若利用在社交媒体上发布的信息在步骤 212中生成的三元组为（姚明，身高， 2. 26厘米），则利用所述模式规范进行校验后，结果为此三元组不符合逻辑，是不正确的三元组，因此不需要将该三元组存储在创建的知识库中。

同时，由于在社交媒体上发布的信息中相同的实体名称、相同的属性以及相同的属性值可能有不同的表达方式，例如，实体名称 "王治郅"、 "大郅" 指的都是 "王治郅"，属性 "身高" "身长" "高度" "高" 指的都是 "身高"，属性值 "184cm" "1. 84米，， "6英尺" 指的都是 "1. 84米，， , 因此，在利用预先制定的模式规范（schema spec if ica t ion )进行对三元组进行校险时，还可对实体的名称、属性以及属性值的表达方式进行 "消歧" 处理，即当从在一条社交媒体上发布的信息中获取的实体名称为 A、属性为 B、属性值为 C , 从另外一条在社交媒体上发布的信息中获取的实体名称为 Al、属性为 Bl、属性值为 C1 , 且 A与 A1指的是相同的实体、 B与 B1指的是相同的属性、 C与 C1指的是相同的属性值时，可以将根据这两条信息生成的三元组都存储为（A, B, C )。例如，若利用在一条社交媒体上发布的信息生成的三元组为（王治郅，身高， 2. 14米），利用在另外一条社交媒体上发布的信息生成的三元组为（大郅，高， 214cm ), 则可将这两条三元组都存储为（王治郅，身高， 2. 14米）。

步骤 214、利用通过校验的包含所述实体的名称、属性以及属性值的三元组创建所述知识库。

其中，可以将步骤 21 3 中通过校验的三元组进行存储，例如可存储在内存或硬盘中，从而完成所述知识库的创建。

例如，以步骤 121和步骤 212 中的例子为例，在生成了（姚明，身高， 2. 26米）、（姚明，出生日期， 1980年 9月 12 日）、（姚明，出生地，中国上海）、（姚明，祖籍，江苏苏州市吴江区）、（姚明，毕业学校，上海交通大学）这五个三元组后，再利用所述模式规范对这五个三元组进行校验，通过校验后就可以将这五个三元组存储在内存中，从而创建所述知识库。

在具体应用中，还可根据实体的类别对所述知识库中的三元组进行分类，例如可根据实体的类别将知识库中的三元组分为人物、动物、植物、商品等多个类别。以上的五个三元组都属于人物这一类别。

步骤 22、实时更新所述知识库。

此步骤具体为：按照预设的时间间隔从社交媒体上获取发布的信息，并判断所述信息中是否存在所述知识库中的已有的实体名称。若所述信息中存在所述知识库中已有的实体名称，则利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库；若所述信息中存在所述知识库中没有的实体名称，则将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。其中，所述预设的时间间隔可以根据具体情况进行设定，目的是实时获取在社交媒体上发布的信息。例如，所述预设的时间间隔可以设定为 1秒。

例如，假设利用在社交媒体上发布的信息生成的三元组为（刘德华，演唱会， 9 Q场），并且已经存储在所述知识库中，而实时获取的在社交媒体上发布的信息为： "刘德华将在……开第 100 场演唱会"，利用该信息生成的三元组为（刘德华，演唱会， 100场），并且可以看出该信息中存在知识库中已有的实体名称 "刘德华"，因此可将三元组（刘德华，演唱会， 100场）存储在所述知识库中，并且将原来的三元组（刘德华，演唱会， 90场）删除，从而更新所述知识库。

若在知识库中存储的三元组为（刘德华，演唱会， 90场），且只有这一个三元组，而实时获取的在社交媒体上发布的信息为： "刘德华将在 ... ...开第

100场演唱会。 ... ...姚明 ... ...2011年 ... ...退役"。可以看出，该信息中的实体名称为 "刘德华"和 "姚明"，利用该信息生成的三元组为（刘德华，演唱会， 100场）和（姚明，退役， 201 1年），该信息中存在知识库中已有的实体名称

"刘德华"，还存在知识库中没有的实体名称 "姚明"，因此可用（刘德华，演唱会， 100场）更新知识库中已有的三元组（刘德华，演唱会， 90场），并且将（姚明，退役， 2011年）也存储在所述知识库中，以更新所述知识库。

需要注意的是，所述若所述信息中存在所述知识库中已有的实体名称，则利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库主要有两种情况。

情况一为：知识库中原来的三元组中的实体名称与从实时获取的在社交媒体上发布的信息抽取出的三元组（以下简称新三元组）的名称相同，原来的三元组中的实体属性与新三元组的属性相同，原来的三元组与新三元组只有实体的属性值不同，此时可将新三元组代替原来的三元组存储在知识库中以更新所述知识库。如用（刘德华，演唱会， 100场）代替（刘德华，演唱会， 90场）存储在所述知识库中。

情况二为：虽然所述信息中可能存在所述知识库中已有的实体名称，但是原来的三元组与新三元组中的实体属性不同，此时，所述利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库为：将所述新三元组存储在所述知识库中。例如，若上面的例子中利用在社交媒体上实时发布的信息生成的三元组中还有（刘德华，出生地，香港），虽然原来的三元组与新三元组中的实体名称相同，但是由于该三元组的属性与知识库中的三元组的属性不同，因此也需要将该三元组存储在所述知识库中，从而更新所述知识库。

步骤 23、获取用户输入的搜索条件。

其中，从所述搜索条件中获取需要搜索的实体的信息，所述实体的信息可以是实体的名称，也可以是实体的名称和实体的属性。

此步骤可参照本发明实施例一步骤 1 1中的描述，在此不再赘述。

步骤 24、从所述知识库中选取与所述搜索条件相关的目标三元组。

其中，从所述知识库中选取与所述搜索条件相关的目标三元组可以是根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值。

其中，从所述知识库中选取与所述搜索条件相关的目标三元组也可以是根据所述实体的名称和所述实体的属性，从预先创建的知识库中选取包含所述实体的名称和所述实体属性目标三元组，所述目标三元组还包括所述属性的属性值。

其中，在实际应用中，以步骤 21 中的例子为例，若步骤 23 中用户输入的搜索条件为 "姚明的出生地是哪里？ "，则在知识库中选取所述目标三元组时，可 ^据是否已对知识库中的三元组进行分类来确定如何选取目标三元组。

若在创建知识库时已经将所述知识库中的三元组分为人物、动物、植物、商品等多个类别，此时可根据知识库中对三元组的分类，首先选取与搜索条件中的实体相关的人物这一类别，再从人物类别下选取（姚明，出生地，中国上海）这个目标三元组。

若创建知识库时未对所述知识库中的三元组进行分类，则选取所述目标三元组时，可以在所述知识库中根据所述搜索条件中的实体名称、属性或属性值选取与所述搜索条件相关的目标三元组。例如，以上面的例子为例，才艮据所述搜索条件可知，实体的名称 "姚明" 以及属性 "出生地"，在所述知识库中选取目标三元组时，从所述知识库的多个三元组中选取包含 '4兆明" 以及 "出生地" 的三元组作为所述目标三元组，即（姚明，出生地，中国上海）。

步骤 25、显示所述目标三元组的信息。

此步骤具体可参照本发明实施例一步骤 13中的描述，在此不再赘述。例如，以步骤 24中的例子为例，根据用户输入的搜索条件，可向用户显示（姚明，出生地，中国上海），或者也可只显示中国上海。

图 5示意性地示出了步骤 21-步骤 25的信息处理过程。如图 5所示，在具体应用中，本发明实施例二的信息处理方法主要分为四个部分，分别为虚线框 1-4中所示。

虚线框 1 为第一部分，示出了从社交媒体上获取信息的过程。即利用爬虫（crawler )获取社交媒体 ( Social media )上的信息，其中所述信息主要包括两部分，一部分为用户在社交媒体上发布的信息（Content ), 另外一部分为用户在社交媒体的用户查询界面上输入的搜索条件 ( Search criteria )。

虚线框 1 为第二部分，示出了模式抽取器如何从社交媒体上发布的信息 ( Content ) 中抽取三元组的过程，即先从语料库（Corpus ) 中获取已有的知识三元组，再将这些三元组回标到自然语言文本的语料库中进行属性模式学习（Pattern Learner ), 为每个属性训练单独的属性模式分类器（ Attribute patterns ), 模式抽取器（Extractor ) 利用属性模式分类器（Attribute patterns )从社交媒体上发布的信息（ Content )中抽取三元组（图中未示出）。

虚线框 3 为第三部分，示出了对模式抽取器抽取出的三元组进行模式校的过程，即利用预先制定的模式规范（Schema Specif icat ion)对所述三元组进行模式校险 ( Schema checker ), 通过校险的三元组之后被存储到知识库 (KB) 中，从而完成知识库（KB) 的创建。

虚线框 4 为第四部分，示出了利用创建好的知识库以及第一部分中获取的搜索条件 ( search criteria )获取用户需要的信息的过程。即首先根据搜索条件（ search cr i ter ia ), 对搜索条件中的信息进行实体识别（Ent i ty recognizer )，若知识库（KB ) 中存在在搜索条件中的目标实体，则从知识库中选取与目标实体对应的三元组的信息显示给用户，从而使得用户获取自己需要的信息。其中，所述实体识别（Ent i ty recognizer )可利用现有技术中的命名实体识别的方法实现。

在本发明的另一个实施例例中，所述搜索条件还包括所述实体的属性，所述根据所述实体的名称，从预先创建的知识库中选取包含实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值包括：所述居所述实体的名称和所述实体的属性，从预先创建的知识库中选取包含所述实体的名称和所述实体属性目标三元组，所述目标三元组还包括所述属性的属性值；显示所述实体的名称、所述实体的属性以及所述属性的属性值。

由上可以看出，利用本发明实施例二提供的信息处理方法，用户在从社交媒体上发布的信息中获取自己需要的信息时，在输入搜索条件之后，可以显示目标三元组的信息，而现有技术中根据用户输入的检索条件显示给用户的是包含多条信息的列表，因此与现有技术相比，本发明实施例二提供的信息处理方法能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷，从而方便用户获取自己需要的信息。

并且，利用本发明实施例二提供的信息处理方法，在利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库之前，还可以对生成的三元组进行校验，通过校验的三元组才能存储在所述知识库中，从而保证所述知识库中的三元组的正确性，进而保证显示给用户的三元组的信息的正确性，使得用户获取正确的信息。同时，通过利用模式规范对三元组进行消歧，可以使创建的知识库更加简洁，节省空间。

此外，利用本发明实施例二提供的信息处理方法，不仅可以使用户获取需要的信息时更加方便，而且通过实时更新所述知识库，可以方便用户获取到最新的信息。通过对知识库添加新的三元组可以使知识库中的内容更丰富。如图 6 所示，本发明实施例三提供了一种信息处理装置，包括：获取单元 31 , 用于获取用户输入的搜索条件，所述搜索条件包括实体的名称；选取单元 32 , 与所述获取单元 31连接，用于从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值；显示单元 33 , 与所述选取单元 32连接，，用于显示所述实体的名称、所述实体的属性以及所述属性的属性值。

其中，所述获取单元 31获取的所述搜索条件还包括所述实体的属性，此时，所述选取单元 32具体用于： ^据所述实体的名称和所述实体的属性，从预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元组，所述目标三元组还包括所述属性的属性值。

其中，所述显示单元 33具体用于：显示所述目标三元组；或者居所述搜索条件，显示与所述搜索条件对应的所述目标实体的名称；或者根据所述搜索条件，显示与所述搜索条件对应的所述目标实体的属性；或者根据所述搜索条件，显示与所述搜索条件对应的所述目标实体的属性值。

其中，所述装置的工作原理可参照前述方法实施例中的描述，在此不再赘述。

由上可以看出，利用本发明实施例三提供的信息处理装置，通过获取单元获取用户输入的搜索条件，选取单元根据该检索条件从预先创建的知识库中选取与所述搜索条件相关的目标三元组，之后显示单元显示所述目标三元组的信息。由于根据用户输入的检索条件，显示给用户的是目标三元组的信息，而现有技术中根据用户输入的检索条件显示给用户的是包含多条信息的列表，因此与现有技术相比，本发明实施例提供的信息处理方法及装置能够避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺陷，从而方便用户获取自己需要的信息。

另外，如图 7所示，所述装置还包括：知识库创建单元 34 , 与所述选取单元 32连接，用于利用在社交媒体上发布的信息创建所述知识库。如图 8所示，所述知识库创建单元 34具体包括：获取子单元 341 , 用于获取在社交媒体上发布的信息中的实体的名称、属性以及属性值；生成子单元 342 , 与所述获取子单元 341连接，用于生成包含所述获取子单元 341获取的所述实体的名称、属性以及属性值的三元组；创建子单元 343 , 与所述生成子单元 342连接，用于利用所述生成子单元 342 生成的包含所述实体的名称、属性以及属性值的三元组创建所述知识库。

其中，所述生成子单元 342具体用于：利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中，根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。

其中，如图 8所示，所述知识库创建单元 34还包括：校验子单元 344 , 与所述生成子单元 342以及所述创建子单元 343连接，用于利用预先制定的模式规范对所述生成子单元 342 生成的包含所述实体的名称、属性以及属性值的三元组进行校验。

由上可以看出，利用本发明实施例三提供的信息处理装置，利用校验子单元对生成子单元生成的三元组进行校验，可以保证所述知识库中的三元组的正确性，进而保证显示给用户的三元组的信息的正确性，使得用户获取正确的信息。

此外，如图 8所示，所述知识库创建单元 34还包括：更新子单元 345 , 与所述创建子单元 343连接，用于实时更新所述创建子单元 343创建的所述知识库。

其中，所述更新子单元 345 包括：获取模块，用于实时获取在社交媒体上发布的信息；判断模块，与所述获取模块连接，用于判断所述获取模块获取的信息中是否存在所述知识库中的已有的实体名称；更新模块，与所述判断模块连接，用于在所述判断模块确定所述信息中存在所述知识库中已有的实体名称时，利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库；在所述判断模块确定所述信息中存在所述知识库中没有的实体名称时，将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。

由上可以看出，利用本发明实施例三提供的信息处理装置，不仅可以使用户获取需要的信息时更加方便，而且通过更新子单元实时更新所述知识库，可以方便用户获取到最新的信息。

图 9为本发明实施例四提供的信息处理设备的结构示意图。如图 9所示，本实施例的遥控设备包括：至少一个处理器 901、存储器 902、通信接口 903 和总线。处理器 901、存储器 9Q2和通信接口 9Q3通过总线连接并完成相互间的通信。所述总线可以是工业标准体系结构（ Indus t ry Standard Archi tecture , 简称为 ISA ) 总线、夕卜部设备互连 ( Per iphera l Component , 简称为 PCI ) 总线或扩展工业标准体系结构（Extended Indus try Standard Archi tecture , 简称为 EISA ) 总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图 9 中仅用一条粗线表示，但并不表示仅有一 ^总线或一种类型的总线。其中：

存储器 902用于存储可执行程序代码，该程序代码包括计算机操作指令。存储器 902 可能包含高速 RAM 存储器，也可能还包括非易失性存储器 ( non-vola t i le memory ), 例如至少一个磁盘存储器。

在一个实施例中，处理器 901通过读耳储器 902 中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于：

获取用户输入的搜索条件，所述搜索条件包括实体的名称；

处理器 901可能是一个中央处理器（Central Processing Unit, 简称为 CPU), 或者是特定集成电路（ Application Specific Integrated Circuit, 简称为 ASIC), 或者是被配置成实施本发明实施例的一个或多个集成电路。

需说明的是，上述处理器 901 除了具有上述功能之外，还可用于执行上述方法实施例中的其他流程，在此不再赘述。

通信接口 903 主要用于实现本实施例的流量来源确定设备与其他设备或装置之间的通信。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（ Read-Only Memory, ROM )或随机存储记忆体 ( Random Access Memory, RAM )等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

权利要求书

1、一种信息处理方法，其特征在于，包括：

获取用户输入的搜索条件，所述搜索条件包括实体的名称；

根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值；显示所述实体的名称、所述实体的属性以及所述属性的属性值。

2、根据权利要求 1所述的信息处理方法，其特征在于，所述根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组之前，所述方法还包括：

利用在社交媒体上发布的信息创建所述知识库。

3、根据权利要求 2所述的信息处理方法，其特征在于，所述利用在社交媒体上发布的信息创建所述知识库具体包括：

抽取在社交媒体上发布的信息中的实体的名称、属性以及属性值；生成包含所述实体的名称、属性以及属性值的三元组；

4、根据权利要求 3所述的信息处理方法，其特征在于，所述生成包含所述实体的名称、属性以及属性值的三元组具体包括：

利用模式抽取器将所述实体的名称、属性以及属性值设置到预设的模板中 , 根据所述模板生成包含所述实体的名称、属性以及属性值的三元组。

5、根据权利要求 3或 4所述的信息处理方法，其特征在于，所述利用所述包含所述实体的名称、属性以及属性值的三元组创建所述知识库之前，所述方法还包括：

利用预先制定的模式规范对所述包含所述实体的名称、属性以及属性值的三元组进行校。

6、根据权利要求 2-5任一所述的信息处理方法，其特征在于，所述方法还包括：实时更新所述知识库。

7、根据权利要求 6所述的信息处理方法，其特征在于，所述实时更新所述知识库具体包括：

按照预设的时间间隔从社交媒体上获取发布的信息；

判断所述信息中是否存在所述知识库中的已有的实体名称；

8、根据权利要求 1-7任一所述的信息处理方法，其特征在于，所述搜索条件还包括所述实体的属性，

所述根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值包括：

9、一种信息处理装置，其特征在于，包括：

获取单元，用于获取用户输入的搜索条件，所述搜索条件包括实体的名称；选取单元，与所述获取单元连接，用于根据所述实体的名称，从预先创建的知识库中选取包含所述实体的名称的目标三元组，所述目标三元组还包括所述实体的属性以及所述属性的属性值；

10、根据权利要求 9所述的信息处理装置，其特征在于，所述装置还包括：知识库创建单元，与所述选取单元连接，用于利用在社交媒体上发布的信息创建所述知识库。

11、根据权利要求 10所述的信息处理装置，其特征在于，所述知识库创建单元包括：

抽取子单元，用于抽取在社交媒体上发布的信息中的实体的名称、属性以及属性值；

生成子单元，与所述抽取子单元连接，用于生成包含所述抽取子单元抽取的所述实体的名称、属性以及属性值的三元组；

12、根据权利要求 11所述的信息处理装置，其特征在于，所述生成子单元具体用于：

13、根据权利要求 11或 12所述的信息处理装置，其特征在于，所述知识库创建单元还包括：

校验子单元，与所述生成子单元以及所述创建子单元连接，用于利用预先值的三元组进行校验。

14、根据权利要求 10-13任一所述的信息处理装置，其特征在于，所述知识库创建单元还包括：

15、根据权利要求 14所述的信息处理装置，其特征在于，所述更新子单元包括：

获耳莫块，用于按照预设的时间间隔从社交媒体上获取发布的信息；判断模块，与所述获取模块连接，用于判断所述获取模块获取的信息中是否存在所述知识库中的已有的实体名称；

更新模块，与所述判断模块连接，用于在所述判断模块确定所述信息中存在所述知识库中已有的实体名称时，利用所述信息中的实体名称、属性以及属性值组成的新的三元组更新所述知识库；在所述判断模块确定所述信息中存在所述知识库中没有的实体名称时，将所述信息中的实体名称、属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。

16、根据权利要求 9-15任一所述的信息处理装置，其特征在于，所述获取单元获取的所述搜索条件还包括所述实体的属性，

所述选取单元具体用于：