WO2007143898A1

WO2007143898A1 - Procédé pour l'extraction et le traitement d'informations selon un modèle ternaire

Info

Publication number: WO2007143898A1
Application number: PCT/CN2007/001661
Authority: WO
Inventors: Kaihao Zhao; Xiaofan Wen
Original assignee: Kaihao Zhao; Xiaofan Wen
Priority date: 2006-05-22
Filing date: 2007-05-22
Publication date: 2007-12-21
Also published as: SMAP200800031A; JP2007317189A; KR100911910B1; KR20070112729A; US20100030761A1; SMP200800031B; CN1845105A; DE112007000051T5

Description

基于三元模型的信息检索加工的方法

技术领域

本发明涉及一种信息检索加工的方法，尤其涉及一种基于三元模型的信息检索加工的方法。

背景技术

数据信息和文档的有效检索和加工，是数据库应用领域中的核心和重要内容，广泛存在于各种电子数据、文献、商业数据库资源和互联网内容搜索的应用当中。目前这一领域中的数据信息检索技术，一般是基于关键词的统计方法，用关键词的布尔表达式作为查询语句。对于文件数据库，使用关键词加关键词出现在文件中位置的字典，通过比较查询语句的关键词与文件数据库字典中的关键词，找到相应文件。另外，有些改进采用了模糊逻辑模型、向量空间模型和概率检索模型等。在知识处理环节，目前操作都是通过主题词标引、个别关键词标注、文档摘要方式对整篇文档进行属性标识，并作为检索过程中的检索关键词，这种方式不能完全反映整篇文档中的全部知识信息，比如虽然有事实关系，但关键词没有表示，就无法检索出来，最终结果表现为检索结果中的文档缺失。

发明内容

为了解决上述存在的问题，本发明提供一种基于三元模型的信息检索加工的方法，该方法能够解决诸如 "隐含指代"等较为复杂的搜索请求。本发明通过以下方案实现：一种基于三元模型的信息检索加工的方法，其步骤为：

( 1 ) 录入原始文件信息，制作关键词加关键词出现在文件中位置的字典；

(2) 建立三元关系模型，采用三元组 Ka、 Kr、 Kb形式，其中 Ka代表关键词 a， Kb代表关键词 b， Kr代表关键词 a和关键词 b之间的关系；该三元组形式表示和实现关键词之间的三种类型的关联关系；代表关系关键词之间的关系，如逆关系、二次传递、相同主词、对称等， Kr'代表 Kr根据 Κι^推导出的关系，由此 Ka'关键词和 Kb'关键词具有了新的关系 Kr'_;

(3 ) 将上述三元关系模型中 Kr、 Kr_r, Kr'录入到检索数据库中；

(4) 根据步骤（1 ) 中的关键词和步骤（3 ) 中的关系自动导出关键词之间的新关系，即 Ka'关键词和 Kb'关键词的新关系 Kr'，并将关键词和关系记录到字典中。

上述三元关系包括成员隶属关系、等价别名关系以及背景参考关系。

上述三元关系模型方法可以多次、组合应用，能产生出更多的逻辑结果。

在检索过程中，输入检索关键词后，不但可以搜索到根据传统方法使用关键词词典查找到的内容，还可以根据上述三元关系搜索到原始文件记录没有，但实际存在，即 "隐含指代" 的内容。

和目前已有检索系统相比，上述方法具有以下特点： 1、基础数据量大幅度减少：目前已有检索系统为了满足不同的检索要求，需要完备的基础数据，所有推演的结论都需要作为基础数据进入系统，而本方法基础数据可以很少，而能够推演出大量数据结果以供检索。

2、可检索数据的大幅度增加：用户可以检索的数据，不再是仅仅依赖于基础数据量，同时也和关系三元组的数量相关。由于关系三元组具有很强的通用性，因此，当增加一个关系三元组，带来的可检索数据的增加将会是成倍甚至是几何级数的。

3、数据关系一致性更强：由于大量结论是系统经过逻辑推演得到的，因此具有严密的逻辑性。而目前已有检索系统由于基础数据都是独立进入数据库的，数据一致性得不到保障。

' 4、关系的扩展性：只要是符合逻辑的关系三元组就可以在系统中进行定义，从这个意义上说，一方面根据生活经验以及现有的科技发展状况总结出来的关系可以通过这个系统实现，同时随着社会、科技的不断进步，新的关系将不断出现，而这些新的关系同样也可以在系统中实现；并且对于了新定义的关系三元组，所有以前的数据将马上得到相应的组织以备查询。

附图说明

图 1是本发明的三元关系模型的示意图；

图 2是本发明的实施例中人物索引关键词之间的关系；图 3是本发明的实施例中关系关键词之间的关系；

图 4是本发明的实施例中 "逆关系"的推演路径； '图 5是本发明的实施例中 "二次传递" 的推演路径；

图 6是本发明的实施例中 "相同主词"的推,演路径；

图 7是本发明的实施例中 "对称"的推演路径。

具体实施方式

下面结合附图和具体实施例对本发明进行更详细的描述。

在本发明中，为构建高度灵活智能索引机制，建立了一种自包含、自组织的三元关系模型。各种常见语言都具有主要语法结构：（主语、谓语、宾语），本发明对这种三元关系进行了模拟，实现了基于三元关系模型的数据表达、存储和检索。 ' 如图 1所示，本发明的三元关系模型采用三元组 Ka、 Kr、 Kb形式，其中 _Ka代表关键词 _a， _Kb代表关键词 _b， Kr代表关键词 a和关键词 b之间的关系。该三元组形式表示和实现关键词之间的三种类型的关联关系，包括成员隶属关系、等价别名关系以及背景参考关系。

每种类型中可以不断细分，同时各种关系之间仍能实现三种类型的关联。在这种三元关系模型的基础上进行演算，可以进行包含逻辑含义的检索，有别于单纯进行关键词组合的查询方式。

{¾代表关系关键词之间的关系，如逆关系、二次传递、相同主词、对称等， Kr'代表 Kr根据 B¾推导出的关系，由此 Ka'关键词和 Kb'关键词具有了新的关系 Kr'。

图 2为人物索引关键词之间的关系的一个例子：如果系统中的人物关键词包含了以下三个三元组：

(张老三，儿子，张三）；（张三，儿子，张小三）；（张三，儿子，张小四）。

同时，如图 3所示，系统中定义了以下针对关系关键词的三元组：

(儿子，逆关系，父亲）；（儿子，二次传递，孙子）；（儿子，相同主词，兄弟）；（兄弟，对称，兄弟）。

那么系统可以在不增加其它信息的情况下，自动推演出以下结论：

如图 4所示，根据 "逆关系"可以推演出：（张三，父亲，张老三）（张小三，父亲，张三）（张小四，父亲，张三）。

如图 5所示，根据 "二次传递"关系可以推演出：（张老三，孙子，张小三）（张老三，孙子，张小四）。

如图 6、图 7所示，根据 "相同主词" 关系可以推演出：（张小三，兄弟，张小四）并在此基础上根据 "对称"关系推演出（张小四，兄弟，张小三）。

注意：推演的先后次序根据实际情况可能不同。

以上结果只是应用一次关系关键词三元组的结论，如果多次、组合应用，可以产生出更多的逻辑结果。

本发明采用了标引方法，类似关键词的三元模型，标引采用 (C,R,K)组和 (Ca、 R、 Cb)三元组进行表示和实现，其中 C表示文件的内容， K表示关键词， R代表文件和关键词之间的关系； Ca代表文件 a的内容， Cb代表文件 b的内容， R代表文件 a和文件 b之间的关系。该方法记录文件中关键词的位置、长度、相关度等以及文件之间的相互引用等关联知识。通过这种标引，一方面文件能够以结构化的方式呈现，满足用户对关联信息的需要，同时另一方面，也可以按照知识来源的最初模式进行呈现。

另外，通过 (C、 R、 K)三元组，标引方法很好的解决了文件中的 "指代"关系，例如，对于一个文件中出现的代词 "他 "，通过在三元组中确定实际的指代目标，系统就可以向用户提供针对指代目标的检索，而不仅限于文字上的相同或近似。

本发明的特定实施例已对发明内容做了详尽说明。对本领域一般技术人员而言，在不背离本发明原理的前提下对它所做的任何显而易见的改动，都不会超出本申请所附权利要求的保护范围。

Claims

权利要求书

1. 一种基于三元模型的信息检索加工的方法，其步骤为-

(2) 建立三元关系模型，采用三元组 Ka、 Kr、 Kb形式，其中 Ka代表关键词 a， Kb代表关键词 b， Kr代表关键词 a和关键词 b之间的关系；该三元组形式表示和实现关键词之间的三种类型的关联关系； ί¾代表关系关键词之间的关系， Kr'代表 Kr根据 ί¾推导出的关系，由此 Ka'关键词和 Kb'关键词具有了新的关系 Kr'_;

(3) 将上述三元关系模型中 Kr、 Kr_r, Kr'录入到检索数据库中；

2.根据权利要求 1所述的基于三元模型的信息检索加工的方法，其特征在于：上述三元关系包括成员隶属关系、等价别名关系、背景参考关系。

3. 根据权利要求 1或 2所述的基于三元模型的信息检索加工的方法，其特征在于：上述三元关系模型方法多次、组合应用。

4. 根据权利要求 1或 2所述的基于三元模型的信息检索加工的方法，其特征在于：采用 (C、 R、 K)组和 (Ca、 R、 Cb)三元组进行表示和实现的标引方法，其中 C表示文件的内容， K表示关键词， R代表文件和关键词之间的关系； Ca代表文件 a的内容， Cb代表文件 b 的内容，. R代表文件 a和文件 b之间的关系；该方法记录文件中关镩词的位置、长度、相关度以及文件之间的相互引用的关联知识。