WO2007143898A1 - Procédé pour l'extraction et le traitement d'informations selon un modèle ternaire - Google Patents

Procédé pour l'extraction et le traitement d'informations selon un modèle ternaire Download PDF

Info

Publication number
WO2007143898A1
WO2007143898A1 PCT/CN2007/001661 CN2007001661W WO2007143898A1 WO 2007143898 A1 WO2007143898 A1 WO 2007143898A1 CN 2007001661 W CN2007001661 W CN 2007001661W WO 2007143898 A1 WO2007143898 A1 WO 2007143898A1
Authority
WO
WIPO (PCT)
Prior art keywords
relationship
keyword
ternary
file
keywords
Prior art date
Application number
PCT/CN2007/001661
Other languages
English (en)
French (fr)
Inventor
Kaihao Zhao
Xiaofan Wen
Original Assignee
Kaihao Zhao
Xiaofan Wen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaihao Zhao, Xiaofan Wen filed Critical Kaihao Zhao
Priority to US11/918,639 priority Critical patent/US20100030761A1/en
Priority to SM200800031T priority patent/SMP200800031B/it
Priority to DE112007000051T priority patent/DE112007000051T5/de
Publication of WO2007143898A1 publication Critical patent/WO2007143898A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Definitions

  • the present invention relates to a method for information retrieval processing, and more particularly to a method for information retrieval processing based on a ternary model.
  • the effective retrieval and processing of data information and documents is the core and important content in the field of database applications. It is widely used in various electronic data, literature, commercial database resources and Internet content search applications.
  • the data information retrieval technology in this field is generally a keyword-based statistical method, and a Boolean expression of a keyword is used as a query statement.
  • For the file database use the keyword plus keyword dictionary to appear in the location of the file, and find the corresponding file by comparing the key words of the query statement with the keywords in the file database dictionary.
  • some improvements use fuzzy logic models, vector space models, and probability retrieval models.
  • the current operation is to identify the entire document by keyword indexing, individual keyword annotation, and document summary, and as a retrieval keyword in the retrieval process, this method cannot fully reflect the entire document. All the knowledge information in the middle, for example, although there is a factual relationship, but the keyword is not represented, it cannot be retrieved, and the final result is that the document in the search result is missing.
  • the present invention provides a method for information retrieval processing based on a ternary model, which can solve relatively complicated search requests such as "implicit referencing".
  • the invention is realized by the following scheme: a method for information retrieval processing based on a ternary model, the steps of which are:
  • the above ternary relationships include membership affiliation, equivalence alias relationships, and background reference relationships.
  • the above ternary relationship model method can be applied multiple times and in combination, and can produce more logical results.
  • the above method has the following characteristics: 1.
  • the amount of basic data is greatly reduced: At present, the retrieval system needs complete basic data in order to meet different retrieval requirements. All the conclusions of the deduction need to enter the system as the basic data, and the basic data of this method can be few, but Excavate a large number of data results for retrieval.
  • FIG. 1 is a schematic diagram of a ternary relationship model of the present invention
  • FIG. 2 is a relationship between character index keywords in an embodiment of the present invention
  • FIG. 3 is a relationship between relationship keywords in an embodiment of the present invention
  • Figure 4 is a derivation path of an "inverse relationship" in an embodiment of the present invention
  • Figure 5 is a derivation path of "secondary transfer" in an embodiment of the present invention
  • Figure 6 is a diagram showing the "same subject" in the embodiment of the present invention.
  • Fig. 7 is a derivation path of "symmetry" in the embodiment of the present invention.
  • a self-contained, self-organizing ternary relationship model is established for constructing a highly flexible intelligent indexing mechanism.
  • Various common languages have the main grammatical structure: (subject, predicate, object).
  • the present invention simulates this ternary relationship and implements data representation, storage and retrieval based on the ternary relationship model.
  • the ternary relationship model of the present invention takes the form of triples Ka, Kr, Kb, where Ka represents the keyword a , Kb represents the keyword b , and Kr represents the relationship between the keyword a and the keyword b. relationship.
  • Ka represents the keyword a
  • Kb represents the keyword b
  • Kr represents the relationship between the keyword a and the keyword b. relationship.
  • the three-tuple form represents and implements three types of associations between keywords, including member membership, equivalent alias relationships, and background reference relationships.
  • Each type can be subdivided continuously, and three types of associations can still be achieved between relationships.
  • the calculus can be searched for logical meanings, which is different from the simple query method of keyword combination.
  • ⁇ 3 ⁇ 4 represents the relationship between the relationship keywords, such as inverse relationship, quadratic transfer, same subject, symmetry, etc.
  • Kr' represents the relationship derived by Kr according to B3 ⁇ 4, whereby the Ka' keyword and Kb' keyword have new The relationship Kr'.
  • Figure 2 is an example of the relationship between character index keywords: If the person keyword in the system contains the following three triples:
  • the present invention adopts an indexing method, a ternary model similar to a keyword, and the indexing is represented and implemented by a (C, R, K) group and a (Ca, R, Cb) triplet, where C represents the content of the file, K represents a keyword, R represents a relationship between a file and a keyword; Ca represents the content of the file a, Cb represents the content of the file b, and R represents a relationship between the file a and the file b.
  • This method records the position, length, relevance, etc. of the keywords in the file and the file Associated knowledge such as mutual reference.
  • the file can be presented in a structured manner to satisfy the user's need for related information, and on the other hand, it can also be presented according to the initial mode of the knowledge source.
  • the indexing method is a good solution to the "referential" relationship in the file, for example, for the pronoun "he” appearing in a file, in the triplet Determining the actual target of the target, the system can provide the user with a search for the target, not just the same or similar in text.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

基于三元模型的信息检索加工的方法
技术领域
本发明涉及一种信息检索加工的方法,尤其涉及一种基于三元模 型的信息检索加工的方法。
背景技术
数据信息和文档的有效检索和加工,是数据库应用领域中的核心 和重要内容, 广泛存在于各种电子数据、 文献、 商业数据库资源和互 联网内容搜索的应用当中。 目前这一领域中的数据信息检索技术,一般是基于关键词的统计 方法, 用关键词的布尔表达式作为查询语句。对于文件数据库, 使用 关键词加关键词出现在文件中位置的字典,通过比较查询语句的关键 词与文件数据库字典中的关键词, 找到相应文件。 另外, 有些改进采 用了模糊逻辑模型、 向量空间模型和概率检索模型等。 在知识处理环节, 目前操作都是通过主题词标引、个别关键词标 注、文档摘要方式对整篇文档进行属性标识, 并作为检索过程中的检 索关键词, 这种方式不能完全反映整篇文档中的全部知识信息, 比如 虽然有事实关系, 但关键词没有表示, 就无法检索出来, 最终结果表 现为检索结果中的文档缺失。
发明内容
为了解决上述存在的问题, 本发明提供一种基于三元模型的信 息检索加工的方法, 该方法能够解决诸如 "隐含指代"等较为复杂 的搜索请求。 本发明通过以下方案实现:一种基于三元模型的信息检索加工的 方法, 其步骤为:
( 1 ) 录入原始文件信息, 制作关键词加关键词出现在文件中位 置的字典;
(2) 建立三元关系模型, 采用三元组 Ka、 Kr、 Kb形式, 其中 Ka代表关键词 a, Kb代表关键词 b, Kr代表关键词 a和关键词 b之 间的关系;该三元组形式表示和实现关键词之间的三种类型的关联关 系; 代表关系关键词之间的关系, 如逆关系、 二次传递、 相同主 词、 对称等, Kr'代表 Kr根据 Κι^推导出的关系, 由此 Ka'关键词和 Kb'关键词具有了新的关系 Kr';
(3 ) 将上述三元关系模型中 Kr、 Krr, Kr'录入到检索数据库中;
(4) 根据步骤 (1 ) 中的关键词和步骤 (3 ) 中的关系自动导出 关键词之间的新关系, 即 Ka'关键词和 Kb'关键词的新关系 Kr', 并将 关键词和关系记录到字典中。
上述三元关系包括成员隶属关系、等价别名关系以及背景参考关 系。
上述三元关系模型方法可以多次、组合应用, 能产生出更多的逻 辑结果。
在检索过程中, 输入检索关键词后, 不但可以搜索到根据传统方 法使用关键词词典查找到的内容,还可以根据上述三元关系搜索到原 始文件记录没有, 但实际存在, 即 "隐含指代" 的内容。
和目前已有检索系统相比, 上述方法具有以下特点: 1、 基础数据量大幅度减少: 目前已有检索系统为了满足不同的 检索要求, 需要完备的基础数据, 所有推演的结论都需要作为基础数 据进入系统, 而本方法基础数据可以很少, 而能够推演出大量数据结 果以供检索。
2、 可检索数据的大幅度增加: 用户可以检索的数据, 不再是仅 仅依赖于基础数据量, 同时也和关系三元组的数量相关。 由于关系三 元组具有很强的通用性, 因此, 当增加一个关系三元组, 带来的可检 索数据的增加将会是成倍甚至是几何级数的。
3、 数据关系一致性更强: 由于大量结论是系统经过逻辑推演得 到的, 因此具有严密的逻辑性。而目前已有检索系统由于基础数据都 是独立进入数据库的, 数据一致性得不到保障。
' 4、 关系的扩展性: 只要是符合逻辑的关系三元组就可以在系统 中进行定义, 从这个意义上说, 一方面根据生活经验以及现有的科技 发展状况总结出来的关系可以通过这个系统实现, 同时随着社会、科 技的不断进步, 新的关系将不断出现, 而这些新的关系同样也可以在 系统中实现; 并且对于了新定义的关系三元组, 所有以前的数据将马 上得到相应的组织以备查询。
附图说明
图 1是本发明的三元关系模型的示意图;
图 2是本发明的实施例中人物索引关键词之间的关系; 图 3是本发明的实施例中关系关键词之间的关系;
图 4是本发明的实施例中 "逆关系"的推演路径; '图 5是本发明的实施例中 "二次传递" 的推演路径;
图 6是本发明的实施例中 "相同主词"的推,演路径;
图 7是本发明的实施例中 "对称"的推演路径。
具体实施方式
下面结合附图和具体实施例对本发明进行更详细的描述。
在本发明中, 为构建高度灵活智能索引机制, 建立了一种自包 含、自组织的三元关系模型。各种常见语言都具有主要语法结构:(主 语、 谓语、 宾语), 本发明对这种三元关系进行了模拟, 实现了基于 三元关系模型的数据表达、 存储和检索。 ' 如图 1所示, 本发明的三元关系模型采用三元组 Ka、 Kr、 Kb形 式, 其中 Ka代表关键词 aKb代表关键词 b, Kr代表关键词 a和关 键词 b之间的关系。该三元组形式表示和实现关键词之间的三种类型 的关联关系, 包括成员隶属关系、 等价别名关系以及背景参考关系。
每种类型中可以不断细分,同时各种关系之间仍能实现三种类型 的关联。在这种三元关系模型的基础上进行演算,可以进行包含逻辑 含义的检索, 有别于单纯进行关键词组合的查询方式。
{¾代表关系关键词之间的关系, 如逆关系、 二次传递、 相同主 词、 对称等, Kr'代表 Kr根据 B¾推导出的关系, 由此 Ka'关键词和 Kb'关键词具有了新的关系 Kr'。
图 2为人物索引关键词之间的关系的一个例子: 如果系统中的 人物关键词包含了以下三个三元组:
(张老三, 儿子, 张三); (张三, 儿子, 张小三); (张三, 儿 子, 张小四)。
同时, 如图 3所示, 系统中定义了以下针对关系关键词的三元 组:
(儿子, 逆关系, 父亲); (儿子, 二次传递, 孙子); (儿子, 相同主词, 兄弟); (兄弟, 对称, 兄弟)。
那么系统可以在不增加其它信息的情况下, 自动推演出以下结 论:
如图 4所示, 根据 "逆关系"可以推演出: (张三, 父亲, 张 老三) (张小三, 父亲, 张三) (张小四, 父亲, 张三)。
如图 5所示, 根据 "二次传递"关系可以推演出: (张老三, 孙子, 张小三) (张老三, 孙子, 张小四)。
如图 6、 图 7所示, 根据 "相同主词" 关系可以推演出: (张 小三, 兄弟, 张小四) 并在此基础上根据 "对称"关系推演出 (张小 四, 兄弟, 张小三)。
注意: 推演的先后次序根据实际情况可能不同。
以上结果只是应用一次关系关键词三元组的结论, 如果多次、 组合应用, 可以产生出更多的逻辑结果。
本发明采用了标引方法, 类似关键词的三元模型, 标引采用 (C,R,K)组和 (Ca、 R、 Cb)三元组进行表示和实现, 其中 C表示文件的 内容, K表示关键词, R代表文件和关键词之间的关系; Ca代表文 件 a的内容, Cb代表文件 b的内容, R代表文件 a和文件 b之间的 关系。 该方法记录文件中关键词的位置、 长度、 相关度等以及文件之 间的相互引用等关联知识。通过这种标引, 一方面文件能够以结构化 的方式呈现, 满足用户对关联信息的需要, 同时另一方面, 也可以按 照知识来源的最初模式进行呈现。
另外, 通过 (C、 R、 K)三元组, 标引方法很好的解决了文件中的 "指代"关系, 例如, 对于一个文件中出现的代词 "他 ", 通过在三 元组中确定实际的指代目标,系统就可以向用户提供针对指代目标的 检索, 而不仅限于文字上的相同或近似。
本发明的特定实施例已对发明内容做了详尽说明。对本领域一般 技术人员而言,在不背离本发明原理的前提下对它所做的任何显而易 见的改动, 都不会超出本申请所附权利要求的保护范围。

Claims

权 利 要 求 书
1. 一种基于三元模型的信息检索加工的方法, 其步骤为-
( 1 ) 录入原始文件信息, 制作关键词加关键词出现在文件中位 置的字典;
(2) 建立三元关系模型, 采用三元组 Ka、 Kr、 Kb形式, 其中 Ka代表关键词 a, Kb代表关键词 b, Kr代表关键词 a和关键词 b之 间的关系;该三元组形式表示和实现关键词之间的三种类型的关联关 系; ί¾代表关系关键词之间的关系 , Kr'代表 Kr根据 ί¾推导出的 关系, 由此 Ka'关键词和 Kb'关键词具有了新的关系 Kr';
(3) 将上述三元关系模型中 Kr、 Krr, Kr'录入到检索数据库中;
(4) 根据步骤 (1 ) 中的关键词和步骤 (3 ) 中的关系自动导出 关键词之间的新关系, 即 Ka'关键词和 Kb'关键词的新关系 Kr', 并将 关键词和关系记录到字典中。
2.根据权利要求 1所述的基于三元模型的信息检索加工的方法, 其特征在于: 上述三元关系包括成员隶属关系、 等价别名关系、 背景 参考关系。
3. 根据权利要求 1或 2所述的基于三元模型的信息检索加工的 方法, 其特征在于: 上述三元关系模型方法多次、 组合应用。
4. 根据权利要求 1或 2所述的基于三元模型的信息检索加工的 方法, 其特征在于: 采用 (C、 R、 K)组和 (Ca、 R、 Cb)三元组进行表 示和实现的标引方法, 其中 C表示文件的内容, K表示关键词, R代 表文件和关键词之间的关系; Ca代表文件 a的内容, Cb代表文件 b 的内容,. R代表文件 a和文件 b之间的关系; 该方法记录文件中关镩 词的位置、 长度、 相关度以及文件之间的相互引用的关联知识。
PCT/CN2007/001661 2006-05-22 2007-05-22 Procédé pour l'extraction et le traitement d'informations selon un modèle ternaire WO2007143898A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/918,639 US20100030761A1 (en) 2006-05-22 2007-05-22 Method of retrieving and refining information based on tri-gram
SM200800031T SMP200800031B (it) 2006-05-22 2007-05-22 Metodo per l'elaborazione di dati di ricerca basato sul modello ternario
DE112007000051T DE112007000051T5 (de) 2006-05-22 2007-05-22 Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200610081368.0 2006-05-22
CNA2006100813680A CN1845105A (zh) 2006-05-22 2006-05-22 基于三元模型的信息检索加工的方法

Publications (1)

Publication Number Publication Date
WO2007143898A1 true WO2007143898A1 (fr) 2007-12-21

Family

ID=37064033

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2007/001661 WO2007143898A1 (fr) 2006-05-22 2007-05-22 Procédé pour l'extraction et le traitement d'informations selon un modèle ternaire

Country Status (7)

Country Link
US (1) US20100030761A1 (zh)
JP (1) JP2007317189A (zh)
KR (1) KR100911910B1 (zh)
CN (1) CN1845105A (zh)
DE (1) DE112007000051T5 (zh)
SM (1) SMP200800031B (zh)
WO (1) WO2007143898A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410123B2 (en) 2015-11-18 2019-09-10 International Business Machines Corporation System, method, and recording medium for modeling a correlation and a causation link of hidden evidence

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622363A (zh) * 2011-01-28 2012-08-01 鸿富锦精密工业(深圳)有限公司 关联词汇搜索系统及方法
CN102693320B (zh) * 2012-06-01 2015-03-25 中国科学技术大学 一种搜索方法及装置
CN103544224A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种收养关系信息存储表示方法、系统及设备
CN103544223A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种基本亲缘关系信息存储表示方法、系统及设备
CN103544233A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种完全亲缘关系信息库存储组织方法、系统及设备
CN103544225A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种抚养关系信息存储表示方法、系统及设备
CN103544236A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种通过确定未知关系人来推导亲缘关系方法
CN103544222A (zh) * 2013-10-07 2014-01-29 宁波芝立软件有限公司 一种通用亲缘关系信息存储表示方法、系统及设备
CN105117115B (zh) * 2015-08-07 2018-05-08 小米科技有限责任公司 一种显示电子文档的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110158A1 (en) * 2001-11-13 2003-06-12 Seals Michael P. Search engine visibility system
CN1696933A (zh) * 2005-05-27 2005-11-16 清华大学 基于动态规划的文本概念关系自动提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001006997A (ja) * 1999-06-22 2001-01-12 Nec Kyushu Ltd 目合わせ露光装置システム及び目合わせ露光方法
JP2003040297A (ja) * 2001-08-06 2003-02-13 Toppan Printing Co Ltd オーバーキャップ付封緘キャップ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110158A1 (en) * 2001-11-13 2003-06-12 Seals Michael P. Search engine visibility system
CN1696933A (zh) * 2005-05-27 2005-11-16 清华大学 基于动态规划的文本概念关系自动提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410123B2 (en) 2015-11-18 2019-09-10 International Business Machines Corporation System, method, and recording medium for modeling a correlation and a causation link of hidden evidence
US11386337B2 (en) 2015-11-18 2022-07-12 International Business Machines Corporation Modeling a correlation and a causation link of hidden evidence

Also Published As

Publication number Publication date
SMAP200800031A (it) 2008-05-14
JP2007317189A (ja) 2007-12-06
KR100911910B1 (ko) 2009-08-13
KR20070112729A (ko) 2007-11-27
US20100030761A1 (en) 2010-02-04
SMP200800031B (it) 2008-05-14
CN1845105A (zh) 2006-10-11
DE112007000051T5 (de) 2008-08-28

Similar Documents

Publication Publication Date Title
WO2007143898A1 (fr) Procédé pour l'extraction et le traitement d'informations selon un modèle ternaire
Fu et al. Privacy-preserving smart semantic search based on conceptual graphs over encrypted outsourced data
Li et al. A co-attention neural network model for emotion cause analysis with emotional context awareness
CN102945237B (zh) 基于原始用户输入建议和细分用户输入的系统和方法
WO2007143899A1 (fr) Système et procédé pour l'extraction intelligente et le traitement d'informations
Bergamaschi et al. QUEST: A keyword search system for relational data based on semantic and machine learning techniques
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
Liu et al. Information retrieval and Web search
TW202001621A (zh) 語料庫產生方法及裝置、人機互動處理方法及裝置
Hariharan et al. Enhanced graph based approach for multi document summarization.
Zhou et al. Enhanced personalized search using social data
Brochier et al. New datasets and a benchmark of document network embedding methods for scientific expert finding
Hu et al. Semantic‐Based Multi‐Keyword Ranked Search Schemes over Encrypted Cloud Data
Fatemi et al. Record linkage to match customer names: A probabilistic approach
Xu et al. Query recommendation based on improved query flow graph
Guo et al. Knowledge discovery from citation networks
Nuray-Turan et al. Exploiting web querying for web people search in weps2
Xie et al. Personalized query recommendation using semantic factor model
Zuluaga Cajiao et al. Graph-based similarity for document retrieval in the biomedical domain
Zhang et al. Using Tag Clouds to Quickly Discover Patterns in Linked Data Sets.
Burgers et al. An information system organized as stratified hypermedia
Wang Annotation persistence over dynamic documents
Navarro Bullock et al. Tagging data as implicit feedback for learning-to-rank
Melzer Semantic Assets: Latent Structures for Knowledge Management
Bendersky Information retrieval with query hypergraphs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07721234

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 1120070000511

Country of ref document: DE

RET De translation (de og part 6b)

Ref document number: 112007000051

Country of ref document: DE

Date of ref document: 20080828

Kind code of ref document: P

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 20-02-2009)

REG Reference to national code

Ref country code: DE

Ref legal event code: 8607

122 Ep: pct application non-entry in european phase

Ref document number: 07721234

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 11918639

Country of ref document: US