WO2007143899A1 - Système et procédé pour l'extraction intelligente et le traitement d'informations - Google Patents

Système et procédé pour l'extraction intelligente et le traitement d'informations Download PDF

Info

Publication number
WO2007143899A1
WO2007143899A1 PCT/CN2007/001662 CN2007001662W WO2007143899A1 WO 2007143899 A1 WO2007143899 A1 WO 2007143899A1 CN 2007001662 W CN2007001662 W CN 2007001662W WO 2007143899 A1 WO2007143899 A1 WO 2007143899A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
data
intelligent
processing
retrieval
Prior art date
Application number
PCT/CN2007/001662
Other languages
English (en)
French (fr)
Inventor
Kaihao Zhao
Original Assignee
Kaihao Zhao
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaihao Zhao filed Critical Kaihao Zhao
Priority to US11/918,551 priority Critical patent/US20080235190A1/en
Priority to DE112007000053T priority patent/DE112007000053T5/de
Priority to SM200800032T priority patent/SMAP200800032A/it
Publication of WO2007143899A1 publication Critical patent/WO2007143899A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Definitions

  • the invention relates to a system and method for intelligent information retrieval processing, in particular to a system and method for intelligent retrieval processing of text, image, audio and video. Background technique
  • the effective retrieval and processing of data information and documents is the core and important content in the field of database applications. It is widely used in various electronic data, literature, commercial database resources and Internet content search applications.
  • the data information retrieval technology in this field is generally a keyword-based statistical method, and a Boolean expression of a keyword is used as a query statement.
  • a Boolean expression of a keyword is used as a query statement.
  • For the file database use the keyword plus keyword dictionary to appear in the location of the file, and find the corresponding file by comparing the key words of the query statement with the keywords in the file database dictionary.
  • some improvements use fuzzy logic models, vector space models, and probability retrieval models.
  • the current operation is to identify the entire document by keyword indexing, individual keyword labeling, and document summary, and as a search keyword in the search process, this method can't fully reflect the whole article. All the knowledge information in the document, 'The end result is that the document in the search result is missing. '
  • the present invention provides a novel information intelligent retrieval processing system and method, which can solve various types of retrieval problems included in data information and documents, and can satisfy different keywords and different keywords in the document.
  • the intelligent processing requirements of information data such as information, knowledge comparison, analysis, and re-establishment of relationships between keywords between documents can support more complex search requests such as "implicit referencing"; Format position representation technology, content including text, image, audio, video and other media formats can be retrieved and processed.
  • a system for information intelligent retrieval processing comprising a data intelligent processing subsystem, a processing database, a publishing and management module, a retrieval database, and an intelligent retrieval service subsystem, wherein the publishing and management module includes data publishing And synchronization module, data open management module;
  • the data intelligent processing subsystem intelligently processes the data, processes the data into deep disassembled and indexed unit content, and flexible and accurate intelligent index information, and stores the data in the processing database, and the processing database also stores a large amount of data. Sign information and intermediate results generated to speed up processing;
  • the publishing and management module completes synchronizing the approved content and index information with the data displayed by the intelligent retrieval service subsystem; the data synchronization is performed by the data publishing and synchronization module, and the content of the processing database is synchronized to the retrieval database, The feedback information in the retrieval process is synchronized from the retrieval database to the processing database; the data open management module is responsible for setting the permissions for the data access;
  • the intelligent retrieval service subsystem provides an intelligent retrieval service platform, performs unified processing on search requests from users, queries a database for retrieval, and intelligently retrieves related content.
  • a method for information intelligent retrieval processing the steps of which are:
  • Input search conditions In addition to the current input and index browsing modes provided by most of the search service systems, the system can also input the Unicode fonts included or not included by the root and stroke input methods. a large number of rare Chinese characters;
  • the search request is subdivided into regular simple direct search, advanced combination search, classified browsing search, full-text search and intelligent logic search.
  • the first three search methods will search directly through the relational search engine, and the full-text search will be performed by the full-text search engine.
  • Retrieval, and the intelligent logic search will perform the query condition reorganization through the logical relationship calculus and then search by the relational search engine; 4.
  • the present invention establishes a multi-media retrieval method and indexing system based on deep disassembly and indexing of text content and establishment of a highly flexible intelligent indexing mechanism.
  • a multi-media retrieval method and indexing system based on deep disassembly and indexing of text content and establishment of a highly flexible intelligent indexing mechanism.
  • FIG. 2 is a relationship between character index keywords in an embodiment of the present invention
  • FIG. 3 is a relationship between relationship keywords in an embodiment of the present invention
  • FIG. 4 is a derivation path of "inverse relationship" in the embodiment of the present invention
  • FIG. 5 is a derivation path of "secondary transmission” in the embodiment of the present invention
  • FIG. 6 is a derivation of "the same subject” in the embodiment of the present invention.
  • Figure 7 is a "symmetric" derivation path in an embodiment of the present invention
  • Figure 8 is a system block diagram of the present invention
  • Figure 9 is a flow chart of the present invention.
  • the starting point of the present invention is to disassemble the intrinsic meaning and structure of the information content searched or processed, and build a search and processing system on this basis. Therefore, the present invention is completely free from the limitations of text comparison, and can achieve the precise meaning on the one hand, that is, does not contain information that is irrelevant or only literally the same; on the one hand, the information is complete, that is, it can contain different literal meanings. Information that is the same or has a user-specified association feature.
  • the invention establishes a highly flexible intelligent indexing mechanism, and on the one hand, fully guarantees the scientificity of various classified information, and on the other hand has the ease of use in accordance with various habits and conventions of people.
  • the present invention does not exclude existing search engines and search service systems. Conversely, the present invention can be well integrated with existing search engines and search service systems, and functions under different search requirements, and combined to make more Powerful search service capabilities.
  • the accurate content retrieval is implemented by disassembling the search results appearing in the form of "knowledge”.
  • This disassembly consists of two levels. One is to split the search results themselves to form a "knowledge unit" or “knowledge piece” characterized by complete and independent meanings.
  • the keywords contained in the content are Extracting, increasing the meaning information of the keywords and strengthening the effective keywords with the relationship of "implicit referential”, enriching the knowledge attributes of the main information. Invalid keywords with little relevance are removed, thereby reducing the interference of the primary information with respect to the primary information in all data sources.
  • the intelligent retrieval method of the invention combines two common retrieval methods: index classification browsing and text keyword matching.
  • index classification browsing and text keyword matching Different from the commonly used search engine, in the present invention, in addition to being classified according to common subject disciplines and habits according to the classification of member membership, it also provides an equivalent alias relationship and a background reference relationship.
  • a horizontally expanded search path is still performed according to the index classification, with clear directivity.
  • search by text keyword matching in the present invention may retrieve keywords with the same name and different meanings, which is a key for the search user to clearly understand the different meanings of the same name through the system prompt. Relevant information about the word, directly and quickly Search, locate the result set you need.
  • the invention proposes that according to the natural semantics, the smallest unit expressing the complete natural semantics is used as the division standard of the knowledge unit, which can exhaust the attributes of each knowledge unit in the knowledge processing, and can accurately reflect the information when the retrieval result is presented, and reduce the information noise. .
  • the information intelligent retrieval processing system of the present invention is a system for classifying the thinking logic according to the natural needs of human nature.
  • the invention divides the information data into 12 categories according to the way of thinking of human retrieval and use of knowledge, namely, characters, events, time, place, articles, creatures, clothing, food, dwellings, belongings, breeding, music ( Referred to as people, things, time, land, things, life, clothing, food, housing, travel, education, music), each major category is subdivided into sub-categories, such as the sub-category of the character, the gender of the person , the origin of people, etc.; each sub-category has several sub-categories, such as the name of the person is divided into surname Zhao surname Zhang, surname Li and so on.
  • the index of each major class and its subclasses is represented by the corresponding code.
  • the secondary processing of the index is performed, and the background information of the exhaustive index structure is indexed, reordered and clustered to form a highly flexible and accurate. Multi-dimensional pointing, intelligent index with crosses.
  • Various information data including various documents and electronic data, are divided into several knowledge units according to their content length or capacity, and the text knowledge unit capacity is 600 characters or less, and the knowledge unit is numbered. Then, the content of each knowledge unit is analyzed and disassembled, and each keyword is numbered and corresponding to the subclass of the above relationship tree according to the above classification method.
  • the classification method of the present invention is substantially different from the traditional professional classification logic in the past, completely breaking the traditional classification concept.
  • the classification methods of other professional disciplines are mainly based on the level of professional structure, and are not the primary consideration to meet the natural knowledge needs of people.
  • the degree of use is not high.
  • the complexity of the conversion in the implementation process is high and is not applicable.
  • Another great feature of the present invention is that it can include various other professional classification methods. Since the classification method of the present invention focuses on meeting the basic knowledge needs of human beings, the universality of the classification angle makes it possible to cover and accommodate various other professional-based The classification method, so that different classification methods can be unified and integrated to create technical conditions for the integration of knowledge processing and use.
  • the implementation of a highly flexible and intelligent indexing mechanism is constructed, and a self-contained, self-organizing ternary relationship model is established.
  • Various common languages have the main grammatical structure: (subject, predicate, object).
  • the present invention simulates this ternary relationship and implements data representation, storage and retrieval based on the ternary relationship model.
  • the ternary relationship model of the present invention takes the form of a triplet Ka, Kr, Kb, where Ka represents a keyword a, Kb represents a keyword b, and Kr represents a relationship between a keyword a and a keyword b.
  • Ka represents a keyword a
  • Kb represents a keyword b
  • Kr represents a relationship between a keyword a and a keyword b.
  • the three-tuple form represents and associates three types of associations between keywords, including member membership, equivalence alias relationships, and background reference relationships.
  • Each type can be subdivided continuously, and three types of associations can still be achieved between relationships.
  • the calculus can be searched for logical meanings, which is different from the simple query method of keyword combination.
  • Kr r represents the relationship between the relationship keywords, such as inverse relationship, quadratic transfer, same subject, symmetry, etc.
  • Kr' represents the relationship that Kr derives from ⁇ , whereby the Ka' keyword and Kb' keyword have new The relationship Kr'.
  • Figure 2 is an example of the relationship between character index keywords: if in the system The character keyword contains the following three triples:
  • the amount of basic data is greatly reduced: In the above example, the basic data has only three human triples and four relational triples. Currently, the existing retrieval system requires complete basic data in order to meet different retrieval requirements. All the conclusions in the above example need to be used as the base number. According to the entry system.
  • the invention adopts a knowledge unit indexing method, a ternary model similar to a keyword, and the indexing of the knowledge unit is represented and implemented by a (C, R, K) group and a (Ca, R, Cb) triplet, wherein C Represents the content of the knowledge unit, K represents the keyword, R represents the relationship between the knowledge unit and the keyword; Ca represents the content of the knowledge unit a, Cb represents the content of the knowledge unit b, and R represents the relationship between the knowledge unit a and the knowledge unit b Relationship.
  • the method records the position, length, relevance, etc. of the keywords in the knowledge unit, and the mutual reference between the knowledge units. Knowledge.
  • the knowledge unit can be presented in a structured manner to satisfy the user's need for associated information, and on the other hand, can be presented according to the initial pattern of the knowledge source. ⁇
  • the indexing method well solves the "referential" relationship in the knowledge unit, for example, for the pronoun "he” that appears in a knowledge unit, through the ternary
  • the system can provide the user with a search for the target, not just the same or similar in text.
  • Figure 8 illustrates the overall structure of the information intelligent retrieval processing system of the present invention.
  • the system includes a data intelligent processing subsystem 1, a processing database 2, a publishing and management module 3, a retrieval database 6, and an intelligent retrieval service subsystem 7, wherein the publishing and management module 3 includes a data distribution and synchronization module 4, and data open management. Module 5.
  • Data processing is performed by the data intelligent processing subsystem 1.
  • the data will be processed here from various sources of different media to become deeply disassembled and indexed text or other media content and flexible and accurate intelligent indexing information.
  • the processing database 2 is mainly operated.
  • the processing database 2 also stores a large amount of flag information and intermediate results generated in order to speed up processing.
  • the basic data processing which is the processing step for the correctness of the text content.
  • the system will proofread the data entering the database.
  • the proofreading content includes text, directory and paragraph level, reference to comments, and so on.
  • the present invention is also capable of supporting a large number of slanted Chinese characters contained or not included in a standard Unicode font, that is, so-called variant words or image words, which are realized by numbering the foreign characters or image words.
  • intelligent processing of knowledge units is carried out on the premise that the correctness of the basic data is guaranteed.
  • the system will disassemble the data originally based on the natural segment to form a "knowledge unit" with independent and complete meaning.
  • the system will also establish the relationship between the "knowledge unit" and the index keyword.
  • the third step of data processing is intelligent index processing.
  • intelligent processing of knowledge units is performed in parallel in actual operation.
  • Intelligent index processing needs to index keywords extracted from intelligent processing of knowledge units. Processing, and then subjecting the indexed results to secondary processing to create an intelligent index that is flexible, accurate, multi-dimensional, and cross-over.
  • the intelligent index counteracts the knowledge unit process, which can form new classification, sorting and clustering according to the random needs of users, and generate second, third or multiple documents, forms, images, audio and video.
  • the Data Intelligent Processing Subsystem 1 also includes a process management and control module that manages intermediate results and data status in these steps.
  • the module itself does not have a direct impact on the data, but rather monitors and manages the flow of data.
  • the release and management module 3 undertakes the tasks of publishing and management.
  • the module mainly completes the synchronization of the content approved in the background with the index information and the foreground data.
  • the implementation process is bidirectional, and the main data stream flows from the processing database 2 to the retrieval database 6, but at the same time, the feedback information in some retrieval processes is also synchronized from the retrieval database 6 to the processing database 7,
  • the process of data synchronization will be performed by the data distribution and synchronization module 4.
  • the release and management module 3 also has an important task, which is to set the rights for data access and the functions undertaken by the data open management module 5.
  • the retrieval operation initiated by the network user is performed by the intelligent retrieval service subsystem 7.
  • User-initiated search request including horizontal general search and vertical private search (general search request refers to a search request using a combination of commonly used keywords or keywords, and the dedicated search request refers to a search request by the taxonomy provided by the system) ), will be converted to the corresponding internal search request, intelligent retrieval of content and index information.
  • general search request refers to a search request using a combination of commonly used keywords or keywords
  • dedicated search request refers to a search request by the taxonomy provided by the system
  • the system also provides a public access interface for some professional retrieval request services, such as other websites can provide professional search services by linking to the system.
  • the system provides a public intelligent retrieval platform, the intelligent search service platform, to uniformly process various search requests from different users.
  • the system itself provides a horizontal website universal search service 8 for the purpose of obtaining rich related content and a vertical website-specific search service for the purpose of obtaining deep knowledge.
  • the aforementioned public access interface is provided in the form of a professional retrieval service 10.
  • Fig. 9 illustrates a method of using the information intelligent retrieval processing of the present invention, and how the present invention processes the retrieval request of the user 11.
  • the blocks in the figure show various processing operations, and the cylindrical chart shows the search database 6 including the index data 61 and the content data 62.
  • the solid arrows in the figure indicate the flow of the operation, while the dashed arrows represent the main data flow.
  • the user 11 inputs the retrieval condition 12 primarily through a website provided by the system or a user interface of other systems accessing the system through an open interface.
  • the system also provides input methods using pinyin or stroke order to input a large number of slanted Chinese characters contained or not included in the Unicode font.
  • the system will pre-process the retrieval conditions 13 . This includes both the commonly used code conversion 14 technology and the index complexity evaluation 15 technique.
  • the search request is subdivided into a conventional simple direct search 16, an advanced combination search 17, a classified browsing search 18, a full-text search 19, and a smart logic search 20, the first three conventional search methods will be directly
  • the search by the relational search engine 22, the full-text search 19 will be directly searched by the full-text search engine 23, and the intelligent logical search 20 will perform the search condition reorganization through the logical relationship calculus and then search by the relational search engine 22, the logical relationship calculation It is based on the above ternary relationship model, classification index library and knowledge unit indexing method.
  • the system returns the search results 24 using an interface that fully reflects the inherent logical relationship between the search criteria and the search results.
  • the system and method of the present invention can be applied to various environments such as a computer stand-alone, a local area network, an intranet, an Internet, and the like, and the system user can be expanded to any group having information content retrieval requirements.
  • the invention can realize intelligent retrieval and processing of information content, truly conforms to the willingness to search, minimizes redundancy of retrieval results, realizes intelligent combination of new information content and knowledge based on knowledge element level between arbitrary knowledge sources, realizes arbitrary
  • the information content is based on the intelligent classification, sorting and clustering process between human, basic, physical, and other common attributes of human basic production, life and activities.

Description

信息智能检索加工的系统和方法 技术领域
本发明涉及一种信息智能检索加工的系统和方法,尤其涉及一种 文本、 图像、 音频、 视频的智能检索加工的系统和方法。 背景技术
数据信息和文档的有效检索和加工,是数据库应用领域中的核心 和重要内容, 广泛存在于各种电子数据、 文献、 商业数据库资源和互 联网内容搜索的应用当中。
目前这一领域中的数据信息检索技术,一般是基于关键词的统计 方法, 用关键词的布尔表达式作为查询语句。 对于文件数据库, 使用 关键词加关键词出现在文件中位置的字典,通过比较查询语句的关键 词与文件数据库字典中的关键词, 找到相应文件。 另外, 有些改进釆 用了模糊逻辑模型、 向量空间模型和概率检索模型等。
但是这些方式只能实现以整篇文档为单位的检索,而且对于检索 关键词与整篇文档之间的相似性程度, 目前均处于努力提高和改善阶 段, 尚无满意的解决方案, 导致无法实现信息检索结果的精准。 如: 无法找到同义不同形的关键词, 或找到的是同形不同义的关键词。对 于整篇文档内部包含的各类数据和信息, 这些方式无法进行单独识 别、 区分, 并进行基于知识属性关系的加工和利用, 更无法实现不同 文档内容之间的交叉分析和比较,以及在不同文档之间实现信息内容 的多次加工利用。 ' 目前各种数据库中的知识处理和检索结果均以整篇文档为最小 ' 单位, 由于整篇文档中所含的知识属性非常丰富, 所以这种方式在知 识处理和检索结果提供环节均存在问题。
在知识处理环节, 目前操作都是通过主题词标引、 个别关键词 标注、文档摘要方式对整篇文档进行属性标识, 并作为检索过程中的 检索关键词, 这种方式远不能完全反映整篇文档中的全部知识信息, ' 最终结果表现为检索结果中的文档缺失。 '
在检索结果提供环节, 整篇文档中所携带的大量非相关信息会 产生信息冗余和噪音, 影响结果的精准, 最终结果表现为检索结果中 的文档泛滥、 有效性降低。
发明内容
为了解决上述存在的问题, 本发明提供一种新型的信息智能检 索加工系统和方法,可以解决数据信息和文档中所包含的各类的检索 问题,更可以满足文档中不同关键词之间、不同文档间的关键词之间, 进行信息、 知识的比较、 分析、 重新建立关系等信息数据的智能加工 要求, 能够支持诸如 "隐含指代"等较为复杂的搜索请求; 同时通 过系统支持的多格式位置表达技术, 包含文本、 图像、 音频、 视频等 多种介质格式在内的内容都可以得到检索和加工。
本发明通过以下方案实现: 一种信息智能检索加工的系统, 包括 数据智能加工子系统、 加工用数据库、 发布与管理模块、 检索用数据 库、智能检索服务子系统, 其中发布与管理模块包括数据发布与同步 模块、 数据开放管理模块; 其中所述数据智能加工子系统对数据进行智能加工,将数据处理 成深度拆解和标引的单元内容以及灵活准确的智能索引信息,存入加 工用数据库中,加工用数据库中还存储着大量标志信息以及为了加快 加工而生成的中间结果;
所述发布与管理模块完成将经过审批的内容和索引信息与智能 检索服务子系统显示的数据进行同步;数据同步由数据发布与同步模 块执行, 将加工用数据库的内容同步到检索用数据库, 将检索过程中 的反馈信息从检索用数据库同步到加工用数据库中;数据开放管理模 块负责对数据访问进行权限设置;
所述智能检索服务子系统提供智能检索服务平台,对来自用户的 搜索请求进行统一处理, 查询检索用数据库, 智能检索相关内容。
一种信息智能检索加工的方法, 其步骤为:
1、 输入检索条件; 除了目前大多数的检索服务系统提供的关键 词输入和索引浏览两种输入方式之外, 本系统中还可通过字根、笔顺 输入法输入 Unicode字库中包含或未包含的大量偏稀汉字;
2、 对检索条件进行预处理, 这其中包含了代码转换和索引复杂 度评估;
3、 搜索请求细分为常规的简单直接搜索、 高级组合搜索、 分类 浏览搜索、全文检索以及智能逻辑搜索, 前三种搜索方式将直接通过 关系搜索引擎进行搜索, 全文检索将通过全文检索引擎进行检索, 而 智能逻辑搜索将会通过逻辑关系演算进行查询条件重组后再由关系 搜索引擎进行搜索; 4、 通过关系搜索引擎或全文检索引擎获得搜索结果后, 返回搜 索结果。
本发明建立以深度拆解和标引文本内容以及建立高度灵活智 能索引机制为基础的多介质检索方法和索引系统。通过设计和实现三 元关系模型以及对汉字字词之间关系的多角度描述;建立了灵活高效 的交叉索引体系; 并且在这个交叉索引系统基础上, 实现了具有语义 分析功能的智能检索技术; 同时通过对内容标引方法的规范化, 使得 字词和内容的关联比对更加智能化, 能够支持诸如 "隐含指代"等 较为复杂的搜索请求; 同时通过智能系统支持的多格式位置表达技 术, 包含文字以及图像、 表格、 音频、 视频等多种介质格式在内的内 容都可以得到检索。
本发明具有如下显著优点:
1、 能够实现信息内容检索的精准化, 真正符合检索意愿, 最大限 度减少检索结果的冗余。
2、 能够满足检索过程中的使用者随机需求。 '
3、能够通过系统丰富的知识背景和准确的知识发散路径,提供基 于知识而非信息的检索结果。
4、能够实现任意知识源间基于知识元层次的全新的信息内容组合 和知识组合, 实现任意信息内容基于人、 事、 时、 地、 物等人类基本 生产、 生活、 活动通用属性之间的交叉比对, 实现对文本、 图像、 音 频、视频等多种介质格式在内的内容进行二次加工,可自动生成二次、 三次或多次文献。 5、能够实现对海量知识的活化和二次加工, 实现信息向知识的快 速有序转化。
6、涵盖人类生产、 生活、 活动中的各方面及不同的知识点, 解决 了海量信息检索中最佳知识路径问题, 体现出较好的完备性。
7、完全对应于人类对知识的主观需求,具有很好的通用性和适用 性, 可正向、逆向进行检索, 便于查询与记忆, 操作方便, 不需培训。 附图说明
图 1是本发明的索引三元关系模型的典型情况;
图 2是本发明的实施例中人物索引关键词之间的关系; 图 3是本发明的实施例中关系关键词之间的关系;
图 4是本发明的实施例中 "逆关系" 的推演路径; 图 5是本发明的实施例中 "二次传递" 的推演路径; 图 6是本发明的实施例中 "相同主词" 的推演路径; 图 7是本发明的实施例中 "对称" 的推演路径; 图 8是本发明的系统框图; 图 9是本发明的流程图。 具体实施方式
下面结合附图和具体实施例对本发明进行更详细的描述。 本发明的出发点是拆解被搜索或处理的信息内容的内在含义和 结构, 在此基础上构建搜索和加工体系。 因此, 本发明将完全不受文 本比对的限制, 能够一方面做到含义的精确, 即不包含无关或仅仅是 字面相同的信息; 一方面做到信息的完备, 即能够包含字面不同但含 义相同或具有用户指定关联特征的信息。 另一方面, 本发明建立了高度灵活的智能索引机制, 并在此基 础上一方面充分保证各种分类信息的科学性,另一方面具备符合人们 各种习惯和约定的易用性。
本发明并不排斥现有的搜索引擎和搜索服务系统, 相反地, 本 发明可以和现有搜索引擎和搜索服务系统很好的集成,在不同的搜索 需求下发挥相应的功能, 并组合出更强大的搜索服务能力。
本发明中, 准确的内容检索的实现, 是对以 "知识"形式出现 的检索结果进行拆解。这种拆解包括两个层次, 一是对检索结果本身 进行拆分, 形成了以完整、 独立含义为特征的 "知识单元"或 "知识 片"; 二是对内容中包含的关键词进行了提取, 增加关键词的含义相 关度信息及加强了具有 "隐含指代"等关系的有效关键词, 丰富了主 要信息的知识属性。去除了相关度不大的无效关键词, 以此减少 所 有数据源中相对检索来说次要的信息对主要的信息的千扰。
本发明的智能检索方式, 结合了按索引分类浏览和按文本关键 词匹配两种常用的检索方式。和常用的搜索引擎不同的是, 本发明中 按索引分类浏览除了能按照常见的学科、习惯等分类方法按照成员隶 属关系逐级细分以外,还提供了基于等价别名关系和背景参考关系两 种横向拓展的检索途径。和常见系统中的相关链接跳转不同, 这种横 向检索途径依旧是按照索引分类进行的, 具有明确的指向性。和常用 的搜索引擎不同的另一方面在于,本发明中按文本关键词匹配进行检 索可能会检索到同名不同义的关键词,这是检索用户可以通过系统提 示, 清楚地了解同名不同义的关键词的相关信息, 直接进行快捷的二 次检索, 定位自己所需要的结果集。
本发明提出按照自然语义, 以表达完整自然语义的最小单元作 为知识单元的划分标准,这既可以在知识处理时穷尽每一个知识单元 的属性, 又可以在检索结果呈现时反应精准, 减少信息噪音。
本发明的信息智能检索加工系统是完全依照人性自然需求本能的 思维逻辑进行分类的系统。本发明根据人类检索和使用知识的思维方 式, 将信息数据分为 12大类, 即人物、 事件、 时间、 地点、 物品、 生物、 衣物、 食物、 住物、 行物、 育物、 乐物(简称人、 事、 时、 地、 物、 生、 衣、 食、 住、 行、 育、 乐), 每个大类再细分为若干子类, 如人物的子类有人之姓名、 人之性别、 人之籍贯等等; 每个子类又有 若干子类, 如人之姓名又分为姓赵 姓张、 姓李等等。 这样形成树状 多层次结构, 作为索引结构 30层就足以表达各种细分数据。 每个大 类和其子类的索引都用相应代码表示,在此基础上再进行索引的二次 加工, 穷尽索引结构的背景信息进行标引, 重新排序和聚类, 形成高 度灵活、 准确、 多维指向、 互有交叉的智能化索引。
将各种信息数据, 包括各种文献、 电子数据, 按照其内容长度或 容量划分为若干知识单元, 文本知识单元容量为 600个字符以内,对 该知识单元编号。 然后, 对每个知识单元的内容进行分析、 拆解, 把 各关键词按照上述分类方法, 编号后对应到上述关系树的子类上。
本发明的分类方法与过去传统的专业分类逻辑有本质上的区 别, 完全打破传统的分类概念。 目前其他各种专业的分类方法, 主要 基于符合专业的结构层次, 并非首要考虑满足人的自然知识需求, 通 用性程度不高。对于用户基于自然知识需求的检索要求, 实现过程中 转换的复杂程度较高, 并不适用。
本发明的另一大特点是可以包含其他各种专业分类法, 由于本 发明的分类方法着眼于符合人类基本知识需求,其分类角度的普适性 使其可以涵盖和包容其他各种基于专业的分类方法,这样就可以将各 种不同的分类方法进行统一和整合,为知识处理和使用的整合创造技 *条件。
本发明中, 构建高度灵活智能索引机制的实现,.是建立了一种 自包含、自组织的三元关系模型。各种常见语言都具有主要语法结构: (主语、 谓语、 宾语), 本发明对这种三元关系进行了模拟, 实现了 基于三元关系模型的数据表达、 存储和检索。
如图 1所示,本发明的三元关系模型采用三元组 Ka,Kr,Kb形式, 其中 Ka代表关键词 a, Kb代表关键词 b, Kr代表关键词 a和关键词 b之间的关系。 该三元组形式表示和实现关键词之间的三种类型的关 联关系, 包括成员隶属关系、 等价别名关系以及背景参考关系。
每种类型中可以不断细分,同时各种关系之间仍能实现三种类型 的关联。在这种三元关系模型的基础上进行演算, 可以进行包含逻辑 含义的检索, 有别于单纯进行关键词组合的查询方式。
Krr代表关系关键词之间的关系, 如逆关系、 二次传递、 相同主 词、 对称等, Kr'代表 Kr根据 Κι 推导出的关系, 由此 Ka'关键词和 Kb'关键词具有了新的关系 Kr'。
图 2为人物索引关键词之间的关系的一个例子: 如果系统中的 人物关键词包含了以下三个三元组:
(张老三, 儿子, 张三)(张三, 儿子, 张小三)(张三, 儿子, 张小四)。
同时, 图 3所示,系统中定义了以下针对关系关键词的三元组: (儿子, 逆关系, 父亲) (儿子, 二次传递, 孙子) (儿子, 相 同主词, 兄弟) (兄弟, 对称, 兄弟)。
那么系统可以在不增加其它信息的情况下, 自动推演出以下结 论:
如图 4 所示, 根据 "逆关系"可以推演出: (张三, 父亲, 张 老三) (张小三, 父亲, 张三) (张小四, 父亲, 张三)。
如图 5所示, 根据 "二次传递"关系可以推演出: (张老三, 孙子, 张小三) (张老三, 孙子, 张小四)。
如图 6、 图 Ί所示, 根据 "相同主词"关系可以推演出: (张 小三, 兄弟, 张小四) 并在此基础上根据 "对称"关系推演出 (张小 四, 兄弟, 张小三)。
注意: 推演的先后次序根据实际情况可能不同。
以上结果只是应用一次关系关键词三元组的结论, 如果多次、 组合应用, 可以产生出更多的逻辑结果。
和目前已有检索系统相比, 上述推演具有以下特点:
1、 基础数据量大幅度减少: 上例中, 基础数据仅有 3个人物三 元组和 4个关系三元组,而目前已有检索系统为了满足不同的检索要 求, 需要完备的基础数据, 上例中所有推演的结论都需要作为基础数 据进入系统。
2、 可检索数据的大幅度增加: 从上例的推演可以看出, 用户可 以检索的数据, 不再是仅仅依赖于基础数据量, 同时也和关系三元组 的数量相关。 由于关系三元组具有很强的通用性, 因此, 当增加一个 关系三元组, 带来的可检索数据的增加将会是成倍甚至是几何级数 的。
3、 数据关系一致性更强: 由于大量结论是系统经过逻辑推演得 到的, 因此具有严密的逻辑性。而目前已有检索系统由于基础数据都 是独立进入数据库的, 因此可能会有同时出现(张老三, 儿子,张三)
(张三, 兄弟, 张老三) 的情况, 数据一致性得不到保障。
4、 关系的扩展性: 从上例的推演可以看出, 只要是符合逻辑的 关系三元组就可以在系统中进行定义, 从这个意义上说, 一方面根据 生活经验以及现有的科技发展状况总结出来的关系可以通过这个系 统实现, 同时随着社会、 科技的不断进步, 新的关系将不断出现, 而 这些新的关系同样也可以在系统中实现;并且对于了新定义的关系三 元组, 所有以前的数据将马上得到相应的组织以备查询。
本发明采用了知识单元标引方法,类似关键词的三元模型, 知识 单元的标引采用 (C,R,K)组和 (Ca,R,Cb)三元组进行表示和实现,其中 C 表示知识单元的内容, K表示关键词, R代表知识单元和关键词之间 的关系; Ca代表知识单元 a的内容, Cb代表知识单元 b的内容, R 代表知识单元 a和知识单元 b之间的关系。该方法记录知识单元中关 键词的位置、长度、相关度等以及知识单元之间的相互引用等关联知 识。 通过这种标引, 一方面知识单元能够以结构化的方式呈现, 满足 用户对关联信息的需要, 同时另一方面, 也可以按照知识来源的最初 模式进行呈现。 ·
另外, 通过 (C,R,K)三元组, 标引方法很好的解决了知识单元中 的 "指代"关系, 例如, 对于一个知识单元中出现的代词 "他 ", 通 过在三元组中确定实际的指代目标,系统就可以向用户提供针对指代 目标的检索, 而不仅限于文字上的相同或近似。
图 8说明了本发明中信息智能检索加工系统的整体结构。本系统 包括数据智能加工子系统 1、 加工用数据库 2、 发布与管理模块 3、 检索用数据库 6、 智能检索服务子系统 7, 其中发布与管理模块 3包 括数据发布与同步模块 4、 数据开放管理模块 5。
数据加工由数据智能加工子系统 1完成。数据将在这里从不同介 质的各种来源经处理后成为经深度拆解和标引的文本或其他介质格 式内容以及灵活准确的智能索引 ·信息。这个阶段主要对加工用数据库 2进行操作, 除了最终用于检索的各项信息外, 加工用数据库 2中还 存储着大量标志信息以及为了加快加工而生成的中间结果。
在数据加工阶段, 整个处理过程被分为三个步骤:
( 1 ) 首先, 基础数据加工, 这是针对文本内容正确性的加工步 骤。在这一步中系统将对进入数据库的数据进行校对, 校对的内容包 括文字、 目录和段落层次、 注释的引用等。 本发明还能够支持标准 Unicode字库中包含或未包含的大量偏稀汉字, 即所谓异体字或图像 字的查询和显示, 这是通过对异体字或图像字进行编号实现。 (2) 其次, 在基础数据的正确性得到保证的前提下, 进行知识 单元智能加工。在这一步骤中, 系统将对原来以自然段为基础单元的 数据进行拆解, 形成具有独立完整含义的 "知识单元"。 同时在这个 步骤中,系统还将建立起"知识单元"和索引关键词之间的关联关系。
(3 ) 数据加工的第三个步骤为智能索引加工, 和上一个步骤知 识单元智能加工在实际操作中是并行进行的,智能索引加工需要对来 自知识单元智能加工中提取的关键词进行索引化处理,再将经索引化 处理过的结果进行二次加工, 编制出灵活准确、 多维指向、 互为交叉 的智能化索引。
(4) 智能化索引反作用于知识单元过程, 可根据使用者的随机 需求形成新的分类、排序与聚类, 生成二次、三次或多次文献、表单、 图像、 音频、 视频。
数据智能加工子系统 1还包括工序管理和控制模块,对这些步骤 中的中间结果、数据状态进行管理。这个模块本身不对数据产生直接 的影响, 而是对数据的流向进行监控和管理。
发布与管理模块 3承担发布与管理的任务。该模块主要完成将后 台经过审批的内容与索引信息和前台数据进行同步。实现过程是双向 的, 主要的数据流是从加工用数据库 2流向检索用数据库 6, 但与此 同时,一些检索过程中的反馈信息也将从检索用数据库 6同步到加工 用数据库 7中,这些数据同步的过程将由数据发布与同步模块 4执行。 发布与管理模块 3还有一个重要的任务,就是对数据访问进行权限设 置, 由数据开放管理模块 5承担的功能。 由网络用户发起的检索操作, 由智能检索服务子系统 7完成。用 户发起的检索请求, 包括横向的通用检索以及纵向的专用检索(通用 检索请求指使用常用的关键词或关键词的组合的检索请求,而专用检 索请求指通过本系统提供的分类法的检索请求), 将被转换为相应的 内部检索请求,对内容和索引信息进行智能检索。另外,在这个阶段, 系统还提供公共的访问接口, 为一些专业检索请求服务, 如其它网站 可以通过链接到本系统提供专业检索服务。
本系统提供了一个公共的智能检索平台——智能搜索服务平台, 对来自不同用户的各种搜索请求进行统一处理。在此基础上, 系统自 身提供了以获取丰富关联内容为目的的横向的网站通用检索服务 8 功能和以获取深层次知识为目的的纵向的网站专用检索服务 9。另外, 前面提到的公共的访问接口, 是以专业检索服务 10的形式提供的。
图 9 说明了使用本发明的信息智能检索加工的方法, 对于用户 11 的检索请求, 本发明是如何进行处理的。 图中的方框表示了各种 处理操作,圆柱图表示了包含索引数据 61和内容数据 62的检索用数 据库 6。 图中的实线箭头表示了操作的流程, 而虚线箭头则代表主要 的数据流向。
在实际的操作中, 用户 11主要通过系统提供的网站或者通过开 放接口接入本系统的其它系统的用户界面输入检索条件 12。 除了提 供的关键词输入和索引浏览两种输入方式之外,本系统中还提供了使 用拼音或笔顺的输入方式来输入 Unicode字库中包含或未包含的大量 偏稀汉字。 在系统获得了用户的检索请求后,本系统将对检索条件进行预处 理 13。 这其中既包含了常用的代码转换 14技术, 同时也包含了索引 复杂度评估 15技术。在经过了预处理条件 13后, 搜索请求会被细分 为常规的简单直接搜索 16、 高级组合搜索 17、 分类浏览搜索 18、 全 文检索 19以及智能逻辑搜索 20, 前三种常规搜索方式将直接通过关 系搜索引擎 22进行搜索, 全文检索 19将直接通过全文检索引擎 23 进行检索, 而智能逻辑搜索 20将会通过逻辑关系演算进行查询条件 重组后再由关系搜索引擎 22进行搜索, 该逻辑关系演算是基于上述 三元关系模型、分类索引库和知识单元标引的方法。在最终通过关系 搜索引擎 22和全文检索引擎 23获得搜索结果后,系统会使用能充分 体现搜索条件和搜索结果的内在逻辑联系的界面返回搜索结果 24。
本发明涉及的系统和方法, 可以应用于计算机单机、 局域网络、 企业内部网络 (Intranet)、 互联网 (Internet) 等多种环境下, 系统使 用者可以扩展为有信息内容检索需求的任意人群。
本发明能够实现信息内容的智能化检索和加工,真正符合检索意 愿, 最大限度减少检索结果的冗余, 实现任意知识源间基于知识元层 次的全新的信息内容和知识的智能化组合, 实现任意信息内容基于 人、 事、 时、 地、 物等人类基本生产、 生活、 活动通用属性之间的智 能化分类、 排序、 聚类过程。
本发明的特定实施例已对发明内容做了详尽说明。对本领域一般 技术人员而言,在不背离本发明原理的前提下对它所做的任何显而易 见的改动, 都构成对本发明专利的侵犯, 将承担相应的法律责任。

Claims

1. 一种信息智能检索加工的系统, 其特征包括数据智能加工子系 统、 加工用数据库、 发布与管理模块、 检索用数据库、 智能检索服务 子系统, 其中发布与管理模块包括数据发布与同步模块、数据开放管 理模块;
其中所述数据智能加工子系统对文本、 图像、 音频、 视频数据进 行加工,将数据处理成深度拆解和标引的知识单元内容以及灵活准确 的索引信息, 存入加工用数据库中, 加工用数据库中还存储着大量标 志信息以及为了加快加工而生成的中间结果;
所述发布与管理模块完成将经过审批的内容和索引信息与智能 检索服务子系统显示的数据进行同步;数据同步由数据发布与同步模 块执行, 将加工用数据库的内容同步到检索用数据库, 将检索过程中 的反馈信息从检索用数据库同步到加工用数据库中;数据开放管理模 块负责对数据访问进行权限设置; - 所述智能检索服务子系统提供智能检索服务平台,对来自用户的 搜索请求进行统一处理, 查询检索用数据库, 智能检索相关内容。
2.根据权利要求 1所述的信息智能检索加工的系统,其特征在于: 所述数据智能加工子系统对数据进行加工, 将数据分为 12大类, 即 人物、 事件、 时间、 地点、 物品、 生物、 衣物、 食物、 住物、 行物、 育物、 乐物。
3.根据权利要求 2所述的信息智能检索加工的系统,其特征在于: 每个大类再细分为若干子类, 每个子类又有若干子类, 将形成的树状 多层次结构, 作为索引结构。树状结构中的知识条目节点具有多种交 叉隶属关系; 每个大类和其子类的索引都用代码表示。
4.根据权利要求 3所述的信息智能检索加工的系统,其特征在于: 所述子类小于等于 30层。
5. 根据权利要求 1所述的信息智能检索加工的系统, 其特征在 于: 所述数据智能加工子系统对数据进行加工, 将信息数据, 按照其 内容长度或容量划分为若干个知识单元。
6. 根据权利要求 5所述的信息智能检索加工的系统, 其特征在 于: 一个文本知识单元容量为 600个字符以内。
7. 根据权利要求 1所述的信息智能检索加工的系统, 其特征在 于:所述的数据智能加工子系统采用三元关系模型,三元组 Ka,Kr,Kb 形式, 其中 Ka代表关键词 a, Kb代表关键词 b, Kr代表关键词 a和 关键词 b之间的关系,该三元组形式表示和实现关键词之间的三种类 型的关联关系,包括成员隶属关系、等价别名关系以及背景参考关系。
8. 一种信息智能检索加工的方法, 其步骤为:
( 1 ) 输入检索条件;
(2) 对检索条件进行预处理, 这其中包含了代码转换和索引复 杂度评估;
(3 ) 搜索请求细分为常规的简单直接搜索、 高级组合搜索、 分 类浏览搜索、全文检索以及智能逻辑搜索, 前三种搜索方式将直接通 过关系搜索弓 I擎进行搜索, 全文检索将通过全文检索弓 I擎进行检索, 而智能逻辑搜索将会通过逻辑关系演算进行查询条件重组后再由关 系搜索引擎进行搜索;
(4) 通过关系搜索引擎或全文检索引擎获得搜索结果后, 返回 搜索结果。
9. 一种数据智能加工处理方法, 其步骤为:
( 1 ) 基础数据智能加工, 系统将对进入数据库的数据进行智能 校对, 校对的内容包括文字、 目录和段落层次、 注释的引用。
(2) 进行知识单元智能加工, 系统将对原来以自然段为基础单 元的数据进行智能拆解, 形成具有独立完整含义的知识单元; 同时在 这个步骤中, 系统还将建立起知识单元和索引关键词之间的关联关 系。
(3 )索引智能加工, 和上一个步骤知识单元智能加工在实际操作 中是并行进行的;索引智能加工需要对来自知识单元智能加工中提取 的关键词进行索引化处理, 再将经索引化处理过的结果进行二次加 工, 穷尽索引结构的背景信息进行标引, 重新排序和聚类, 形成高度 灵活、 准确、 多维指向、 互有交叉的智能化索引。
(4) 智能化索引反作用于知识单元过程, 可根据使用者的随 机需求形成新的分类、 排序与聚类, 生成二次、 三次或多次文献、 表 单、 图像、 音频、 视频。
10. 根据权利要求 8所述的信息智能检索加工的方法, 其特征在 于:通过对异体字或图像字进行拆分、编排、编号,支持标准 Unicode 字库中包含或未包含的大量偏稀汉字, 实现对异体字或图像字的笔 顺、 字根的调用、 査询和显示。
11 . 根据权利要求 9所述的数据智能加工处理方法, 其特征在 于:通过对异体字或图像字进行拆分、编排、编号,支持标准 Unicode 字库中包含或未包含的大量偏稀汉字, 实现对异体字或图像字的笔 顺、 字根的调用、 查询和显示。
PCT/CN2007/001662 2006-05-22 2007-05-22 Système et procédé pour l'extraction intelligente et le traitement d'informations WO2007143899A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/918,551 US20080235190A1 (en) 2006-05-22 2007-05-22 Method and System For Intelligently Retrieving and Refining Information
DE112007000053T DE112007000053T5 (de) 2006-05-22 2007-05-22 System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung
SM200800032T SMAP200800032A (it) 2006-05-22 2007-05-22 Sistema e metodo per ricercare e elaborare informazioni in modo intelligente

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2006100813676A CN1845104B (zh) 2006-05-22 2006-05-22 信息智能检索加工的系统和方法
CN200610081367.6 2006-05-22

Publications (1)

Publication Number Publication Date
WO2007143899A1 true WO2007143899A1 (fr) 2007-12-21

Family

ID=37064032

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2007/001662 WO2007143899A1 (fr) 2006-05-22 2007-05-22 Système et procédé pour l'extraction intelligente et le traitement d'informations

Country Status (7)

Country Link
US (1) US20080235190A1 (zh)
JP (1) JP2007317188A (zh)
KR (1) KR20070112730A (zh)
CN (1) CN1845104B (zh)
DE (1) DE112007000053T5 (zh)
SM (1) SMAP200800032A (zh)
WO (1) WO2007143899A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000627B (zh) * 2007-01-15 2010-05-19 北京搜狗科技发展有限公司 一种相关信息的发布方法和装置
US8572102B2 (en) * 2007-08-31 2013-10-29 Disney Enterprises, Inc. Method and system for making dynamic graphical web content searchable
CN101425061B (zh) * 2007-10-31 2010-12-08 财团法人资讯工业策进会 概念关联网络的数据标签建构方法与系统
CN102043817B (zh) * 2009-10-12 2014-11-12 深圳市世纪光速信息技术有限公司 呈现人物关联词的方法和装置
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102004775A (zh) * 2010-11-19 2011-04-06 福建富士通信息软件有限公司 一种基于智能搜索的福富企业搜索引擎技术
CN102129539A (zh) * 2011-03-11 2011-07-20 清华大学 基于访问控制列表的数据资源权限管理方法
WO2013000027A1 (en) * 2011-06-30 2013-01-03 Aconex Limited Information management systems and methods
CN102857483B (zh) 2011-06-30 2016-06-29 国际商业机器公司 预取数据的方法、设备和装置
CN103959286B (zh) * 2011-08-26 2019-02-12 谷歌有限责任公司 用于识别媒体项的可用性的系统和方法
CN102521267B (zh) * 2011-11-21 2014-01-22 沈文策 站内信息搜索方法和搜索系统
CN102880625A (zh) * 2012-04-11 2013-01-16 佳都新太科技股份有限公司 一种基于族性检索的通用数据库检索新方法
CN102693320B (zh) * 2012-06-01 2015-03-25 中国科学技术大学 一种搜索方法及装置
CN104169930B (zh) * 2012-07-02 2017-02-22 华为技术有限公司 资源访问方法及装置
DE102013000369A1 (de) 2013-01-11 2014-07-17 Audi Ag Verfahren zum Betreiben eines Infotainmentsystem
CN103077162A (zh) * 2013-01-23 2013-05-01 北京理工大学 Word文档中参考文献编排装置
CN105095319B (zh) * 2014-05-23 2019-04-19 邓寅生 基于时间序列化的文档的标识、关联、搜索及展现的系统
CN105095320B (zh) * 2014-05-23 2019-04-19 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN104915449B (zh) * 2015-06-30 2018-11-09 河海大学 一种基于水利对象分类标签的分面检索系统及方法
CN106453449A (zh) 2015-08-06 2017-02-22 泰兴市智瀚科技有限公司 信息即时推送的方法和分布式系统服务器
CN106202019B (zh) * 2016-07-14 2018-12-11 长安大学 一种更改word/wps文档中参考文献上标顺序及编号顺序的方法
CN106844698B (zh) * 2017-01-26 2020-07-10 四川省和信源创劳务有限公司 一种数字云服务平台
CN106844714A (zh) * 2017-02-08 2017-06-13 河海大学常州校区 一种知识库管理系统
CN107122436A (zh) * 2017-04-19 2017-09-01 重庆水利电力职业技术学院 大数据统计分析系统
CN108304531B (zh) * 2018-01-26 2020-11-03 中国信息通信研究院 一种数字对象标识符引用关系的可视化方法及装置
CN108804863A (zh) * 2018-05-04 2018-11-13 深圳晶泰科技有限公司 通用力场数据库及其更新方法和检索方法
CN109726299B (zh) * 2018-12-19 2023-03-17 中国科学院重庆绿色智能技术研究院 一种不完备专利自动标引方法
CN110442670B (zh) * 2019-06-11 2023-05-26 天津交通职业学院 一种基于文本标引的消费者画像生成方法
US11250060B2 (en) * 2020-04-03 2022-02-15 Carlos E. Lopez-Nieto Graphic representation of the composition of a database and selection tool
CN111523019B (zh) * 2020-04-23 2023-05-09 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112052369A (zh) * 2020-08-27 2020-12-08 安徽聚戎科技信息咨询有限公司 一种大数据智能检索方法
CN112434125A (zh) * 2020-11-30 2021-03-02 中国人寿保险股份有限公司 索引结构、非结构化数据的检索方法、装置和设备
CN112948533A (zh) * 2021-04-13 2021-06-11 天津禄智技术有限公司 一种多次检索和排序的文本检索方法
CN113190692B (zh) * 2021-05-28 2022-06-24 山东顺势教育科技有限公司 一种知识图谱的自适应检索方法、系统及装置
CN114238588B (zh) * 2022-02-24 2022-06-17 江西医之健科技有限公司 数据检索方法、系统、可读存储介质及计算机设备
CN114860778A (zh) * 2022-05-30 2022-08-05 上海博般数据技术有限公司 电网计量数据的检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999005614A1 (en) * 1997-07-23 1999-02-04 Datops S.A. Information mining tool
CN1410915A (zh) * 2002-11-18 2003-04-16 北京慧讯信息技术有限公司 自主智能异构数据集成系统及方法
JP2004206629A (ja) * 2002-12-26 2004-07-22 Hitachi Ltd 異種データソース統合検索サーバシステム
CN1713176A (zh) * 2004-06-24 2005-12-28 华夏科技股份有限公司 动态对象存取系统及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US7523114B2 (en) * 2000-04-24 2009-04-21 Ebay Inc. Method and system for categorizing items in both actual and virtual categories
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
US20040221236A1 (en) * 2001-09-20 2004-11-04 Choi Kam Chung Happy, interesting, quick learning inputting method of Chinese characters in stroke character pattern codes
GB2382170B (en) * 2001-11-16 2005-04-13 Inventec Corp Method for synchronously updating screen data of database application program at clients over network
CN1432943A (zh) * 2002-01-17 2003-07-30 北京标杆网络技术有限公司 标杆智能搜索引擎系统
JP4634736B2 (ja) * 2004-04-22 2011-02-16 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999005614A1 (en) * 1997-07-23 1999-02-04 Datops S.A. Information mining tool
CN1410915A (zh) * 2002-11-18 2003-04-16 北京慧讯信息技术有限公司 自主智能异构数据集成系统及方法
JP2004206629A (ja) * 2002-12-26 2004-07-22 Hitachi Ltd 異種データソース統合検索サーバシステム
CN1713176A (zh) * 2004-06-24 2005-12-28 华夏科技股份有限公司 动态对象存取系统及方法

Also Published As

Publication number Publication date
DE112007000053T5 (de) 2008-08-28
SMP200800032B (it) 2008-05-14
US20080235190A1 (en) 2008-09-25
CN1845104A (zh) 2006-10-11
CN1845104B (zh) 2012-04-25
KR20070112730A (ko) 2007-11-27
SMAP200800032A (it) 2008-05-14
JP2007317188A (ja) 2007-12-06

Similar Documents

Publication Publication Date Title
WO2007143899A1 (fr) Système et procédé pour l'extraction intelligente et le traitement d'informations
US6980976B2 (en) Combined database index of unstructured and structured columns
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
US10394803B2 (en) Method and system for semantic-based queries using word vector representation
KR100911910B1 (ko) 삼원모형을 기초로 하는 정보 검색 처리방법
Bellare et al. Woo: A scalable and multi-tenant platform for continuous knowledge base synthesis
US9063957B2 (en) Query systems
Remi et al. Domain ontology driven fuzzy semantic information retrieval
Bordawekar et al. Exploiting Latent Information in Relational Databases via Word Embedding and Application to Degrees of Disclosure.
Tzitzikas et al. Mediators over ontology-based information sources
Yellepeddi et al. Accurate approach towards efficiency of searching agents in digital libraries using keywords
Peng et al. Answering top-K query combined keywords and structural queries on RDF graphs
Chang et al. A normalization framework for multimedia databases
Croft et al. Search engines
WO2012091541A1 (en) A semantic web constructor system and a method thereof
Lin et al. Towards heterogeneous keyword search
De Melo et al. Searching the web of data
Beneventano et al. A mediator-based approach for integrating heterogeneous multimedia sources
Baeza-Yates et al. of the" XML and information retrieval" workshop held at SIGIR'2002, Tampere, Finland, Aug 15th, 2002
He et al. A method of RDF fuzzy query based on no query language service with permutated breadth first search algorithm
Zhang et al. A new query processing scheme in a Web Data Engine
Jia et al. Supporting Movie Production: A Recommender Approach
JP2002334099A (ja) 分散マルチメディア情報の検索装置、検索方法、プログラムおよび記録媒体
Kumaran Multilingual information processing on relational database architectures
Shaochen The research on domain-oriented information resource management and retrieval

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 11918551

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07721235

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 1120070000538

Country of ref document: DE

RET De translation (de og part 6b)

Ref document number: 112007000053

Country of ref document: DE

Date of ref document: 20080828

Kind code of ref document: P

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 20-02-2009)

122 Ep: pct application non-entry in european phase

Ref document number: 07721235

Country of ref document: EP

Kind code of ref document: A1