WO2011123993A1 - 数据集成平台 - Google Patents

数据集成平台 Download PDF

Info

Publication number
WO2011123993A1
WO2011123993A1 PCT/CN2010/000504 CN2010000504W WO2011123993A1 WO 2011123993 A1 WO2011123993 A1 WO 2011123993A1 CN 2010000504 W CN2010000504 W CN 2010000504W WO 2011123993 A1 WO2011123993 A1 WO 2011123993A1
Authority
WO
WIPO (PCT)
Prior art keywords
query
data integration
results
service
data
Prior art date
Application number
PCT/CN2010/000504
Other languages
English (en)
French (fr)
Inventor
张宝宇
Original Assignee
北京宇辰龙马信息技术服务有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京宇辰龙马信息技术服务有限公司 filed Critical 北京宇辰龙马信息技术服务有限公司
Publication of WO2011123993A1 publication Critical patent/WO2011123993A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases

Definitions

  • the present disclosure generally relates to the field of data integration platforms. Background technique
  • One embodiment of the present disclosure describes a data processing platform that includes a query processing module and a response collection module.
  • the query processing module is configured to receive the query and translate the query into some suitable form for querying various sources.
  • the response collection module is configured to collect results from various sources and provide results based on the translated query.
  • Another embodiment of the present disclosure describes a data integration method that includes the steps of: receiving a query and translating the query into some suitable form for querying various sources; Translated queries that collect results from a variety of sources and provide results.
  • FIG. 1 shows a schematic overview of a data integration platform (DIP) 100 in accordance with an exemplary embodiment
  • FIG. 2 shows a schematic diagram of a data integration platform (DIP) 100 in accordance with an exemplary embodiment
  • FIG. 3 shows a schematic diagram of a function annotation process in accordance with an exemplary embodiment
  • FIG. 4 is a schematic diagram showing a three-layer structure of functions of a DIP according to an exemplary embodiment
  • FIG. 5 shows a schematic diagram of a data integration method based on multiple DIPs according to an exemplary embodiment
  • FIG. 6 shows a result presentation diagram according to an exemplary embodiment.
  • the present disclosure is primarily directed to methods, apparatus, computer programs, computer readable media and systems for storing computer programs associated with a data integration platform.
  • FIG. 1 shows a schematic overview of a data integration platform (DIP) 100.
  • the DIP includes a query processing module 101 that is configured to receive the original query 104 and translate the original query 104 into some suitable form for querying various sources 103.
  • the DIP 100 also includes a response collection module 102 that is configured to collect some results 105 from various sources 103 based on the translated query and provide results 106.
  • the original query can be received from client computer device 108.
  • query processing module 101 includes a query translator (QT) 201.
  • the response collection module 102 includes a query bridge (QB) 202, and a result assembler (RA) 203.
  • the query translator 201 receives the original query 104, such as a keyword query, and translates it into an internal representation or a unified form - for example, based on a request parser or the like. The translated query is then passed to the query bridge 202.
  • the query bridge 202 includes an adapter 2021, a query invoker 2022, and a result collector 2023.
  • the adapter 2021 generates a correct or targeted statement or representation required by the application interface based on information from each data source (eg, basic query mode, method of retrieving data, etc.).
  • the generated statement is passed to a query invoker 2022 that invokes a query service provided by each database system.
  • the query invoker 2022 distributes, gp, each generated statement to the data source for which it is directed or corresponding.
  • Data sources 206, 207, and 208 receive their respective statements and run the query at the data source.
  • the result collector 2023 is from various services such as the database 206, the API 207, and the Internet service. 208 and other sources collect results.
  • the results collector 2023 can be constructed with a crawling module that crawls results on the Internet, a local area network, or a database.
  • the result collector 2023 can also be configured to collect results through programmable access points, such as API 207 and network service 208.
  • Adapter 2021 also converts the structure and form of heterogeneous query results into a unified internal representation. Adapter 2021 can be specifically constructed for each known source. Results obtained from multiple data sources may take various forms, namely text form, URI representing a chart, hyperlinks, etc., subsequent data tables that can be converted to HTML table targets; an error message, and so on.
  • the result assembler 203 processes the query results, such as analyzing the consistency of the cross-query results, identifying conflicting and contradictory results, filtering the duplicated records, and generating a collated result set or result 106.
  • the DIP may also contain a query domain knowledge database 205 as an assistant to the DIP.
  • the knowledge database can include query keyword data. This type of data helps adapter 2021 generate the correct query for different sources. Taking a complex ID system as an example, the knowledge database contains the mapping relationship of genes, so that only one ID (gene identification) is input, and the adapter 2021 will automatically generate a database query with correct but different keywords. After multiple queries, different forms of data are returned to the requester, and the query domain database 205 assists in "understanding" the meaning of the results and combining them into standardized results. It will be appreciated that this feature can be implemented using a mapping system at the back end application. For example, ontology can be used to provide a unified conceptual model in the field. During the training process, the key words are appended to their mapping to the concept ontology, and the keyword is kept up-to-date by learning from the usage history. A keyword can be mapped to multiple ontology concepts.
  • the online submitted keywords are first analyzed based on the back-end mapping system to identify their unified ontology concepts and corresponding keywords mapped to the same ontology concept in different databases.
  • DIP is very intelligent and can automatically operate on different Internet sites/databases using only one type of input. This multi-source data is provided for analysis by scientists.
  • the DIP can accept different types of query requests, including query requests for a certain data type or multiple data types, a platform or a cross platform.
  • the query can also be presented in the form of a biological model, which is used to represent all relevant information, including basic genetic information, experimental results, functional annotations, and The conclusion.
  • the submitted query can be first embodied using a uniform expression. For example, it can be encoded into XML. Then, according to the interface definition of different Internet databases, the unified query is translated into different forms.
  • DIP contains knowledge of conversion rules. For example, it is standard SQL, or a parameterized API. One assumption here is that Internet databases follow certain standard interfaces.
  • a controller can be provided to control the operation of one or two modules. Therefore, it is also possible to selectively include a process management module.
  • the process management module is configured to receive an instruction from an external device and execute the instruction to direct the operation of each module, such as the query translator 201, the adapter 2021, and the result assembly 203.
  • the adapter may also include a service mashup module for providing data integration with process context awareness.
  • a process consists of data processing and analysis operations.
  • a service matching module is configured to integrate data along with their annotations into a single process.
  • the service matching module may include three parts: 1) a functional service pool 301 where a service description is stored; 2) a process qualification 302 for organizing the service into a process and providing a process description; 3)
  • the process engine 303 is used to bind and call the service specified in the process. When a procedure is invoked, the process engine 303 loads the process definition 302 and finds the service in the functional service pool 301.
  • Process definition 302 defines data flow and control flow between different functional services.
  • the two services SA and SB are defined to be called sequentially, and the output of the service SA is the input of the immediately following service SB.
  • Feature Service Pool 301 contains a description of the feature annotation services and tools.
  • the tools in pool 301 are packaged as (back wrapped as) Internet services to support dynamic binding methods.
  • Each service such as a third party annotation service and a packaged service, is described, for example, in OWL-S.
  • ServiceProfi le provides a high-level description of services and service providers to promote, invoke, and match the service, including descriptions of service profiles, service functions, and functional attribution.
  • ServiceGrounding defines a mapping from an abstract description to a specific description that specifies the specific details of the access service, such as protocol, message format, serialization, transfer, and addressing.
  • ServiceModel describes the service capabilities that enable service invocation, composition, and monitoring.
  • the feature service pool 301 maintains all services and tools such as "atomic processes" for binding and invocation by the process engine 303.
  • pool 301 can maintain a list of URLs for a service that can be obtained. It can maintain links, categorize services, and bind to services as needed.
  • Service Engine 303 explains the process description. For each function in the process definition, it finds a specific service, binds, and invokes the service in pool 301 for execution.
  • Process definition 302 is defined as XML.
  • Process qualification 302 extends OWL-S to support dynamic binding. Similar to 0WL_S, process qualification 302 also describes how the process is combined. The OWL-S provides a good reference on how to describe a combination process. The combination process can be broken down into other (non-combined or combined) processes, and control constructs such as Sequence and If-Then-Else can be used to specify their disassembly. Unlike 0WL_S, the non-removable process is not an "atomic process.” In other words, the 0WL-S process qualification can be seen as a set of "atomic processes” and “combination processes", and some control construct information.
  • process qualification 302 includes control constructs, "combination procedures", and "AtomicServiceStub” (instead of "atomic processes” in OWL-S).
  • “AtomicServiceStub” defines the non-removable process as a service type that includes a set of mutually replaceable services that perform the same operation. For example, both Google and Yahoo can search for text on the Internet. Therefore, these two applications can be divided Classes are in the same "AtomicServiceStub".
  • the extended OWL-S process execution engine is designed as a process engine 303 to construct and execute service processes.
  • Process Limit - The 302 engine is used to determine which services need to be bound and invoked. In each step, which specified service will be bound and invoked depends on two factors: 1) an external decision, which can be received from the process management module; and 2) an engine decision. External decisions are seen as external preferences. The outside has the privilege to select a service that has a higher priority than the engine decides. The engine decision is a situational awareness calculation. Service scenarios include service loading, quality of service, and other service-related information. Functional annotation is an iterative process of external interaction. The external can decide what to do based on the previous results and his/her preferences.
  • Fig. 4 shows a schematic diagram of a three-layer structure of the function of DIP according to an exemplary embodiment.
  • the three layers include a data layer 401 for metadata and vocabulary management; a knowledge layer 402 for information modeling, analysis and knowledge discovery; and a service layer 403 for providing external services.
  • metadata management and processing such as metadata management 4012 and metadata mapping 4013, are performed.
  • a metadata-based model is defined for the standard vocabulary 4011 definition.
  • the data provider can log in and provide data content that is compatible with the metadata or a mapping rule that tells the DIP from its local vocabulary to the central standard.
  • the knowledge layer 402 provides different perspectives on the information, including a direct view angle 4024 for data retrieval, a model library perspective 4023 based on specific "rules” such as “central rules” to link and integrate data. , and a summary angle of 4025 with statistical and personal information. Quality control mechanisms such as source 4021 and rating 4022 are applied to all information throughout the entire cycle of information. Based on the extracted information, mining 4026, discovery 4027, and management 4028 knowledge 4029.
  • the data provider is provided with information related to the login 4031, and services such as data classification 4032, modeling 4033, and annotation 4034 are provided, so as to further Good understanding of the data.
  • a service associated with query 4035 is provided by personalization agent 4036, which is capable of identifying - personal interests and accumulating knowledge for personal service.
  • the service will trigger interpreter 4037 to interpret the query and trigger integration 4038 on the returned results.
  • FIG. 5 shows a schematic diagram of a data integration method based on multiple DIPs.
  • the provider or registrant 5014 logs the source 5012 to the DIP 501 for disclosure and retrieval. It can also convert its data to the standard form defined by DIP 501 via a package 5013.
  • the package is a widely used design pattern in software development. When different software parts or subsystems are integrated, they may not be coordinated with each other due to inconsistent interface definitions, for example, due to functional naming, parameter naming, or semantics.
  • a simple way to solve this problem is to add the packages to the functions that are connected to each other. This package converts the interfaces to each other.
  • the provider or registrant can submit the conversion rules along with their data pattern information to the DIP 501, leaving the conversion work to the DIP 501.
  • the DIP 501 can also obtain the source 5015 by crawling on the Internet, for example by using a crawl module. In this way, it requires the data provider to display standard services for the DIP 501 for DIP 501 understands its data form and semantics.
  • DIP 501 can return a response in a variety of ways. You can use an asynchronous method. For example, event-based notifications and topic subscriptions are asynchronous technologies that can be used for DIP structures.
  • a set of DIPs (501, 502, 503) are combined, they are dynamic and extensible.
  • DIP (501, 502, 503) can be divided and collaborated based on standard protocols.
  • a DIP can focus on specifying tasks such as providing small-scale data services.
  • DIP (501, 502, 503) can be classified into different realms.
  • One DIP can focus on high-throughput genetic data services, while another DIP can focus on compound data services.
  • DIP (501, 502, 503) keeps reference to other DIPs and establishes cooperation at runtime through the protocol. They have the flexibility to participate in cooperation or abandon cooperation.
  • query translator 201 receives query 104, such as a keyword query, and converts it into an internal representation or a correct form.
  • the internal representation is further converted by the adapter 2021 into a targeted statement or representation required by the application interface.
  • a targeted statement is distributed to each database system by the invoker 2022.
  • the data collector 2023 collects the results on the Internet and a local area network, or collects the results through a programmable access point, which is converted to a unified form by the adapter 2021.
  • the result assembler 203 will process the results further. For example, it can analyze the consistency of results, identify conflicting and contradictory results, filter duplicates, and produce a collated set of results.
  • personalized services can be provided, for example through personalized agents.
  • the query or result is processed or presented based on personal interests and transaction history.
  • the method also includes providing data integration with process context awareness, such as through a service matching module, as described with reference to FIG. Instance
  • the data integration platform now supports linear chart views and table views of query results. It provides connectivity to two services: 1) KEGG Path Service, which helps users at external devices understand behavior and biological efforts during life activities; and 2) DAVID/G0 services, which provide genetic information, including chromosomes, Location, disease, alias, path name, etc. Users at external devices can query the database with the default keyword "PTGS2" and the default platform filter "U95", one of the widely used chip families from Affymetrix's company. They can also enter official gene names and select platforms via the collapsed options panel.
  • the results of the query can be displayed in three views: ' 1 ) A summary of the statistics displayed in the results view 602 on the left panel, with a list of gene names and their number of visits; 2) results of tissue and cell line information in the data table view 610. In this view, experimental results are collected and presented in a table for scientists to obtain standardized data values; and 3) a linear chart of values in chart view 612.
  • the KEGG service 606 call has two steps.
  • the first step is the path query.
  • Each path has its own hyperlink (eg, Arachidonic Acid Metabol i sm).
  • the second step actually presents a path diagram similar to that shown in Figure 6.
  • This call is supported by the ID translation process between different ID systems, which is transparent to the end user.
  • the back end has an ID mapping system.
  • the system can be implemented, for example, in a relational database, XML, or multidimensional database.
  • the ID is mapped as a key to a unified internal representation.
  • the system defines a mapping for each ID in each system. Therefore, the query ID is first translated into a uniform internal representation and then translated into other IDs in other systems.
  • Each element in the path graph is a hotspot that can be clicked to generate new queries and open web pages from the KEGG website.
  • the KEGG website contains specific information on enzymes, genes or organic organizations.
  • the David Gene Ontology Service 608 can also be selected for analysis operations.
  • the David service is simplified by limiting service parameters.
  • users can apply their personalized requests by setting annotation types, genetic ID systems, keywords, and service tool preferences.
  • the FunGene system automatically generates the correct ID system and keyword parameters based on previous queries.
  • the feature service caller sets "Tools” to "Gene Report” and "Comment Type” to "GOTERM BP AI" (including all biological process notes). The results are presented in a data table and are also displayed in the label.
  • Information bearing media include, but are not limited to, the following: recordable media, such as floppy disks, hard drives, compact discs (CDs), digital video/digital versatile discs (DVDs), digital tapes, computer memories, etc.; , such as digital and / or analog communication media (such as fiber optic cable, waveguide, wired communication links, wireless communication links, etc.).
  • a typical data processing system typically includes one or more system unit housings, a video display device, a volatile and nonvolatile memory, such as a microprocessor and digital signal processor.
  • a processor such as a computing entity such as an operating system, a driver, a graphical user interface, and an application, one or more interactive devices, such as a touchpad or screen, and/or a control system, including feedback loops and controls Engine (such as feedback for sensing position and speed; controlling engine for moving and/or adjusting components and/or quantities).
  • a control system including feedback loops and controls Engine (such as feedback for sensing position and speed; controlling engine for moving and/or adjusting components and/or quantities).
  • a typical data processing system may utilize any suitable commercial components, such as those commercially available in data computing/communication and/or network computing/communication systems.
  • operability include, but are not limited to, physically configurable and/or physically interacting components and/or wirelessly interactable and/or wirelessly interacting components and/or logically interacting and/or Logically interactive parts
  • the present disclosure is not limited to the specific embodiments described in the application, which are intended to be illustrative of the various aspects. It will be apparent to those skilled in the art that the present invention may be modified and modified without departing from the spirit and scope. It will be apparent to those skilled in the art that ⁇ RTIgt; ⁇ /RTI> ⁇ RTIgt; ⁇ /RTI> ⁇ RTIgt; ⁇ /RTI> ⁇ RTIgt; Such modifications and variations are considered to be within the scope of the appended claims. The present disclosure is to be limited only by the scope of the appended claims and the claims. It is understood that the terminology used herein is for the purpose of describing the particular embodiments

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

数据集成平台 技术领域
本公开内容总体涉及数据集成平台领域。 背景技术
当越来越多的数据库可通过门户网站、可编程接口等从因特网等网络获取时, 基于互 联网的数据库和数据的集成变得越来越重要。 然而, 由于数据形式、 结构和语义上存在的 异构问题, 难以获取和集成多样化的数据。存储在因特网上的数据可能借助于不同的方法 进行了处理, 这使它们彼此间难以相互比较, 以及可能因不一致的技术术语和命名习惯而 彼此不一致, 甚至彼此冲突。 一些数据甚至存在严重的质量问题, 例如, 它们可能是有很 多噪声的, 并且并不可靠。这些数据还可能缺少一些内部相关性注释来支持生物信息学上 常做的跨学科分析。 发明内容
本公开内容的一个实施方案描述了一种数据处理平台,其包括査询处理模块和响应收 集模块。该査询处理模块被构造为接收查询, 并将该査询翻译成一些适当的用于对各种源 进行査询的形式。 响应收集模块被构造为根据所述经翻译的査询, 从各种源收集结果, 并 提供结果。
本公开内容的另一个实施方案描述了一种数据集成方法, 其包括以下步骤: 接收査询 并将该査询翻译成一些适当的用于对各种源进行査询的形式; 以及根据所述经翻译的查 询, 从各种源收集结果, 并提供结果。
以上是综述, 因此必然涵盖了对细节的简化、 概括以及省略; 所以, 本领域普通技术 人员将明白该综述只是示例性的, 并不意在构成任何限制。 所述器件和 /或过程的其他方 面、 特征、 优点和 /或本文描述的其他主题将通过本文所给的教导而变得清楚。 综述的提 供意在以一种简化的方式引入对概念的选取, 而该概念的具体内容将稍后做进一步说明。 该综述并不意在明确表明所要求保护主题的关键特征或必要特征,也并不用于辅助限定所 要求保护的主题的范围。 附图说明
本公开内容的上述特征和其他特征将通过以下描述、所附权利要求以及附图而变得更 为清楚。 应理解, 这些附图只是描述了本公开内容的几个实施方案, 因此, 它们并不被考 虑用于限制本公开内容的范围, 借助于这些附图, 将对本公开内容的更多说明和细节进行 描述。 图 1示出了根据一示例性实施方案的数据集成平台 (DIP) 100的示意性概图; 图 2示出了根据一示例性实施方案的数据集成平台 (DIP) 100的示意图;
图 3示出了根据一示例性实施方案的功能注释过程的示意图;
图 4示出了根据一示例性实施方案的 DIP的功能的三层结构的示意图;
图 5示出了根据一示例性实施方案的基于多个 DIP的数据集成方法的示意图; 图 6示出了根据一示例性实施方案的结果呈现图。
-具体实施方式
在以下详细描述中, 参考了附图, 所述附图构成本公开内容的一部分。 在附图中, 相 同的符号一般表示相同的部分, 除非上下文另有说明。 具体说明、 附图以及权利要求中所 描述的说明性的实施方案并不意在构成限制。可以利用其他实施方案,以及进行其他改变, 这些并不脱离此处所给主题的精神和范围。 易于理解的是, 可以以各种不同的构造布置、 替换、组合和设计本公开内容中如此处从整体上加以描述和图示的那些方面, 所有这些都 被确切预期并构成本公开内容的一部分。
本公开内容主要涉及一些与数据集成平台有关的方法、 装置、 计算机程序、 存储计算 机程序的计算机可读介质以及系统。
图 1示出了数据集成平台 (DIP) 100的示意性概图。 DIP包括查询处理模块 101, 其 被构造为接收原始査询 104, 并将该原始査询 104翻译成一些适当的用于对各种源 103进 行査询的形式。 DIP 100还包括响应收集模块 102, 其被构造为根据所述经翻译的查询, 从各种源 103收集一些结果 105, 并提供结果 106。 原始查询可以接收自客户计算机设备 108。
在一示例性实施方案中, 査询处理模块 101, 例如如图 2所示, 包括査询翻译器(QT ) 201。 响应收集模块 102包括査询桥 (QB ) 202, 以及结果集结器 (RA) 203。 查询翻译器 201接收诸如关键词査询之类的原始査询 104, 并将其翻译成内部表达或统一的形式一一 例如基于请求分析器 (request parser ) 等。 接着, 将所述经翻译的查询传送至查询桥 202。
- 査询桥 202包括适配器 (adapter ) 2021、 查询调用器 2022以及结果收集器 2023。 该适配器 2021基于每个数据源的信息 (如, 基本的査询模式、 检索数据的方法等) , 生 成应用接口所要求的正确的或针对性的陈述或表达。将生成的陈述传送至调用每个数据库 系统提供的査询服务的查询调用器 2022。 査询调用器 2022分发, gp, 传送每个生成的陈 述至其所针对的或对应的数据源。 数据源 206、 207和 208接收各自对应的陈述并在数据 源处运行査询。 结果收集器 2023通过各种方式从诸如数据库 206、 API207和互联网服务 208等各种源收集结果。例如, 结果收集器 2023可以被构造具有一个抓取模块(crawl ing module ) , 该抓取模块在因特网、 局域网或数据库上抓取结果。 结果收集器 2023还可以 被构造为通过可编程接入点, 如 API207和网络服务 208, 来收集结果。 适配器 2021还将 异构的査询结果的结构和形式转换为统一的内部表达。 适配器 2021可以针对每个已知源 来具体地构造。 从多个数据源获取的结果可能具有各种形式, 即文本形式、 表示图表的 URI、 超链接等、 后续可以转化为 HTML 表目标的数据表; 一个错误消息等。 结果集结器 203处理査询结果, 例如分析交叉查询结果的一致性、 识别冲突和矛盾的结果、 过滤重复 的记录以及产生一整理过的结果集或结果 106。
DIP还可以包含一个作为 DIP的助理的查询域知识数据库 205。 该知识数据库可以包 括査询关键词数据。 这类数据帮助适配器 2021针对不同的源生成正确的查询语句。 以复 杂的 ID系统为例, 知识数据库含有基因的映射关系, 从而只需输入一个 ID (基因标识), 适配器 2021将以正确但不同的关键词自动生成数据库査询语句。 在多个查询以后, 将不 同形式的数据返回到请求者, 而査询域数据库 205协助 "理解"结果的意思, 并将它们组 合到标准化的结果中。 可以理解的是, 该特征可以利用后端应用处的映射系统来实现。 例 如, 可以利用本体 (ontology )来提供该领域里的统一的概念模型。 在训练过程中, 关键 词被附加上其到概念本体 (concept ontology ) 的映射, 以及该关键词通过从使用历史进 行学习来保持更新。 一个关键词可以被映射到多个本体概念。
因此首先基于后端映射系统分析在线提交的关键词, 以识别其统一的本体概念, 以及 不同数据库中映射到该相同的本体概念的相应关键词。
在这种知识的辅助下, DIP非常智能, 能够使用仅仅一个类型的输入, 自动地对不同 的互联网站点 /数据库进行操作。 该多源数据被提供用以供科学家进行分析。
在上述描述中, DIP可以接受不同方式的査询请求, 包括对某一个数据类型或多个数 据类型、某一平台或交叉平台等的査询请求。在知识系统或查询域知识数据库 205的支持 下, 也可以以生物模型的形式提出查询, 所述生物模型用以表示所有相关的信息, 包括基 本的基因信息、 实验结果、 功能注释以及所推得的结论。 可以使用统一的表达首先将所提 交的査询具体化。例如, 它可以被编码进 XML。然后根据不同的互联网数据库的接口限定, 将统一的査询翻译成不同的形式。
DIP含有转换规则方面的知识。 例如, 它是标准的 SQL, 或参数化的 API。 此处的一 个假设是互联网数据库遵循某些标准接口。
在数据集成过程中, 可以提供控制器来控制一个或两个模块的运行。 因此, 还可以选 择性地包括一个过程管理模块。该过程管理模块用于接收来自外部设备的指令, 并执行该 指令, 以引导每个模块的运行, 所述模块如査询翻译器 201、 适配器 2021 以及结果集结 器 203。
在一些实施方案中, 适配器还可以包括服务糅合模块 (service mashup module ) , 其用于提供有过程情景意识的数据集成。 一个过程由数据处理和分析操作组成。 例如, 当 一个如上所述的数据集成平台用于生物领域时,一服务糅合模块被构造为将数据连同它们 的注释集成到一个过程中。 如图 3所示, 服务糅合模块可以包括三个部分: 1 ) 功能服务 池 301, 在该处存储了服务描述; 2 )过程限定 302, 用以将服务组织成为一个过程以及提 供过程说明; 以及 3 ) 过程引擎 303, 用以绑定并调用过程中指定的服务。 当调用一个过 程时, 过程引擎 303装载过程限定 302, 并找出功能服务池 301中的服务。 在过程执行中 提供动态绑定和调用过程。过程限定 302限定不同功能服务之间的数据流和控制流。例如, 限定两个服务 SA和 SB依序被调用, 服务 SA的输出是紧随的服务 SB的输入。对于这种工 作流和数据说明有一些标准。 例如, 用于工作流说明的 BPEL4WS和 0WL-S, 以及用于数据 流说明的 SCA/SD0。
功能服务池 301 包含对功能注释服务和工具的描述。 池 301 中的工具被打包成 (be wrapped as ) 互联网服务, 用以支持动态绑定方法。 每个服务, 如第三方注释服务以及被 打包的服务例如以 OWL- S来描述。 在 OWL- S中, " ServiceProfi le "提供了对服务及服务 提供者的高级别描述, 以便推广、 调用和牵线该服务, 所述描述包括服务概要描述、 服务 功能以及功能归属。 " ServiceGrounding" 限定了从抽象描述到具体说明的映射, 其指定 了访问服务的具体细节, 如协议、消息格式、序列化、传送以及寻址等。 "ServiceModel " 描述了使实现服务调用、 组合和监控等的服务能力。 0WL-S 中所描述的 "原子过程" 用 于……。 结果是, 功能服务池 301保持了如 "原子过程"的所有服务和工具, 以供过程引 擎 303来绑定和调用。 作为服务池管理, 池 301可以保持一张可获取的服务的 URL列表。 它可以维持链接、 分类服务以及根据需要绑定到服务等。 服务引擎 303解释该过程说明。 对于过程限定中的每个功能, 它在池 301中找到具体服务、 绑定并调用服务, 用于执行。
过程限定 302被限定成 XML。过程限定 302扩展 OWL- S至支持动态绑定。类似于 0WL_S, 过程限定 302还描述该过程是如何组合的。该 OWL- S在如何描述一组合过程方面提供了良 好的参考。组合过程可以被拆解成其他(非组合的或组合的)过程,可以使用诸如 Sequence 和 If-Then-Else 的控制构造来规定它们的拆解。 不同于 0WL_S, 不可拆解的过程不是一 个"原子过程"。换言之, 0WL-S过程限定可以被看成一组"原子过程"以及"组合过程", 和一些控制构造信息。 但是过程限定 302 包括控制构造、 "组合过程" 以及 " AtomicServiceStub " (而不是 OWL- S中的 "原子过程" ) 。 "AtomicServiceStub " 限 定了不可拆解过程作为一个服务类型, 其包括一套可完成相同运行的可互相取代的服务。 例如, Google和 Yahoo两者都可以在互联网上搜索文本。 因此, 这两个了应用可以被分 类到相同的 " AtomicServiceStub " 中。
扩展的 OWL- S过程执行引擎被设计为过程引擎 303, 以构造和执行服务过程。 过程限 -定 302引导引擎来决定需要绑定和调用哪种服务。在每个步骤中, 哪种指定的服务将被绑 定和调用取决于两个因数: 1 ) 外部决定, 其可以从过程管理模块接收; 以及 2 ) 引擎决 定。 外部决定被看成是外部的偏好。 外部具有选择服务的特权, 该选择具有比引擎决定更 高的优先权。 引擎决定是有情景意识的计算。 服务情景包括服务装载、 服务质量以及其他 与服务有关的信息。 功能注释是外交互式的迭代过程。 外部可以基于之前的结果以及他 / 她的偏好来决定所要进行的运行。
DIP可以运行在客户计算设备上。 它也可以基于互联网, 如 Web 2. 0/Web 3. 0来运行。 图 4示出了根据一示例性实施方案的 DIP的功能的三层结构的示意图。该三层包括数 据层 401, 其用于元数据和词汇管理; 知识层, 402, 其用于信息建模、 分析和知识发现; 以及服务层 403, 其用于提供外部服务。 在数据层 401, 执行元数据管理和处理, 诸如元 数据管理 4012以及元数据映射 4013。 例如, 针对标准词汇 4011定义限定基于元数据的 模型。数据提供者可以登录以及提供与元数据兼容的数据内容或告知 DIP从其本地词汇到 中心标准的映射规则。 在知识层 402, 它提供了对信息的不同的看待角度, 包括用于数据 检索的直接的看待角度 4024, 基于特定 "规则" , 如 "中心法则"等来链接和集成数据 的模型库角度 4023, 以及带有统计和个人信息的概要角度 4025。 在信息的整个循环过程 中, 对所有信息应用出处 4021以及分级 4022等质量控制机制。 基于所提取的信息, 挖掘 4026、 发现 4027 以及管理 4028知识 4029. 在服务层 403,向数据提供者提供登录 4031 相关的信息, 并提供数据分类 4032、 建模 4033以及注释 4034等服务, 以便更好地理解 数据。 通过个人化代理 4036提供与査询 4035有关的服务, 该个人化代理 4036能够识别 -个人兴趣, 并积累知识用于个人服务。 该服务将触发解释器 4037来解释该査询并触发对 所返回的结果的集成 4038。
图 5示出了基于多个 DIP 的数据集成方法的示意图。 如该图所示, 提供者或登录者 5014将源 5012登录到 DIP 501, 用于公开和检索。 它也可以通过一个包 5013将其数据转 换到 DIP 501所限定的标准形式。 包在软件开发上是广为应用的设计模式。 当集成不同的 软件部分或子系统时, 由于不一致的接口限定, 彼此间可能不协调,例如, 由于功能命名、 参数命名或语义不同。一种简单的解决该问题的方法是将包加入到彼此相通的功能中。 该 包将接口转换至彼此一致。 - 同时, 该提供者或登录者可以将转换规则连同其数据模式信息提交至 DIP 501, 从而 将转换工作留给 DIP 501。 该 DIP 501也可以通过在因特网上进行抓取来获取源 5015, 例 如通过使用抓取模块。 在这种方式中, 它要求数据提供者为 DIP 501显示标准服务, 以供 DIP 501理解其数据形式和语义。
DIP 501可以以各种方式返回响应。 可以使用异步方法。 例如, 基于事件的通知以及 主题订阅都是可用于 DIP结构的异步技术。
在图 5中, 一组 DIP ( 501, 502, 503 ) 结合在一起, 它们是动态的并且是可扩展的。 DIP ( 501, 502, 503 ) 可以基于标准协议来分工和协作。 为了避免通信和处理瓶径, 一个 DIP可以集中于提供小规模数据服务这样的指定任务。 例如, DIP ( 501, 502, 503 ) 可以 被分类到不同的领域中。一个 DIP可以集中于高吞吐量的基因数据服务, 而另一 DIP可以 集中于化合物数据服务。 DIP ( 501, 502, 503 ) 不停参考其他 DIP, 并通过协议在运行时 建立合作。 它们可以灵活地参与合作或放弃合作。
本公幵内容还提供了数据集成方法。 参考图 2, 查询翻译器 201接收查询 104, 如关 键词査询, 并将其转换成内部表达或正确的形式。 通过适配器 2021, 将该内部表达进一 步转换成应用接口所要求的针对性的陈述或表达。 通过调用器 2022将针对性的陈述分发 至每个数据库系统。 数据收集器 2023在因特网和局域网上收集结果, 或通过可编程接入 点收集结果, 通过适配器 2021, 该结果被转换为统一的形式。 结果集结器 203将进一步 处理结果。 例如它可以分析结果的一致性、 识别冲突和矛盾的结果、 过滤重复的 ¾录以及 产生一整理过的结果集。 同时, 可以提供个人化的服务, 例如通过个人化代理。 例如, 根 据个人兴趣和交易历史处理或呈现该查询或结果。
为了在数据集成过程中引导每个模块的运行,可以接受用户指令来引导每个模块的运 行。 同时, 该方法还包括提供有过程情景意识的数据集成, 例如通过服务糅合模块, 如参 考图 3所描述的。 实例
以下描述涉及在生物领域里的实施, 将参考图 6对其进行描述。 图 6示出了结果呈 现图。 .
外部设备处的用户希望找出一种药物的治疗效果以及所影响的基因。 从査询开始, 使用外部设备的用户可以在任何时刻选择所要査看的基因, 以及选择要调用的注释服务。 数据集成平台现在支持査询结果的线形图表视图和表格视图。 它提供到两个服务的连接: 1 ) KEGG路径服务, 其帮助外部设备处的用户理解生命活动过程中的行为和生物学努力; 以及 2 ) DAVID/G0服务, 其提供基因信息, 包括染色体、 位置、 疾病、 别名、 路径名等。 外部设备处的用户可以以默认关键词 " PTGS2 " 以及默认的平台过滤器 "U95 "来査询数据 库, " U95 "是来自 Affymetrix' '公司的被广为使用的芯片系列之一。 它们也可以输入正式 的基因名称以及通过折叠的选项面板选择平台。 查询结果可以以三种视图来显示: ' 1 ) 在 左面板上的结果视图 602内显示的简要统计, 其中有基因名称列表及它们的访问次数; 2 ) 数据表格视图 610中的组织和细胞系信息结果。在该视图中, 实验结果被收集和呈现在一 表格中, 以供科学家获取标准化的数据值; 以及 3 ) 图表视图 612中的值的线形图表。
后两种视图以分开的标签显示在图 6中。 科学家可以比较不同的结果视图, 以识别 重要的或不正常的点。
作为随后的一个步骤, 在工具视图 604中提供两个工具。 点击任何一个按钮将产生 在线服务调用。 该服务的结果将显示在主面板的一个新标签里。 KEGG服务 606调用具有 两个步骤。 第一步骤是路径査询。 每个路径具有其自己的超链接 (如, 花生四烯酸代谢 ( Arachidonic Acid Metabol i sm) ) 。 第二步骤实际上呈现类似于图 6所示的路径图表。 不同 ID系统之间的 ID翻译过程支持该调用, 该 ID翻译过程对终端用户是透明的。 在翻 译过程中, 后端有 ID映射系统。 该系统可以例如在关系数据库、 XML或多维数据库中实 施。 ID作为一个关键词被映射到统一的内部表达。 该系统限定了每个系统中的每个 ID的 映射。因此, 查询 ID首先被翻译成统一的内部表达, 然后被翻译成其他系统中的其他 ID。
路径图表中的每一个元是可以被点击以生成新的査询和打开来自 KEGG 网站的网页 的热点, KEGG网站包括了酶、 基因或有机组织在内的具体信息。
David基因本体服务 (David Gene Ontology Service ) 608还可以被选择为分析操 作。 作为示范, David 服务通过限制服务参数而被简化。 在原始的 David 服务中, 用户 可以通过设置注释类型、 基因 ID系统、 关键词以及服务工具的偏好来施加他的个人化请 求。 FunGene系统基于以前的査询自动生成正确的 ID系统和关键词参数。 此外, 功能服 务调用器将 "工具"设置为 "基因报告" 以及 "注释类型"设置为 "GOTERM BP AI " (包 括所有生物学过程注释) 。 该结果以数据表格呈现, 并且也显示在标签中。
系统的众多方面的硬件实施和软件实施差别很小, 使用硬件或软件通常 (但并非总 是, 因为在某些情景, 硬件和软件之间的选择可能变得非常不同)是一种代表了成本和效 应间的折中的设计选择。存在各种可以实现此处所描述的过程和 /或系统和 /或其他技术的 效果的方式, 而最为优选的方式则随该过程和 /或系统和 /或其他技术所实施的情景而变。 例如, 如果一个实施者确定速度和精确度是非常重要的, 实施者可以选择以硬件和 /或固 件实施方式为主; 如果灵活性是非常主要的, 那么实施者可以选择组合硬件、 软件和 /或 固件。
以上的详细描述通过使用方块图、 流程图和 /或实施例阐述了器件和 /或过程的各种 实施方案。 就这种方块图、 流程图和 /或实施例包含一个或多个功能和 /或运行而言, 本领 域普通技术人员将理解, 这种方块、 流程图或实施例中的每个功能和 /或运行可以由各种 硬件、 软件、 固件或其任意组合, 单独实施或组合实施。 在一个实施方案中, 此处所描述 的主题的几个部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA), 数字信号处 理器 DSP或其他集成形式来实施。然而, 本领域的普通技术人员将认识到此处公开的实施 方案的某些方面, 整体上, 或部分上, 可以作为一个或多个运行在一个或多个计算机上的 计算机程序(如, 作为一个或多个运行在一个或多个计算机系统上的程序) , 作为一个或 多个运行在一个或多个处理器上的程序(如作为一个或多个运行在一个或多个微处理器上 的程序) , 作为固件, 或作为其任意组合, 与集成电路等价地实施, 而且, 本领域普通技 术人员根据此处的公开完全有能力设计电路和 /或对软件和 /或固件写代码。此外, 本领域 普通技术人员将理解, 此处所描述的主题的机理能够转化成各种形式的程序产品, 以及无 论实际用于执行该转化的信息承载介质的类型为何,此处所描述的主题的示例性实施方案 都适用。 信息承载介质包括, 但不限于, 以下这些: 可记录型介质, 如软盘、 硬盘驱动、 压缩盘 (CD ) 、 数码影碟 /数字多用光盘 (DVD ) 、 数字磁带、 计算机存储器等; 以及传输 型介质, 如数字和 /或模拟通信介质 (如光纤光缆、 波导、 有线通信链接、 无线通信链接 等) 。
本领域普通技术人员将认识到, 在本领域内用此处所给的方式来描述设备和 /或过 程, 以及随后用工程实践将这种描述的设备和 /或过程集成到数据处理系统, 是常见的。 也就是说, 至少一部分此处所描述的设备和 /或过程可以通过适当量的实验被集成到数据 处理系统中。本领域普通技术人员将认识到典型的数据处理系统一般包括一个或多个系统 单元外壳、 一个视频显示设备、 一个易失和非易失存储器之类的存储器、 诸如微处理器和 数字信号处理器之类的处理器、 以及诸如操作系统之类的计算实体、 驱动器、 图形用户接 口, 以及应用程序、 一个或多个交互设备, 如触摸垫或屏, 和 /或控制系统, 包括反馈循 环和控制发动机(如用于感测位置和速度的反馈; 用于移动和 /或调整部件和 /或数量的控 制发动机) 。 典型的数据处理系统可以利用任何合适的商用部件, 如那些通常可以在数据 计算 /通信和 /或网络计算 /通信系统中找到的商用部件。
此处描述的主题有时候示出了含在其他不同部件内的或与其他不同部件连接的不同 部件。 要理解的是, 如此绘制的结构只是示例性的, 实际上, 可以实施其他很多也可以 完成同样的功能的结构。就概念上而言,用以实现同一功能的部件的布置实际上都是"关 联" 的, 以使实现所需功能。 因此, 此处所组合的用以实现一特殊功能的任意两个部件 可以看成是彼此 "关联的" , 从而使实现所需功能, 而不管结构或中间部件如何。 类似 地, 任何两个如此关联的部件也可以被看作彼此 "操作性地连接"或 "操作性地结合", 以获取所需功能。可操作性结合的具体实施例包括但不限于物理上可成对的和 /或物理上 相互作用的部件和 /或可无线交互的和 /或无线交互的部件和 /或逻辑上交互和 /或可逻辑 上交互的部件 本公开内容不限于该应用中所描述的具体实施方案,这些实施方案意在作为各方面的 示例性说明。 而如本领域普通技术人员很显然就能明白的是, 可以进行任何修改和变动, 这些修改和变动不脱离其精神和范围。通过前面的描述, 本领域普通技术人员很显然就看 到很多此处所例举的方法和装置之外的、 落在本公开范围内的功能上等价的方法和器件。 这种修改和变动都被考虑落在所附权利要求内。本公开内容仅由所附的权利要求以及与这 些权利要求相等价的所有范围限定。应该理解, 此处所用的术语是仅仅用以描述特定实施 方案的, 并不是用以限制的。
对于此处所用的基本所有的复数和 /或单数术语, 本领域普通技术人员可以根据情景 和 /应用, 将复数切换到单数和 /或将单数切换到复数。 此处表达性地阐述的各种单数 /复 数改变只是为清楚起见而加以应用的。
本领域普通技术人员将明白, 总体上, 此处所用的术语, 特别是所附权利要求中的术 语一般都考虑成是 "幵放式"的术语 (如术语 "包括"应该解释成 "包括但不限于" , 术 语 "具有"应该解释成 "至少具有" ) 。 本领域人员将进一步理解, 如果要考虑所引入的 权利要求限定的具体数字, 这种意图会具体包括在权利要求中, 在没有这种限定的时候, 就不存在这种意图。例如,为促进理解,以下所附的权利要求可能包括使用引入性短语"至 少一个"以及 "一个或多个"来引入权利要求限定。 然而, 使用这种短语不应该被理解为 暗示了, 由不定冠词 "一"或 "一个"引入的权利要求限定将任何含有这种被引入的权利 要求限定的特定权利要求限制在仅仅含有一个这种限定的公开上,即便是相同的权利要求 包括了引入性短语 "一个或多个" 或 "至少一个" , 以及不定冠词, 如 "一"或 "一个" (如, "一"和 /或 "一个" 通常应该被解释为 "至少一个" 或 "一个或多个" ) ; 对于 使用定冠词来引入权利要求限定来说, 这同样成立。 此外, 即使具体包括了所引入的权利 要求限定的具体数字, 本领域普通技术人员将认识到, 这种限定通常应该被解释成至少所 限定的数字(如, 没有其他改变的, 纯粹的限定"两个限定", 通常意味着至少两个限定, 或两个或更多个限定) 。 而且, 当使用了类似于 " Α, Β和 C中的至少一个 " 时, 以本领域 普通技术人员能明白的习惯用法来考虑 (如, "一个具有 Α,Β,和 C中的至少一个的系统" 将包括但不限于那些仅仅具有 Α, 仅仅具有 Β, 仅仅具有(:, 以及具有 Α连同 Β, Α连同 C, 以及 B连同 C, 和 /或 A, B, C—起的系统等) 。 在使用了类似于 " Α, Β,或 C等中的至少一 个" 时, 以本领域普通技术人员能明白的习惯用法来考虑 (如, "一个具有 Α, Β,或 C中 的至少一个的系统"将包括但不限于那些仅仅具有 Α, 仅仅具有 Β, 仅仅具有 C, 以及具 有 A连同 B, A连同 C, 以及 B连同(:, 和 /或 A,B, C—起的系统等) 。 本领域普通技术人 员还将明白, 无论在说明书, 权利要求书还是在附图中, 实际上任何给出两个或多个替换 性术语的分离性词汇和 /或短语应被理解成包含了这样的可能性:包括术语中的其中一个, -任何一个, 或两个。 例如, 短语 " A或 B "将被理解为包括 " A "或 " B "或 " A和 B "这样 的可能性。
此外, 当所公开的特征或方面是对马库什组进行描述时, 本领域普通技术人员将认识 到该公开的描述还涉及了该马库什组的各个组成, 或这些组成的子组。
如本领域普通技术人员将明白的, 无论出于什么目的, 就提供书面描述而言, 此处所 公开的所有范围也涵盖了其所有可能的子范围或子范围的组合。任何列出的范围易于被方 便地认为是充分地描述了该范围被破解到并能够被破解成至少对半、 三等分、 四等分、 五 等分、 十等分等等。 作为非限制性实施例, 此处描述的每个范围易于被破解到较低的三分 之一, 中间的三分之一, 和上部的三分之一等等。 如本领域普通技术人员将会理解的, 诸 如 "上至" 、 "至少" 、 "大于" 、 "小于 "等语言包括了所限定的数字以及指示那些可 ' 以随后被破解到如上所述的子范围的范围。 最后, 如本领域普通技术人员将明白的, 一个 范围包括了每个单独的成员。 因此, 具有 1-3个细胞的组指示那些具有 1, 2 , 或 3个细 胞的组。 类似地, 具有 1-5个细胞的组指示那些具有 1, 2, 3, 4, 或 5个细胞的组, 以 此类推。
当此处公开各方面和各实施方案时,其他方面和实施方案对本领域普通技术人员来说 将是显而易见的。此处所公开的各个方面和实施方案只是出于说明的目的,并不意在限制, 实际的范围和精神由随后的权利要求来限定。

Claims

权 利 要 求
1 . 数据集成平台, 包括:
査询处理模块,其被构造为接收查询, 并将该査询翻译成一些适当的用于对各种源进 行査询的形式; 以及
响应收集模块,其被构造为根据所述经翻译的査询,从各种源收集结果,并提供结果。
2. 根据权利要求 1的数据集成平台, 其中响应收集模块被进一步构造为具有一个抓 取模块, 其用于在数据库、 因特网或局域网上抓取结果。
3. 根据权利要求 1的数据集成平台, 其中响应收集模块被进一步构造为通过可编程 接入点收集结果。
4. 根据权利要求 1的数据集成平台, 还包括査询域知识数据库。
5. 根据权利要求 1的数据集成平台, 还包括代理模块, 其被构造为提供个人化的服 务。
6. 数据集成方法, 包括- 接收查询;
将该査询翻译成一些适当的用于对各种源进行查询的形式;以及根据所述经翻译的査 询, 从各种源收集结果, 并提供结果。
7. 根据权利要求 6的数据集成方法, 其中该结果通过在数据库、 因特网或局域网上 抓取来收集。
8. 根据权利要求 6的数据集成方法, 其中通过可编程接入点收集结果。
9. 根据权利要求 6的数据集成方法, 还包括提供个人化服务。
10. 根据权利要求 7的数据集成方法, 其中个人化服务由代理模块提供, 该代理模块 识别兴趣并积累知识用于数据集成。
PCT/CN2010/000504 2010-04-09 2010-04-15 数据集成平台 WO2011123993A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010142918A CN101826108A (zh) 2010-04-09 2010-04-09 数据集成平台
CN201010142918.1 2010-04-09

Publications (1)

Publication Number Publication Date
WO2011123993A1 true WO2011123993A1 (zh) 2011-10-13

Family

ID=42690028

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2010/000504 WO2011123993A1 (zh) 2010-04-09 2010-04-15 数据集成平台

Country Status (2)

Country Link
CN (1) CN101826108A (zh)
WO (1) WO2011123993A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004766A (zh) * 2010-11-09 2011-04-06 北京神州泰岳软件股份有限公司 基于信息系统的可配置信息查询方法及系统
CN108959291B (zh) * 2017-05-19 2023-03-24 腾讯科技(深圳)有限公司 查询方法及相关装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002080026A1 (en) * 2001-03-30 2002-10-10 British Telecommunications Public Limited Company Global database management system integrating heterogeneous data resources
CN1374606A (zh) * 2001-03-06 2002-10-16 时睿软件公司 通过计算机网络从数据库获取和集成数据的方法及系统
WO2003083715A1 (en) * 2002-03-28 2003-10-09 Nokia Corporation Providing personalized services for mobile users
CN1687922A (zh) * 2005-05-30 2005-10-26 北京慧讯信息技术有限公司 分布式数据源数据集成系统及方法
US20060059137A1 (en) * 2004-09-15 2006-03-16 Graematter, Inc. System and method for regulatory intelligence
US20060136452A1 (en) * 2004-12-22 2006-06-22 Lim Myung E Method of generating database schema to provide integrated view of dispersed data and data integrating system
CN1811772A (zh) * 2005-01-25 2006-08-02 翁托普里塞有限公司 企业信息集成平台
US20060265352A1 (en) * 2005-05-20 2006-11-23 International Business Machines Corporation Methods and apparatus for information integration in accordance with web services
CN101046811A (zh) * 2006-06-07 2007-10-03 华为技术有限公司 数据集成服务系统及方法
CN101206650A (zh) * 2006-12-22 2008-06-25 鸿富锦精密工业(深圳)有限公司 资料整合系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
US20090157801A1 (en) * 2007-12-12 2009-06-18 Richard Barber System and method for integrating external system data in a visual mapping system

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1374606A (zh) * 2001-03-06 2002-10-16 时睿软件公司 通过计算机网络从数据库获取和集成数据的方法及系统
WO2002080026A1 (en) * 2001-03-30 2002-10-10 British Telecommunications Public Limited Company Global database management system integrating heterogeneous data resources
WO2003083715A1 (en) * 2002-03-28 2003-10-09 Nokia Corporation Providing personalized services for mobile users
US20060059137A1 (en) * 2004-09-15 2006-03-16 Graematter, Inc. System and method for regulatory intelligence
US20060136452A1 (en) * 2004-12-22 2006-06-22 Lim Myung E Method of generating database schema to provide integrated view of dispersed data and data integrating system
CN1811772A (zh) * 2005-01-25 2006-08-02 翁托普里塞有限公司 企业信息集成平台
US20060265352A1 (en) * 2005-05-20 2006-11-23 International Business Machines Corporation Methods and apparatus for information integration in accordance with web services
CN1687922A (zh) * 2005-05-30 2005-10-26 北京慧讯信息技术有限公司 分布式数据源数据集成系统及方法
CN101046811A (zh) * 2006-06-07 2007-10-03 华为技术有限公司 数据集成服务系统及方法
CN101206650A (zh) * 2006-12-22 2008-06-25 鸿富锦精密工业(深圳)有限公司 资料整合系统及方法

Also Published As

Publication number Publication date
CN101826108A (zh) 2010-09-08

Similar Documents

Publication Publication Date Title
Zhao et al. Semantically linking and browsing provenance logs for e-science
Zhao et al. Using semantic web technologies for representing e-science provenance
Wilkinson et al. BioMOBY successfully integrates distributed heterogeneous bioinformatics Web Services. The PlaNet exemplar case
Bhagat et al. BioCatalogue: a universal catalogue of web services for the life sciences
Neumann et al. Biodash: A semantic web dashboard for drug development
Thompson et al. Making FAIR easy with FAIR tools: From creolization to convergence
US20050251513A1 (en) Techniques for correlated searching through disparate data and content repositories
US8676860B2 (en) Web service discovery via data abstraction model
Sahoo et al. A unified framework for managing provenance information in translational research
Mina et al. Nanopublications for exposing experimental data in the life-sciences: a Huntington’s Disease case study
Zhu et al. Semantic inference using chemogenomics data for drug discovery
Karlsson et al. MAPI: a software framework for distributed biomedical applications
CN100342367C (zh) 资源的并发、分布式网络的协作
WO2011123993A1 (zh) 数据集成平台
US20060149606A1 (en) System and method for agent assisted information retrieval
Zamite et al. MEDCollector: Multisource epidemic data collector
Miller et al. Experiences implementing scalable, containerized, cloud-based NLP for extracting biobank participant phenotypes at scale
Goble et al. Knowledge discovery for biology with Taverna: Producing and consuming semantics in the Web of Science
Jamil Designing integrated computational biology pipelines visually
Palm et al. “fhircrackr”: An R Package Unlocking Fast Healthcare Interoperability Resources for Statistical Analysis
Shironoshita et al. semCDI: a query formulation for semantic data integration in caBIG
Klieber et al. Knowledge discovery using the KnowMiner framework
Garijo et al. Towards open publication of reusable scientific workflows: Abstractions, standards, and linked data
Crichton et al. A Distributed Information Services Architecture to Support Biomarker Discovery in Early Detection of Cancer.
Smedley et al. Finding and sharing: new approaches to registries of databases and services for the biomedical sciences

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10849233

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10849233

Country of ref document: EP

Kind code of ref document: A1