RU2005114658A - Способ и система согласования схем баз данных web - Google Patents

Способ и система согласования схем баз данных web Download PDF

Info

Publication number
RU2005114658A
RU2005114658A RU2005114658/09A RU2005114658A RU2005114658A RU 2005114658 A RU2005114658 A RU 2005114658A RU 2005114658/09 A RU2005114658/09 A RU 2005114658/09A RU 2005114658 A RU2005114658 A RU 2005114658A RU 2005114658 A RU2005114658 A RU 2005114658A
Authority
RU
Russia
Prior art keywords
attributes
database
global
attribute
interface
Prior art date
Application number
RU2005114658/09A
Other languages
English (en)
Other versions
RU2386997C2 (ru
Inventor
Цзи-Жун ВЭНЬ (US)
Цзи-Жун ВЭНЬ
Вэй-Ин МА (US)
Вэй-Ин МА
Original Assignee
Майкрософт Корпорейшн (Us)
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн (Us), Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн (Us)
Publication of RU2005114658A publication Critical patent/RU2005114658A/ru
Application granted granted Critical
Publication of RU2386997C2 publication Critical patent/RU2386997C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (38)

1. Реализуемый в вычислительной системе способ формирования куба вхождений, содержащий этапы, на которых подают запросы к базе данных, причем каждый запрос имеет значение интерфейсного атрибута базы данных, установленный в значение глобального атрибута глобального атрибута домена базы данных; и для результата каждого поданного запроса осуществляют подсчет количества вхождений значения интерфейсного атрибута в каждый результирующий атрибут упомянутого результата.
2. Способ по п.1, содержащий этап, на котором формируют матрицу вхождений, ассоциированную с глобальными атрибутами и интерфейсными атрибутами, на основе куба вхождений.
3. Способ по п. 1, содержащий этап, на котором формируют матрицу вхождений, ассоциированную с глобальными атрибутами и результирующими атрибутами, на основе куба вхождений.
4. Способ по п.1, содержащий этап, на котором формируют матрицу вхождений, ассоциированную с интерфейсными атрибутами и результирующими атрибутами, на основе куба вхождений.
5. Способ по п.1, в котором запрос подают для каждой комбинации значения глобального атрибута и интерфейсного атрибута.
6. Способ по п.1, в котором куб вхождений включает в себя значение счета для каждой комбинации глобального атрибута, интерфейсного атрибута и результирующего атрибута.
7. Реализуемый в вычислительной системе способ идентификации атрибутов базы данных внутри домена, содержащий этапы, на которых обеспечивают значения счета вхождений, ассоциированных с глобальными атрибутами глобальной схемы домена и интерфейсными атрибутами интерфейсной схемы и результирующими атрибутами результирующей схемы базы данных; оценивают взаимную информацию между парами схем на основе предоставленных значений счета; и
на основе оценки взаимной информации идентифицируют, какие атрибуты соответствуют.
8. Способ по п.7, в котором обеспечение значений счета включает в себя этап, на котором выполняют проецирование куба вхождений, обеспечивающего значение счета вхождений, ассоциированных с глобальными атрибутами, интерфейсными атрибутами и результирующими атрибутами, в матрицу, ассоциированную с парами схем.
9. Способ по п.8, включающий в себя этап, на котором формируют куб вхождений посредством подачи запросов к базе данных со значениями интерфейсных атрибутов, установленными в значения глобальных атрибутов упомянутых глобальных атрибутов.
10. Способ по п.9, в котором внутри куба вхождений значение счета вхождений представляет количество раз, которое значения глобального атрибута глобального атрибута, используемого в качестве значения интерфейсного атрибута в запросе, встречаются в результирующем атрибуте результата запроса.
11. Способ по п.7, в котором интерфейсные атрибуты идентифицируются на основе элементов языка HTML, относящихся к вводу данных.
12. Способ по п.7, в котором результирующие атрибуты идентифицируются с использованием объекта-оболочки регулярного выражения.
13. Способ по п.7, в котором значения счета вхождений обеспечиваются посредством подачи запросов к базе данных со значениями интерфейсных атрибутов, установленных в значения глобальных атрибутов упомянутых глобальных атрибутов.
14. Способ по п.7, в котором взаимную информацию оценивают нижеследующим образом
Figure 00000001
15. Способ по п.7, в котором соответствие между атрибутами в паре схем идентифицируют в случае, когда атрибут одной схемы, имеющий наивысшую оценку взаимной информации для атрибута другой схемы, не имеет более высокой оценки взаимной информации для другого атрибута упомянутой другой схемы.
16. Реализуемый в вычислительной системе способ моделирования схемы базы данных, содержащий этапы, на которых идентифицируют интерфейсные атрибуты для использования при подаче запросов к базе данных; идентифицируют результирующие атрибуты, представляющие результаты запросов, поданных к базе данных; и определяют, какие идентифицированные интерфейсные атрибуты каким идентифицированным результирующим атрибутам соответствуют.
17. Способ по п.16, в котором отображение интерфейсных атрибутов на результирующие атрибуты представляет частичную схему базы данных.
18. Способ по п.16, в котором база данных является базой данных web.
19. Способ по п.16, включающий в себя этап, на котором подают запросы с идентифицированными интерфейсными атрибутами, установленными в значения глобальных атрибутов глобальных атрибутов домена.
20. Способ по п.19, включающий в себя этап, на котором выполняют подсчет вхождений, ассоциированных с глобальными атрибутами, интерфейсными атрибутами и результирующими атрибутами, на основе результатов поданных запросов.
21. Способ по п.20, в котором подсчет включает в себя этап, на котором формируют куб вхождений.
22. Способ по п.19, в котором определение включает в себя этап, на котором оценивают взаимную информацию между атрибутами пар схем и основано на результатах поданных запросов.
23. Способ по п.16, включающий в себя этап, на котором определяют, какие идентифицированные интерфейсные атрибуты каким глобальным атрибутам домена соответствуют, и какие идентифицированные результирующие атрибуты каким глобальным атрибутам домена соответствуют.
24. Реализуемый в вычислительной системе способ определения отображения между атрибутами первой базы данных, относящимися к первой базе данных, и атрибутами второй базы данных, относящимися ко второй базе данных, при этом первая база данных и вторая база данных находятся внутри домена причем, способ включает в себя этапы, на которых обеспечивают значения счета вхождений, ассоциированных с глобальными атрибутами домена и атрибутами первой базы данных; обеспечивают значения счета вхождений, ассоциированных с глобальными атрибутами домена и атрибутами второй базы данных; на основе обеспеченных значений счета вхождений оценивают подобие векторов между парами из атрибута первой базы данных и атрибута второй базы данных; и на основе оценки подобия векторов идентифицируют, какой атрибут первой базы данных какому атрибуту второй базы данных соответствует.
25. Способ по п.24, в котором обеспечение значения счета включает в себя этап, на котором выполняют проецирование куба вхождений, обеспечивающего значение счета вхождений, ассоциированных с глобальными атрибутами, интерфейсными атрибутами и результирующими атрибутами, в матрицу вхождений.
26. Способ по п.25, включающий в себя этап, на котором формируют куб вхождений посредством подачи запросов к базе данных со значениями интерфейсных атрибутов, установленных в глобальные значения упомянутых глобальных атрибутов.
27. Способ по п.26, в котором внутри куба вхождений значения счета вхождений представляют количество раз, которое глобальное значение из запроса встречается в результирующем атрибуте из результата запроса.
28. Способ по п.24, в котором атрибуты базы данных являются интерфейсными атрибутами.
29. Способ по п.24, в котором атрибуты базы данных являются результирующими атрибутами.
30. Способ по п.24, в котором значения счета обеспечиваются посредством подачи запросов к базе данных с использованием значений интерфейсных атрибутов базы данных, установленных в глобальные значения упомянутых глобальных атрибутов.
31. Способ по п.24, в котором подобие векторов оценивают следующим образом
Figure 00000002
32. Способ по п.24, в котором соответствие идентифицируют в случае, когда атрибут первой базы данных, имеющий наивысшую оценку подобия векторов для атрибута второй базы данных, не имеет более высокой оценки подобия векторов для другого атрибута второй базы данных.
33. Реализуемый в вычислительной системе способ изменения схем баз данных, содержащий этапы, на которых для каждой схемы базы данных обеспечивают отображение этой схемы базы данных на каждую другую схему базы данных; и обеспечивают отображение этой схемы базы данных на глобальную схему базы данных; и в случае, когда атрибут базы данных схемы базы данных отображается на глобальный атрибут глобальной схемы базы данных и атрибуты базы данных других схем баз данных, которые не отображаются на атрибут глобальной схемы базы данных, то устанавливают этот атрибут схемы базы данных так, чтобы он отображался на другой атрибут глобальной схемы базы данных.
34. Способ по п.33, включающий в себя этап, на котором применяют алгоритм минимизации среза ребер для определения того, когда устанавливать атрибут схемы базы данных так, чтобы он отображался на другой атрибут глобальной схемы базы данных.
35. Способ по п.34, в котором атрибуты представлены в виде вершин, и отображение представлено в виде ребра от одной вершины к другой.
36. Способ по п.33, в котором атрибуты базы данных первоначально кластеризуют на основе их соответствия глобальным атрибутам.
37. Способ по п.33, в котором обеспечение отображений для схемы базы данных включает в себя этап, на котором формируют значения счета вхождений, ассоциированных с глобальными атрибутами и атрибутами базы данных схемы базы данных.
38. Способ по п.37, в котором формирование значений счета вхождений включает в себя, для каждой базы данных, подачу запросов на основе значений глобальных атрибутов упомянутых глобальных атрибутов.
RU2005114658/09A 2004-05-14 2005-05-13 Способ и система согласования схем баз данных web RU2386997C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/846,396 US7249135B2 (en) 2004-05-14 2004-05-14 Method and system for schema matching of web databases
US10/846,396 2004-05-14

Publications (2)

Publication Number Publication Date
RU2005114658A true RU2005114658A (ru) 2006-11-20
RU2386997C2 RU2386997C2 (ru) 2010-04-20

Family

ID=34939804

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005114658/09A RU2386997C2 (ru) 2004-05-14 2005-05-13 Способ и система согласования схем баз данных web

Country Status (11)

Country Link
US (1) US7249135B2 (ru)
EP (1) EP1596313B1 (ru)
JP (1) JP4160578B2 (ru)
KR (1) KR101109225B1 (ru)
CN (1) CN1716258B (ru)
AT (1) ATE538441T1 (ru)
AU (1) AU2005201998A1 (ru)
BR (1) BRPI0501832A (ru)
CA (1) CA2507309C (ru)
MX (1) MXPA05005220A (ru)
RU (1) RU2386997C2 (ru)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9537731B2 (en) 2004-07-07 2017-01-03 Sciencelogic, Inc. Management techniques for non-traditional network and information system topologies
US7496571B2 (en) * 2004-09-30 2009-02-24 Alcatel-Lucent Usa Inc. Method for performing information-preserving DTD schema embeddings
US7469248B2 (en) * 2005-05-17 2008-12-23 International Business Machines Corporation Common interface to access catalog information from heterogeneous databases
JP4855080B2 (ja) * 2006-01-13 2012-01-18 三菱電機株式会社 スキーマ統合支援装置、スキーマ統合支援装置のスキーマ統合支援方法およびスキーマ統合支援プログラム
US7599861B2 (en) 2006-03-02 2009-10-06 Convergys Customer Management Group, Inc. System and method for closed loop decisionmaking in an automated care system
US8495004B2 (en) 2006-03-27 2013-07-23 International Business Machines Corporation Determining and storing at least one results set in a global ontology database for future use by an entity that subscribes to the global ontology database
US7634471B2 (en) * 2006-03-30 2009-12-15 Microsoft Corporation Adaptive grouping in a file network
US7624130B2 (en) * 2006-03-30 2009-11-24 Microsoft Corporation System and method for exploring a semantic file network
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
US7809663B1 (en) 2006-05-22 2010-10-05 Convergys Cmg Utah, Inc. System and method for supporting the utilization of machine language
US7533085B2 (en) * 2006-08-14 2009-05-12 International Business Machines Corporation Method for searching deep web services
US7917507B2 (en) * 2007-02-12 2011-03-29 Microsoft Corporation Web data usage platform
JP4588731B2 (ja) * 2007-02-27 2010-12-01 日本電信電話株式会社 サービス連結情報生成システム、方法、及びプログラム
WO2008111424A1 (ja) * 2007-03-09 2008-09-18 Nec Corporation フィールド照合方法及びシステムと、そのプログラム
US9058608B2 (en) * 2007-09-12 2015-06-16 Google Inc. Placement attribute targeting
CN101655850B (zh) * 2008-08-21 2014-08-27 日电(中国)有限公司 知识提取过程生成设备和知识提取过程调整设备及其方法
US8346819B2 (en) * 2008-12-22 2013-01-01 Sap Ag Enhanced data conversion framework
US9773033B2 (en) * 2009-05-22 2017-09-26 International Business Machines Corporation Storing and retrieving volumes in a database by volume attributes
US8793208B2 (en) 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
CN103026345B (zh) * 2010-06-02 2016-01-20 惠普发展公司,有限责任合伙企业 用于事件监测优先级的动态多维模式
CN101916272B (zh) * 2010-08-10 2012-04-25 南京信息工程大学 用于深层网数据集成的数据源选择方法
CN102103636B (zh) * 2011-01-18 2013-08-07 南京信息工程大学 一种面向深层网页的增量信息获取方法
CN103246664B (zh) * 2012-02-07 2016-05-25 阿里巴巴集团控股有限公司 网页检索方法和装置
CN103246685B (zh) * 2012-02-14 2016-12-14 株式会社理光 将对象实例的属性规则化为特征的方法和设备
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
FI20126010A (fi) 2012-09-28 2014-03-29 Tekla Corp Lähdekohteiden muuntaminen kohdekohteiksi
CN103714086A (zh) 2012-09-29 2014-04-09 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
US10127292B2 (en) * 2012-12-03 2018-11-13 Ut-Battelle, Llc Knowledge catalysts
US9009175B2 (en) * 2013-02-04 2015-04-14 Sap Se System and method for database migration and validation
US20150370834A1 (en) * 2013-02-05 2015-12-24 The University Of Queensland A schema generation process and system
US9582494B2 (en) 2013-02-22 2017-02-28 Altilia S.R.L. Object extraction from presentation-oriented documents using a semantic and spatial approach
US9934279B2 (en) * 2013-12-05 2018-04-03 Oracle International Corporation Pattern matching across multiple input data streams
CN103902743B (zh) * 2014-04-29 2017-07-11 智业软件股份有限公司 通过业务名词操控数据的自助查询方法
US9875263B2 (en) * 2014-10-21 2018-01-23 Microsoft Technology Licensing, Llc Composite partition functions
RU2613026C1 (ru) * 2015-09-30 2017-03-14 Общество с ограниченной ответственностью "Интерсофт" Способ подготовки документов на языках разметки при реализации пользовательского интерфейса для работы с данными информационной системы
US10657323B2 (en) 2015-09-30 2020-05-19 Obschestvo S Ogranichennoy Otvetstvennostyu “Intersoft” Method of preparing documents in markup languages
CN107704474B (zh) * 2016-08-08 2020-08-25 华为技术有限公司 属性对齐方法和装置
CN107786882A (zh) * 2017-09-30 2018-03-09 青岛海信宽带多媒体技术有限公司 一种网页显示方法、装置及机顶盒
US10691652B2 (en) 2018-03-29 2020-06-23 International Business Machines Corporation Similarity-based clustering search engine
CN110633406B (zh) * 2018-06-06 2023-08-01 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备
US11474978B2 (en) * 2018-07-06 2022-10-18 Capital One Services, Llc Systems and methods for a data search engine based on data profiles
US11138194B2 (en) 2019-04-02 2021-10-05 International Business Machines Corporation Method of extracting relationships from a NoSQL database
US11113300B2 (en) 2019-05-29 2021-09-07 Babylon Partners Limited System and method for enabling interoperability between a first knowledge base and a second knowledge base
US12020297B1 (en) 2021-05-13 2024-06-25 Amazon Technologies, Inc. Relevance-based schema matching for targeted catalog enrichment

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554083A (ja) * 1991-08-21 1993-03-05 Nec Corp データベース検索方式
JP2002207655A (ja) 2001-01-10 2002-07-26 Toshiba Corp 情報統合方法、プログラム及びシステム

Also Published As

Publication number Publication date
ATE538441T1 (de) 2012-01-15
BRPI0501832A (pt) 2006-01-10
RU2386997C2 (ru) 2010-04-20
EP1596313A2 (en) 2005-11-16
KR20060047885A (ko) 2006-05-18
CN1716258A (zh) 2006-01-04
US20050256850A1 (en) 2005-11-17
JP4160578B2 (ja) 2008-10-01
AU2005201998A1 (en) 2005-12-01
KR101109225B1 (ko) 2012-01-30
MXPA05005220A (es) 2005-12-06
JP2006004411A (ja) 2006-01-05
EP1596313B1 (en) 2011-12-21
EP1596313A3 (en) 2006-06-28
CN1716258B (zh) 2012-05-23
CA2507309C (en) 2013-10-22
US7249135B2 (en) 2007-07-24
CA2507309A1 (en) 2005-11-14

Similar Documents

Publication Publication Date Title
RU2005114658A (ru) Способ и система согласования схем баз данных web
US20210294917A1 (en) Budget Tracking in a Differentially Private Database System
US7783620B1 (en) Relevancy scoring using query structure and data structure for federated search
CN109871428A (zh) 用于确定文本相关度的方法、装置、设备和介质
US20110184893A1 (en) Annotating queries over structured data
US20080077557A1 (en) Detecting and processing cache hits for queries with aggregates
US20100274753A1 (en) Methods for filtering data and filling in missing data using nonlinear inference
US20060074902A1 (en) Forming intent-based clusters and employing same by search
CN103688260B (zh) 在实体解析系统中搜索实体的方法、计算机系统和装置
WO2019127744A1 (zh) 一种olap数据模型自动建模的方法、分类器
US8527502B2 (en) Method, system and computer-readable media for software object relationship traversal for object-relational query binding
Wu et al. Promotion analysis in multi-dimensional space
JPH10232804A (ja) データベースシステムにおいて集合体照会を遂行するための方法と装置
Ibragimov et al. Optimizing aggregate SPARQL queries using materialized RDF views
CN103262076A (zh) 分析数据处理
US20210200762A1 (en) Verifying text summaries of relational data sets
US11727058B2 (en) Unsupervised automatic taxonomy graph construction using search queries
Fan et al. Querying big data: bridging theory and practice
CN111553151A (zh) 一种基于字段相似度计算的问题推荐方法、装置和服务器
Chandra et al. Partial marking for automated grading of SQL queries
CN103365915A (zh) 基于搜索引擎和数据库查询系统的搜索结果排名方法
Zhao et al. Call to order: a hierarchical browsing approach to eliciting users' preference
US20220043845A1 (en) Template-based automatic software bug question and answer method
US20150169725A1 (en) Clustering Queries For Image Search
CN111026787A (zh) 网点检索方法、装置及系统

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20130514