KR100701104B1 - 분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템 - Google Patents

분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템 Download PDF

Info

Publication number
KR100701104B1
KR100701104B1 KR1020040110351A KR20040110351A KR100701104B1 KR 100701104 B1 KR100701104 B1 KR 100701104B1 KR 1020040110351 A KR1020040110351 A KR 1020040110351A KR 20040110351 A KR20040110351 A KR 20040110351A KR 100701104 B1 KR100701104 B1 KR 100701104B1
Authority
KR
South Korea
Prior art keywords
schema
information
database
item
local
Prior art date
Application number
KR1020040110351A
Other languages
English (en)
Other versions
KR20060071668A (ko
Inventor
임명은
정명근
배명남
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020040110351A priority Critical patent/KR100701104B1/ko
Priority to US11/184,623 priority patent/US20060136452A1/en
Publication of KR20060071668A publication Critical patent/KR20060071668A/ko
Application granted granted Critical
Publication of KR100701104B1 publication Critical patent/KR100701104B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인터넷 상에 각기 상이한 위치에 상이한 형태로 분산 저장된 정보 자원으로부터 원하는 정보를 획득하는 통합 뷰를 생성하기 위하여 데이터베이스 스키마를 생성하는 방법 및 정보 통합 시스템에 관한 것이다.
본 발명은 명세언어로 기술된 정보 데이터베이스의 구조 및 내용을 해석하여, 의미적으로 대응되는 스키마를 생성하는 규칙과 스키마로부터 통합된 뷰를 생성하기 위해 필요한 정보들에 대한 정의를 포함하는 것을 특징으로 한다. 또한, 단일 데이터베이스를 표현하는 지역스키마들에 대해, 통합 뷰를 표현하는 전역스키마의 생성을 위해 XQuery 문법의 일부를 도입하며 데이터 뷰의 표현에 대한 표준 표현법에 대한 정의를 포함하는 것이 바람직하다.
이에 따라, 네트워크 상에 산재하는 다양한 이종 데이터베이스들에 대해 명세언어를 이용하여 통합된 뷰를 작성하고 실시간으로 질의할 수 있는 정보 통합 시스템을 제공할 수 있다.
바이오인포매틱스, 생물정보 데이터베이스, XML 스키마, 생물정보 통합, 랩퍼

Description

분산된 정보들의 통합 뷰 생성을 위한 데이터베이스 스키마 생성 방법 및 정보 통합 시스템{Method of generating database schema to provide integrated view of dispersed information and integrating system of information}
도 1은 본 발명에 따른 생물정보 통합 시스템의 개요도,
도 2는 본 발명에 따른 명세언어로 기술된 데이터베이스의 스키마를 생성하는 방법을 도시한 전처리부 흐름도,
도 3은 도 2에 도시된 지역 스키마(L)를 생성하는 방법을 도시한 상세 흐름도,
도 4는 도 2에 도시된 전역 스키마(G)를 생성하는 방법을 도시한 상세 흐름도,
도 5는 본 발명에 따른 명세언어 문서를 스키마로 변환하는 규칙을 설명하기 위한 참고도,
도 6은 명세언어 문서를 스키마로 변환하는 일 예를 도시한 도면,
도 7은 랩퍼의 추출 결과의 일 예를 도시한 도면이다.
본 발명은 데이터베이스 통합 기술에 관한 것으로, 보다 구체적으로는 각기 상이한 위치에 상이한 형태로 분산 저장된 정보 자원으로부터 원하는 정보를 획득하는 통합 뷰를 생성하기 위하여 데이터베이스 스키마를 생성하는 방법 및 정보 통합 시스템에 관한 것이다.
최근 네트워크 기술의 발달과 인터넷 사용의 활성화로 인해 다양화, 대량화된 정보들이 상이한 위치에 상이한 형태로 산재하는 환경이 조성되고 있다. 특히 생물정보(Bio-informatics) 분야에서는, 인간 게놈 프로젝트 수행 이후 유전체의 서열이 밝혀지면서 생물학적으로 다양한 연구들이 시도되고 있으며, 그 결과 다양한 산출물들이 데이터베이스화 되어, 인터넷 상에서 제공되고 있다. 따라서, 정보 이용자는 다양한 형태로 분산된 데이터베이스에 접근할 수 있게 되었다.
그러나, 정보의 다양화, 대량화로 인해 정보 이용자는 상이한 위치에 산재하는 다양한 정보 자원으로부터 자신이 원하는 정보를 찾기 어려울뿐더러, 원하는 정보를 찾기 위해 막대한 시간과 노력을 들여야 하는 어려움에 직면하고 있다. 또한, 정보 이용자가 이종의 정보 자원들간의 데이터를 원하는 형태의 정보로 가공해서 통합된 형태로 원하는 정보를 얻기에는 전문적 지식이 요구되는 어려움이 있다.
한편, 이러한 문제점을 해결하기 위하여, 분산된 이종의 정보 자원들간의 데이터 통합을 제공하는 데이터 웨어하우스, 데이터 마트, 랩퍼-중재자 등의 다양한 데이터베이스 통합 방법이 제시되고 있다. 이러한 방법들은 레거시 데이터에 의미(Semantic)를 부여하며 정보의 통합된 뷰를 제공하기 위한 시도들이다. 그러나, 데이터 웨어하우스, 데이터 마트 등의 기술은 동적인 데이터 변화에 적응력이 떨어 지는 문제점이 있고, 랩퍼-중재자 모델은 데이터 접근을 위해 고유의 언어를 이용하도록 하여 일반적인 접근 방법을 제시하지 못하는 문제점이 있다. 또한, 전술한 방법들은 생물정보가 지니는 데이터베이스들 간의 긴밀성을 표현하기에 부족하다는 문제점이 있다.
따라서, 전술한 문제점을 해결하기 위하여 본 발명이 이루고자 하는 기술적 과제는, 각기 상이한 위치에 상이한 형태로 분산 저장된 정보 자원으로부터 원하는 정보를 획득하는 통합 뷰 생성을 위하여, 보다 효율적이고 일반적인 데이터베이스 스키마 생성 방법 및 그 장치를 제공하는 것이다.
본 발명에 따라 전술한 기술적 과제는, 분산된 정보 데이터베이스에 대한 스키마 생성 방법에 있어서, 데이터베이스에 대한 명세언어 문서를 파싱하여 메타 정보를 생성하는 단계; 데이터베이스가 지역 데이터베이스인 경우, 파싱된 각 항목에 대하여 지역 스키마를 생성하는 단계; 및 데이터베이스가 지역 데이터베이스가 아닌 경우, 입력받은 질의를 파싱하고 리턴 절의 각 항목에 대하여 전역 스키마를 생성하는 단계를 포함하는 것을 특징으로 하는 스키마 생성 방법에 의해 달성된다.
또한, 상기 메타 정보는, 데이터베이스를 관리하기 위한 정보로서, URL, 데이터베이스 이름, 타입 또는 이들의 조합을 포함하는 것이 바람직하다.
또한, 상기 지역 스키마를 생성하는 단계는, 파싱된 각 항목에 대하여 링크가 존재하는 경우 그 유효성을 검사하는 단계; 파싱된 각 항목에 대하여 데이터 항 목을 스키마 엘리먼트로 변환하는 단계; KEY 및/또는 SEARCH 오퍼레이션을 검색 엘리먼트로 변환하는 단계; 및 제약조건을 나타내는 CONSTRAINT를 매핑정보로 변환하는 단계를 포함하는 것이 바람직하다.
또한, 상기 전역 스키마를 생성하는 단계는, 파싱된 리턴 절의 각 항목에 대하여 데이터 항목의 유효성을 검사하고 이를 스키마 엘리먼트로 변환하는 단계; 및 제약 조건을 나타내는 CONSTRAINT를 확장하여 전역 스키마와 매핑 정보로 변환하는 단계를 포함하는 것이 바람직하다.
또한, 상기 스키마 엘리먼트는 하위에 스키마 엘리먼트를 내포할 수 있는 복합 타입 엘리먼트로 표현하는 것이 바람직하다.
한편, 본 발명의 다른 분야에 따르면 전술한 기술적 과제는, 분산된 정보 데이터베이스를 이용한 정보 통합 시스템에 있어서, 사용자로부터 원하는 정보에 대한 질의를 입력받아 분산된 각 정보 데이터베이스에 대한 지역 질의로 세분화하는 질의 처리부; 세분화된 지역 질의를 실행하고 질의 실행 결과를 질의 처리부에 전달하는 적어도 하나의 랩퍼를 관리하는 랩퍼 관리부; 및 정보 데이터베이스에 대한 명세언어 문서를 파싱하여 메타 정보를 생성하며, 정보 데이터베이스가 지역 데이터베이스인 경우 파싱된 각 항목에 대하여 지역 스키마를 생성하고, 정보 데이터베이스가 지역 데이터베이스가 아닌 경우 입력받은 질의를 파싱하고 리턴 절의 각 항목에 대하여 전역 스키마를 생성하는 스키마 관리부를 포함하는 것을 특징으로 하는 정보 통합 시스템에 의해 달성된다.
이하에서는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설 명한다.
본 발명은 기존의 랩퍼-중재자 기반 데이터 통합 방법에 대하여 생물정보 데이터베이스가 가지는 특성을 반영하여 기능을 특화한 랩퍼-중재자 기반 데이터 통합 방법의 확장 모델이다. 직관적인 명세언어를 이용하여 지역 데이터베이스를 기술하고, 통합 뷰를 생성하기 위하여 지역 데이터베이스를 제약하고 병합하는 조건을 기술할 수 있다.
인터넷 상의 생물정보 자원들은 규칙적인 패턴을 가지는 반구조화된 형태로 기술되며, 이러한 패턴들은 정규 표현식(regular expression)으로 표현될 수 있다. 본 발명에서 사용되는 명세언어는 생물정보 자원에 대한 추출 규칙을 정의하기 위하여 W3C 표준안의 정규 표현식을 지원한다. 따라서, 생물정보를 기술하는 데 융통성 있게 활용될 수 있다.
생물 정보 데이터베이스는 이종 데이터베이스들간의 연계성이 일반 데이터베이스에 비해 높아 하나의 지역 데이터베이스에서 2개 이상의 지역 데이터베이스를 참조하는 경우가 빈번하다. 본 발명에 따른 생물정보 통합 시스템은 지역 데이터베이스에 포함된 다른 데이터베이스로의 참조를 위한 링크 개념을 도입하여 연관된 데이터베이스에 대하여도 한번의 요청으로 통합된 뷰를 제공할 수 있다.
또한, 본 발명에 따른 생물정보 통합 시스템은, 데이터베이스 통합을 위하여 지역 데이터베이스에 저장된 데이터가 통합된 장소에 물리적으로 이동하는 것이 아니라, 각 지역 데이터베이스의 내용을 가상적으로 통합한 뷰(view)를 제공한다. 사용자는 제공되는 통합 뷰를 통해서 원하는 데이터를 질의(Query)한다. 이를 위 해서는 각 지역 데이터베이스와 직접 인터페이스 되는 자료 저장소인 랩퍼(wrapper)가 필요하다. 즉, 랩퍼는 명세언어를 사용하여 선언하며 이를 컴파일 하여 얻어진다. 이러한 랩퍼는 그 명세에 따라 대상 생물정보 데이터베이스에 대한 구조 및 타 생물정보와의 관련성 정보를 인식하고, 대상 생물정보검색 시스템이 제공하는 모든 연산을 파악한다. 이를 기반으로 랩퍼는 대상 생물정보 데이터베이스에게 요구되는 각종 정보를 추출하고 이에 대한 각종 메타 정보들을 제공하는 역할을 한다. 랩퍼는 지역 데이터베이스에 대응하여 하나씩 존재하며, 지역 데이터베이스의 내용을 생물정보 통합 시스템에 전달함으로써 통합 뷰를 구성할 정보를 제공한다. 또한, 랩퍼는 사용자로부터 받은 질의를 지역 데이터베이스에 전달하고 그 질의 결과를 생물정보 통합 시스템에 전달한다.
이때, 랩퍼가 생물정보 통합 시스템에 지역 데이터베이스의 내용을 전달하기 위하여 각 지역 데이터베이스마다 상이한 명세를 하나의 중립적인 데이터베이스의 구조를 나타내는 스키마(schema)로 변환할 필요가 있다. 이를 위하여 본 발명에서는 W3C 표준안의 권고에 따라 XML 스키마를 이용한다. 또한, 사용자가 원하는 XML 뷰를 정의하기 위해 전술한 명세언어와 W3C 표준안의 권고에 따른 XQuery를 이용한다. 명세언어와 XQuery를 이용한 통합 뷰에 대한 정의가 이루어 지면, 이로부터 가상의 XML 스키마가 생성된다. 따라서, 본 발명에서는 명세언어로 기술된 데이터베이스 또는 뷰를 XML 스키마로 변환하는 방법 및 장치를 제공한다.
보다 구체적으로, 도 1은 본 발명에 따른 생물정보 통합 시스템의 개요도이다.
도 1을 참조하면, 생물정보 통합 시스템은 질의 처리부(10), 스키마 관리부(20) 및 랩퍼 관리부(30)를 구비한다. 그밖에 복수의 이종 데이터베이스에 대한 랩퍼(32)가 포함된다. 각 랩퍼들은 네트워크를 통해 다양한 이종의 지역 데이터베이스들(42 내지 46)과 연결된다.
사용자 인터페이스(도시하지 않음)를 통해 통합 모델에 대한 사용자의 질의가 입력되면, 질의 처리부(10)가 XQuery 질의를 분석하여 지역 질의로 세분화한 후, 지역 데이터베이스에 대한 데이터 추출을 담당하는 각 랩퍼(32)에게 질의를 전달한다. 각 랩퍼(32)는 다양한 지역 데이터베이스들(42 내지 46)에 대해 질의를 실행하고, 질의 수행 결과 XML 형태의 질의 처리 결과 문서를 질의 처리부(10)에 전달한다. 질의 처리부(10)는 각 랩퍼로부터 생성된 질의 처리 결과를 통합하여 사용자에게 제시한다.
사용자는 후술하는 명세언어를 이용하여 특정 데이터베이스로부터 추출할 데이터 항목들을 정의하고, 이들에 대한 제약 조건(constraint)을 기술할 수 있다. 명세언어 문서가 작성되면 스키마 관리부(20)는 해당 데이터베이스에 대한 지역 스키마(local schema) 또는 전역 스키마(global schema)와 매핑 정보를 생성한다. 지역 스키마는 단일 데이터베이스에 대한 데이터의 명세를 말하고, 전역 스키마는 복수의 지역 데이터베이스들의 특정 항목들을 제약하여 생성한 통합된 뷰에 대한 명세를 말한다. 매핑정보는 스키마에 대한 제약조건이 기술될 경우 생성되며 전역 스키마가 참조한 지역 스키마에 대한 참조 조건 또는 지역 스키마 내의 자체 제약 조건이 포함된다.
도 2는 본 발명에 따른 명세언어로 기술된 데이터베이스의 스키마를 생성하는 방법을 도시한 전체 흐름 도이다.
도 2를 참조하면, 사용자는 사용 목적에 따라 명세언어로 단일 데이터베이스에 대한 지역 스키마(local schema)를 기술하거나, 또는 2개 이상의 단일 데이터베이스를 참조하여 전역 스키마(global schema)를 기술할 수 있다. 스키마는 명세언어 문서에 기술된 TYPE에 따라 전역 스키마 또는 지역 스키마로 구분된다. 명세언어 문서가 입력되면 스키마 관리기(20)에 포함되는 명세언어 파서가 명세언어 문서를 파싱(102 단계)하고, 파싱된 정보를 해석하여 메타정보를 기록한다(104 단계). 이후 명세언어의 타입 정보에 따라 지역스키마 생성과정과 전역스키마 생성과정으로 분리되어 처리된다(106 단계).
보다 구체적으로, 도 3은 도 2에 도시된 지역 스키마(L)를 생성하는 방법을 도시한 상세 흐름 도이다. 또한, 도 6은 명세언어 문서를 스키마로 변환하는 일 예를 도시한 도면이다.
먼저 도 6을 참조하면, 지역스키마를 위한 명세언어 문서(400)에는 402 내지 406과 같이 XML 스키마(450)의 엘리먼트로 변환될 데이터 항목들이 추출 규칙과 함께 기술되어 있다. 명세언어 문서의 각 항목들은 후술하는 변환 규칙에 따라 XML 스키마의 엘리먼트들로 변환된다. 특히, 406과 같이 다른 데이터베이스로의 참조가 포함된 엘리먼트에 대해서는 XML 스키마의 link 속성(attribute)을 추가로 생성한다. 또한, 전술한 바와 같이 각 데이터 항목을 XML 스키마의 엘리먼트로 변환한 후, 오퍼레이션 기술부에 대한 변환을 수행한다. 이때, 데이터에 대한 제약 조건 을 기술하는 CONSTRAINTS가 존재할 경우, 변환된 데이터 항목 중 CONSTRAINTS의 return 이하에 기술된 일부 항목만을 지역 스키마에 반영한다. 반영된 제약 조건은 XML 문서 형태로 매핑정보(24)에 저장된다. CONSTRAINTS는 XQuery의 형태로 기술된다.
이상의 지역 스키마 변환 방법을 도 3을 참조하여 요약하면, 전술한 102 단계 및 104 단계를 통해 생성된 파스 트리(parse tree)의 각 항목에 대하여, 다른 데이터베이스로의 참조가 포함된 LINK 항목이 존재하는지 여부를 확인한다(112 단계). 만약, LINK 항목이 존재하면, LINK의 유효성(validity)을 검사하고(114 단계), LINK 항목을 XML 스키마의 엘리먼트로 변환한다(116 단계). 다음으로, 오퍼레이션 기술에 해당하는 KEY 또는 SEARCH 항목을 XML 스키마의 해당 엘리먼트로 변환한다(120 단계). 또한, 제약조건을 기술하는 CONSTRAINTS 항목이 존재하면(122 단계), Where 절 이하에 기술된 조건에 부합하는 데이터에 대하여 CONSTRAINTS의 return 이하에 기술된 일부 데이터 항목만을 지역 스키마에 반영한다(126 단계). 반영된 제약 조건은 XML 문서 형태로 매핑 정보(124)에 저장된다. 명세언어 문서에 포함된 각 항목들이 구체적으로 어떻게 XML 스키마로 변환되는지에 대한 규칙은 후술한다.
한편, 도 4는 도 2에 도시된 전역 스키마(G)를 생성하는 방법을 도시한 상세 흐름 도이다.
도 4를 참조하면, 전역 스키마를 위한 명세언어 문서는 CONSTRIANTS 위주로 기술된다. CONSTRIANTS의 XQuery를 파싱하여(130 단계), For 절에 참조된 데이터 베이스에 대해 Where절에 기술된 제약조건에 만족하는 데이터들을 Return절에 정의된 데이터 항목들로 구성하도록 한다. 이때 For 절에서 참조하는 데이터베이스는 이미 지역 스키마 혹은 전역 스키마로 등록되어 있어야 한다. 이와 같이 참조하는 데이터베이스에 대한 유효성 검사가 끝나면(142 단계), 명세언어 문서의 각 데이터 항목을 XML 스키마의 엘리먼트들로 변환한다(144 단계). 이때, 도 6의 452에 도시된 바와 같이, 변환 시 참조한 지역스키마 정보의 유지를 위해 별도의 속성 필드들을 추가로 유지한다. 한편, 참조한 데이터베이스에 대한 제약조건이 매핑정보(152)에 저장되어 있을 경우 현재의 Where 절 이하의 조건과 병합하여 매핑 정보(152)에 저장한다. 매핑 정보는 제약 조건의 통합과 참조 데이터베이스에 대한 참조 조건이 기술되며, 매핑정보는 사용자 질의를 각 랩퍼에 대한 지역 질의로 분할할 때 참조된다.
이하에서는 전술한 스키마 생성 장치 및 스키마 생성 방법에 기초하여 보다 구체적으로 명세언어 문서에 포함된 각 항목들이 구체적으로 어떻게 XML 스키마로 변환되는지에 대한 규칙을 상세히 설명한다.
도 5는 본 발명에 따른 명세언어 문서를 스키마로 변환하는 규칙을 설명하기 위한 참고도 이다.
도 5 및 도 6을 참조하면, 명세언어 문서는 크게 메타 정보부(302)와, 데이터부(304) 및 오퍼레이션부(306)로 구분된다. 메타 정보부(302)는, URL과 데이터베이스 이름, 타입 등 데이터베이스를 유지관리 하기 위해 필요한 정보가 포함된다. 데이터부(304)는, XML 스키마에 포함될 데이터 항목들과 이들의 추출 규칙을 정의한다. 오퍼레이션부(306)는, 실제 소스 데이터베이스에서 데이터의 유일성을 보장하기 위해 검색의 기준이 되는 KEY와, KEY 이외의 검색을 위해 필요한 인자들을 정의하는 SEARCH, 그리고 제약조건을 기술하는 CONSTRAINTS 및 타 데이터베이스에 대한 참조를 명시하는 LINK가 정의된다.
본 발명에서는 XML 스키마에서 지원하는 단일타입 엘리먼트(Simpletype element) 이외에 복합타입 엘리먼트(Complextype element)의 기술 방법도 제공한다. 복합타입 엘리먼트는 하위에 엘리먼트를 가지는 복합 데이터의 구조성을 정의한다. 예를 들면, 도 6의 404가 복합 엘리먼트에 해당한다. 그밖에도 XML 스키마 문법에서 지원하는 엘리먼트의 nillable, min, maxOccurs, facet 속성을 지원하는 표현법을 제공한다. 또한, link는 참조 대상 데이터베이스 이름과 대상 데이터베이스의 키 값을 디폴트값으로 가진다.
도 6은 명세언어 문서를 스키마로 변환하는 일 예를 도시한 도면이다.
도 6을 참조하면, 도 5에서 상술한 변환 규칙에 따라 명세언어 문서(400)를 XML 스키마(450)로 변환하는 예가 도시된다.
VAR는 명세언어 문서에서 사용될 변수를 정의한다. 소스 데이터베이스의 명세언어 문서에서 처리대상이 되는 컨텐츠를 임시 변수에 저장한 후 그 변수에 적절한 처리를 가하여 데이터 항목들을 생성하는데 이용한다.
또한, 복합타입 엘리먼트를 제외한 모든 엘리먼트와 속성은 데이터 타입(type)을 가진다(404). 데이터 타입은 데이터의 표현범위를 제한하기 위해 사용되며, XML 스키마에서 사용 가능한 integer, double, string, date, boolean 타입을 기본으로 제공한다.
도 3의 전역스키마 생성 방법에서 상술한 바와 같이, 각 엘리먼트는 해당 엘리먼트의 근원을 표시하기 위해 source와 state라는 속성을 가진다(452). source 속성은 해당 엘리먼트가 어떤 데이터베이스를 기초로 하여 작성되었는지에 대한 정보를 가지며, state 속성은 엘리먼트의 신규성 및 기존 엘리먼트의 재사용성 여부에 대한 정보를 가진다. 이 정보는 전역스키마를 위한 데이터 수집 시 참조할 지역스키마를 찾는데 활용된다.
한편, KEY는 소스 데이터베이스에 대한 기본 검색 조건을 기술한다(408). KEY로 정의된 항목은 소스 데이터베이스에서 데이터의 유일성을 보장하는 기본 항목으로 하나의 KEY 값에 대해 단일 데이터가 검색된다. KEY의 QUERY(412)는 KEY를 이용한 검색방법, 즉 검색주소를 의미한다. 실제 랩퍼(32)에서 해당 KEY를 가지고 검색할 때 QUERY의 주소를 참조하여 검색결과를 획득한다.
또한, SEARCH는 KEY 이외의 검색 조건을 기술한다(410). 일반적인 생물정보 데이터베이스의 경우 KEY 이외의 검색이 가능하도록 구성되어 있는데, KEY를 제외한 다른 검색 기준이 되는 것들을 PARAMETER로 정의하여 사용할 수 있다. 각 PARAMETER는 옵션으로 DEFAULT 값과 NOT NULL을 정의할 수 있다(414). NOT NULL은 반드시 입력해야 하는 값을 말하여, DEFAULT는 사용자가 값을 입력하지 않았을 경우 기본적으로 사용될 값을 가리킨다. SEARCH의 TARGET 항목(416)은 SEARCH 검색 후 추출될 데이터를 처리할 또 다른 랩퍼에 대한 명세를 가리킨다. 기본 키 이외의 검색의 경우 1개 이상의 데이터들이 리스트 형태로 나열되는데, 리스트에서 다 시 스키마에 기술된 데이터 형태로 추출하기 위한 규칙이 TARGET에 정의된 랩퍼에서 수행된다.
도 7은 랩퍼의 추출 결과의 일 예를 도시한 도면이다.
도 7을 참조하면, 지역 스키마에 대한 랩퍼의 실제 데이터 추출 결과를 예시한다. 500은 GenBank 지역 스키마에 대한 추출 예이고, 550은 Taxonomy 지역 스키마에 대한 추출 예이다. 전술한 도 6의 406에서 organism 엘리먼트에 LINK를 정의한 결과가 도 7의 502에 도시된다. Homo Sapiens 데이터는 Taxonomy 데이터베이스에 KEY가 9606으로 정의되어 있으며, 실제 Taxonomy 데이터베이스를 KEY로 검색한 결과가 550과 같이 도시된다. 552에 도시된 예처럼 LINK는 다른 데이터베이스 이외에 자신의 데이터베이스를 지시할 수도 있다.
한편, 본 발명에 따른 스키마 생성 방법은 컴퓨터 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 스키마 생성 방법을 구현한다. 상기 정보저장매체는 자기 기록매체, 광 기록매체, 및 캐리어 웨이브 매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관 점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
전술한 바와 같이 본 발명에 따르면, 네트워크 상에 산재한 생물정보 자원으로부터 원하는 생물정보를 획득하는 통합 뷰 생성을 위하여, 보다 효율적이고 일반적인 데이터베이스 스키마 생성 방법 및 그 장치가 제공된다.
이에 따라, 네트워크 상에 산재하는 다양한 이종 데이터베이스들에 대해 명세언어를 이용하여 통합된 뷰를 작성하고 실시간으로 질의할 수 있는 생물정보 통합 시스템을 제공할 수 있다. 사용자는 생물정보 통합 시스템을 이용하여 능동적으로 데이터를 통합하고 조작할 수 있다.
또한, 생물학자들에게 친숙한 정규 표현을 명세언어에 도입하고, 표준화된 질의 언어인 XQuery를 사용하여 누구나 쉽게 통합 시스템을 사용할 수 있도록 한다.
나아가, 링크의 개념을 도입하여 유기적으로 데이터베이스간의 참조 정보를 볼 수 있고, 소스에 대한 다양한 검색 경로를 제공하고 결과에 대한 가공 방법을 제공하여 보다 융통성 있게 생물정보 통합 데이터베이스를 구축할 수 있다.

Claims (10)

  1. 분산된 정보 데이터베이스에 대한 스키마 생성 방법에 있어서,
    상기 데이터베이스에 대한 명세언어 문서를 파싱하여 메타 정보를 생성하는 단계;
    상기 데이터베이스가 지역 데이터베이스인 경우, 상기 파싱된 각 항목에 대하여 지역 스키마를 생성하는 단계; 및
    상기 데이터베이스가 지역 데이터베이스가 아닌 경우, 입력받은 질의를 파싱하고 리턴 절의 각 항목에 대하여 전역 스키마를 생성하는 단계를 포함하는 것을 특징으로 하는 스키마 생성 방법.
  2. 제1항에 있어서,
    상기 메타 정보는, 상기 데이터베이스를 관리하기 위한 정보로서, URL, 데이터베이스 이름, 타입 또는 이들의 조합을 포함하는 것을 특징으로 하는 스키마 생성 방법.
  3. 제1항에 있어서,
    상기 지역 스키마를 생성하는 단계는,
    파싱된 각 항목에 대하여 링크가 존재하는 경우 그 유효성을 검사하는 단계;
    파싱된 각 항목에 대하여 데이터 항목을 스키마 엘리먼트로 변환하는 단계;
    KEY 및/또는 SEARCH 오퍼레이션을 검색 엘리먼트로 변환하는 단계; 및
    제약조건을 나타내는 CONSTRAINT를 매핑정보로 변환하는 단계를 포함하는 것을 특징으로 하는 스키마 생성 방법.
  4. 제1항에 있어서,
    상기 전역 스키마를 생성하는 단계는,
    상기 파싱된 리턴 절의 각 항목에 대하여 데이터 항목의 유효성을 검사하고 이를 스키마 엘리먼트로 변환하는 단계; 및
    제약 조건을 나타내는 CONSTRAINT를 확장하여 전역 스키마와 매핑 정보로 변환하는 단계를 포함하는 것을 특징으로 하는 스키마 생성 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 스키마 엘리먼트는 하위에 스키마 엘리먼트를 내포할 수 있는 복합 타입 엘리먼트로 표현하는 것을 특징으로 하는 스키마 생성 방법.
  6. 분산된 정보 데이터베이스를 이용한 정보 통합 시스템에 있어서,
    사용자로부터 원하는 정보에 대한 질의를 입력받아 상기 분산된 각 정보 데이터베이스에 대한 지역 질의로 세분화하는 질의 처리부;
    상기 세분화된 지역 질의를 실행하고 상기 질의 실행 결과를 상기 질의 처리부에 전달하는 적어도 하나의 랩퍼를 관리하는 랩퍼 관리부; 및
    상기 정보 데이터베이스에 대한 명세언어 문서를 파싱하여 메타 정보를 생성하며, 상기 정보 데이터베이스가 지역 데이터베이스인 경우 상기 파싱된 각 항목에 대하여 지역 스키마를 생성하고, 상기 정보 데이터베이스가 지역 데이터베이스 가 아닌 경우 입력받은 질의를 파싱하고 리턴 절의 각 항목에 대하여 전역 스키마를 생성하는 스키마 관리부를 포함하는 것을 특징으로 하는 정보 통합 시스템.
  7. 제6항에 있어서,
    상기 메타 정보는, 상기 정보 데이터베이스를 관리하기 위한 정보로서, URL, 데이터베이스 이름, 타입 또는 이들의 조합을 포함하는 것을 특징으로 하는 정보 통합 시스템.
  8. 제6항에 있어서,
    상기 스키마 관리부는, 상기 정보 데이터 베이스가 지역 데이터베이스인 경우, 파싱된 각 항목에 대하여 링크가 존재하는 경우 그 유효성을 검사하고, 파싱된 각 항목에 대하여 데이터 항목을 스키마 엘리먼트로 변환하며, KEY 및/또는 SEARCH 오퍼레이션을 검색 엘리먼트로 변환하고, 제약조건을 나타내는 CONSTRAINT를 매핑정보로 변환하는 것을 특징으로 하는 정보 통합 시스템.
  9. 제6항에 있어서,
    상기 스키마 관리부는, 상기 정보 데이터 베이스가 전역 데이터베이스인 경우, 상기 파싱된 리턴 절의 각 항목에 대하여 데이터 항목의 유효성을 검사하고 이를 스키마 엘리먼트로 변환하고, 제약 조건을 나타내는 CONSTRAINT를 확장하여 전역 스키마와 매핑 정보로 변환하는 것을 특징으로 하는 정보 통합 시스템.
  10. 제8항 또는 제9항에 있어서,
    상기 스키마 엘리먼트는 하위에 스키마 엘리먼트를 내포할 수 있는 복합 타입 엘리먼트로 표현하는 것을 특징으로 하는 정보 통합 시스템.
KR1020040110351A 2004-12-22 2004-12-22 분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템 KR100701104B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040110351A KR100701104B1 (ko) 2004-12-22 2004-12-22 분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템
US11/184,623 US20060136452A1 (en) 2004-12-22 2005-07-19 Method of generating database schema to provide integrated view of dispersed data and data integrating system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040110351A KR100701104B1 (ko) 2004-12-22 2004-12-22 분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템

Publications (2)

Publication Number Publication Date
KR20060071668A KR20060071668A (ko) 2006-06-27
KR100701104B1 true KR100701104B1 (ko) 2007-03-28

Family

ID=36597402

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040110351A KR100701104B1 (ko) 2004-12-22 2004-12-22 분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템

Country Status (2)

Country Link
US (1) US20060136452A1 (ko)
KR (1) KR100701104B1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070130206A1 (en) * 2005-08-05 2007-06-07 Siemens Corporate Research Inc System and Method For Integrating Heterogeneous Biomedical Information
KR100932642B1 (ko) * 2007-01-09 2009-12-21 포항공과대학교 산학협력단 유비쿼터스 환경에서 데이터 통합관리를 위한 분산 파일서비스 방법 및 시스템
US8190596B2 (en) * 2007-11-28 2012-05-29 International Business Machines Corporation Method for assembly of personalized enterprise information integrators over conjunctive queries
US8145684B2 (en) * 2007-11-28 2012-03-27 International Business Machines Corporation System and computer program product for assembly of personalized enterprise information integrators over conjunctive queries
US8943087B2 (en) * 2008-07-25 2015-01-27 International Business Machines Corporation Processing data from diverse databases
US9110970B2 (en) * 2008-07-25 2015-08-18 International Business Machines Corporation Destructuring and restructuring relational data
US8972463B2 (en) * 2008-07-25 2015-03-03 International Business Machines Corporation Method and apparatus for functional integration of metadata
US8452808B2 (en) * 2010-03-02 2013-05-28 Microsoft Corporation Automatic generation of virtual database schemas
US8739118B2 (en) * 2010-04-08 2014-05-27 Microsoft Corporation Pragmatic mapping specification, compilation and validation
CN101826108A (zh) * 2010-04-09 2010-09-08 北京宇辰龙马信息技术服务有限公司 数据集成平台
US9477697B2 (en) * 2010-06-30 2016-10-25 Red Hat, Inc. Generating database schemas for multiple types of databases
US9063958B2 (en) * 2010-07-29 2015-06-23 Sap Se Advance enhancement of secondary persistency for extension field search
JP5100820B2 (ja) * 2010-11-25 2012-12-19 株式会社東芝 問合せ式変換装置、方法およびプログラム
US10127292B2 (en) 2012-12-03 2018-11-13 Ut-Battelle, Llc Knowledge catalysts
DE102013110571A1 (de) * 2013-09-24 2015-03-26 Iqser Ip Ag Automatische Datenharmonisierung
JP6393193B2 (ja) * 2014-09-30 2018-09-19 Kddi株式会社 データ仮想化装置及び大規模データ処理プログラム
KR102216886B1 (ko) * 2014-10-28 2021-02-17 에스케이텔레콤 주식회사 동적 스키마를 이용한 질의처리 장치 및 그를 위한 컴퓨터로 읽을 수 있는 기록 매체
CN105005592B (zh) * 2015-06-29 2018-10-16 用友优普信息技术有限公司 数据字典生成方法和数据字典生成装置
US10719508B2 (en) * 2018-04-19 2020-07-21 Risk Management Solutions, Inc. Data storage system for providing low latency search query responses
CN109828972B (zh) * 2019-01-18 2022-03-22 深圳易嘉恩科技有限公司 一种基于有向图结构的数据集成方法
JP7403431B2 (ja) 2020-11-13 2023-12-22 株式会社日立製作所 データ統合方法およびデータ統合システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030052059A (ko) * 2001-12-20 2003-06-26 주식회사 케이티 다중 데이터베이스 미들웨어 시스템에서 메타데이터를이용한 데이터 통합 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US49736A (en) * 1865-09-05 Machine for making paper bags
US6584459B1 (en) * 1998-10-08 2003-06-24 International Business Machines Corporation Database extender for storing, querying, and retrieving structured documents
US6862590B2 (en) * 2002-05-30 2005-03-01 Microsoft Corporation Converting expressions to execution plans
US6980995B2 (en) * 2002-07-23 2005-12-27 International Business Machines Corporation Method, computer program product, and system for automatically generating a hierarchial database schema report to facilitate writing application code for accessing hierarchial databases
US20040122807A1 (en) * 2002-12-24 2004-06-24 Hamilton Darin E. Methods and systems for performing search interpretation
US7315852B2 (en) * 2003-10-31 2008-01-01 International Business Machines Corporation XPath containment for index and materialized view matching

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030052059A (ko) * 2001-12-20 2003-06-26 주식회사 케이티 다중 데이터베이스 미들웨어 시스템에서 메타데이터를이용한 데이터 통합 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
1020030052059

Also Published As

Publication number Publication date
KR20060071668A (ko) 2006-06-27
US20060136452A1 (en) 2006-06-22

Similar Documents

Publication Publication Date Title
KR100701104B1 (ko) 분산된 정보들의 통합 뷰 생성을 위한 데이터베이스스키마 생성 방법 및 정보 통합 시스템
US6636845B2 (en) Generating one or more XML documents from a single SQL query
US7386541B2 (en) System and method for compiling an extensible markup language based query
US7293018B2 (en) Apparatus, method, and program for retrieving structured documents
US20070219959A1 (en) Computer product, database integration reference method, and database integration reference apparatus
Luk et al. A survey in indexing and searching XML documents
Rys Bringing the Internet to your database: Using SQL Server 2000 and XML to build loosely-coupled systems
Higgins et al. Managing heterogeneous ecological data using Morpho
CN115905212A (zh) 具有相关性标识符的集中式元数据储存库
KR100809415B1 (ko) 온톨로지를 활용한 정보질의 확장 시스템 및 그 방법
US7493338B2 (en) Full-text search integration in XML database
US8312030B2 (en) Efficient evaluation of XQuery and XPath full text extension
Arnold-Moore et al. Architecture of a content management server for XML document applications
Shrestha XML Database Technology and Its Use for GML.
Nottelmann et al. Combining DAML+ OIL, XSLT and probabilistic logics for uncertain schema mappings in MIND
KR100487738B1 (ko) 데이터베이스 질의어와 밀결합된 엑스.엠.엘 질의어를지원하는 엑스.엠.엘 문서 검색장치 및 그 방법
Rose et al. Phantom XML
Gopalakrishna et al. An XML based knowledge management system for e-collaboration and e-learning
Montes et al. Integrity issues in the Web: Beyond distributed databases
da Silva Multidimensional Data Analysis Based on Links: Models and Languages
Zeyao Review of XML Based on Patent Documents
Pokorný XML in enterprise systems
Nogueras-Iso et al. Interoperability between metadata standards
Rajeswari et al. A Novel Approach for Integrating Heterogeneous Database through XML
Oikonomidis et al. XML ASSESSMENT USAGE REPORT

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160322

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170322

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180322

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190319

Year of fee payment: 13