KR101675946B1 - 반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템 - Google Patents

반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템 Download PDF

Info

Publication number
KR101675946B1
KR101675946B1 KR1020140170334A KR20140170334A KR101675946B1 KR 101675946 B1 KR101675946 B1 KR 101675946B1 KR 1020140170334 A KR1020140170334 A KR 1020140170334A KR 20140170334 A KR20140170334 A KR 20140170334A KR 101675946 B1 KR101675946 B1 KR 101675946B1
Authority
KR
South Korea
Prior art keywords
data
instance
value
information
semi
Prior art date
Application number
KR1020140170334A
Other languages
English (en)
Other versions
KR20160066237A (ko
Inventor
이경일
함영경
이종민
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020140170334A priority Critical patent/KR101675946B1/ko
Publication of KR20160066237A publication Critical patent/KR20160066237A/ko
Application granted granted Critical
Publication of KR101675946B1 publication Critical patent/KR101675946B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 온톨로지 인스턴스를 구축하는 방법에 관한 것으로 획득하고자 하는 정보에 대하여 정의된 속성에 따른 입력 필드의 값을 추출하기 위하여 미리 결정된 데이터 정제 규칙을 가지는 제1 입력 필드에 대한 제1 값을 획득하는 단계; 상기 정보에 대하여 추가 또는 변경되는 속성에 따른 제2 입력 필드의 제2 값과 제1 값을 비교하는 단계; 및 상기 제1 값과 매칭되는 상기 제2 값에 대한 데이터 정제 규칙을 상기 제1 값에 대한 매핑으로 정의하는 단계를 포함한다. 본 발명에 따르면, 온라인 사전의 인스턴스 구축을 위해 기존에 지속적으로 관리해야 했던 규칙 정보를 동적으로 관리할 수 있도록 처리함으로써 이에 대한 비용이 줄어들고 인스턴스의 정보를 효과적으로 유지할 수 있다.

Description

반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템{Method and system for constructing ontology instance based on semi-structured data}
본 발명은 온톨로지 인스턴스를 구축하는 방법에 관한 것으로 보다 상세하게는 속성 변경에 따른 온톨로지 인스턴스의 갱신 방법에 관한 것이다.
종래에는 네트워크 상에서 지식을 추출함에 있어, 지식 추출이 지속적으로 최신 정보로 유지하기 위한 설계보다는 추출 당시의 추출 정확성에 초점이 맞춰져 있었다. 따라서 정보가 기존보다 더 보강되거나 변경될 경우 이에 대해 즉각적인 대응이 어려운 문제가 존재한다. 예를 들어, 위키피디아의 인포박스 역시 기능 문서의 하나로 인포박스의 명칭이 변경되거나 속성명이 변경될 수 있다. 종래에는 관리자가 이와 같은 정보들을 전부 확인하여 수정해주어야 했다. 또한 각 속성 값 정보도 사전에 정의해둔 규칙으로만 분석이 되기 때문에 이후 다른 표현방식으로 속성 값을 표현하기 시작했다면 제대로 정보를 추출하기 어렵게 된다. 이와 같은 한계를 해결하기 위해서는 지속적인 관리가 필요하다.
본 발명의 기술적 과제는 상기한 문제점을 해결하기 위하여, 지식 추출을 위한 규칙들의 동적인 업데이트를 수행할 수 있는 방법을 제안하는 것을 목적으로 한다.
보다 상세하게는 데이터가 기존의 규칙으로 추출될 수 없거나 불완전한 형태로 추출될 경우 최적의 형태로 규칙의 동적인 업데이트는 수행하는 방법을 제안하는 것을 목적으로 한다.
상기 기술적 과제를 해결하기 위한 본 실시예에 따른 속성 변경에 따른 온톨로지 인스턴스 구축 방법은 획득하고자 하는 정보에 대하여 정의된 속성에 따른 입력 필드의 값을 추출하기 위하여 미리 결정된 데이터 정제 규칙을 가지는 제1 입력 필드에 대한 제1 값을 획득하는 단계; 상기 정보에 대하여 추가 또는 변경되는 속성에 따른 제2 입력 필드의 제2 값과 제1 값을 비교하는 단계; 및 상기 제1 값과 매칭되는 상기 제2 값에 대한 데이터 정제 규칙을 상기 제1 값에 대한 매핑으로 정의하는 단계를 포함한다.
상기 온톨로지 갱신 방법은, 다른 정보에 대하여 상기 추가 또는 변경되는 속성에 따른 상기 제2 입력 필드의 값을 상기 제2 값에 대하여 상기 정의된 데이터 정제 규칙을 통해 추출되는 값으로 갱신하는 단계를 더 포함한다.
상기 제1 및 제2 값은 온톨로지 인스턴스로서, 네트워크상에서 입력 받은 정보에서 상기 속성에 따른 값으로 표현하는 반정형 데이터를 분리하는 단계; 상기 반정형 데이터를 상기 미리 결정된 데이터 정제 규칙에 따라 정제하는 단계; 상기 정제되어 반정형 데이터로부터 추출된 인스턴스에 대한 데이터 타입 또는 속성 정보를 설정하여 온톨로지 인스턴스를 생성하는 단계를 통해 생성되는 것이 바람직하다.
상기 반정형 데이터를 분리하는 단계는 상기 입력 필드가 정의된 테이블 형태의 정보를 갖는 제1 형식 데이터와, 상기 네트워크상에서 입력 받은 정보의 분류 정보를 갖는 제2 형식 데이터로 분리하는 것이 바람직하다.
상기 온톨로지 인스턴스를 생성하는 단계는 인스턴스의 매핑 규칙 정보에 따라 상기 인스턴스에 대한 데이터 타입의 설정하여 상기 인스턴스에 대한 메타데이터를 생성하는 것이 바람직하다.
상기 기술적 과제를 해결하기 위한 본 실시예에 따른 속성 변경에 따른 온톨로지 인스턴스 구축 시스템은 네트워크상에서 입력 받은 정보에서 정의된 속성에 따른 값으로 표현하는 반정형 데이터를 분리하는 파싱부; 상기 반정형 데이터를 상기 미리 결정된 데이터 정제 규칙에 따라 정제하고, 상기 정제된 반정형 데이터로부터 추출된 인스턴스에 대한 데이터 타입 또는 속성 정보를 설정하여 온톨로지 인스턴스를 생성하는 생성부; 및 상기 생성된 제1 온톨로지 인스턴스와, 상기 반정형 데이터에 대하여 추가 또는 변경되는 속성에 따른 입력 필드의 제2 온톨로지 인스턴스를 비교하여 상기 제2 온톨로지 인스턴스에 대한 데이터 정제 규칙을 상기 제1 온톨로지 인스턴스에 대한 매핑으로 정의하는 규칙 변환부를 한다.
상기 온톨로지 인스턴스 구축 시스템은 다른 반정형 데이터에 대하여 상기 추가 또는 변경되는 속성에 따른 상기 제2 입력 필드의 값을 상기 제2 온톨로지 인스턴스에 대하여 상기 정의된 데이터 정제 규칙을 통해 추출되는 온톨로지 인스턴스로 갱신하는 갱신부를 더 포함한다.
본 발명에 따르면, 온라인 사전의 인스턴스 구축을 위해 기존에 지속적으로 관리해야 했던 규칙 정보를 동적으로 관리할 수 있도록 처리함으로써 이에 대한 비용이 줄어들고 인스턴스의 정보를 효과적으로 유지할 수 있다.
도 1은 본 발명의 일 실시예에 따른 온톨로지 인스턴스 구축 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 온톨로지 인스턴스 구축 방법의 인스턴스 생성을 나타내는 흐름도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 온톨로지 인스턴스 구축 시스템을 나타내는 블록도이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 인포박스의 속성 변경을 나타내는 예시도 이다.
이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.
또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 온톨로지 인스턴스 구축 방법을 나타내는 흐름도이다. 도 1을 참조하면 본 실시예에 따른 온톨로지 인스턴스 구축 방법은 온톨로지 인스턴스 획득 단계, 온톨로지 인스턴스 비교 단계, 데이터 정제 규칙 정의 단계, 온톨로지 인스턴스 갱신 단계를 포함한다.
먼저 온톨로지 인스턴스 획득 단계는 획득하고자 하는 정보에 대하여 정의된 속성에 따른 입력 필드의 값을 추출하기 위하여 미리 결정된 데이터 정제 규칙을 가지는 제1 입력 필드에 대한 제1 값을 획득한다.
본 실시예에서 온톨로지 인스턴스는 네트워크 상에 존재하는 지식 정보를 분석하여 사물이나 개념의 구체물, 사건 등 실질적 형태를 지닌 지식 개체로 생성한 인스턴스로서, 인스턴스와 인스턴스 간에 관계가 규정된 지식 개체를 의미한다.
즉, 본 실시예에서 이용되는 온톨로지 인스턴스는 정제된 데이터를 인스턴스 분석기에 의해 분석하여 최종적인 지식 형태의 구조인 인스턴스로 형성되고, 인스턴스의 타입과 속성의 설정을 통해 온톨로지 인스턴스 형식으로 변환하여 형성된다.
본 실시예에서 인스턴스의 생성은 네트워크 상에 존재하는 정보들을 이용하며, 바람직하게는 반정형 데이터(semi-structured data)를 이용한다. 반정형 데이터는 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태이다. 그러나 태그나 기타 마커가 포함되어 있어서 시맨틱 요소를 구분하고 데이터 내의 레코드와 필드 계층을 강제할수 있다.
반정형 데이터에서 동일 클래스에 속해있는 엔티티는 함께 그룹되어 있더라도 각기 다른 특성을 지닐 수 있으며, 특성의 순서가 중요하지 않다.
반정형 데이터는 인터넷이 등장한 뒤로 증가 추세이며, 여기서 전문 및 데이터베이스는 더 이상 유일한 데이터의 형태가 아니며 개별 애플리케이션들은 정보 교환을 위한 매개체가 필요하다. 객체 지향 데이터베이스에서 반정형 데이터를 종종 볼 수 있다.
대표적인 반정형 데이터로 온라인 사전을 예로 들면, 온라인 사전은 위키피디아와 같이 내용과 표현 방식이 변경될 수 있고 온라인 접속을 통해 그 내용을 확인할 수 있다.
따라서, 본 발명은 온라인 사전과 같이 반정형 상태로 변형되어 있는 데이터가 자동 추출의 주요 대상이다. 위키피디아의 문서들의 경우, 입력 필드가 정의된 테이블인 인포박스와 페이지의 분류 정보를 기록하는 카테고리 링크가 이러한 반정형 상태의 데이터로 구성된다.
따라서, 본 실시예에서 정보에 대하여 정의된 속성은 위키피디아의 인포박스의 각 항목에 해당될 수 있으며, 속성에 따른 입력 필드의 값을 추출하기 위하여 미리 결정된 데이터 정제 규칙은, 네트워크상에서 입력 받은 정보로부터 원하는 값을 추출하기 위한 규칙으로 이는 미리 사전에 1회의 직접적인 규칙 생성과정을 통해 생성될 수 있다.
다시 말해, 인포박스에는 어떤 속성들이 포함되어 있고 각 속성의 값들은 어떤 정제 규칙에 따라 데이터가 파싱된다고 하는 규칙 정보가 작성될 수 있다.
예를 들어 '이순신'페이지에 '인물 정보'라는 인포박스가 존재한다면, '인물 정보' 인포박스가 '생애'라는 속성을 갖고 있음을 사전에 정의된 규칙에 의해서 알고 있고, 그 값들에서 '출생연월일'과 '사망연월일' 값을 추출하기 위한 모듈이 필요함 역시 규칙으로 지정되어 있을 수 있다.
따라서, 인스턴스 획득 단계(S100)는 인포박스의 온톨로지 인스턴스로서 제1 입력 필드에 대한 제1 값을 획득한다.
다음, 온톨로지 인스턴스 비교 단계(S200)는 정보에 대하여 추가 또는 변경되는 속성에 따른 제2 입력 필드의 제2 값과 제1 값을 비교한다.
상술한 예에 따라, 위키피디아의 인포박스 역시 기능 문서의 하나로 인포박스의 명칭이 변경되거나 속성명이 변경될 수 있다. 종래에는 관리자가 이와 같은 정보들을 전부 확인하여 수정해주어야 했다. 또한 각 속성 값 정보도 사전에 정의해둔 규칙으로만 분석이 되기 때문에 이후 다른 표현방식으로 속성 값을 표현하기 시작했다면 제대로 정보를 추출하기 어렵게 된다. 이와 같은 한계를 해결하기 위해서는 지속적인 관리가 필요하다. 따라서, 속성의 변경을 인지하고 이에 대한 동적인 업데이트를 위하여 본 실시예에서는 미리 결정된 데이터 정제 규칙을 가지고 있는 제1 값과, 변경된 속성에 따른 제2 값을 서로 비교하여, 매칭되는 속성을 찾는다.
본 실시예에서는 정제 규칙의 동적인 업데이트를 위하여 기 구축한 인스턴스 정보를 사용한다. 문서의 데이터가 변경되더라도 한번에 변경되는 양은 구축된 전체 인스턴스가 갖고 있는 정보에 비교하면 많지 않다. 따라서 기 구축된 인스턴스가 지니고 있는 정보를 바탕으로 변경된 인포박스나 카테고리 정보를 점검하면 변경된 반정형 데이터의 의미를 추론할 수 있다.
도 5를 참조하면, 예를 들어, 온라인 사전에 '이순신' 문서(52)에 존재하는 인포박스(54)에 '생애'라는 속성(55)으로 제1 값으로 출생연월일과 사망연월일이 기록되어 있다고 가정한다. 해당 속성(56)이 변경되어 '출생일'과 '사망일'로 나뉘어져 기록되었을 때, 기존에는 해당 정보에 대한 데이터 정제 규칙을 별도로 수정해주어야 했다. 그러나 본 발명에서는 기존에 기록되어 있던 제1 값인 출생연월일 정보가 변경된 속성의 제2 값인 '출생일' 속성에 기록되어 있고, 사망연월일이 '사망일' 속성에 기록되어 있는 것을 확인할 수 있다.
다음, 데이터 정제 규칙 정의 단계(S300)는 제1 값과 매칭되는 제2 값에 대한 데이터 정제 규칙을 제1 값에 대한 매핑으로 정의한다.
즉 기존 정제 규칙에 정의되어 있던 인포박스 및 그 인포박스 하위 속성들에 대한 규칙은 추후에 다시 구축될 때에도 그대로 적용 될 수 있으며, 인포박스 속성의 추가 및 변경도 가능하고, 인포박스 자체가 바뀌는 경우도 있는데, 이러한 경우를 온톨로지 인스턴스를 통해 대응 한다.
상술한 예에서는 기존에 규칙에 존재하지 않았던 '장군 정보'라는 인포박스가 생성된 상황으로, '장군 정보' 인포박스에는 '출생일'과 '사망일'이라는 속성을 지니고 있고, 이 값이 기존의 생애의 값들과 매칭되며, 이럴 경우 기존의 '인물 정보'의 '생애' 속성에 대한 데이터 정제 규칙과 '장군 정보'의 '출생일'과 '사망일' 속성에 대한 데이터 정제 규칙간의 매핑 정보를 구성한다.
도 6과 같은 테이블을 통해 기존의 제1 입력 필드에 대한 제1 값이 변경된 속성의 제2 입력 필드의 제2 값이 동일함을 확인 하였는바, 제1 값에 대한 데이터 정제 규칙을 제2 값에 대한 데이터 정제 규칙으로 매핑시킨다.
다음, 온톨로지 인스턴스 갱신 단계(S400)는, 다른 정보에 대하여 추가 또는 변경되는 속성에 따른 제2 입력 필드의 값을 제2 값에 대하여 정의된 데이터 정제 규칙을 통해 추출되는 값으로 갱신한다.
즉, 해당 인포박스를 사용하는 다른 문서에서는 '출생일'과 '사망일' 속성을 확인하고 데이터를 추출하도록 규칙을 생성하여 기존 과정을 동적으로 처리한다.
이하 도 2를 참조하여, 본 실시예에서 이용되는 온톨로지 인스턴스의 생성 방법에 대하여 보다 상세히 설명한다.
도 2를 참조하면, 온톨로지 인스턴스 생성 방법은 온라인 사전 데이터 입력 단계(S10), 반정형 데이터 분리 단계(S20), 데이터 정제 단계(S30), 온톨로지 인스턴스 생성 단계(S40)를 포함한다.
온라인 사전 데이터 입력 단계(S10)는 네트워크상에서 정보를 입력 받는 단계로, 온라인 사전의 공개된 덤프 파일의 버전을 확인하여 최신으로의 변경이 확인되면 온라인 사전에 대한 원본 데이터를 입력 받는다.
반정형 데이터 분리 단계(S20)는 네트워크상에서 입력 받은 정보에서 속성에 따른 값으로 표현하는 반정형 데이터를 분리한다. 본 실시예에서 반정형 데이터를 분리하는 단계는 입력 필드가 정의된 테이블 형태의 정보를 갖는 제1 형식 데이터와, 네트워크상에서 입력 받은 정보의 분류 정보를 갖는 제2 형식 데이터로 분리할 수 있다. 즉 입력된 데이터 중 반정형 형태의 자동분석이 가능한 데이터를 분리하는 단계로 제1 형식 데이터인 인포박스를 분리하는 단계와 제2 형식 데이터인 카테고리를 분리하는 단계로 구성될 수 있다.
데이터 정제 단계(S30)는 반정형 데이터를 미리 결정된 데이터 정제 규칙에 따라 정제한다. 다음 온톨로지 인스턴스 생성 단계(S40)는 정제되어 반정형 데이터로부터 추출된 인스턴스에 대한 데이터 타입 또는 속성 정보를 설정하여 온톨로지 인스턴스를 생성한다.
이상의 단계를 통해 생성된 온톨로지 인스턴스를 이용하여, 본 실시예에 따른 온톨로지 인스턴스 구축 방법은 인포박스나 카테고리 정보를 점검하여 변경된 반정형 데이터의 의미를 추론한다. 본 발명에서 온라인 사전 데이터를 지속적으로 업데이트 받고 데이터가 인스턴스화 되는 일련의 과정을 자동화할 수 있다.
이하, 도 3 및 도 4를 참조하여 상술한 실시예에 따른 온톨로지 인스턴스 구축 방법을 수행하는 시스템에 대하여 설명한다.
본 실시예에 따른 온톨로지 인스턴스 구축 시스템은 온라인 사전 추출부(100), 온라인 사전 파싱부(200), 온톨로지 인스턴스 생성부(400), 데이터 정제 규칙 분석부(300)를 포함한다.
본 실시예에서 온라인 사전 추출부(100)는 버전 검사기(110)를 통해 온라인 사전(10)의 공개된 덤프 파일의 버전을 확인하여 최신으로의 변경이 확인되면 데이터 추출기(120)를 통해 온라인 사전에 대한 원본 데이터를 추출하여 원본 데이터 데이터 베이스(130)에 기록한다.
온라인 사전 파싱부(200)는 기록된 데이터 중 반정형 형태의 자동분석이 가능한 데이터를 분리하며, 구체적으로 인포박스를 분리하는 파서(210)와 카테고리를 분리하는 파서(220)를 포함한다. 이렇게 파서에 의해 분리된 데이터는 각각의 인포박스 및 카테고리 데이터 베이스(411, 421)에 저장된다.
온톨로지 인스턴스 생성부(400)는 반정형 데이터를 미리 결정된 데이터 정제 규칙에 따라 정제하고, 반정형 데이터로부터 추출된 인스턴스에 대한 데이터 타입 또는 속성 정보를 설정하여 온톨로지 인스턴스를 생성한다.
도 4를 참조하면, 본 실시예에 따른 온톨로지 인스턴스 생성부(400)는 인포박스 정제기(410), 카테고리 정제기(420), 통합 정제 온라인 사전 데이터 베이스(430), 인스턴스 분석기(440), 인스턴스 생성기(450)를 포함할 수 있다.
인포박스 정제기(410)는 인포박스 데이터 베이스(411)에 기록된 데이터를 인포박스 정제 규칙 데이터 베이스(412)가 적용된 정제 모듈(413, 414)로 정제된다.
인포박스 통합 정제 모듈(413)은 모든 인포박스 정보에 대해 공통적으로 수행하며, 인포박스-속성 페어 정제 모듈(414)은 특정 인포박스-속성 페어에서만 필요한 정제 과정을 수행한다.
카테고리 정제기(420)는 카테고리 데이터 베이스(421)에 기록된 데이터를 정제규칙 데이터 베이스가(422)가 적용된 정제 모듈(423)로 정제된다.
인포박스 및 카테고리 정제기(410, 420)에 의해 정제된 데이터는 통합 정제 온라인 사전 데이터 베이스(430)에 기록되며 인스턴스 분석기(440)에 의해 최종적인 지식 형태의 구조를 형성한다.
인스턴스 분석기(440)는 인스턴스의 타입과 그 외 속성 설정 과정으로 나뉘어 동작하며 타입 설정은 인포박스 및 카테고리 기반 타입 분석기 (443, 444)가 타입 매핑 규칙 데이터베이스(442)를 적용하여 인스턴스 메타데이터를 구축하며, 그 외의 속성 설정은 속성 매퍼(445)에 의해 설정되고, 인포박스와 카테고리의 인스턴스 통합기(446)에 의해 두 가지 구축과정의 결과가 통합되어 인스턴스 메타데이터 데이터 베이스(447)에 기록된다.
인스턴스 생성기(450)는 인스턴스 메타데이터 데이터 베이스(447)의 데이터를 온톨로지 인스턴스 형식으로 변환하기 위하여 온톨로지 변환기(451)에 의해 온톨로지 구조로 변경하고, URI(Uniform Resource Identifier) 정제기(452)가 URI를 인식할 수 있는 형태로 정제하며, 이를 인스턴스 검증기(453)가 이를 검증한다.
이때 검증된 온톨로지 인스턴스는 인스턴스 데이터 베이스(500)에 저장되며, 구체적으로 인스턴스 데이터로 온라인 사전 자동추출 과정에 의해 구축된 인스턴스는 온라인 사전 자동 추출 인스턴스 데이터 베이스(510)에 기타 큐레이션이나 다른 온톨로지 변환 등에 의해 구축된 인스턴스는 기타 인스턴스 데이터 베이스(520)에 저장된다.
다음 데이터 정제 규칙 분석부(300)는 상술한 도 1에 따른 데이터 정제 규칙을 정의하는 단계로서, 규칙 검증기(310)와 규칙을 분석하여 재정의하는 규칙 변환기(320)를 포함한다. 즉, 규칙 검증기(310)를 통해 기 구축된 온톨로지 인스턴스를 활용하여 데이터 정제 규칙의 유효성을 검증할 수 있으며, 규칙 변환기(320)는 인포박스의 속성 변경에 따라 데이터 정제 규칙의 재정의가 필요한 경우 이를 변환하고, 온톨로지 인스턴스를 구축한다.
상술한 실시예에 따르면, 생성된 제1 온톨로지 인스턴스와, 반정형 데이터에 대하여 추가 또는 변경되는 속성에 따른 입력 필드의 제2 온톨로지 인스턴스를 비교하여 제2 온톨로지 인스턴스에 대한 데이터 정제 규칙을 제1 온톨로지 인스턴스에 대한 매핑으로 정의한다.
나아가, 도시하지는 않았으나, 본 발명에 따른 온톨로지 인스턴스 구축 시스템은 다른 반정형 데이터에 대하여 추가 또는 변경되는 속성에 따른 제2 입력 필드의 값을 제2 온톨로지 인스턴스에 대하여 정의된 데이터 정제 규칙을 통해 추출되는 온톨로지 인스턴스로 갱신하는 갱신부를 더 포함할 수 있다.
이상의 본 발명에 따르면, 온라인 사전의 인스턴스 구축을 위해 기존에 지속적으로 관리해야 했던 데이터 정제 규칙 정보를 동적으로 관리할 수 있도록 처리함으로써 이에 대한 비용이 줄어들고 인스턴스의 정보를 효과적으로 유지할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (7)

  1. 획득하고자 하는 정보에 대하여 정의된 속성에 따른 입력 필드의 값을 추출하기 위하여 미리 결정된 데이터 정제 규칙을 가지는 제1 입력 필드에 대한 제1 값을 획득하는 단계;
    상기 정보에 대하여 추가 또는 변경되는 속성에 따른 제2 입력 필드의 제2 값과 제1 값을 비교하는 단계; 및
    상기 제1 값과 매칭되는 상기 제2 값에 대한 데이터 정제 규칙을 상기 제1 값에 대한 매핑으로 정의하는 단계를 포함하고,
    상기 제1 및 제2 값은 온톨로지 인스턴스로서, 네트워크상에서 입력 받은 정보에서 상기 속성에 따른 값으로 표현하는 반정형 데이터를 분리하는 단계; 상기 반정형 데이터를 상기 미리 결정된 데이터 정제 규칙에 따라 정제하는 단계; 및 정제된 상기 반정형 데이터로부터 추출된 인스턴스에 대한 데이터 타입 또는 속성 정보를 설정하여 온톨로지 인스턴스를 생성하는 단계를 통해 생성되고,
    상기 온톨로지 인스턴스를 생성하는 단계는 인스턴스의 매핑 규칙 정보에 따라 상기 인스턴스에 대한 데이터 타입의 설정하여 상기 인스턴스에 대한 메타데이터를 생성하는 것을 특징으로 하는 속성 변경에 따른 반정형 데이터 기반 동적 온톨로지 인스턴스 구축 방법
  2. 제 1 항에 있어서,
    상기 온톨로지 인스턴스 구축 방법은,
    다른 정보에 대하여 상기 추가 또는 변경되는 속성에 따른 상기 제2 입력 필드의 값을 상기 제2 값에 대하여 상기 정의된 데이터 정제 규칙을 통해 추출되는 값으로 갱신하는 단계를 더 포함하는 것을 특징으로 하는 속성 변경에 따른 반정형 데이터 기반 동적 온톨로지 인스턴스 구축 방법
  3. 삭제
  4. 제 1 항에 있어서,
    상기 반정형 데이터를 분리하는 단계는 상기 입력 필드가 정의된 테이블 형태의 정보를 갖는 제1 형식 데이터와,
    상기 네트워크상에서 입력 받은 정보의 분류 정보를 갖는 제2 형식 데이터로 분리하는 것을 특징으로 하는 속성 변경에 따른 반정형 데이터 기반 동적 온톨로지 인스턴스 구축 방법
  5. 삭제
  6. 네트워크상에서 입력 받은 정보에서 정의된 속성에 따른 값으로 표현하는 반정형 데이터를 분리하는 파싱부;
    상기 반정형 데이터를 미리 결정된 데이터 정제 규칙에 따라 정제하고, 상기 정제된 반정형 데이터로부터 추출된 인스턴스에 대한 데이터 타입 또는 속성 정보를 설정하여 온톨로지 인스턴스를 생성하는 생성부; 및
    상기 생성된 제1 온톨로지 인스턴스와, 상기 반정형 데이터에 대하여 추가 또는 변경되는 속성에 따른 입력 필드의 제2 온톨로지 인스턴스를 비교하여 상기 제2 온톨로지 인스턴스에 대한 데이터 정제 규칙을 상기 제1 온톨로지 인스턴스에 대한 매핑으로 정의하는 규칙 변환부를 포함하고,
    상기 생성부는 인스턴스의 매핑 규칙 정보에 따라 상기 인스턴스에 대한 데이터 타입의 설정하여 상기 인스턴스에 대한 메타데이터를 생성하는 것을 특징으로 하는 속성 변경에 따른 반정형 데이터 기반 동적 온톨로지 인스턴스 구축 시스템
  7. 제 6 항에 있어서,
    상기 반정형 데이터 기반 동적 온톨로지 인스턴스 구축 시스템은,
    다른 반정형 데이터에 대하여 상기 추가 또는 변경되는 속성에 따른 상기 입력 필드의 값을 상기 제2 온톨로지 인스턴스에 대하여 상기 정의된 데이터 정제 규칙을 통해 추출되는 온톨로지 인스턴스로 갱신하는 갱신부를 더 포함하는 것을 특징으로 하는 속성 변경에 따른 반정형 데이터 기반 동적 온톨로지 인스턴스 구축 시스템
KR1020140170334A 2014-12-02 2014-12-02 반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템 KR101675946B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140170334A KR101675946B1 (ko) 2014-12-02 2014-12-02 반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140170334A KR101675946B1 (ko) 2014-12-02 2014-12-02 반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20160066237A KR20160066237A (ko) 2016-06-10
KR101675946B1 true KR101675946B1 (ko) 2016-11-15

Family

ID=56190594

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140170334A KR101675946B1 (ko) 2014-12-02 2014-12-02 반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101675946B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102694856B1 (ko) 2024-01-16 2024-08-13 주식회사 제제소프트 다양한 포맷의 데이터를 자동으로 매핑하고 정제하는 방법 및 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727799B (zh) * 2018-06-29 2022-08-16 杭州海康威视数字技术股份有限公司 本体构建方法及装置
KR102265304B1 (ko) * 2019-12-05 2021-06-16 주식회사 렙딥 온톨로지 모델링 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084193A (ja) * 2006-09-28 2008-04-10 Toshiba Corp インスタンス選択装置、インスタンス選択方法及びインスタンス選択プログラム
JP2009037360A (ja) * 2007-07-31 2009-02-19 Hitachi Ltd 半構造データ差分管理方法、半構造データ差分管理プログラムおよび半構造データ差分管理システム
JP2010224833A (ja) 2009-03-23 2010-10-07 Toshiba Corp オントロジー生成装置、及び方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100495034B1 (ko) * 2003-11-12 2005-06-14 주식회사 엠파스 인포박스를 이용한 정보제공 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084193A (ja) * 2006-09-28 2008-04-10 Toshiba Corp インスタンス選択装置、インスタンス選択方法及びインスタンス選択プログラム
JP2009037360A (ja) * 2007-07-31 2009-02-19 Hitachi Ltd 半構造データ差分管理方法、半構造データ差分管理プログラムおよび半構造データ差分管理システム
JP2010224833A (ja) 2009-03-23 2010-10-07 Toshiba Corp オントロジー生成装置、及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102694856B1 (ko) 2024-01-16 2024-08-13 주식회사 제제소프트 다양한 포맷의 데이터를 자동으로 매핑하고 정제하는 방법 및 시스템

Also Published As

Publication number Publication date
KR20160066237A (ko) 2016-06-10

Similar Documents

Publication Publication Date Title
US11573948B2 (en) Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
CN106777970B (zh) 一种医疗信息系统数据模板化的集成系统及方法
US20160335544A1 (en) Method and Apparatus for Generating a Knowledge Data Model
Bohring et al. Mapping XML to OWL ontologies
Lambrix et al. SAMBO—a system for aligning and merging biomedical ontologies
CN103838837B (zh) 基于语义模板的遥感元数据集成方法
CN104536987B (zh) 一种查询数据的方法及装置
Dyvak et al. Recognition of Relevance of Web Resource Content Based on Analysis of Semantic Components
KR101675946B1 (ko) 반정형데이터 기반 동적 온톨로지 인스턴스 구축 방법 및 시스템
CN106649769B (zh) 一种基于语义的xbrl数据到owl数据的转换方法
KR101739540B1 (ko) 통합 지식베이스 구축 시스템 및 방법
Gracia del Río et al. Enabling language resources to expose translations as linked data on the web
Lambrix et al. A tool for evaluating ontology alignment strategies
JP2017208015A (ja) 更新装置、更新方法、及び更新プログラム
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
US20230169124A1 (en) Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
KR101684579B1 (ko) 지식 생성 시스템 및 방법
WO2014149555A1 (en) Method and system for generating and using a master entity associative data network
KR101802051B1 (ko) 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
KR20100003087A (ko) 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법
US8954474B2 (en) Managing data systems to support semantic-independent schemas
KR101499571B1 (ko) 일반문서의 자동계층 분류를 통한 의미적 문서로의 변환 방법, 이를 수행하기 위한 기록 매체 및 장치
CN118475924A (zh) 用于计算机实现的数据变换的处理器、计算机程序产品、系统和方法
AU2015342900B2 (en) Systems and methods for normalized schema comparison
Ticona-Herrera et al. Toward RDF normalization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant