KR101057073B1 - 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템 - Google Patents

시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템 Download PDF

Info

Publication number
KR101057073B1
KR101057073B1 KR1020090016988A KR20090016988A KR101057073B1 KR 101057073 B1 KR101057073 B1 KR 101057073B1 KR 1020090016988 A KR1020090016988 A KR 1020090016988A KR 20090016988 A KR20090016988 A KR 20090016988A KR 101057073 B1 KR101057073 B1 KR 101057073B1
Authority
KR
South Korea
Prior art keywords
data
user
semantic metadata
ontology
concepts
Prior art date
Application number
KR1020090016988A
Other languages
English (en)
Other versions
KR20100098028A (ko
Inventor
신석호
안태성
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020090016988A priority Critical patent/KR101057073B1/ko
Publication of KR20100098028A publication Critical patent/KR20100098028A/ko
Application granted granted Critical
Publication of KR101057073B1 publication Critical patent/KR101057073B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템에 관한 것으로, 본 발명에 따른 데이터 구조화 방법은 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하고, 비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받고, 비구조적 데이터와 비구조적 데이터의 객체에 대응하는 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하고, 생성된 구조적 데이터를 지식 베이스에 저장함으로써, 효율적으로 지식 콘텐츠를 관리할 수 있고, 기술적 지식이 부족한 일반 사용자들도 쉽게 구조화된 데이터를 생성할 수 있다.

Description

시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템{Data structurizing method and system using semantic metadata}
본 발명은 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템에 관한 것으로, 보다 상세하게는 통상의 비구조적 데이터와 사용자 인터페이스를 통해 시각적으로 입력받은 시맨틱 메타데이터를 결합하여 구조화된 데이터를 생성하는 데이터 구조화 방법 및 시스템에 관한 것이다.
네트워크의 발전과 컴퓨터 기술의 발전으로 많은 사람들이 매일 새롭게 생성되는 엄청난 양의 정보를 접할 수 있게 되었다. 기업의 업무에서도 지식 근로자의 비중이 점점 높아져 가고, 이들로부터 생산, 관리, 공유, 재생산되는 콘텐츠들로 인해 기업은 더욱 방대한 정보를 보유, 축적하게 되었다. 즉, 현대는 양적인 측면에서 정보과잉의 시대라고 할 수 있다. 이처럼 지식 콘텐츠의 분량이 점점 방대해지는 것을 효율적으로 관리하기 위해 많은 기업들은 지식 관리나 문서 관리를 위한 각종 시스템과 관리 방법을 도입하여 운영하게 되었다. 여기에는 문서의 효율적 분류와 지식 연계 작업들도 포함된다.
그러나, 이러한 양질의 지식 콘텐츠를 해당 조직의 구성원들과 공유하기 위 한 노력들에도 불구하고, 여전히 대부분의 지식 콘텐츠는 비구조화된 형태로 생성, 관리되고 있는 실정이다. 비록, 지식 콘텐츠를 작성한 사람의 친절한 설명이나, 세분화된 분류체계, 그리고 나날이 발전하고 있는 검색 엔진이 있다 할지라도 폭발적으로 증가하고 있는 데이터 중에서 정확하고, 사용자에게 꼭 필요한 데이터만을 빠른 시간 내에 탐색, 추출하는 것은 쉬운 일이 아니다. 왜냐하면, 앞서 설명한 바와 같이 현존하는 대부분의 지식 콘텐츠가 비구조적 형태로 생성, 관리되어 왔기 때문에 기계(컴퓨터)가 해당 콘텐츠의 내용을 이해하여 처리할 수 없는 문제점이 있다. 결국 사용자들은 많은 콘텐츠 중에서 무엇이 필요한 것인지를 직접 확인해야 하는 불편함을 감수해야만 한다.
특히, 최근 웹 2.0 서비스 환경 하에서, 블로그(blog)나 위키(wiki)를 통해 이러한 지식 콘텐츠의 생산 속도는 더욱 가속화되고 있다. 여기서, 블로그는 일반인들이 자신의 관심사에 따라 일기, 칼럼, 기사 등을 자유롭게 작성하여 웹에 게시할 수 있는 미디어를 의미하고, 위키는 하이퍼텍스트(hypertext)를 활용한 웹 게시물 또는 이러한 게시물을 생성할 수 있는 협력 소프트웨어를 의미한다. 블로그가 '1인 미디어'에 기반하고 있다면, 위키는 다수의 참여자들이 함께 게시물을 생성해 갈 수 있는 '사용자 참여'라는 특징을 갖는다. 그런데, 이러한 블로그 및 위키 역시 대부분 비구조화된 데이터라는 점에서 상기 언급된 바와 동일한 약점을 안고 있다.
따라서, 기업을 포함한 특정 조직에서 생산되는 지식 콘텐츠는 일정한 형태로 구조화될 필요성이 있다. 만약 기업 등의 조직에서 해당 조직의 지식 콘텐츠를 블로그나 위키 등을 활용하여 생산, 관리하고 있다면, 보다 효율적인 지식 콘텐츠의 관리 및 활용을 위해 블로그에 포스팅된 비구조적인 글이나, 위키 문서를 구조화된 데이터로 가공할 필요가 있다.
본 발명이 해결하고자 하는 기술적 과제는 종래의 비구조화된 콘텐츠 및 데이터를 기계가 이해할 수 없음으로 인해 발생하는 데이터 처리의 효율 저하 및 불편함을 극복하기 위해, 기술적 지식이 부족한 일반 사용자가 시각화된 사용자 인터페이스를 통해 쉽게 시맨틱 메타데이터를 입력함으로써 구조화된 데이터를 생성하는 데 있다.
또한, 본 발명이 해결하고자 하는 다른 기술적 과제는 이상에서 생성된 구조화된 데이터를 활용하여 사용자가 필요한 정보를 보다 효율적으로 관리, 검색할 수 있는 데이터 구조화 방법 및 시스템을 제공하는 데에 있다.
상기 기술적 과제를 해결하기 위하여, 본 발명에 따른 데이터 구조화 방법은 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 단계; 비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 단계; 상기 비구조적 데이터와 상기 비구조적 데이터의 객체에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 단계; 및 상기 생성된 구조적 데이터를 지식 베이스에 저장하는 단계를 포함한다.
상기 시맨틱 메타데이터를 시각적으로 입력받는 단계는, 사용자로부터 상기 비구조적 데이터 내의 소정 객체를 선택받는 단계; 상기 사용자 인터페이스를 통해 상기 소정 도메인에 속하는 개념들을 상기 사용자에게 시각적으로 표시하는 단계; 및 상기 사용자 인터페이스를 통해 상기 사용자로부터 상기 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 단계를 포함한다.
상기 구조적 데이터를 생성하는 단계는, 상기 입력받은 시맨틱 메타데이터를 RDFa 포맷으로 변환하는 단계; 및 상기 비구조적 데이터의 객체에 상기 변환된 시맨틱 메타데이터를 태깅하는 단계를 포함한다.
상기 다른 기술적 과제를 달성하기 위하여, 본 발명에 따른 데이터 구조화 방법은 사용자로부터 키워드를 입력받는 단계; 상기 지식 베이스에서 상기 키워드와 연관된 온톨로지 객체를 검색하는 단계; 상기 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑하는 단계; 및 상기 매핑된 결과를 출력하는 단계를 더 포함한다.
또한, 이하에서는 상기 기재된 데이터 구조화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기 기술적 과제를 해결하기 위하여, 본 발명에 따른 데이터 구조화 시스템은 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 온톨로지 정의부; 비구조적 데이터를 작성하는 에디터에 부가되어 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 사용자 인터페이스; 상기 비구조적 데이터와 상기 비구조적 데이터의 객체에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 데이터 처리부; 및 상기 생성된 구조적 데이터를 저장하는 지식 베이스를 포함한다.
본 발명은 비구조화된 콘텐츠 및 데이터를 처리함에 있어서 기계가 이해할 수 있는 시맨틱 메타데이터를 부착하여 구조화된 데이터를 생성함으로써 효율적으로 지식 콘텐츠를 관리할 수 있고, 시각화된 사용자 인터페이를 통해 시맨틱 메타데이터를 입력받음으로써, 기술적 지식이 부족한 일반 사용자들도 쉽게 구조화된 데이터를 생성할 수 있게 한다. 또한, 본 발명은 구조화된 데이터를 활용하여 사용자가 필요한 정보를 보다 효율적으로 관리, 검색할 수 있다.
본 발명의 실시예들을 설명하기에 앞서 이하에서 사용할 용어들과 개념을 간략히 설명한다.
시맨틱 웹(semantic web)은 현재의 인터넷과 같은 분산 환경에서 리소스(웹 문서, 각종 파일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(semanteme)를 기계, 즉 컴퓨터가 처리할 수 있는 온톨로지(ontology) 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 프레임워크이자 기술이다. 여기서, 온톨로지란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로서, 정형화되고 개념의 유형이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 컴퓨터 과학 분야에서 온톨로지는 특정한 영역을 표현하는 데이터 모델로서 특정한 영역(domain)에 속하는 개념과 개념 사이의 관계를 기술하는 정형(formal) 어휘의 집합으로 정의된다. 특히, 온톨로지는 시맨틱 웹을 구현할 수 있는 도구로써, 지식 개념을 의미적으로 연결할 수 있는 도구로 사용되며, 컴퓨터에서 사람이 갖고 있는 사물에 대한 개념을 일종의 데이터베이스의 형태로 가공하여 처리할 수 있도록 해 준다.
시맨틱 웹은 XML(Extensible Markup Language)에 기반한 시맨틱 마크업 언어로써 표현될 수 있다. 이러한 시맨틱 웹에서는 주어(subject), 술어(predicate), 객체(object)의 트리플(triple) 형태로 개념을 표현하며, 다시 각각의 주어, 술어, 객체는 XML의 URI(Uniform Resource Identifier)로 표현될 수 있다. 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있다.
이하에서는 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 시스템을 도시한 도면으로서, 크게 데이터 구조화 시스템(10)과 이를 활용하는 사용자(20)를 표현하고 있다. 여기서, 데이터 구조화 시스템(10)은 다시 온톨로지 정의부(100), 에디터(200), 사용자 인터페이스(250), 데이터 처리부(300) 및 지식 베이스(400)를 포함한다.
온톨로지 정의부(100)는 데이터 구조화 시스템(10)과 연관된 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의한다. 예를 들어, 본 데이터 구조화 시스템이 특정 IT 기업에서 활용될 경우를 가정하면, 해당 도메인 내에는 기업, 직원, 개발 프로젝트, 제품 등과 같은 개념들이 존재할 수 있으며, 직원은 기업에 소속되고, 직원은 개발 프로젝트를 수행하는 등과 같은 관계가 설정될 수 있을 것이다. 이러한 온톨로지 정의부(100)는 통상적인 컴퓨터 환경에서의 키보드 및 마우 스와 같은 입력장치를 통해 정의를 입력받아, 입력된 온톨로지 정의를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로 처리하는 프로세서로 구현될 수 있다.
에디터(200)는 통상적인 콘텐츠 및 데이터를 생성할 수 있는 저작 도구이다. 예를 들어, 블로그 환경에서는 블로그의 새 포스트를 작성할 수 있는 작성 웹 에디터가 될 것이며, 위키 환경에서는 새 위키 문서를 작성할 수 있는 웹 에디터가 될 것이다. 최근 기업 내 지식 공유 및 업무 효율 향상을 위해 위키 시스템을 도입하는 기업이 나타나고 있다는 보고가 있다. 이러한 에디터(200)를 통해 생성된 콘텐츠는 기업이나 정부 기관 내 사용자의 문서나 데이터가 포함될 수 있으며, 설치형 에디터 프로그램(예를 들어, 마이크로소프트사의 MS WORD)이 생성한 문서와 같이 비구조적 데이터에 해당한다. 즉, 에디터(200)를 통해서는 통상의 비구조적 문서를 생성할 수 있을 뿐이다. 이러한 에디터(200)는 통상적인 컴퓨터 환경에서의 키보드 및 마우스와 같은 입력장치를 통해 텍스트를 입력받아, 입력된 텍스트를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로 처리하는 프로세서로 구현될 수 있다.
사용자 인터페이스(250)는 에디터(200)에 부가되어 온톨로지 정의부(100)를 통해 정의된 온톨로지에 기초한 시맨틱 메타데이터(semantic metadata)를 시각적으로 입력받는다. 사용자 인터페이스(250)는 사용자가 에디터(200)를 통해 콘텐츠 또는 문서를 작성하거나, 편집하는 시점에 해당 콘텐츠 또는 문서 내의 특정 객체에 대한 시맨틱 메타데이터를 입력할 수 있다. 여기서, 시맨틱 메타데이터는 시맨틱 웹 환경에서 데이터를 표현하거나 설명하기 위해 구조화된 데이터를 의미한다. 즉, 사용자 인터페이스(250)를 통해 사용자는 앞서 정의된 온톨로지를 참조하여 사용자가 선택한 비구조화된 데이터의 특정 객체를 설명하기 위한 속성 정보를 입력한다.
이러한 사용자 인터페이스(250)는 에디터(200)에 부가되어 시각적으로 사용자와 상호작용함으로써 보다 용이하게 구조화된 데이터를 입력하는 것을 도와준다. 이를 통해 사용자의 콘텐츠 생성 시점과 동시에 시맨틱 메타데이터의 입력이 이루어지는 동시성이 나타난다. 동시성은 일단 작성된 비구조화 데이터를 사후에 관리자에 의해 구조화하는 불편함을 방지하고, 해당 비구조화 데이터 내의 개별 객체들의 속성을 가장 잘 파악하고 있는 당사자가 직접 메타데이터를 입력함으로써 보다 정확하게 구조화된 데이터를 생성할 수 있게 해 준다. 물론, 비구조화 데이터 생성과 메타데이터의 입력 시점이 동시에 이루어지지 않아도 무방함은 당연하다. 예를 들어, 기업의 직원이 자신이 작성한 일반 문서를 에디터(200)를 이용해 수정하는 시점에서 사용자 인터페이스(250)를 통해 문서 내의 특정 객체들에 메타데이터를 입력하는 것도 가능할 것이다.
사용자 인터페이스(250)는 통상적인 컴퓨터 환경에서의 키보드 및 마우스와 같은 입력장치를 통해 텍스트를 입력받아, 입력된 텍스트를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로 처리하는 프로세서로 구현될 수 있다. 사용자 인터페이스(250)를 통해 시맨틱 메타데이터를 시각적으로 입력받는 보다 구체적인 방법은 이후에 다시 자세히 설명하겠다.
데이터 처리부(300)는 에디터(200)를 이용해 작성된 비구조적 데이터와 비구 조적 데이터와 이러한 비구조적 데이터의 객체에 대응하는 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성한다. 시맨틱 메타데이터는 온톨로지를 참조하여 앞서 설명한 사용자 인터페이스(250)를 통해 입력받은 속성 정보이다. 데이터 처리부(300)는 통상적인 컴퓨터 환경에서의 프로세서와 작업에 필요한 메모리로 구현될 수 있으며, 비구조적 데이터와 시맨틱 메타데이터를 구조적으로 결합하여 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로서 처리한다.
지식 베이스(400)는 데이터 처리부(300)를 통해 생성된 구조적 데이터를 저장한다. 지식 베이스(knowledge base)란, 해당 도메인에 관련된 지식 콘텐츠와 데이터가 조직화되어 축적되어 있는 일종의 데이터베이스나 저장소(repository)를 의미한다. 예를 들어, 비구조적 데이터가 블로그나 위키 콘텐츠인 경우, 지식 베이스(400)는 통상적인 블로그 또는 위키 콘텐츠를 저장하는 것 이외에도 시맨틱 메타데이터를 구조화하여 저장, 관리해야 할 것이다. 이러한 지식 베이스(400)는 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드들을 저장할 수 있는 하드디스크 드라이브(HDD)나 기타 대용량 데이터 저장수단(mass storage) 등으로 구현될 수 있다.
본 실시예에 따르면 시간이 경과함에 따라 데이터 처리부(400)에서 생성된 구조적 데이터가 지식 베이스(400)에 지속적으로 저장, 축적되게 되고, 지식 베이스(400) 내에 축적된 데이터에 포함된 객체들은 더 많은 관계가 설정되게 된다. 이렇게 정제된 관계가 증가할수록 객체들로부터 유추될 수 있는 관계들이 더욱 풍부해짐으로 인해 종래에 없었던 새로운 추론이 가능해진다.
도 2는 본 발명의 다른 일 실시예에 따른 시맨틱 메타데이터를 활용하여 지식 베이스 내의 구조화된 데이터를 검색하기 위한 데이터 구조화 시스템을 도시한 도면으로서, 도 1에 비해 입력부(500), 질의 엔진(700) 및 출력부(600)를 더 포함한다. 나머지 구성 요소는 도 1과 유사하므로 여기에서는 설명을 생략한다.
새롭게 추가된 구성 요소들은 도 2에 도시된 데이터 구조화 시스템에서 시맨텍 어노테이션(semantic annotation)이 구현되는 방법을 설명하기 위함이다. 시맨틱 어노테이션이란 질의를 분석하고, 키워드를 추출하여 지식 베이스에 존재하는 특정 온톨로지 객체와 매핑하는 기술로서, 일종의 주석달기(annotation)를 말한다.
우선, 입력부(500)는 사용자로부터 질의를 입력받는다. 질의는 키워드를 중심으로 표현된 단문이 될 수도 있고, 자연어에 가까운 만연체의 질문이 될 수도 있다. 이러한 입력부(500)는 통상적인 컴퓨터 환경에서의 키보드 및 마우스와 같은 입력장치로 구현될 수 있다.
질의 엔진(700)은 입력부(500)를 통해 입력된 질의를 분석하여 키워드를 추출하고, 지식 베이스(400)에서 추출된 키워드와 연관된 온톨로지 객체를 검색한 다음, 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑한다. 여기서, 키워드를 추출한다는 것은 비정형 콘텐츠로부터 사용자가 관심 있어 할 만한 정보를 자동으로 추출하는 기능을 말한다. 이는 비정형 콘텐츠 내에서 인명이나 지명, 이벤트 어휘와 같이 의미 있는 어휘를 중요 어휘로 간주하고, 이를 키워드로 추출함으로써 수행된다.
이러한 질의 엔진(700)은 종래의 검색 엔진에 비해 향상되고 풍부한 검색 결 과를 출력하는 질의 서비스 및 보고서 작성 서비스를 제공하는데, 본 실시예에 따르면 지식 베이스(400)에 축적된 구조화 데이터가 많으면 많을수록 더욱 유연하고 풍부한 추론이 가능해진다. 즉, 자연어에 가까운 질의를 입력받더라도 보다 적절하게 온톨로지 객체들을 매핑하여 사용자에게 제공할 수 있다.
질의 엔진(700)은 통상적인 컴퓨터 환경에서의 프로세서와 작업에 필요한 메모리로 구현될 수 있으며, 발견된 결과 데이터를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로서 처리한다.
출력부(600)는 질의 엔진(700)으로부터 생성된 매핑 결과를 출력한다. 출력부(600)는 사용자(20)가 인지할 수 있는 디스플레이 장치가 될 수도 있고, 직접 인쇄물로 출력할 수 있는 출력 장치가 될 수도 있으며, 컴퓨터 시스템이 읽거나 저장할 수 있는 데이터의 전송 그 자체가 될 수도 있을 것이다.
이상의 도 2의 실시예를 이용한 검색의 활용 예를 추가적으로 두 가지 더 제시하면 다음과 같다.
첫 번째 활용 예는 온톨로지를 색인한 결과를 토대로 검색 결과를 구조화하여 보여주는 것이다. 사용자가 입력한 질의로부터 키워드를 추출하고, 추출된 키워드와 연관된 온톨로지 객체를 지식 베이스(400)로부터 검색하여 그 결과를 매핑한다. 이 때, 사용자가 입력한 질의에 대응하는 문서 또는 데이터 목록을 디스플레이하고, 이들 중 일부를 사용자로부터 선택받는다. 그리고, 질의 엔진(700)은 선택받은 문서들에 기초해 통합 보고서를 생성할 수 있을 것이다. 이 보고서는 미리 발견된 온톨로지 객체들을 중심으로 각각의 객체들을 요약하고, 객체들의 관계를 시각 적으로 표시하며, 선택된 문서를 구조화하여 첨부함으로써, 사용자가 찾고자 하는 정보를 보다 일목요연하게 보여줄 수 있다.
또 다른 활용 예로서, 지식 베이스(400)에 기초한 자연어 질의 결과를 시각적으로 획득하는 것이 가능할 것이다. 사용자가 자연어 질의를 입력하면, 이로부터 키워드를 추출하고, 추출된 키워드와 연관된 온톨로지 객체를 지식 베이스(400)로부터 검색하여 그 결과를 매핑한다. 이 때, 매핑된 온톨로지 객체를 객체 간의 상관 그래프의 형태로 시각화하여 표현하는 것이 가능할 것이다. 여기서, 그래프의 노드(node)는 객체가 되고, 노드들을 연결하는 에지(edge)는 해당 노드들 간의 관계(relation) 또는 술어(predicate)가 된다. 이 그래프를 통해 사용자는 자연어 검색 결과를 시각적인 그래프를 통해 보다 쉽게 인지할 수 있을 것이다.
도 3a 내지 도 3f는 본 발명의 일 실시예에 따른 데이터 구조화 방법 및 시스템에서 비구조적 데이터의 특정 객체에 대하여 시맨틱 메타데이터를 시각적으로 입력받는 과정을 도시한 도면으로서, 이하에서는 각각을 순차적으로 설명한다.
우선, 에디터에 부가된 사용자 인터페이스를 통해 사용자로부터 비구조적 데이터 내의 특정 객체를 선택받는다. 도 3a에는 에디터를 통해 통상의 위키 문서를 작성하는 화면이 도시되어 있다. 도 3a에서 사용자가 작성 중인 위키 문서 중 "이경일"이라는 텍스트(객체를 의미한다.)에 관계를 정의하기 위해 시맨틱 메타데이터를 삽입하기를 원한다고 가정하자. 이 경우, 사용자는 "이경일"이라는 텍스트를 마우스 등의 입력 수단을 통해 선택한 후, 사용자 인터페이스를 호출한다. 도 3a에는 마우스 오른쪽 마우스를 클릭해서 나타나는 팝-업 메뉴 중 "SeMEditor"를 선택함으 로써 인터페이스가 호출된다.
이어서, 도 3b에는 도 3a의 호출에 의해 사용자 인터페이스가 표출된 화면을 도시하고 있다. 앞서 설명한 바와 같이 시맨틱 웹에서는 주어, 술어, 객체의 트리플 형태로 개념을 표현할 수 있다고 하였다. 도 3b에서 선택된 텍스트 "이경일"은 주어가 되며, 표출된 사용자 인터페이스를 통해 각각을 정의한다.
도 3c에는 선택된 주어의 유형(type)을 정의하는 화면이 도시되어 있다. 사용자 인터페이스는 해당 도메인에 속하는 개념들을 사용자에게 시각적으로 표시하는데, 도 3c에는 선택된 "이경일"이라는 주어에 대해서 사용 가능한 속성들이 리스트화되어 나타나고 있다. 이러한 사용 가능한 속성들은 앞서 설명한 온톨로지 정의부를 통해 미리 정의된 것들이다. 이러한 속성들은 객체들의 특징을 고려하여 해당 도메인에 속할 수 있는 개념들로 정의되어야 할 것이다.
여기서, "이경일"은 사람의 이름이며, 보다 구체적으로는 해당 기업의 CEO에 해당한다고 가정하자. 따라서, 사용자는 사용자 인터페이스 상에 표시된 '사람 -> 직원 -> CEO'의 순으로 속성을 선택하게 된다. 이상으로 주어인 "이경일"에 대한 유형이 설정되었다.
다음으로, 도 3d에는 술어를 정의하는 화면이 표시되고 있다. 앞서 도 3c를 통해 '사람 -> 직원 -> CEO' 유형으로 정의된 주어 "이경일"에 관한 술어가 사용자 인터페이스를 통해 표시된다. 도 3c와 유사하게, 미리 설정된 사용 가능한 개념들이 리스트화되어 나타나고 있다. 여기서는 사용자가 "이경일"의 "회사"를 기술하기를 원한다고 가정하자. 따라서, 사용자를 표시된 술어의 유형 리스트 중에서 " 회사"를 선택하였다. 이상과 같이 술어의 설정이 완료되었다.
마지막으로 도 3e에서는 객체의 유형을 설정하는 화면이 표시되고 있다. 이전 단계를 통해 "이경일의 회사는 ~이다"라는 설정이 완료되었으므로, 객체에는 "회사"에 해당하는 유형들이 결정되어야 할 것이다. 도 3e에는 이미 회사 리스트에 "솔트룩스"라는 이름의 회사가 등록되어 있음을 보여주고 있다. 여기서는 사용자가 "솔트룩스"를 회사 유형으로 선택하였다고 가정하자. 선택된 항목 "솔트룩스"에 대해 상세한 속성이 우측에 표시되고 있음을 볼 수 있다. 이를 통해 "솔트룩스"라는 이름의 기업에서 "[IN2](인투)"라는 이름의 제품을 생산하였음을 추론할 수 있다. 도 3f에는 이상과 같이 주어, 술어, 객체의 3가지 개념들 간의 관계를 트리플 형태로 정의한 최종 결과가 사용자 인터페이스에 표시된 화면이 도시되어 있다.
도 3a 내지 도 3f를 참조하면, 기술에 대한 전문적인 지식이 부족한 일반적인 사용자도 사용자 인터페이스를 통해 객체를 시각적으로 확인하며 선택하는 것만으로도 객체들 간의 관계를 쉽게 정의할 수 있음을 알 수 있다.
도 4는 본 발명의 또 다른 일 실시예에 따른 데이터 구조화 시스템에서 RDFa 포맷으로 변환된 시맨틱 메타데이터를 비구조적 데이터의 특정 객체에 태깅한 소스 코드를 도시한 도면이다. 여기서 RDFa란, XHTML에 구조화된 데이터를 포함시킬 수 있도록 속성(attribute)을 확장한 XHTML을 의미한다.
앞서 간략히 언급한 바와 같이 RDF(Resource Description Framework)는 시맨틱 웹 온톨로지를 기술하기 위해 W3C에서 제안한 표준 언어이다. 일반적으로 OWL(Ontology Web Language)/RDF 표준을 사용할 경우, 비구조적 웹 페이지 데이터 를 시맨틱 환경에서 컴퓨터 시스템이 인식할 수 있는 새로운 형태로 변환해야하는 비용과 노력이 더 많이 필요하지만, RDFa 표준을 사용할 경우 기존의 웹 페이지 데이터에 RDFa 태깅(tagging)함으로써 상대적으로 데이터 통합과 변환이 용이하다는 장점이 있다. 즉, RDFa를 통하여 RDF를 XHTML에 임베딩할 수 있는 메커니즘을 제공할 수 있다. 따라서, 본 실시예에서는 시맨틱 메타데이터를 RDFa 포맷으로 변환한 후, 비구조적 데이터의 특정 객체에 태깅하는 구성을 제안하고 있다.
도 4에는 앞서 도 3a 내지 도 3f의 에디터를 통해 작성된 위키 문서 내에 "솔트룩스"와 "이경일"이라는 객체에 시맨틱 메타데이터를 RDFa 형식으로 태깅된 상태가 도시되어 있다. 이러한 데이터 변환 및 태깅은 앞서 설명한 데이터 처리부를 통해 수행될 수 있을 것이다. 본 실시예에 따르면 비구조적 데이터 RDFa 형식의 시맨틱 메타데이터를 태깅함으로써 보다 효율적으로 지식 콘텐츠를 검색, 분석할 수 있는 방법을 제공한다.
도 5는 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 방법을 도시한 흐름도로서, 다음과 같은 단계들을 포함한다.
51 단계에서 해당 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의한다. 이는 앞서 도 1에서 설명한 온톨로지 정의부(100)에 대응된다.
52 단계에서 비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 51 단계를 통해 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는다. 이는 앞서 사용자 인터페이스에 관해 구체적으로 기술하였으므로, 자세한 셜명은 생략한다.
53 단계에서 에디터를 통해 입력된 비구조적 데이터와 이러한 비구조적 데이터의 객체에 대응하는 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성한다. 이는 앞서 도 1에서 설명한 데이터 처리부(300)에 대응된다.
54 단계에서 53 단계를 통해 생성된 구조적 데이터를 지식 베이스에 저장한다.
도 6은 본 발명의 다른 일 실시예에 따른 데이터 구조화 방법 및 시스템에서 시맨틱 메타데이터를 활용하여 지식 베이스 내의 구조화된 데이터를 검색하는 과정을 도시한 도면이다.
61 단계에서 입력부(500)를 통해 사용자(20)로부터 질의를 입력받는다. 질의는 키워드를 중심으로 표현된 단문이 될 수도 있고, 자연어에 가까운 만연체의 질문이 될 수도 있다.
62 단계에서 질의 엔진(700)은 질의로부터 키워드를 추출하고, 지식 베이스(400)에서 추출된 키워드와 연관된 온톨로지 객체를 검색한다.
63 단계에서 지식 베이스(400)로부터 온톨로지 객체들이 발견되면, 64 단계에서 질의 엔진(700)은 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑한다.
65 단계에서 매핑된 결과를 출력한다. 이렇게 출력된 결과에는 최초 질의를 중심으로 추출된 다양한 키워드들에 의해 객체들 간의 관계를 추론하는 것이 가능하다.
만약 도 5를 통해 시맨틱 메타데이터를 RDFa 포맷으로 변환하여 비구조적 데이터의 객체에 태깅함으로써 구조적 데이터를 생성하였다면, 도 6을 통해 질의할 경우 SPARQL을 활용할 수 있을 것이다. 여기서, SPARQL(SPARQL Protocol and RDF Query Language)은 그 이름에서 알 수 있듯이 RDF를 질의하기 위한 언어를 의미한다.
한편, 이렇게 출력된 결과에 대해서 사용자가 결과를 수정하거나, 새로운 시맨틱 메타데이터를 추가하기를 원한다면, 앞서 설명한 도 5의 데이터 구조화 방법의 수순을 다시 따르면 될 것이다. 즉, 에디터를 통해 출력된 결과를 편집함과 동시에 에디터에 부가된 사용자 인터페이스를 통해 시맨틱 메타데이터를 수정하거나, 추가할 수 있다.
한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이상에서 본 발명에 대하여 그 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 시스템을 도시한 도면이다.
도 2는 본 발명의 다른 일 실시예에 따른 시맨틱 메타데이터를 활용하여 지식 베이스 내의 구조화된 데이터를 검색하기 위한 데이터 구조화 시스템을 도시한 도면이다.
도 3a 내지 도 3f는 본 발명의 일 실시예에 따른 데이터 구조화 방법 및 시스템에서 비구조적 데이터의 특정 객체에 대하여 시맨틱 메타데이터를 시각적으로 입력받는 과정을 도시한 도면이다.
도 4는 본 발명의 또 다른 일 실시예에 따른 데이터 구조화 시스템에서 RDFa 포맷으로 변환된 시맨틱 메타데이터를 비구조적 데이터의 특정 객체에 태깅한 소스 코드를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 방법을 도시한 흐름도이다.
도 6은 본 발명의 다른 일 실시예에 따른 데이터 구조화 방법 및 시스템에서 시맨틱 메타데이터를 활용하여 지식 베이스 내의 구조화된 데이터를 검색하는 과정을 도시한 도면이다.
<도면의 주요 부분에 대한 설명>
10 : 데이터 구조화 시스템 20 : 사용자
100 : 온톨로지 정의부
200 : 에디터 250 : 사용자 인터페이스
300 : 데이터 처리부 400 : 지식 베이스
500 : 입력부 600 : 출력부
700 : 질의 엔진

Claims (9)

  1. 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 단계;
    비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 단계;
    상기 비구조적 데이터와 상기 비구조적 데이터의 텍스트에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 단계; 및
    상기 생성된 구조적 데이터를 지식 베이스에 저장하는 단계를 포함하고,
    상기 시맨틱 메타데이터를 시각적으로 입력받는 단계는,
    사용자로부터 상기 비구조적 데이터 내의 소정의 텍스트를 선택받는 단계;
    상기 사용자 인터페이스를 통해 상기 소정 도메인에 속하는 개념들을 상기 사용자에게 시각적으로 표시하는 단계; 및
    상기 사용자 인터페이스를 통해 상기 사용자로부터 상기 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 단계를 포함하는 데이터 구조화 방법.
  2. 제 1 항에 있어서,
    상기 텍스트는 주어이고,
    상기 시맨틱 메타데이터를 시각적으로 입력받는 단계는,
    상기 사용자 인터페이스를 통해 상기 사용자로부터 상기 주어의 속성을 입력받는 단계를 더 포함하고,
    상기 사용자로부터 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 단계는 사용자로부터 상기 표시된 개념들 중 상기 주어에 관한 술어를 선택받고, 상기 표시된 개념들 중 상기 주어 및 술어에 관한 객체를 선택받는 것을 특징으로 하고,
    상기 시맨틱 메타데이터는 상기 주어, 속성, 술어 및 객체로 구성되는 것을 특징으로 하는 데이터 구조화 방법.
  3. 제 1 항에 있어서,
    상기 구조적 데이터를 생성하는 단계는,
    상기 입력받은 시맨틱 메타데이터를 RDFa 포맷으로 변환하는 단계; 및
    상기 비구조적 데이터의 객체에 상기 변환된 시맨틱 메타데이터를 태깅하는 단계를 포함하는 데이터 구조화 방법.
  4. 제 1 항에 있어서,
    사용자로부터 질의를 입력받는 단계;
    상기 질의를 분석하여 키워드를 추출하는 단계;
    상기 지식 베이스에서 상기 키워드와 연관된 온톨로지 객체를 검색하는 단계;
    상기 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑하는 단계; 및
    상기 매핑된 결과를 출력하는 단계를 더 포함하는 데이터 구조화 방법.
  5. 제 1 항 내지 제 4 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  6. 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 온톨로지 정의부;
    비구조적 데이터를 작성하는 에디터에 부가되어 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 사용자 인터페이스;
    상기 비구조적 데이터와 상기 비구조적 데이터의 텍스트에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 데이터 처리부; 및
    상기 생성된 구조적 데이터를 저장하는 지식 베이스를 포함하고,
    상기 사용자 인터페이스는,
    사용자로부터 상기 비구조적 데이터 내의 소정 텍스트를 선택받고, 상기 소정 도메인에 속하는 개념들을 상기 사용자에게 시각적으로 표시하고, 상기 사용자로부터 상기 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 데이터 구조화 시스템.
  7. 제 6 항에 있어서,
    상기 텍스트는 주어이고,
    상기 사용자 인터페이스는,
    상기 사용자로부터 상기 주어의 속성을 입력받고, 상기 표시된 개념들 중 상기 주어에 관한 술어를 선택받고, 상기 표시된 개념들 중 상기 주어 및 술어에 관한 객체를 선택받는 것을 특징으로 하고,
    상기 시맨틱 메타데이터는 상기 주어, 속성, 술어 및 객체로 구성되는 것을 특징으로 하는 데이터 구조화 시스템.
  8. 제 6 항에 있어서,
    상기 데이터 처리부는,
    상기 입력받은 시맨틱 메타데이터를 RDFa 포맷으로 변환하고, 상기 비구조적 데이터의 객체에 상기 변환된 시맨틱 메타데이터를 태깅하는 것을 특징으로 하는 데이터 구조화 시스템.
  9. 제 6 항에 있어서,
    사용자로부터 질의를 입력받는 입력부;
    상기 질의를 분석하여 키워드를 추출하고, 상기 지식 베이스에서 상기 키워드와 연관된 온톨로지 객체를 검색하고, 상기 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑하는 질의 엔진; 및
    상기 매핑 결과를 출력하는 출력부를 더 포함하는 데이터 구조화 시스템.
KR1020090016988A 2009-02-27 2009-02-27 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템 KR101057073B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090016988A KR101057073B1 (ko) 2009-02-27 2009-02-27 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090016988A KR101057073B1 (ko) 2009-02-27 2009-02-27 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20100098028A KR20100098028A (ko) 2010-09-06
KR101057073B1 true KR101057073B1 (ko) 2011-08-16

Family

ID=43005054

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090016988A KR101057073B1 (ko) 2009-02-27 2009-02-27 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101057073B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160072305A (ko) 2014-12-12 2016-06-23 충북대학교 산학협력단 동적 환경에서 대규모 시멘틱 웹 데이터 분산 저장을 위한 분할 시스템 및 방법
WO2021070998A1 (ko) * 2019-10-07 2021-04-15 주식회사 솔트룩스 지식 통합을 위한 분산 시스템 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014092209A1 (ko) * 2012-12-10 2014-06-19 한국과학기술원 시맨틱 클라우드에 기반한 시맨틱 어노테이션 방법 및 장치
KR101684579B1 (ko) * 2014-03-28 2016-12-09 주식회사 솔트룩스 지식 생성 시스템 및 방법
KR102411081B1 (ko) * 2021-08-05 2022-06-22 주식회사 와이즈넛 유사도 기반의 연관 데이터 추천 시스템 및 그 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Saltlux 뉴스레터
Saltlux 홈페이지 자료*
Saltlux2009 ontology symposium*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160072305A (ko) 2014-12-12 2016-06-23 충북대학교 산학협력단 동적 환경에서 대규모 시멘틱 웹 데이터 분산 저장을 위한 분할 시스템 및 방법
WO2021070998A1 (ko) * 2019-10-07 2021-04-15 주식회사 솔트룩스 지식 통합을 위한 분산 시스템 및 방법

Also Published As

Publication number Publication date
KR20100098028A (ko) 2010-09-06

Similar Documents

Publication Publication Date Title
Popov et al. KIM–a semantic platform for information extraction and retrieval
Frischmuth et al. Ontowiki–an authoring, publication and visualization interface for the data web
JP2010532897A (ja) 知的なテキスト注釈の方法、システム及びコンピュータ・プログラム
Hartmann et al. An infrastructure for scalable, reliable semantic portals
KR101057073B1 (ko) 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템
Bhatia et al. Semantic web mining: Using ontology learning and grammatical rule inference technique
Oelen et al. Creating a scholarly knowledge graph from survey article tables
Agosti et al. Interacting with digital cultural heritage collections via annotations: the CULTURA approach
Heese et al. One Click Annotation.
Sateli et al. Natural language processing for MediaWiki: the semantic assistants approach
Passant et al. Enhancing enterprise 2.0 ecosystems using semantic web and linked data technologies: The SemSLATES approach
Schröder Efficient High-Level Semantic Enrichment of Undocumented Enterprise Data
Abrosimova et al. The ontology-based event mining tools for monitoring global processes
Ruiz-Rube et al. Accessing learning resources described in semantically enriched weblogs
Wurzer et al. Towards an automatic semantic integration of information
Fähndrich et al. Self-Explanation through Semantic Annotation: A Survey.
Barbera et al. Building a Semantic Web Digital Library for the Municipality of Milan
Alias et al. Application of semantic technology in digital library
Jo et al. Web-based semantic web retrieval service for law ontology
Riaz et al. Automatic RDF, Metadata Generation from Legacy Software Models
Aghaee End-user development of mashups using live natural language programming
Rolfe et al. Proof of Concept Assessment for the Use of Natural Language Processing to Maintain and Update the DoD Technologies Knowledge Base (DTKB)
Macário et al. Play It Again, SAM--Using Scientific Workflows to Drive the Generation of Semantic Annotations
Aladdin et al. Extractor Web-Based Tool by Processing Ontology To Access Information
Zhang et al. A Semantic Tag Stock For Content-oriented Image Annotation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150804

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160729

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170804

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190805

Year of fee payment: 9