KR101057073B1

KR101057073B1 - 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템

Info

Publication number: KR101057073B1
Application number: KR1020090016988A
Authority: KR
Inventors: 신석호; 안태성
Original assignee: 주식회사 솔트룩스
Priority date: 2009-02-27
Filing date: 2009-02-27
Publication date: 2011-08-16
Also published as: KR20100098028A

Abstract

본 발명은 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템에 관한 것으로, 본 발명에 따른 데이터 구조화 방법은 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하고, 비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받고, 비구조적 데이터와 비구조적 데이터의 객체에 대응하는 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하고, 생성된 구조적 데이터를 지식 베이스에 저장함으로써, 효율적으로 지식 콘텐츠를 관리할 수 있고, 기술적 지식이 부족한 일반 사용자들도 쉽게 구조화된 데이터를 생성할 수 있다.

Description

시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템{Data structurizing method and system using semantic metadata}

본 발명은 시맨틱 메타데이터를 활용한 데이터 구조화 방법 및 시스템에 관한 것으로, 보다 상세하게는 통상의 비구조적 데이터와 사용자 인터페이스를 통해 시각적으로 입력받은 시맨틱 메타데이터를 결합하여 구조화된 데이터를 생성하는 데이터 구조화 방법 및 시스템에 관한 것이다.

네트워크의 발전과 컴퓨터 기술의 발전으로 많은 사람들이 매일 새롭게 생성되는 엄청난 양의 정보를 접할 수 있게 되었다. 기업의 업무에서도 지식 근로자의 비중이 점점 높아져 가고, 이들로부터 생산, 관리, 공유, 재생산되는 콘텐츠들로 인해 기업은 더욱 방대한 정보를 보유, 축적하게 되었다. 즉, 현대는 양적인 측면에서 정보과잉의 시대라고 할 수 있다. 이처럼 지식 콘텐츠의 분량이 점점 방대해지는 것을 효율적으로 관리하기 위해 많은 기업들은 지식 관리나 문서 관리를 위한 각종 시스템과 관리 방법을 도입하여 운영하게 되었다. 여기에는 문서의 효율적 분류와 지식 연계 작업들도 포함된다.

그러나, 이러한 양질의 지식 콘텐츠를 해당 조직의 구성원들과 공유하기 위 한 노력들에도 불구하고, 여전히 대부분의 지식 콘텐츠는 비구조화된 형태로 생성, 관리되고 있는 실정이다. 비록, 지식 콘텐츠를 작성한 사람의 친절한 설명이나, 세분화된 분류체계, 그리고 나날이 발전하고 있는 검색 엔진이 있다 할지라도 폭발적으로 증가하고 있는 데이터 중에서 정확하고, 사용자에게 꼭 필요한 데이터만을 빠른 시간 내에 탐색, 추출하는 것은 쉬운 일이 아니다. 왜냐하면, 앞서 설명한 바와 같이 현존하는 대부분의 지식 콘텐츠가 비구조적 형태로 생성, 관리되어 왔기 때문에 기계(컴퓨터)가 해당 콘텐츠의 내용을 이해하여 처리할 수 없는 문제점이 있다. 결국 사용자들은 많은 콘텐츠 중에서 무엇이 필요한 것인지를 직접 확인해야 하는 불편함을 감수해야만 한다.

특히, 최근 웹 2.0 서비스 환경 하에서, 블로그(blog)나 위키(wiki)를 통해 이러한 지식 콘텐츠의 생산 속도는 더욱 가속화되고 있다. 여기서, 블로그는 일반인들이 자신의 관심사에 따라 일기, 칼럼, 기사 등을 자유롭게 작성하여 웹에 게시할 수 있는 미디어를 의미하고, 위키는 하이퍼텍스트(hypertext)를 활용한 웹 게시물 또는 이러한 게시물을 생성할 수 있는 협력 소프트웨어를 의미한다. 블로그가 '1인 미디어'에 기반하고 있다면, 위키는 다수의 참여자들이 함께 게시물을 생성해 갈 수 있는 '사용자 참여'라는 특징을 갖는다. 그런데, 이러한 블로그 및 위키 역시 대부분 비구조화된 데이터라는 점에서 상기 언급된 바와 동일한 약점을 안고 있다.

따라서, 기업을 포함한 특정 조직에서 생산되는 지식 콘텐츠는 일정한 형태로 구조화될 필요성이 있다. 만약 기업 등의 조직에서 해당 조직의 지식 콘텐츠를 블로그나 위키 등을 활용하여 생산, 관리하고 있다면, 보다 효율적인 지식 콘텐츠의 관리 및 활용을 위해 블로그에 포스팅된 비구조적인 글이나, 위키 문서를 구조화된 데이터로 가공할 필요가 있다.

본 발명이 해결하고자 하는 기술적 과제는 종래의 비구조화된 콘텐츠 및 데이터를 기계가 이해할 수 없음으로 인해 발생하는 데이터 처리의 효율 저하 및 불편함을 극복하기 위해, 기술적 지식이 부족한 일반 사용자가 시각화된 사용자 인터페이스를 통해 쉽게 시맨틱 메타데이터를 입력함으로써 구조화된 데이터를 생성하는 데 있다.

또한, 본 발명이 해결하고자 하는 다른 기술적 과제는 이상에서 생성된 구조화된 데이터를 활용하여 사용자가 필요한 정보를 보다 효율적으로 관리, 검색할 수 있는 데이터 구조화 방법 및 시스템을 제공하는 데에 있다.

상기 기술적 과제를 해결하기 위하여, 본 발명에 따른 데이터 구조화 방법은 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 단계; 비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 단계; 상기 비구조적 데이터와 상기 비구조적 데이터의 객체에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 단계; 및 상기 생성된 구조적 데이터를 지식 베이스에 저장하는 단계를 포함한다.

상기 시맨틱 메타데이터를 시각적으로 입력받는 단계는, 사용자로부터 상기 비구조적 데이터 내의 소정 객체를 선택받는 단계; 상기 사용자 인터페이스를 통해 상기 소정 도메인에 속하는 개념들을 상기 사용자에게 시각적으로 표시하는 단계; 및 상기 사용자 인터페이스를 통해 상기 사용자로부터 상기 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 단계를 포함한다.

상기 구조적 데이터를 생성하는 단계는, 상기 입력받은 시맨틱 메타데이터를 RDFa 포맷으로 변환하는 단계; 및 상기 비구조적 데이터의 객체에 상기 변환된 시맨틱 메타데이터를 태깅하는 단계를 포함한다.

상기 다른 기술적 과제를 달성하기 위하여, 본 발명에 따른 데이터 구조화 방법은 사용자로부터 키워드를 입력받는 단계; 상기 지식 베이스에서 상기 키워드와 연관된 온톨로지 객체를 검색하는 단계; 상기 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑하는 단계; 및 상기 매핑된 결과를 출력하는 단계를 더 포함한다.

또한, 이하에서는 상기 기재된 데이터 구조화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상기 기술적 과제를 해결하기 위하여, 본 발명에 따른 데이터 구조화 시스템은 소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 온톨로지 정의부; 비구조적 데이터를 작성하는 에디터에 부가되어 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 사용자 인터페이스; 상기 비구조적 데이터와 상기 비구조적 데이터의 객체에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 데이터 처리부; 및 상기 생성된 구조적 데이터를 저장하는 지식 베이스를 포함한다.

본 발명은 비구조화된 콘텐츠 및 데이터를 처리함에 있어서 기계가 이해할 수 있는 시맨틱 메타데이터를 부착하여 구조화된 데이터를 생성함으로써 효율적으로 지식 콘텐츠를 관리할 수 있고, 시각화된 사용자 인터페이를 통해 시맨틱 메타데이터를 입력받음으로써, 기술적 지식이 부족한 일반 사용자들도 쉽게 구조화된 데이터를 생성할 수 있게 한다. 또한, 본 발명은 구조화된 데이터를 활용하여 사용자가 필요한 정보를 보다 효율적으로 관리, 검색할 수 있다.

본 발명의 실시예들을 설명하기에 앞서 이하에서 사용할 용어들과 개념을 간략히 설명한다.

시맨틱 웹(semantic web)은 현재의 인터넷과 같은 분산 환경에서 리소스(웹 문서, 각종 파일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(semanteme)를 기계, 즉 컴퓨터가 처리할 수 있는 온톨로지(ontology) 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 프레임워크이자 기술이다. 여기서, 온톨로지란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로서, 정형화되고 개념의 유형이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 컴퓨터 과학 분야에서 온톨로지는 특정한 영역을 표현하는 데이터 모델로서 특정한 영역(domain)에 속하는 개념과 개념 사이의 관계를 기술하는 정형(formal) 어휘의 집합으로 정의된다. 특히, 온톨로지는 시맨틱 웹을 구현할 수 있는 도구로써, 지식 개념을 의미적으로 연결할 수 있는 도구로 사용되며, 컴퓨터에서 사람이 갖고 있는 사물에 대한 개념을 일종의 데이터베이스의 형태로 가공하여 처리할 수 있도록 해 준다.

시맨틱 웹은 XML(Extensible Markup Language)에 기반한 시맨틱 마크업 언어로써 표현될 수 있다. 이러한 시맨틱 웹에서는 주어(subject), 술어(predicate), 객체(object)의 트리플(triple) 형태로 개념을 표현하며, 다시 각각의 주어, 술어, 객체는 XML의 URI(Uniform Resource Identifier)로 표현될 수 있다. 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있다.

이하에서는 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 시스템을 도시한 도면으로서, 크게 데이터 구조화 시스템(10)과 이를 활용하는 사용자(20)를 표현하고 있다. 여기서, 데이터 구조화 시스템(10)은 다시 온톨로지 정의부(100), 에디터(200), 사용자 인터페이스(250), 데이터 처리부(300) 및 지식 베이스(400)를 포함한다.

온톨로지 정의부(100)는 데이터 구조화 시스템(10)과 연관된 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의한다. 예를 들어, 본 데이터 구조화 시스템이 특정 IT 기업에서 활용될 경우를 가정하면, 해당 도메인 내에는 기업, 직원, 개발 프로젝트, 제품 등과 같은 개념들이 존재할 수 있으며, 직원은 기업에 소속되고, 직원은 개발 프로젝트를 수행하는 등과 같은 관계가 설정될 수 있을 것이다. 이러한 온톨로지 정의부(100)는 통상적인 컴퓨터 환경에서의 키보드 및 마우 스와 같은 입력장치를 통해 정의를 입력받아, 입력된 온톨로지 정의를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로 처리하는 프로세서로 구현될 수 있다.

에디터(200)는 통상적인 콘텐츠 및 데이터를 생성할 수 있는 저작 도구이다. 예를 들어, 블로그 환경에서는 블로그의 새 포스트를 작성할 수 있는 작성 웹 에디터가 될 것이며, 위키 환경에서는 새 위키 문서를 작성할 수 있는 웹 에디터가 될 것이다. 최근 기업 내 지식 공유 및 업무 효율 향상을 위해 위키 시스템을 도입하는 기업이 나타나고 있다는 보고가 있다. 이러한 에디터(200)를 통해 생성된 콘텐츠는 기업이나 정부 기관 내 사용자의 문서나 데이터가 포함될 수 있으며, 설치형 에디터 프로그램(예를 들어, 마이크로소프트사의 MS WORD)이 생성한 문서와 같이 비구조적 데이터에 해당한다. 즉, 에디터(200)를 통해서는 통상의 비구조적 문서를 생성할 수 있을 뿐이다. 이러한 에디터(200)는 통상적인 컴퓨터 환경에서의 키보드 및 마우스와 같은 입력장치를 통해 텍스트를 입력받아, 입력된 텍스트를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로 처리하는 프로세서로 구현될 수 있다.

사용자 인터페이스(250)는 에디터(200)에 부가되어 온톨로지 정의부(100)를 통해 정의된 온톨로지에 기초한 시맨틱 메타데이터(semantic metadata)를 시각적으로 입력받는다. 사용자 인터페이스(250)는 사용자가 에디터(200)를 통해 콘텐츠 또는 문서를 작성하거나, 편집하는 시점에 해당 콘텐츠 또는 문서 내의 특정 객체에 대한 시맨틱 메타데이터를 입력할 수 있다. 여기서, 시맨틱 메타데이터는 시맨틱 웹 환경에서 데이터를 표현하거나 설명하기 위해 구조화된 데이터를 의미한다. 즉, 사용자 인터페이스(250)를 통해 사용자는 앞서 정의된 온톨로지를 참조하여 사용자가 선택한 비구조화된 데이터의 특정 객체를 설명하기 위한 속성 정보를 입력한다.

이러한 사용자 인터페이스(250)는 에디터(200)에 부가되어 시각적으로 사용자와 상호작용함으로써 보다 용이하게 구조화된 데이터를 입력하는 것을 도와준다. 이를 통해 사용자의 콘텐츠 생성 시점과 동시에 시맨틱 메타데이터의 입력이 이루어지는 동시성이 나타난다. 동시성은 일단 작성된 비구조화 데이터를 사후에 관리자에 의해 구조화하는 불편함을 방지하고, 해당 비구조화 데이터 내의 개별 객체들의 속성을 가장 잘 파악하고 있는 당사자가 직접 메타데이터를 입력함으로써 보다 정확하게 구조화된 데이터를 생성할 수 있게 해 준다. 물론, 비구조화 데이터 생성과 메타데이터의 입력 시점이 동시에 이루어지지 않아도 무방함은 당연하다. 예를 들어, 기업의 직원이 자신이 작성한 일반 문서를 에디터(200)를 이용해 수정하는 시점에서 사용자 인터페이스(250)를 통해 문서 내의 특정 객체들에 메타데이터를 입력하는 것도 가능할 것이다.

사용자 인터페이스(250)는 통상적인 컴퓨터 환경에서의 키보드 및 마우스와 같은 입력장치를 통해 텍스트를 입력받아, 입력된 텍스트를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로 처리하는 프로세서로 구현될 수 있다. 사용자 인터페이스(250)를 통해 시맨틱 메타데이터를 시각적으로 입력받는 보다 구체적인 방법은 이후에 다시 자세히 설명하겠다.

데이터 처리부(300)는 에디터(200)를 이용해 작성된 비구조적 데이터와 비구 조적 데이터와 이러한 비구조적 데이터의 객체에 대응하는 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성한다. 시맨틱 메타데이터는 온톨로지를 참조하여 앞서 설명한 사용자 인터페이스(250)를 통해 입력받은 속성 정보이다. 데이터 처리부(300)는 통상적인 컴퓨터 환경에서의 프로세서와 작업에 필요한 메모리로 구현될 수 있으며, 비구조적 데이터와 시맨틱 메타데이터를 구조적으로 결합하여 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로서 처리한다.

지식 베이스(400)는 데이터 처리부(300)를 통해 생성된 구조적 데이터를 저장한다. 지식 베이스(knowledge base)란, 해당 도메인에 관련된 지식 콘텐츠와 데이터가 조직화되어 축적되어 있는 일종의 데이터베이스나 저장소(repository)를 의미한다. 예를 들어, 비구조적 데이터가 블로그나 위키 콘텐츠인 경우, 지식 베이스(400)는 통상적인 블로그 또는 위키 콘텐츠를 저장하는 것 이외에도 시맨틱 메타데이터를 구조화하여 저장, 관리해야 할 것이다. 이러한 지식 베이스(400)는 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드들을 저장할 수 있는 하드디스크 드라이브(HDD)나 기타 대용량 데이터 저장수단(mass storage) 등으로 구현될 수 있다.

본 실시예에 따르면 시간이 경과함에 따라 데이터 처리부(400)에서 생성된 구조적 데이터가 지식 베이스(400)에 지속적으로 저장, 축적되게 되고, 지식 베이스(400) 내에 축적된 데이터에 포함된 객체들은 더 많은 관계가 설정되게 된다. 이렇게 정제된 관계가 증가할수록 객체들로부터 유추될 수 있는 관계들이 더욱 풍부해짐으로 인해 종래에 없었던 새로운 추론이 가능해진다.

도 2는 본 발명의 다른 일 실시예에 따른 시맨틱 메타데이터를 활용하여 지식 베이스 내의 구조화된 데이터를 검색하기 위한 데이터 구조화 시스템을 도시한 도면으로서, 도 1에 비해 입력부(500), 질의 엔진(700) 및 출력부(600)를 더 포함한다. 나머지 구성 요소는 도 1과 유사하므로 여기에서는 설명을 생략한다.

새롭게 추가된 구성 요소들은 도 2에 도시된 데이터 구조화 시스템에서 시맨텍 어노테이션(semantic annotation)이 구현되는 방법을 설명하기 위함이다. 시맨틱 어노테이션이란 질의를 분석하고, 키워드를 추출하여 지식 베이스에 존재하는 특정 온톨로지 객체와 매핑하는 기술로서, 일종의 주석달기(annotation)를 말한다.

우선, 입력부(500)는 사용자로부터 질의를 입력받는다. 질의는 키워드를 중심으로 표현된 단문이 될 수도 있고, 자연어에 가까운 만연체의 질문이 될 수도 있다. 이러한 입력부(500)는 통상적인 컴퓨터 환경에서의 키보드 및 마우스와 같은 입력장치로 구현될 수 있다.

질의 엔진(700)은 입력부(500)를 통해 입력된 질의를 분석하여 키워드를 추출하고, 지식 베이스(400)에서 추출된 키워드와 연관된 온톨로지 객체를 검색한 다음, 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑한다. 여기서, 키워드를 추출한다는 것은 비정형 콘텐츠로부터 사용자가 관심 있어 할 만한 정보를 자동으로 추출하는 기능을 말한다. 이는 비정형 콘텐츠 내에서 인명이나 지명, 이벤트 어휘와 같이 의미 있는 어휘를 중요 어휘로 간주하고, 이를 키워드로 추출함으로써 수행된다.

이러한 질의 엔진(700)은 종래의 검색 엔진에 비해 향상되고 풍부한 검색 결 과를 출력하는 질의 서비스 및 보고서 작성 서비스를 제공하는데, 본 실시예에 따르면 지식 베이스(400)에 축적된 구조화 데이터가 많으면 많을수록 더욱 유연하고 풍부한 추론이 가능해진다. 즉, 자연어에 가까운 질의를 입력받더라도 보다 적절하게 온톨로지 객체들을 매핑하여 사용자에게 제공할 수 있다.

질의 엔진(700)은 통상적인 컴퓨터 환경에서의 프로세서와 작업에 필요한 메모리로 구현될 수 있으며, 발견된 결과 데이터를 컴퓨터 시스템이 읽거나 저장할 수 있는 소프트웨어 코드로서 처리한다.

출력부(600)는 질의 엔진(700)으로부터 생성된 매핑 결과를 출력한다. 출력부(600)는 사용자(20)가 인지할 수 있는 디스플레이 장치가 될 수도 있고, 직접 인쇄물로 출력할 수 있는 출력 장치가 될 수도 있으며, 컴퓨터 시스템이 읽거나 저장할 수 있는 데이터의 전송 그 자체가 될 수도 있을 것이다.

이상의 도 2의 실시예를 이용한 검색의 활용 예를 추가적으로 두 가지 더 제시하면 다음과 같다.

첫 번째 활용 예는 온톨로지를 색인한 결과를 토대로 검색 결과를 구조화하여 보여주는 것이다. 사용자가 입력한 질의로부터 키워드를 추출하고, 추출된 키워드와 연관된 온톨로지 객체를 지식 베이스(400)로부터 검색하여 그 결과를 매핑한다. 이 때, 사용자가 입력한 질의에 대응하는 문서 또는 데이터 목록을 디스플레이하고, 이들 중 일부를 사용자로부터 선택받는다. 그리고, 질의 엔진(700)은 선택받은 문서들에 기초해 통합 보고서를 생성할 수 있을 것이다. 이 보고서는 미리 발견된 온톨로지 객체들을 중심으로 각각의 객체들을 요약하고, 객체들의 관계를 시각 적으로 표시하며, 선택된 문서를 구조화하여 첨부함으로써, 사용자가 찾고자 하는 정보를 보다 일목요연하게 보여줄 수 있다.

또 다른 활용 예로서, 지식 베이스(400)에 기초한 자연어 질의 결과를 시각적으로 획득하는 것이 가능할 것이다. 사용자가 자연어 질의를 입력하면, 이로부터 키워드를 추출하고, 추출된 키워드와 연관된 온톨로지 객체를 지식 베이스(400)로부터 검색하여 그 결과를 매핑한다. 이 때, 매핑된 온톨로지 객체를 객체 간의 상관 그래프의 형태로 시각화하여 표현하는 것이 가능할 것이다. 여기서, 그래프의 노드(node)는 객체가 되고, 노드들을 연결하는 에지(edge)는 해당 노드들 간의 관계(relation) 또는 술어(predicate)가 된다. 이 그래프를 통해 사용자는 자연어 검색 결과를 시각적인 그래프를 통해 보다 쉽게 인지할 수 있을 것이다.

도 3a 내지 도 3f는 본 발명의 일 실시예에 따른 데이터 구조화 방법 및 시스템에서 비구조적 데이터의 특정 객체에 대하여 시맨틱 메타데이터를 시각적으로 입력받는 과정을 도시한 도면으로서, 이하에서는 각각을 순차적으로 설명한다.

우선, 에디터에 부가된 사용자 인터페이스를 통해 사용자로부터 비구조적 데이터 내의 특정 객체를 선택받는다. 도 3a에는 에디터를 통해 통상의 위키 문서를 작성하는 화면이 도시되어 있다. 도 3a에서 사용자가 작성 중인 위키 문서 중 "이경일"이라는 텍스트(객체를 의미한다.)에 관계를 정의하기 위해 시맨틱 메타데이터를 삽입하기를 원한다고 가정하자. 이 경우, 사용자는 "이경일"이라는 텍스트를 마우스 등의 입력 수단을 통해 선택한 후, 사용자 인터페이스를 호출한다. 도 3a에는 마우스 오른쪽 마우스를 클릭해서 나타나는 팝-업 메뉴 중 "SeMEditor"를 선택함으 로써 인터페이스가 호출된다.

이어서, 도 3b에는 도 3a의 호출에 의해 사용자 인터페이스가 표출된 화면을 도시하고 있다. 앞서 설명한 바와 같이 시맨틱 웹에서는 주어, 술어, 객체의 트리플 형태로 개념을 표현할 수 있다고 하였다. 도 3b에서 선택된 텍스트 "이경일"은 주어가 되며, 표출된 사용자 인터페이스를 통해 각각을 정의한다.

도 3c에는 선택된 주어의 유형(type)을 정의하는 화면이 도시되어 있다. 사용자 인터페이스는 해당 도메인에 속하는 개념들을 사용자에게 시각적으로 표시하는데, 도 3c에는 선택된 "이경일"이라는 주어에 대해서 사용 가능한 속성들이 리스트화되어 나타나고 있다. 이러한 사용 가능한 속성들은 앞서 설명한 온톨로지 정의부를 통해 미리 정의된 것들이다. 이러한 속성들은 객체들의 특징을 고려하여 해당 도메인에 속할 수 있는 개념들로 정의되어야 할 것이다.

여기서, "이경일"은 사람의 이름이며, 보다 구체적으로는 해당 기업의 CEO에 해당한다고 가정하자. 따라서, 사용자는 사용자 인터페이스 상에 표시된 '사람 -> 직원 -> CEO'의 순으로 속성을 선택하게 된다. 이상으로 주어인 "이경일"에 대한 유형이 설정되었다.

다음으로, 도 3d에는 술어를 정의하는 화면이 표시되고 있다. 앞서 도 3c를 통해 '사람 -> 직원 -> CEO' 유형으로 정의된 주어 "이경일"에 관한 술어가 사용자 인터페이스를 통해 표시된다. 도 3c와 유사하게, 미리 설정된 사용 가능한 개념들이 리스트화되어 나타나고 있다. 여기서는 사용자가 "이경일"의 "회사"를 기술하기를 원한다고 가정하자. 따라서, 사용자를 표시된 술어의 유형 리스트 중에서 " 회사"를 선택하였다. 이상과 같이 술어의 설정이 완료되었다.

마지막으로 도 3e에서는 객체의 유형을 설정하는 화면이 표시되고 있다. 이전 단계를 통해 "이경일의 회사는 ~이다"라는 설정이 완료되었으므로, 객체에는 "회사"에 해당하는 유형들이 결정되어야 할 것이다. 도 3e에는 이미 회사 리스트에 "솔트룩스"라는 이름의 회사가 등록되어 있음을 보여주고 있다. 여기서는 사용자가 "솔트룩스"를 회사 유형으로 선택하였다고 가정하자. 선택된 항목 "솔트룩스"에 대해 상세한 속성이 우측에 표시되고 있음을 볼 수 있다. 이를 통해 "솔트룩스"라는 이름의 기업에서 "[IN2](인투)"라는 이름의 제품을 생산하였음을 추론할 수 있다. 도 3f에는 이상과 같이 주어, 술어, 객체의 3가지 개념들 간의 관계를 트리플 형태로 정의한 최종 결과가 사용자 인터페이스에 표시된 화면이 도시되어 있다.

도 3a 내지 도 3f를 참조하면, 기술에 대한 전문적인 지식이 부족한 일반적인 사용자도 사용자 인터페이스를 통해 객체를 시각적으로 확인하며 선택하는 것만으로도 객체들 간의 관계를 쉽게 정의할 수 있음을 알 수 있다.

도 4는 본 발명의 또 다른 일 실시예에 따른 데이터 구조화 시스템에서 RDFa 포맷으로 변환된 시맨틱 메타데이터를 비구조적 데이터의 특정 객체에 태깅한 소스 코드를 도시한 도면이다. 여기서 RDFa란, XHTML에 구조화된 데이터를 포함시킬 수 있도록 속성(attribute)을 확장한 XHTML을 의미한다.

앞서 간략히 언급한 바와 같이 RDF(Resource Description Framework)는 시맨틱 웹 온톨로지를 기술하기 위해 W3C에서 제안한 표준 언어이다. 일반적으로 OWL(Ontology Web Language)/RDF 표준을 사용할 경우, 비구조적 웹 페이지 데이터 를 시맨틱 환경에서 컴퓨터 시스템이 인식할 수 있는 새로운 형태로 변환해야하는 비용과 노력이 더 많이 필요하지만, RDFa 표준을 사용할 경우 기존의 웹 페이지 데이터에 RDFa 태깅(tagging)함으로써 상대적으로 데이터 통합과 변환이 용이하다는 장점이 있다. 즉, RDFa를 통하여 RDF를 XHTML에 임베딩할 수 있는 메커니즘을 제공할 수 있다. 따라서, 본 실시예에서는 시맨틱 메타데이터를 RDFa 포맷으로 변환한 후, 비구조적 데이터의 특정 객체에 태깅하는 구성을 제안하고 있다.

도 4에는 앞서 도 3a 내지 도 3f의 에디터를 통해 작성된 위키 문서 내에 "솔트룩스"와 "이경일"이라는 객체에 시맨틱 메타데이터를 RDFa 형식으로 태깅된 상태가 도시되어 있다. 이러한 데이터 변환 및 태깅은 앞서 설명한 데이터 처리부를 통해 수행될 수 있을 것이다. 본 실시예에 따르면 비구조적 데이터 RDFa 형식의 시맨틱 메타데이터를 태깅함으로써 보다 효율적으로 지식 콘텐츠를 검색, 분석할 수 있는 방법을 제공한다.

도 5는 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 방법을 도시한 흐름도로서, 다음과 같은 단계들을 포함한다.

51 단계에서 해당 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의한다. 이는 앞서 도 1에서 설명한 온톨로지 정의부(100)에 대응된다.

52 단계에서 비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 51 단계를 통해 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는다. 이는 앞서 사용자 인터페이스에 관해 구체적으로 기술하였으므로, 자세한 셜명은 생략한다.

53 단계에서 에디터를 통해 입력된 비구조적 데이터와 이러한 비구조적 데이터의 객체에 대응하는 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성한다. 이는 앞서 도 1에서 설명한 데이터 처리부(300)에 대응된다.

54 단계에서 53 단계를 통해 생성된 구조적 데이터를 지식 베이스에 저장한다.

도 6은 본 발명의 다른 일 실시예에 따른 데이터 구조화 방법 및 시스템에서 시맨틱 메타데이터를 활용하여 지식 베이스 내의 구조화된 데이터를 검색하는 과정을 도시한 도면이다.

61 단계에서 입력부(500)를 통해 사용자(20)로부터 질의를 입력받는다. 질의는 키워드를 중심으로 표현된 단문이 될 수도 있고, 자연어에 가까운 만연체의 질문이 될 수도 있다.

62 단계에서 질의 엔진(700)은 질의로부터 키워드를 추출하고, 지식 베이스(400)에서 추출된 키워드와 연관된 온톨로지 객체를 검색한다.

63 단계에서 지식 베이스(400)로부터 온톨로지 객체들이 발견되면, 64 단계에서 질의 엔진(700)은 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑한다.

65 단계에서 매핑된 결과를 출력한다. 이렇게 출력된 결과에는 최초 질의를 중심으로 추출된 다양한 키워드들에 의해 객체들 간의 관계를 추론하는 것이 가능하다.

만약 도 5를 통해 시맨틱 메타데이터를 RDFa 포맷으로 변환하여 비구조적 데이터의 객체에 태깅함으로써 구조적 데이터를 생성하였다면, 도 6을 통해 질의할 경우 SPARQL을 활용할 수 있을 것이다. 여기서, SPARQL(SPARQL Protocol and RDF Query Language)은 그 이름에서 알 수 있듯이 RDF를 질의하기 위한 언어를 의미한다.

한편, 이렇게 출력된 결과에 대해서 사용자가 결과를 수정하거나, 새로운 시맨틱 메타데이터를 추가하기를 원한다면, 앞서 설명한 도 5의 데이터 구조화 방법의 수순을 다시 따르면 될 것이다. 즉, 에디터를 통해 출력된 결과를 편집함과 동시에 에디터에 부가된 사용자 인터페이스를 통해 시맨틱 메타데이터를 수정하거나, 추가할 수 있다.

한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이상에서 본 발명에 대하여 그 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 시스템을 도시한 도면이다.

도 2는 본 발명의 다른 일 실시예에 따른 시맨틱 메타데이터를 활용하여 지식 베이스 내의 구조화된 데이터를 검색하기 위한 데이터 구조화 시스템을 도시한 도면이다.

도 3a 내지 도 3f는 본 발명의 일 실시예에 따른 데이터 구조화 방법 및 시스템에서 비구조적 데이터의 특정 객체에 대하여 시맨틱 메타데이터를 시각적으로 입력받는 과정을 도시한 도면이다.

도 4는 본 발명의 또 다른 일 실시예에 따른 데이터 구조화 시스템에서 RDFa 포맷으로 변환된 시맨틱 메타데이터를 비구조적 데이터의 특정 객체에 태깅한 소스 코드를 도시한 도면이다.

도 5는 본 발명의 일 실시예에 따른 시맨틱 메타데이터를 활용한 데이터 구조화 방법을 도시한 흐름도이다.

<도면의 주요 부분에 대한 설명>

10 : 데이터 구조화 시스템 20 : 사용자

100 : 온톨로지 정의부

200 : 에디터 250 : 사용자 인터페이스

300 : 데이터 처리부 400 : 지식 베이스

500 : 입력부 600 : 출력부

700 : 질의 엔진

Claims

소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 단계;

비구조적 데이터를 작성하는 에디터에 부가된 사용자 인터페이스를 통해 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 단계;

상기 비구조적 데이터와 상기 비구조적 데이터의 텍스트에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 단계; 및

상기 생성된 구조적 데이터를 지식 베이스에 저장하는 단계를 포함하고,

상기 시맨틱 메타데이터를 시각적으로 입력받는 단계는,

사용자로부터 상기 비구조적 데이터 내의 소정의 텍스트를 선택받는 단계;

상기 사용자 인터페이스를 통해 상기 소정 도메인에 속하는 개념들을 상기 사용자에게 시각적으로 표시하는 단계; 및

상기 사용자 인터페이스를 통해 상기 사용자로부터 상기 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 단계를 포함하는 데이터 구조화 방법.
제 1 항에 있어서,

상기 텍스트는 주어이고,

상기 시맨틱 메타데이터를 시각적으로 입력받는 단계는,

상기 사용자 인터페이스를 통해 상기 사용자로부터 상기 주어의 속성을 입력받는 단계를 더 포함하고,

상기 사용자로부터 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 단계는 사용자로부터 상기 표시된 개념들 중 상기 주어에 관한 술어를 선택받고, 상기 표시된 개념들 중 상기 주어 및 술어에 관한 객체를 선택받는 것을 특징으로 하고,

상기 시맨틱 메타데이터는 상기 주어, 속성, 술어 및 객체로 구성되는 것을 특징으로 하는 데이터 구조화 방법.
제 1 항에 있어서,

상기 구조적 데이터를 생성하는 단계는,

상기 입력받은 시맨틱 메타데이터를 RDFa 포맷으로 변환하는 단계; 및

상기 비구조적 데이터의 객체에 상기 변환된 시맨틱 메타데이터를 태깅하는 단계를 포함하는 데이터 구조화 방법.
제 1 항에 있어서,

사용자로부터 질의를 입력받는 단계;

상기 질의를 분석하여 키워드를 추출하는 단계;

상기 지식 베이스에서 상기 키워드와 연관된 온톨로지 객체를 검색하는 단계;

상기 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑하는 단계; 및

상기 매핑된 결과를 출력하는 단계를 더 포함하는 데이터 구조화 방법.
제 1 항 내지 제 4 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
소정 도메인에 속하는 개념들 간의 관계를 온톨로지로 정의하는 온톨로지 정의부;

비구조적 데이터를 작성하는 에디터에 부가되어 상기 정의된 온톨로지에 기초한 시맨틱 메타데이터를 시각적으로 입력받는 사용자 인터페이스;

상기 비구조적 데이터와 상기 비구조적 데이터의 텍스트에 대응하는 상기 입력받은 시맨틱 메타데이터를 결합하여 구조적 데이터를 생성하는 데이터 처리부; 및

상기 생성된 구조적 데이터를 저장하는 지식 베이스를 포함하고,

상기 사용자 인터페이스는,

사용자로부터 상기 비구조적 데이터 내의 소정 텍스트를 선택받고, 상기 소정 도메인에 속하는 개념들을 상기 사용자에게 시각적으로 표시하고, 상기 사용자로부터 상기 표시된 개념들 간의 관계를 주어, 술어, 객체의 트리플 형태로 선택받는 데이터 구조화 시스템.
제 6 항에 있어서,

상기 텍스트는 주어이고,

상기 사용자 인터페이스는,

상기 사용자로부터 상기 주어의 속성을 입력받고, 상기 표시된 개념들 중 상기 주어에 관한 술어를 선택받고, 상기 표시된 개념들 중 상기 주어 및 술어에 관한 객체를 선택받는 것을 특징으로 하고,

상기 시맨틱 메타데이터는 상기 주어, 속성, 술어 및 객체로 구성되는 것을 특징으로 하는 데이터 구조화 시스템.
제 6 항에 있어서,

상기 데이터 처리부는,

상기 입력받은 시맨틱 메타데이터를 RDFa 포맷으로 변환하고, 상기 비구조적 데이터의 객체에 상기 변환된 시맨틱 메타데이터를 태깅하는 것을 특징으로 하는 데이터 구조화 시스템.
제 6 항에 있어서,

사용자로부터 질의를 입력받는 입력부;

상기 질의를 분석하여 키워드를 추출하고, 상기 지식 베이스에서 상기 키워드와 연관된 온톨로지 객체를 검색하고, 상기 검색 결과 발견된 온톨로지 객체들을 자동으로 매핑하는 질의 엔진; 및

상기 매핑 결과를 출력하는 출력부를 더 포함하는 데이터 구조화 시스템.