KR20080029417A

KR20080029417A - 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템

Info

Publication number: KR20080029417A
Application number: KR1020060095510A
Authority: KR
Inventors: 김홍기; 강보영; 구상옥; 최희철; 하이타오
Original assignee: 김홍기
Priority date: 2006-09-29
Filing date: 2006-09-29
Publication date: 2008-04-03

Abstract

1. 발명이 속한 기술분야

본 발명은 웹 문서내의 내의 각종 의미 정보를 자동으로 추출하는 방법 및 시스템에 관한 것이다.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 비정형화된 웹 문서로부터 정형화된 지식베이스인 온톨로지의 인스턴스를 자동으로 추출함으로써 대용량 웹의 의미화 및 자동화 작업을 가속화 하는데 그 목적이 있다.

3. 발명의 해결방법의 요지

본 발명에서는 나날이 신종 복합어가 생겨나고, 비정형화된 대용량의 웹 문서로부터 자동으로 의미정보를 추출해 내어, 특정 온톨로지의 인스턴스(instance 또는 individual)로 분류 가능한 의미 정보를 추출하기 위하여, SVM(Support Vector Machine)과 베이지안 분류기(Bayesian Classifier)를 이용한다. 두 방법 모두 사용자 감독이 필요한 기계학습방법으로써 학습데이터 생성, 학습, 분류 및 결정이라는 세 가지 과정에 따라 진행된다.

본 발명의 전체 시스템 구성은 대용량의 웹문서를 수집하고 HTML태그 제거, 형태소 분석 및 복합어 분해, 그리고 사용자가 학습데이터 편집기를 통해 의미태깅을 한 학습데이터를 생성하는 학습데이터 생성부; 학습데이터를 이용하여 SVM과 베이지안 분류기를 생성하고 두 분류학습기를 통합하는 통합 분류기 생성부; 새로운 웹 문서를 입력으로 하여 통합분류기를 통해 의미정보를 자동으로 추출하고 이를 온톨로지 인스턴스로 생성하는 의미정보 추출부로 이루어진다.

웹 어노테이션, 시맨틱 어노테이션, 의미정보 추출, 온톨로지 인스턴스 생성

Description

시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보 추출 방법 및 그 시스템 {Automatic Semantic Information Extraction from Web Documents for Semantic Web Annotation}

도 1은 본 발명에 의한 웹 문서의 자동 의미정보 추출 및 어노테이션 시스템의 전체 구성도를 도시한 것이다.

도 2는 본 발명에 의한 학습 데이터 생성부의 구성도를 도시한 것이다.

도 3은 본 발명에 의한 웹 문서 의미정보 추출 시스템의 구성 및 새로운 웹 문서의 의미정보 추출 과정을 도시한 것이다.

본 발명은 실용적인 시맨틱 웹 어플리케이션의 구현을 위해서 대용량의 웹 문서로부터 의미 정보를 추출하는 방법 및 이를 온톨로지의 특정 클래스와 매핑, 즉 온톨로지의 인스턴스를 자동으로 생성하는 시스템에 관한 것이다.

정보기술(IT) 학계 및 산업계에는 시맨틱 웹의 실현을 위한 각종 정보 표현 기술 및 상호운용적인 서비스를 위한 개발 플랫폼과 같은 인프라 구축이 절실히 요구되어 왔다. 이에 시맨틱 웹을 위한 정보표현 기술과 시맨틱 웹 서비스를 위한 플랫폼 개발은 지난 4-5년간 W3C와 같은 컨소시엄의 표준화 작업 및 수많은 관련 프로젝트의 성황으로 많은 발전이 있어왔다. 정보표현 기술로서는 RDF(Resource Description Framework)나 OWL(Web Ontology Language)과 같은 XML기반의 각종 마크업언어 및 이러한 언어로 표현 및 구축하고자 하는 범용 지식베이스인 온톨로지가 있다. JENA와 같은 추론 엔진은 온톨로지들 로부터 특정 의미 정보를 추론하여 가지고 올 수 있는 시스템이다. 시맨틱 웹의 구현을 위한 각종 기술들은 SOA(Service-Oriented Architecture) 스타일 기반의 각종 시맨틱 웹 서비스 시스템으로 통합될 수 있다.

시맨틱 웹을 위한 각종 응용 시스템의 구현에 있어서 상기의 인프라구축과 함께 매우 중요한 요소는 바로 실제로 의미 있는 정보를 각종 출처를 통해 추출해 내고, 이를 가공하여 언제든지 적절한 질의로 정보를 인출해 낼 수 있는 지식베이스 즉 온톨로지를 구축하는 작업이다. 그러나 수동으로 방대한 온톨로지를 구축하기 위해서는 많은 도메인 전문가의 시간과 노력이 필요하다.

기존 웹 서비스 및 시스템에는 자동으로 웹 문서로부터 도메인 온톨로지와 부합되는 의미적인 정보를 추출하여 이를 온톨로지의 인스턴스로 자동으로 생성하는 방법 및 시스템은 없었다.

시맨틱 웹의 실제적인 응용을 위해서는 정확하고 강력한 표현기술을 가지고, 유연하고 효율적인 플랫폼에서 '살아있는 데이터'를 '자동'으로 시스템이 이해할 수 있는 형태의 정보로 가공하는 기술이 필요하다.

본 발명은 수많은 사람 및 회사 및 국가에 의해서 만들어진 대용량의 웹 문서들로부터 도메인 온톨로지의 인스턴스를 자동으로 생성하여, 의미정보검색과 같은 시맨틱 웹의 실제 응용 분야에 활용될 수 있는 온톨로지를 자동으로 구축하고자 한다.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 웹 문서 의미정보 자동 추출 시스템은 웹 문서를 수집 및 분석하고 사용자(도메인전문가)에 의해 의미정보의 정답 집합을 구축하는 학습데이터 생성부(100); 상기 시스템에서 자동으로 의미정보를 추출하기 위해 각각SVM(Support Vector Machine)(200)과 베이지안 분류기(Bayesian Classifier)(300)를 생성하는 부분; 두 가지 방법에 의한 결과인 특성벡터를 통합한 분류학습기(400); 마지막으로 분류학습기를 통해 추출된 웹 문서 상의 의미정보를 도메인온톨로지(600)와 매핑하고, 매핑된 클래스에 대한 인스턴스를 생성하는 부분(800)으로 구성된다.

학습 데이터 생성부(100)는 방대한 웹을 항해하면서 대용량의 웹 문서를 수집하는 웹 문서 수집 장치(102); 수집된 웹 문서를 주소로 인덱싱하여 저장하는 웹 문서 저장장치(103); 저장된 웹 문서의 HTML 태그를 제거하여, 순수 텍스트로 변환하는 HTML 태그 제거 모듈(150); 자연어로 된 텍스트로 변환된 웹 문서에 품사 태그를 붙여주는 형태소분석 모듈(160)로 구성되는 전처리부와 도메인 전문가(사용자)(700)가 특정 도메인 온톨로지(600)를 바탕으로 전처리된 웹 문서들에 학습데이터 편집장치(500)를 이용하여 수동으로 의미태그를 붙여주는 학습데이터 편집부가 있다. 마지막으로 복합어 분해 모듈(170)은 도메인 전문가의 정답 의미 태그 및 모든 문서집합의 명사들을 추출하고, 복합어 분해를 통해 SVM과 베이지안 분류기 생성을 용이하게 하는 형태로 학습데이터를 가공하는 모듈이며, 이렇게 가공된 학습데이터는 학습데이터 저장장치(105)에 저장된다.

웹 문서에서 자주 출현하는 어휘들의 특징은 여러 개의 단어들이 결합하여 새로운 의미 또는 복합적인 의미를 가지는 복합어의 사용빈도가 높다는 것이다. 그리고 이런 복합어들은 대부분 ‘식당’ 또는 각종 ‘가게’ 이름, 또는 ‘요리명’이나 ‘상품명’과 같은 일상생활 속에서 자주 접할 수 있는 고유명사인 경우가 많다. 사람들이 이러한 이름들을 지을 때, 그 고유명사의 특성을 나타내는 단어를 조합하여 짓기 때문에, 같은 의미를 가진 복합어들은 비슷한 패턴을 가진 경우가 많다. 예를 들어, ‘서울집’, ‘강변집’ 과 같은 식당이름을 나타내는 복합어로 된 고유명사 들은 ‘-집’이라는 단어를 후미로 공유하며, ‘서울’ 또는 ‘강변’과 같은 지명을 나타내는 단어들이 접두에 있는 형태이다. 학습문서에 이러한 패턴이 많이 나온다면, '<지명> +집’의 패턴은 식당이름으로 분류될 가능성이 높아지는 것으로 학습된다. 따라서 웹 문서를 주된 입력으로 간주하는 상기 기술적 과제를 이루기 위해서 웹 문서의 특성을 반영하여, 복합어 분해과정을 통해 학습데이터의 단어들을 분해하고, 복합어를 이루는 단일어들의 조합 패턴을 인식하는 분류기를 생성함으로써, 자동으로 특정 의미에 부합하는 어휘들을 웹 문서로부터 추출해 낸다.

의미정보 인식을 위한 복합어의 조합 패턴인식 및 분류 작업이라는 기술적 과제를 이루기 위해 본 발명은 패턴인식 및 분류에 일반적으로 이용되고 있는 SVM과 베이지안 분류 학습 알고리즘을 도입한다. 두 방법 모두 학습데이터 생성부(100)에서 구축된 학습데이터, 즉 웹 문서내의 의미정보가 태깅된 복합어 분해가 완료된 단어들을 입력으로 하여, 단일어로 이루어진 의미특성벡터

를 구성한다. (w_i는 단일어)

먼저 다량의 웹 문서 학습을 통해서 나중에 새로운 웹 문서에 대한 의미정보 추출을 자동화하기 위한 SVM과 베이지안 분류기의 학습방법을 살펴본다.

SVM은 V. Vapnik과 그의 공동 연구자들에 의해 패턴인식의 효과적이고 일반화된 방 법으로 제안되었는데, 구조적 위험 최소화(structural risk minimization)의 개념에 기반한 최적의 선형 결정 평면(optimal linear decision surface)을 찾는 이진 분류 방법이다. 결정평면은 학습 집합 원소들의 가중화된 조합(weighted combination)으로, 이러한 학습 집합의 원소들을 support vector라고 부르고,

이것은 두 클래스 간의 경계면을 나타낸다. 태깅된 학습 샘플 집합 S = {f(y_i _;x_i)|i=1...n} 가 있다고 할 때, 여기서 x_i∈R^d이고, y_i는 관련된 레이블이다 (y_i∈{-1,1}). 선형 분리 데이터를 가정할 때, 최대 여백 분류(maximum margin classification)의 목표는 support vectors의 거리가 최대화되는 초월면(hyperplane)에 의해 두 개의 클래스를 분리하는 것이다. 이러한 초월면은 최적 경계 초월면(OSH: optimal separating hyperplane)이라고 불린다. OSH는 다음과 같은 수학식 1과 같이 나타낼 수 있다.

목적함수(object function)과 결정함수(decision function) 두 가지 함수 모두 데이터 벡터 x의 내적(dot product)에 의해 표현됨에 따라, 계산적으로 복잡한 매핑 은 명시적으로 계산할 필요가 없다.

SVM의 기본적인 목적은 (w_o; b_o) 로 표현되는 하나의 최적 경계 초월면(OHP)를 찾는 것이다. 이 최적 경계 초월면은 입력벡터와 초월면사이의 거리를 최소화 함으로써 입력벡터를 정확하게 분류한다. min_i |w x_j+ b_j| 를 1로 만드는 최소화 작업 후에, 수학식 2의 목적함수 O_l 을 최소화함으로써 최적 경계 초월면을 얻을 수 있다.

베이지안 분류기는 수학식 3의 Bayes 정리로부터 유도된다. 즉 문서 분류를 위한 베이지안 분류기는 여러 특성(자질) 변수 F₁... F_n이 주어졌을 때, 이에 영향을 받는 조건 확률 변수 C에 대한 조건확률 모델을 사용한다.

상기 기술적 과제를 이루기 위한 Naive Bayes 알고리즘은 복합어에 나타나는 각 단일어들이 서로 독립이라는 가정하여, 복합어 집합에 대한 단일어의 출현 빈도와 복합어 내에서의 단일어의 출현 빈도를 이용한다. 학습절차는 먼저 학습 문서집합에서 복합어 집합을 추출하고, 복합어 집합에서 의미범주 c_j에 대한 확률 Pr(c_j)와 의미범주 c_j에 대한 단일어 w_i 의 조건부 확률 Pr(w_i|c_j)를 계산한다. 학습을 통하여 계산된 확률 값들은 수학식 4에서와 같은 MAP(maximum a posteriori)결정 규칙을 이용하여 Naive Bayesian분류 를 적용하여, 새로운 단어의 의미범부 결정을 수행한다.

도 3은 입력으로 새로운 웹 문서가 주어졌을 때, 본 발명의 실시에 따른 통합 분류학습기를 이용하여, 자동으로 웹 문서의 의미정보를 추출하고, 이를 가공하여 온톨로지 인스턴스를 생성하는 절차 및 구성을 도시한 것이다. 상기의 학습데이터 생성부(100)와 공통인 부분은 웹 문서의 HTML 태그를 제거하고 형태소 분석을 하는 전처리 단계이다. 전처리 후 복합어 분해를 거치면 SVM과 베이지안 분류기의 학습결과 정보가 통합된 통합 분류 학습기(400)의 입력으로 들어가게 되고, 분류기를 통 해 나온 결과를 바탕으로 해당 문서의 각 단어들에 대한 의미정보를 결정, 추출하게 된다(810). 추출된 의미정보들은 도메인 온톨로지의 특정 클래스에 매핑되어 온톨로지 인스턴스로 생성된다(820).

본 발명은 웹 문서에서의 의미정보 추출을 주된 목적으로 하나, 뉴스 기사 또는 일반 텍스트 문서에 대해서도 동일한 방법이 적용될 수 있으며, 복잡한 형태의 문장 분석을 하지 않으므로, 정형화되지 않은 텍스트에도 적용가능하다. 따라서 본 시스템은 웹 문서뿐 아니라, 웹 문서로써 가공 가능한 일반 문서에 대한 의미정보 자동 추출 시스템을 포함한다.

본 발명의 예에서는 단어들을 한글을 사용하여 표현하였으나, 이것은 일례에 불과한 것으로 상기 단어들은 단지 한글뿐만 아니라, 영어, 일어, 중국어 등의 다양한 언어로 표현될 수 있다. 또한 응용 시스템은 지능형 로봇, 지능형 에이전트, 시맨틱 웹 어노테이터, 각종 시맨틱 웹 서비스 프로그램, 온톨로지 구축 도구 등의 의미정보를 필요로 하고 사용하는 모든 시스템을 포함한다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매치(CD-ROM, RAM, ROM, DVD-ROM, 플로피디스크, 하드디스크, USB메모리, 광자기디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설 명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 소하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 전술한 실시에 및 첨부된 도면에 의해 한정되는 것이 아니다.

본 발명은 웹 기반 도메인 온톨로지 구축에 직접적으로 활용될 수 있다.

웹을 기반으로 구축된 온톨로지는 시맨틱 웹 기반 의미정보검색 시스템을 만들기 위해 활용될 수 있으며, 도메인 전문가에 의한 온톨로지와 웹을 기반으로 한 자동 구축된 온톨로지 간의 차이를 비교하는 연구에도 활용가능하다. 시맨틱 웹 기반 의미정보검색 시스템은 사용자의 기존 일반 웹 정보검색에 비해 복잡한 형태의 사용자 질의도 온톨로지 추론을 통해 성공적으로 답을 줄 수 있는 훨씬 지능적인 검색 시스템이다.

본 발명에서 기술한 SVM 및 베이지안 분류기를 이용한 의미정보 추출 기법은 자동으로 의미 태깅된 웹 문서 집합을 의미적으로 분류하는 의미기반 웹 문서 분류시스템에 활용될 수 있다.

본 발명에서 기술한 SVM 및 베이지안 분류기를 이용한 의미정보 추출 기법은 자동으로 의미 태깅된 전자메일 집합을 의미적으로 분류하는 의미기반 전자메일 분류시스템에 활용될 수 있다.

Claims

청구항 1.

웹 문서를 입력으로 받아서 형태소분석 및 복합명사분해를 통해 문서를 분석하고, 기계 학습 방법을 이용해 자동으로 의미정보를 추출하는 모듈 및

상기 추출된 의미 정보를 온톨로지 형태의 범용 지식베이스의 인스턴스로 할당하여 온톨로지 기반 지식을 생성하는 태깅(tagging) 또는 어노테이션(annotation) 시스템

청구항 2.

1항에 있어서 웹 문서 자동 학습 및 의미정보 추출을 위한 상기 기계학습 방법으로서

SVM(Support Vector Machine)을 사용하는 모듈 및 장치

청구항 3.

1항에 있어서 웹 문서 자동 학습 및 의미정보 추출을 위한 상기 기계학습 방법으로서

베이지안 분류기(Bayesian Classifier)을 사용하는 모듈 및 장치

청구항 4.

2항 또는 3항의 의미정보 추출 방법을 활용하여 의미 태깅을 함으로써, 웹 문서 분류 또는 전자메일 분류를 하는 시스템