KR100918847B1 - 온톨로지 인스턴스 자동 생성 장치 및 방법 - Google Patents

온톨로지 인스턴스 자동 생성 장치 및 방법

Info

Publication number
KR100918847B1
KR100918847B1 KR1020070103554A KR20070103554A KR100918847B1 KR 100918847 B1 KR100918847 B1 KR 100918847B1 KR 1020070103554 A KR1020070103554 A KR 1020070103554A KR 20070103554 A KR20070103554 A KR 20070103554A KR 100918847 B1 KR100918847 B1 KR 100918847B1
Authority
KR
South Korea
Prior art keywords
document
relationship information
extracting
ontology
entities
Prior art date
Application number
KR1020070103554A
Other languages
English (en)
Other versions
KR20090038187A (ko
Inventor
이창기
왕지현
최미란
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070103554A priority Critical patent/KR100918847B1/ko
Priority to US12/163,185 priority patent/US8055661B2/en
Publication of KR20090038187A publication Critical patent/KR20090038187A/ko
Application granted granted Critical
Publication of KR100918847B1 publication Critical patent/KR100918847B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 구조 문서 및 비구조 문서를 구분하여 온톨로지 인스턴스를 자동으로 생성하는 장치 및 방법에 대한 것으로서, 웹으로부터 온톨로지의 클래스에 대응하는 문서를 수집하는 문서 수집 단계; 수집된 문서가 비구조 문서인 경우에, 비구조 문서로부터 개체간 관계 정보를 추출하는 단계; 수집된 문서가 구조 문서인 경우에, 구조 문서로부터 개체간 관계 정보를 추출하는 단계; 추출된 개체간 관계 정보로부터 온톨로지 인스턴스를 생성하는 단계; 및 생성된 온톨로지 인스턴스를 온톨로지의 해당 클래스로 매핑하는 단계를 포함하는 것을 특징으로 한다.

Description

온톨로지 인스턴스 자동 생성 장치 및 방법{DEVICE FOR GENERATING ONTOLOGY INSTANCE AUTOMATICALLY AND METHOD THEREFOR}
본 발명은 온톨로지 인스턴스 자동 생성 장치 및 방법에 관한 것으로서, 더욱 상세하게는, 인터넷 상에 존재하는 구조 문서 및 비구조 문서로부터 개체 및 개체간의 관계를 추출하여 온톨로지 인스턴스를 생성 저장하는 장치 및 그 방법에 관한 것이다.
본 발명은 정보통신부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
관계형 모델을 기반으로 데이터를 표현하고 이용하는 데이터베이스 기술을 거쳐, 최근에는 실세계의 지식을 보다 자연스럽게 표현하고, 논리 추론을 통해 새로운 지식을 자동적으로 유도할 수 있는 지식 표현 기술에 대한 연구가 활발히 진행되고 있다. 이에 따른 대표적인 기술 개발 흐름이 시맨틱 웹(Semantic Web) 기술이다.
시맨틱 웹이란, 컴퓨터가 지식 자원의 의미를 이해하고 논리적 추론까지 할 수 있는 차세대 지능형 웹으로서, 현재의 인터넷과 같은 분산 환경에서 리소스(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semantics)를 기계(컴퓨터)가 처리할 수 있는 형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크이자 기술이다. 이러한 프레임워크 하에서의 자원, 정보, 지식 등은 온톨로지라는 개념으로서 정의되며, 따라서, 온톨로지는, 인터넷상의 각종 정보 자원에 대해 컴퓨터가 처리 가능하도록 형식적이고 명시적으로 명세화된 지식이라고 할 수 있다.
그러나, 인터넷에서 제공되는 각종 정보들은 일정한 형식으로 규격화되어 있지 않으며, 따라서 이들을 수집하여 온톨로지 형태로서 표현하고 온톨로지 인스턴스로 변환하는 데에는 많은 어려움이 있다.
대한민국 공개특허공보 제2005-0065196호에서는, 인터넷 상에 분산되어 있는 독립된 지식들을 통합하여 일관성 있는 지식 정보를 생성하는 대용량 온톨로지 생성 시스템을 제안하고 있다. 이 시스템은, 인터넷상에 분산된 지식 서버상에 존재하는 지식들을 수집하여 이들 지식간의 관계 정보를 생성하며, 그에 따라 일관성 있는 통합된 지식 정보를 생성한다.
그러나, 상기 시스템은, 지식들이 지식 서버상에 존재하고 있다는 전제 하에 동작하므로, 형식을 갖추지 않은 지식 정보에 대해서는 적용이 곤란하다는 문제가 있다. 따라서 온톨로지 기반으로 설계되지 않는 시스템에 의해 생성된 지식 정보는 수집하여 통합하는 것이 불가능하므로, 지식 정보를 수집하는 데 한계가 있다.
본 발명은, 상기 설명한 종래의 기술적 과제를 해결하기 위한 것으로서, 지식 서버상에 존재하지 않는 문서, 즉 온톨로지 형식으로 되어 있지 않은 문서를 수집하여, 이로부터 온톨로지 인스턴스를 생성하는 것을 목적으로 한다.
상기 목적을 달성하기 위하여, 본 발명에 따른 온톨로지 인스턴스의 자동 생성 방법은, (a) 웹으로부터 온톨로지의 클래스에 대응하는 문서를 수집하는 문서 수집 단계; (b) 수집된 문서가 비구조 문서인 경우에, 비구조 문서로부터 개체간 관계 정보를 추출하는 단계; (c) 수집된 문서가 구조 문서인 경우에, 구조 문서로부터 개체간 관계 정보를 추출하는 단계; (d) 추출된 개체간 관계 정보로부터 온톨로지 인스턴스를 생성하는 단계; 및 (e) 생성된 온톨로지 인스턴스를 온톨로지의 해당 클래스로 매핑하는 단계를 포함하는 것을 특징으로 한다.
보다 구체적으로는, 상기 (b) 단계는, b1) 비구조 문서로부터 개체명을 인식하는 개체명 인식 단계; (b2) 비구조 문서로부터 대용어를 인식하는 대용어 인식 단계; 및 (b3) 인식한 개체명 및 인식한 대용어로부터 개체간의 관계 정보를 추출하는 개체 관계 추출 단계를 포함한다.
또한, 상기 (b2) 단계는, 인식한 대용어를 해당하는 개체명으로 복원하는 대용어 복원 단계를 더 포함한다.
또한, 상기 (b3) 단계는, (b31) 인식한 개체명 및 인식한 대용어를 이용하여 개체명의 자질을 생성하는 단계; 및 (b32) 생성된 자질 및 온톨로지를 이용하여, 개체간의 관계 정보를 추출하는 단계를 포함한다.
또한, 상기 (c) 단계는, (c-1) 구조 문서로부터 테이블을 추출하는 단계; 및 (c-2) 추출된 테이블로부터 개체간 관계 정보를 추출하는 단계를 포함한다.
또한, 상기 (d) 단계는, 추출된 개체간 관계 정보 중에서 중복된 관계 정보를 제거하는 단계를 포함한다.
상기 목적을 달성하기 위하여, 본 발명에 따른 온톨로지 인스턴스의 자동 생성 장치는, 온톨로지의 클래스에 대응하는 문서를 수집하는 문서 수집부; 비구조 문서로부터 개체간 관계 정보를 추출하는 비구조 문서 관계 정보 추출부; 구조 문서로부터 개체간 관계 정보를 추출하는 구조 문서 관계 정보 추출부; 비구조 문서 관계 정보 추출부 및 구조 문서 관계 정보 추출부에서 추출된 관계 정보로부터 온톨로지 인스턴스를 생성하는 인스턴스 생성부; 및 인스턴스 생성부에서 생성된 온톨로지 인스턴스를 온톨로지의 해당 클래스로 매핑하는 인스턴스 매핑부를 포함하며, 문서 수집부는, 수집된 문서가 비구조 문서인 경우에는 이를 비구조 문서 관계 정보 추출부에 입력하고, 수집된 문서가 구조 문서인 경우에는 이를 구조 문서 관계 정보 추출부에 입력하는 것을 특징으로 한다.
보다 구체적으로는, 상기 비구조 문서 관계 정보 추출부는, 비구조 문서로부터 개체명을 인식하는 개체명 인식부; 비구조 문서로부터 대용어를 인식하는 대용어 인식부; 및 인식한 개체명 및 인식한 대용어로부터 개체간 관계 정보를 추출하는 개체 관계 추출부를 포함한다.
또한, 상기 대용어 인식부는, 비구조 문서로부터 대용어를 인식하는 대용어 인식 모듈; 및 인식한 대용어를 해당하는 개체명으로 복원하는 대용어 복원 모듈을 포함한다.
또한, 상기 개체 관계 추출부는, 인식한 개체명 및 인식한 대용어를 이용하여, 개체간의 관계추출을 위한 자질을 생성하는 개체 관계 추출 자질 생성 모듈; 및 생성된 자질 및 온톨로지를 이용하여, 개체간의 관계 정보를 추출하는 개체 관계 추출 모듈을 포함한다.
또한, 상기 구조 문서 관계 정보 추출부는, 구조 문서로부터 테이블을 추출하는 테이블 추출부; 및 테이블 추출부에서 추출된 테이블로부터 개체간 관계 정보를 추출하는 관계 정보 추출부를 포함한다.
또한, 상기 인스턴스 생성부는, 추출된 개체간 관계 정보 중에서 중복된 관계 정보를 제거하는 것을 특징으로 한다.
본 발명의 온톨로지 인스턴스 자동 생성 장치에 의하면, 웹상의 구조 문서와 비구조 문서를 구분하여 인스턴스를 생성하기 때문에 좀 더 정확하고 효율적으로 인스턴스를 생성하는 것이 가능하게 된다. 또한, 비구조 문서의 경우에 대해서도 개체명 인식, 대용어 인식, 개체간의 관계 추출 과정을 거쳐 보다 정확하고 효율적인 온톨로지 인스턴스의 생성이 가능하다.
도 1은, 본 발명에 따른 온톨로지 인스턴스 자동 생성 장치를 나타낸 도면이다.
도 2는, 본 발명에 따른 온톨로지 인스턴스 자동 생성 장치에 있어서, 개체명 인식부의 동작 모듈을 구체적으로 나타낸 도면이다.
도 3은, 본 발명에 따른 온톨로지 인스턴스 자동 생성 장치에 있어서, 대용어 인식부의 동작 모듈을 구체적으로 나타낸 도면이다.
도 4는, 본 발명에 따른 온톨로지 인스턴스 자동 생성 장치에 있어서, 개체 관계 추출부의 동작 모듈을 구체적으로 나타낸 도면이다.
이하, 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 상세하게 설명한다.
도 1은, 본 발명에 따른 온톨로지 인스턴스 자동 생성 장치(1)를 나타낸 도면이다.
온톨로지 인스턴스 자동 생성 장치(1)는, 문서 수집부(100), 개체명 인식부(210), 대용어 인식부(220), 개체 관계 추출부(230), 테이블 추출부(310), 관계 정보 추출부(320), 인스턴스 생성부(410), 및 인스턴스 매핑부(420)를 포함한다.
문서 수집부(100)는, 웹으로부터 각종 문서를 수집한다. 각종 문서는 특별한 형식을 요하지 않으며, 다만, 수집할 문서 내의 정보가 테이블 구조로 되어있는지 여부에 따라 구조 문서 및 비구조 문서로 분류된다.
수집된 문서가 비구조 문서인 경우에는, 이로부터 개체간 관계 정보를 추출하기 위하여, 개체명 인식부(210), 대용어 인식부(220), 및 개체 관계 추출부(230)가 제공된다.
개체명 인식부(210)는, 비구조 문서에 있어서, 문장으로부터 개체를 추출하여 개체명을 인식한다. 개체명 인식부(210)는, 형태소 분석 모듈(211), 개체명 자질 생성 모듈(212), 개체명 인식 모듈(213)을 포함할 수 있다.
대용어 인식부(220)는, 비구조 문서에 있어서, 문장 내에 대명사 등으로 표시된 대용어들을 인식하는 대용어 인식 모듈(221), 및 인식된 대용어를 개체명으로 복원하는 대용어 복원 모듈(222)을 더 포함할 수 있다.
개체 관계 추출부(230)는, 추출된 개체명으로부터 개체간의 관계를 추출하며, 개체 관계 추출을 위한 자질을 생성하는 개체 관계 추출 자질 생성 모듈(231) 및 생성된 자질로부터 개체간의 관계를 추출하는 개체 관계 추출 모듈(232)을 포함할 수 있다.
수집된 문서가 구조 문서인 경우에는, 이로부터 개체간 관계 정보를 추출하기 위하여, 테이블 추출부(310) 및 관계 정보 추출부(320)가 제공된다.
테이블 추출부(310)는, 구조 문서로부터 정보를 추출할 테이블을 추출한다.
관계 정보 추출부(320)는, 추출된 테이블로부터 관계 정보를 추출한다.
인스턴스 생성부(410)는, 개체 관계 추출부(230) 또는 관계 정보 추출부(320)로부터 받은 관계 정보에 기초하여 온톨로지 인스턴스를 생성한다.
인스턴스 매핑부(420)는, 온톨로지(900)를 참조하여, 상기 생성된 온톨로지 인스턴스를 해당 클래스로 매핑하여 저장한다.
도 1의 구성을 참조하여, 본 발명에 따른 온톨로지 생성 방법을 설명한다.
먼저, 문서 수집부(100)는, 온톨로지(900)를 참조하여, 온톨로지의 각 클래스에 해당하는 문서를 수집한다. 수집된 문서에 기록된 정보가 테이블 형식으로 기술되어 있는 경우에, 이 문서는 구조 문서로 분류되며, 그렇지 않은 경우에, 이 문서는 비구조 문서로 분류된다.
상기 문서가 구조 문서인 경우에는, 해당 문서는 테이블 추출부(310)로 전달되며, 비구조 문서인 경우에는, 해당 문서는 개체명 인식부(210)로 전달된다.
먼저, 수집된 문서가 비구조 문서인 경우에 대하여 설명한다. 비구조 문서로는 예를 들면 문장들을 포함하는 형식의 문서를 생각할 수 있으며, 이하에서는, 비구조 문서로서 문장이 추출된 경우를 예로 들어 설명한다.
개체명 인식부(210)는 추출된 문장에 대하여 개체명 인식을 수행한다. 예를 들어 다음과 같은 문장이 추출되었다고 하자:
문장 1: 삼성전자(회장 이건희)는 DMB 기술을 개발하였다. 이 회사는 수원에 있다.
개체명 인식부(210)는 상기 문장 1에 대하여, 개체명으로서 "삼성전자", "이건희", "수원시" 등을 인식한다. 이러한 개체명 인식은, 구체적으로는 도 2에 나타난, 형태소 분석 모듈(211), 개체명 자질 생성 모듈(212), 개체명 적용 모듈(213)을 거쳐 처리된다. 형태소 분석 모듈(211)은, 문장을 형태소 단위로 파싱한다. 파싱된 문장은 자질 사전(810)을 참조하는 개체명 자질 생성 모듈(212)에 의하여, 각각의 개체명에 대한 자질을 생성한다. 개체명 인식 모듈(213)에서는 개체명 인식 모델(820)을 참조하여 개체명을 인식하며, 자질이 생성된 각각의 개체명이 인식된 결과가 출력된다.
상기 문장 1이 개체명 인식부(210)를 거치면, 아래와 같은 결과가 출력된다.
문장 2: <삼성전자: ORG > (회장 <이건희: PER > )는 DMB 기술을 개발하였다. 이 회사는 <수원: LOC > 에 있다.
상기 문장 1에 대해서, "삼성전자", "이건희", "수원"이 개체명으로서 인식되었으며, 각각 ORG(회사), PER(사람), LOC(위치)라는 자질이 생성되었다.
개체명 인식부(210)를 거친 문장 2는 대용어 인식부(220)에 입력된다.
대용어 인식부(220)에서는, 문장에 포함된 대용어를 인식하여, 이 대용어가 가리키는 개체명을 검색한다. 대용어 인식부(220)는 대용어 인식 모듈(221) 및 대용어 복원 모듈(222)을 포함할 수 있으며, 대용어 인식 모듈(221)에서는 대용어 인식 모델(830)을 참조하여 대용어를 인식하고, 대용어 복원 모듈(222)에서는 대용어 복원 모델(840)을 참조하여, 인식한 대용어를 적절한 개체명으로 복원하는 동작을 행한다.
문장 2가 대용어를 인식하여(문장 3), 대용어를 복원한 결과(문장 4)는 다음과 같다.
문장 3: <삼성전자: ORG >(회장 <이건희: PER >)는 DMB 기술을 개발하였다. <이 회사:C ORG > 는 <수원: LOC >에 있다.
문장 4: <삼성전자: ORG >(회장 <이건희: PER >)는 DMB 기술을 개발하였다. <삼성전자: ORG > 는 <수원: LOC >에 있다.
대용어 인식부(220)를 거친 문장은, 개체 관계 추출부(230)에 입력된다. 개체 관계 추출부(230)는, 개체명 인식부(210)에서 추출한 개체명 및 대용어 인식부(220)에서 인식한 대용어(또는 개체명으로 복원된 대용어)로부터 개체 사이의 관계 정보를 파악한다. 구체적으로는, 개체 관계 추출부(230)는, 개체 관계 추출 자질 생성 모듈(231) 및 개체 관계 추출 모듈(232)을 포함한다.
개체 관계 추출 자질 생성 모듈(231)은, 개체명 인식부(210) 및 대용어 인식부(220)에서 인식된 개체간의 관계 여부를 파악하기 위하여, 온톨로지(900) 등을 참조하여 자질을 생성한다. 그 후에, 개체 관계 추출 모듈(232)은 개체 관계 추출 모델(850)을 이용하여 두 개체간의 관계 정보를 추출한다. 문장 4로부터 개체 관계 추출을 한 결과는 다음과 같다.
개체 관계 추출 결과:
has CEO (<삼성전자: ORG >,<이건희: PER >)
is located (<삼성전자: ORG >, <수원: LOC >)
상술한 바와 같이 추출된 개체 관계 정보는, 인스턴스 생성부(410)에 입력된다. 인스턴스 생성부(410)는, 추출된 개체 관계 정보 중에 중복된 지식 등을 제거하고, 상기 개체 관계 정보로부터 온톨로지 인스턴스를 생성한다.
생성된 온톨로지 인스턴스는 인스턴스 매핑부(420)에 입력되며, 인스턴스 매핑부(420)는, 온톨로지(900) 상의 대응하는 클래스를 검색하고, 해당하는 클래스에 상기 생성된 온톨로지 인스턴스를 매핑시킨다.
상기 문서 수집부(100)에서 수집된 문서가 구조 문서인 경우에는, 문서는 개체명 인식부(210)에 입력되지 않고, 테이블 추출부(310)에 입력된다.
테이블 추출부(310)는, 구조 문서 내에 필요한 정보가 존재하는 테이블을 추출한다. 추출된 테이블은 관계 정보 추출부(320)로 입력된다.
관계 정보 추출부(320)는, 테이블로부터 관계 정보를 추출하며, 이는 공지의 래퍼(wrapper) 기술 등을 이용하여 처리될 수 있다. 래퍼 기술을 이용하면, 테이블로부터 테이블 내 개체간의 관계 정보를 추출할 수 있으며, 따라서 추출 결과는 추가적인 작업 없이, 또는 일부 형식적인 변환 과정만을 거쳐 인스턴스 생성부(410)로 입력될 수 있다.
인스턴스 생성부(410)로 입력된 이후의 과정은 비구조 문서의 경우와 동일하다.
본 발명에 따른 온톨로지 인스턴스 생성 방법 및 장치는 상술한 실시형태에 한정되지 않으며, 본원 발명의 사상으로부터 벗어나지 않고 다양한 변형 형태가 가능하다. 예를 들면, 수집된 문서가 구조 문서인 경우에, 테이블을 추출한 이후의 과정은 비구조 문서에서의 처리 과정과 동일하도록 구성될 수도 있다.
또한, 문서 내에 테이블 형식의 지식과 기타 형식의 지식이 함께 포함되어 있는 경우에는, 테이블 형식의 부분에 대해서만 구조 문서 관계 정보 추출 과정을 거치고, 나머지 부분에 대해서는 비구조 문서 관계 정보 추출 과정을 거치게 할 수도 있다. 또는, 테이블을 추출한 이후에, 테이블을 제외한 비구조 문서 형식의 지식을 다시 비구조 문서 관계 정보 추출 과정에 입력되도록 구성하는 것도 가능하다.

Claims (12)

  1. 온톨로지 인스턴스의 자동 생성 방법으로서,
    (a) 온톨로지의 클래스에 대응하는 문서를 수집하는 문서 수집 단계;
    (b) 상기 수집된 문서가 비구조 문서인 경우에, 상기 비구조 문서로부터 개체간 관계 정보를 추출하는 단계;
    (c) 상기 수집된 문서가 구조 문서인 경우에, 상기 구조 문서로부터 개체간 관계 정보를 추출하는 단계;
    (d) 상기 추출된 개체간 관계 정보로부터 온톨로지 인스턴스를 생성하는 단계; 및
    (e) 상기 생성된 온톨로지 인스턴스를 온톨로지의 해당 클래스로 매핑하는 단계를 포함하는 온톨로지 인스턴스의 자동 생성 방법.
  2. 청구항 1에 있어서,
    상기 (b) 단계는,
    (b1) 상기 비구조 문서로부터 개체명을 인식하는 개체명 인식 단계;
    (b2) 상기 비구조 문서로부터 대용어를 인식하는 대용어 인식 단계; 및
    (b3) 상기 인식한 개체명 및 상기 인식한 대용어로부터 개체간의 관계 정보를 추출하는 개체 관계 추출 단계를 포함하는, 온톨로지 인스턴스의 자동 생성 방법.
  3. 청구항 2에 있어서,
    상기 (b2) 단계는,
    상기 인식한 대용어를 해당하는 개체명으로 복원하는 대용어 복원 단계를 더 포함하는, 온톨로지 인스턴스의 자동 생성 방법.
  4. 청구항 2 또는 청구항 3에 있어서,
    상기 (b3) 단계는,
    (b31) 상기 인식한 개체명 및 상기 인식한 대용어를 이용하여 개체간의 관계 정보 추출을 위한 자질을 생성하는 단계; 및
    (b32) 상기 생성된 자질 및 상기 온톨로지를 이용하여, 개체간의 관계 정보를 추출하는 단계를 포함하는, 온톨로지 인스턴스의 자동 생성 방법.
  5. 청구항 1에 있어서,
    상기 (c) 단계는,
    (c1) 상기 구조 문서로부터 테이블을 추출하는 단계; 및
    (c2) 상기 추출된 테이블로부터 개체간 관계 정보를 추출하는 단계를 포함하는, 온톨로지 인스턴스의 자동 생성 방법.
  6. 청구항 1에 있어서,
    상기 (d) 단계는,
    상기 추출된 개체간 관계 정보 중에서 중복된 관계 정보를 제거하는 단계를 포함하는, 온톨로지 인스턴스의 자동 생성 방법.
  7. 온톨로지 인스턴스 자동 생성 장치로서,
    온톨로지의 클래스에 대응하는 문서를 수집하는 문서 수집부;
    비구조 문서로부터 개체간 관계 정보를 추출하는 비구조 문서 관계 정보 추출부;
    구조 문서로부터 개체간 관계 정보를 추출하는 구조 문서 관계 정보 추출부;
    상기 비구조 문서 관계 정보 추출부 및 상기 구조 문서 관계 정보 추출부에서 추출된 관계 정보로부터 온톨로지 인스턴스를 생성하는 인스턴스 생성부; 및
    상기 인스턴스 생성부에서 생성된 상기 온톨로지 인스턴스를 온톨로지의 해당 클래스로 매핑하는 인스턴스 매핑부를 포함하며,
    상기 문서 수집부는, 상기 수집된 문서가 비구조 문서인 경우에는 이를 상기 비구조 문서 관계 정보 추출부에 입력하고, 상기 수집된 문서가 구조 문서인 경우에는 이를 상기 구조 문서 관계 정보 추출부에 입력하는, 온톨로지 인스턴스 자동 생성 장치.
  8. 청구항 7에 있어서,
    상기 비구조 문서 관계 정보 추출부는,
    상기 비구조 문서로부터 개체명을 인식하는 개체명 인식부;
    상기 비구조 문서로부터 대용어를 인식하는 대용어 인식부; 및
    상기 인식한 개체명 및 상기 인식한 대용어로부터 개체간 관계 정보를 추출하는 개체 관계 추출부를 포함하는, 온톨로지 인스턴스 자동 생성 장치.
  9. 청구항 8에 있어서,
    상기 대용어 인식부는,
    상기 비구조 문서로부터 대용어를 인식하는 대용어 인식 모듈; 및
    상기 인식한 대용어를 해당하는 개체명으로 복원하는 대용어 복원 모듈을 포함하는, 온톨로지 인스턴스 자동 생성 장치.
  10. 청구항 8 또는 청구항 9에 있어서,
    상기 개체 관계 추출부는,
    상기 인식한 개체명 및 상기 인식한 대용어를 이용하여, 개체간의 관계추출을 위한 자질을 생성하는 개체 관계 추출 자질 생성 모듈; 및
    상기 생성된 자질 및 상기 온톨로지를 이용하여, 개체간의 관계 정보를 추출하는 개체 관계 추출 모듈을 포함하는, 온톨로지 인스턴스 자동 생성 장치.
  11. 청구항 7에 있어서,
    상기 구조 문서 관계 정보 추출부는,
    상기 구조 문서로부터 테이블을 추출하는 테이블 추출부; 및
    상기 테이블 추출부에서 추출된 테이블로부터 개체간 관계 정보를 추출하는 관계 정보 추출부를 포함하는, 온톨로지 인스턴스 자동 생성 장치.
  12. 청구항 7에 있어서,
    상기 인스턴스 생성부는, 상기 추출된 개체간 관계 정보 중에서 중복된 관계 정보를 제거하는, 온톨로지 인스턴스 자동 생성 장치.
KR1020070103554A 2007-10-15 2007-10-15 온톨로지 인스턴스 자동 생성 장치 및 방법 KR100918847B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070103554A KR100918847B1 (ko) 2007-10-15 2007-10-15 온톨로지 인스턴스 자동 생성 장치 및 방법
US12/163,185 US8055661B2 (en) 2007-10-15 2008-06-27 Device and method for automatically generating ontology instance

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070103554A KR100918847B1 (ko) 2007-10-15 2007-10-15 온톨로지 인스턴스 자동 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20090038187A KR20090038187A (ko) 2009-04-20
KR100918847B1 true KR100918847B1 (ko) 2009-09-28

Family

ID=40535237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070103554A KR100918847B1 (ko) 2007-10-15 2007-10-15 온톨로지 인스턴스 자동 생성 장치 및 방법

Country Status (2)

Country Link
US (1) US8055661B2 (ko)
KR (1) KR100918847B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012060502A1 (ko) * 2010-11-02 2012-05-10 한국과학기술정보연구원 연구주체간의 상관관계 추론을 위한 시스템 및 방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2095268A4 (en) * 2006-11-20 2011-08-03 Matrikon Inc ONTOLOGICAL DATABASE DRAFT
US8140680B2 (en) * 2008-01-09 2012-03-20 International Business Machines Corporation Machine-processable semantic description for resource management
US8355905B2 (en) 2010-05-14 2013-01-15 International Business Machines Corporation Mapping of relationship entities between ontologies
US9037615B2 (en) * 2010-05-14 2015-05-19 International Business Machines Corporation Querying and integrating structured and unstructured data
KR101695011B1 (ko) * 2011-08-24 2017-01-10 한국전자통신연구원 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
US8914419B2 (en) 2012-10-30 2014-12-16 International Business Machines Corporation Extracting semantic relationships from table structures in electronic documents
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9607039B2 (en) 2013-07-18 2017-03-28 International Business Machines Corporation Subject-matter analysis of tabular data
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
US9286290B2 (en) 2014-04-25 2016-03-15 International Business Machines Corporation Producing insight information from tables using natural language processing
US10095689B2 (en) 2014-12-29 2018-10-09 International Business Machines Corporation Automated ontology building
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
US11567920B2 (en) * 2020-09-15 2023-01-31 Sap Se Master data mapping scheme permitting querying

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065196A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 대용량 온톨로지 생성 시스템
KR20070008994A (ko) * 2005-07-14 2007-01-18 주식회사 케이티 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법
KR100729103B1 (ko) * 2006-05-29 2007-06-14 주식회사 케이티 비구조 웹문서로부터 온톨로지 인스턴스를 자동으로추출하기 위한 시스템 및 그 방법
KR20070065774A (ko) * 2005-12-20 2007-06-25 한국전자통신연구원 온톨로지를 이용한 시맨틱 블로그 관리 시스템 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006509307A (ja) * 2002-12-06 2006-03-16 アテンシティ コーポレーション 混合データ統合サービスの提供システム及び提供方法
US7689557B2 (en) * 2005-06-07 2010-03-30 Madan Pandit System and method of textual information analytics
US7987088B2 (en) * 2006-07-24 2011-07-26 Lockheed Martin Corporation System and method for automating the generation of an ontology from unstructured documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065196A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 대용량 온톨로지 생성 시스템
KR20070008994A (ko) * 2005-07-14 2007-01-18 주식회사 케이티 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법
KR20070065774A (ko) * 2005-12-20 2007-06-25 한국전자통신연구원 온톨로지를 이용한 시맨틱 블로그 관리 시스템 및 방법
KR100729103B1 (ko) * 2006-05-29 2007-06-14 주식회사 케이티 비구조 웹문서로부터 온톨로지 인스턴스를 자동으로추출하기 위한 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012060502A1 (ko) * 2010-11-02 2012-05-10 한국과학기술정보연구원 연구주체간의 상관관계 추론을 위한 시스템 및 방법

Also Published As

Publication number Publication date
US8055661B2 (en) 2011-11-08
KR20090038187A (ko) 2009-04-20
US20090100090A1 (en) 2009-04-16

Similar Documents

Publication Publication Date Title
KR100918847B1 (ko) 온톨로지 인스턴스 자동 생성 장치 및 방법
Trupthi et al. Sentiment analysis on twitter using streaming API
CN106570171B (zh) 一种基于语义的科技情报处理方法及系统
CN100576201C (zh) 用于从自然语言文本开发本体的方法和电子数据处理系统
CN103631882B (zh) 基于图挖掘技术的语义化业务生成系统和方法
Gacitua et al. A flexible framework to experiment with ontology learning techniques
Dawood From requirements engineering to uml using natural language processing–survey study
CN110609983B (zh) 一种政策文件结构化分解方法
KR20080092337A (ko) 자연어 문서들에서 인과 관계들의 인식을 위한 시맨틱프로세서
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
Aussenac-Gilles et al. Text analysis for ontology and terminology engineering
CN101794308B (zh) 一种面向有意义串挖掘的重复串提取方法及装置
KR20140052328A (ko) Rdf 기반의 문장 온톨로지 생성 장치 및 방법
CN103440343B (zh) 一种面向领域服务目标的知识库构建方法
Harrag et al. Extracting named entities from prophetic narration texts (Hadith)
CN110335654A (zh) 一种电子病历的信息抽取方法、系统及计算机设备
Pellin Using classification techniques to determine source code authorship
Graja et al. Building ontologies to understand spoken Tunisian dialect
Peng et al. Research on tree kernel-based personal relation extraction
KR20080029417A (ko) 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템
Wimmer et al. Word sense disambiguation for ontology learning
CN102147731A (zh) 基于扩展功能需求描述框架的功能需求自动抽取系统
Wang et al. A web service for efficient ontology comparison
JP2006277759A (ja) テキストデータ解析方法,テキストデータ解析サーバ,テキストデータ解析プログラム及びテキストデータ解析プログラムを記録した記録媒体
Gutierrez-Batista et al. About the effects of sentiments on topic detection in social networks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee