KR101724398B1

KR101724398B1 - 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법

Info

Publication number: KR101724398B1
Application number: KR1020160002116A
Authority: KR
Inventors: 서정연; 강상우; 박영민
Original assignee: 서강대학교산학협력단
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2017-04-18

Abstract

본 발명은 지식베이스를 이용하여 개체명 인식을 위한 코퍼스 생성 시스템 및 방법에 관한 것으로, 위키피디아(Wikipedia)를 이용하여 개체명 컨셉 사전을 구축하는 단계와, 상기 위키피디아의 문장을 추출하고, 상기 추출된 문장을 상기 개체명 컨셉 사전의 개체 타입과 비교하여 일치하는 문장에 대해서 태깅하는 단계와, 프리베이스(Freebase) 관계들 중 상기 개체 타입별 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 단계와, 상기 추출된 관계 내 인스턴스를 포함하는 문장을 웹으로부터 수집하고, 상기 수집된 문장을 상기 프리베이스에서 정의한 상기 개체 타입으로 태깅하는 단계 및 상기 위키피디아를 이용하여 태깅한 문장과 상기 프리베이스를 이용하여 태깅한 문장을 통합하여 개체명 인식 코퍼스를 생성하는 단계를 포함하고, 상기 일치하는 문장에 대해서 태깅하는 단계는, 상기 위키피디아의 모든 문장을 추출 시 상기 위키피디아에 대한 XML 형태의 파일에서 텍스트 이외의 정보를 제거하고, 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하여 추출한다.

Description

지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법{A GENERATION SYSTEM AND METHOD OF A CORPUS FOR NAMED-ENTITY RECOGNITION USING KNOWLEDGE BASES}

본 발명은 지식베이스를 이용하여 개체명 인식을 위한 코퍼스 생성 시스템 및 방법에 관한 것으로, 더욱 상세하게는 공개된 지식베이스를 이용하여 추출한 개체를 자동으로 태깅하는 지식베이스를 이용한 개체명 인식 코퍼스를 자동으로 생성하는 시스템 및 방법에 관한 것이다.

개체명(Named Entity)은 인명, 기관명, 지명 등과 같이 고유명사나 일반적인 사전에 등록되지 않은 단어를 의미한다. 이는 정보 추출(Information Extraction)의 응용분야에서 사용되고 있으며 1990년대 정보추출 연구 학술대회인 MUC-6(Sixth Message Understanding Conference)에서 유래되었다.

MUC의 주목적은 텍스트에서 보안 목적의 정보를 추출하는 것이었으나 이 과정을 위해 개체명 인식(Named Entity Recognition)이 필수적임을 인지하게 되었으며, 현재 정보 추출 분야의 중요 연구 과제 중 하나로 활발히 연구가 진행 중이다.

정보 추출은 비정형적인 문장으로부터 유용한 정보를 추출하는 자연어 처리(Natural Language Processing) 및 텍스트 마이닝(Text Mining) 분야의 주요 연구 분야 중 하나이고, 개체명 인식은 미리 정의된 개체 종류별로 텍스트의 요소를 분류하는 과정을 의미한다.

이는 문서 내에 존재하는 다양한 개체명의 분류를 인식하는 작업 자체만으로도 의미가 있으며 관계 추출 및 대용어 참조 해소와 같은 상위 작업을 위해서 중요한 역할을 한다.

기존의 개체명 인식에 대한 연구는 다양한 기계학습 기법을 이용하여 진행되어 왔다. 지도 학습법(Supervised Learning)은 특징 기반의 기법, 커널 기반 기법 등으로 사람이 태깅(Tagging, 표지 부착) 작업을 직접 수행하는 과정이 필요하다.

최근에는 지도 학습을 위한 수작업에 소비되는 비용을 최소화하기 위한 준지도 학습(Semi-Supervised Learning) 기법에 대한 연구가 활발히 진행되고 있다.

일반적인 준지도 학습 기법은 태깅된 소량의 초기 데이터를 사용하여 태깅되지 않은 다량의 학습 코퍼스를 추출해내는 방법이다. 하지만, 이러한 준지도 학습 방법은 여전히 초기 데이터에 표지를 수작업으로 부착해야 하는 번거로움이 따르며, 양질의 초기 데이터를 선택하기 위한 추가적인 작업이 불가피하다.

대한민국 등록특허 제10-0750886호 (2007년 08월 14일)

본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로, 위키피디아로부터 태깅한 문장을 이용하여 개체명을 인식함으로써, 정확한 성능 보장이 가능한 개체명 인식 코퍼스 생성 시스템 및 방법을 제공하는 것에 그 목적이 있다.

또한, 본 발명은, 프리베이스로부터 태깅한 문장을 이용하여 개체명을 인식함으로써, 다양한 문장 형태 추출이 가능한 개체명 인식 코퍼스 생성 시스템 및 방법을 제공하는 것에 그 목적이 있다.

상기 목적을 달성하기 위해 본 발명은 위키피디아(Wikipedia)를 이용하여 개체명 컨셉 사전을 구축하는 단계와, 상기 위키피디아의 문장을 추출하고, 상기 추출된 문장을 상기 개체명 컨셉 사전의 개체 타입과 비교하여 일치하는 문장에 대해서 태깅하는 단계와, 프리베이스(Freebase) 관계들 중 상기 개체 타입별 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 단계와, 상기 추출된 관계 내 인스턴스를 포함하는 문장을 웹으로부터 수집하고, 상기 수집된 문장을 상기 프리베이스에서 정의한 상기 개체 타입으로 태깅하는 단계 및 상기 위키피디아를 이용하여 태깅한 문장과 상기 프리베이스를 이용하여 태깅한 문장을 통합하여 개체명 인식 코퍼스를 생성하는 단계를 포함하고, 상기 일치하는 문장에 대해서 태깅하는 단계는 상기 위키피디아의 모든 문장을 추출 시 상기 위키피디아에 대한 XML 형태의 파일에서 텍스트 이외의 정보를 제거하고, 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하여 추출한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법에 있어서, 상기 개체명 컨셉 사전을 구축하는 단계는 상기 위키피디아 각각 페이지의 특징을 표현하는 키워드로 구성된 분류 정보를 이용하여 구축하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법에 있어서, 상기 일치하는 문장에 대해서 태깅하는 단계는 상기 위키피디아의 모든 문장을 추출 시 상기 위키피디아에 대한 XML 형태의 파일에서 텍스트 이외의 정보를 제거하고, 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하여 추출하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법에 있어서, 상기 일치하는 문장에 대해서 태깅하는 단계는 상기 위키피디아에 대한 XML 형태의 파일에 wikipedia2text(Extracting Text from Wikipedia)를 이용하여 텍스트 이외의 정보를 제거하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법에 있어서, 상기 일치하는 문장에 대해서 태깅하는 단계는 WikiXMLSAXParser(Wikipedia XML SAX Parser)를 이용하여 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법에 있어서, 상기 개체 타입은 인명(Person, PER), 기관명(Organization, ORG), 지명(Location, LOC)을 포함하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법에 있어서, 상기 개체 타입별 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 단계는 상기 프리베이스의 검색엔진(Freebase Easy)의 쿼리(Query)에 상기 개체 타입을 입력하고, 검색된 관계들의 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 것을 특징으로 한다.

또한 본 발명은 위키피디아(Wikipedia)를 이용하여 개체명 컨셉 사전을 구축하는 사전부와, 상기 위키피디아의 문장을 추출하는 제 1 추출부와, 상기 제 1 추출부에서 추출한 문장을 상기 사전부의 개체명 컨셉 사전과 비교하여 일치하는 문장에 대해서 태깅하는 제 1 태깅부와, 프리베이스(Freebase) 관계들 중 상기 개체 타입별 인스턴스 보유량에 따라 기설정된 순위까지 관계만을 추출하는 제 2 추출부와, 제 2 추출부에서 추출된 관계 내 인스턴스를 포함하는 문장을 웹으로부터 수집하고, 상기 수집된 문장을 상기 프리베이스에서 정의한 상기 개체 타입으로 태깅하는 제 2 태깅부 및 상기 제 1 태깅부 및 상기 제 2 태깅부에서 태깅한 각각의 문장을 통합하여 개체명 인식 코퍼스를 생성하는 생성부를 포함하고, 상기 제 1 추출부는 상기 위키피디아의 모든 문장을 추출 시 상기 위키피디아에 대한 XML 형태의 파일에서 텍스트 이외의 정보를 제거하고, 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하여 추출한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템에 있어서, 상기 사전부는 상기 위키피디아 각각 페이지의 특징을 표현하는 키워드로 구성된 분류 정보를 이용하여 상기 개체명 컨셉 사전을 구축하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템에 있어서, 상기 제 1 추출부는 상기 위키피디아의 모든 문장을 추출 시 상기 위키피디아에 대한 XML 형태의 파일에서 텍스트 이외의 정보를 제거하고, 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하여 추출하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템에 있어서, 상기 제 1 추출부는 상기 위키피디아에 대한 XML 형태의 파일에 wikipedia2text(Extracting Text from Wikipedia)를 이용하여 텍스트 이외의 정보를 제거하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템에 있어서, 상기 제 1 추출부는 WikiXMLSAXParser(Wikipedia XML SAX Parser)를 이용하여 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템에 있어서, 상기 제 2 추출부는 상기 프리베이스의 검색엔진(Freebase Easy)의 쿼리(Query)에 상기 개체 타입을 입력하고, 검색된 관계들의 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 것을 특징으로 한다.

본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법에 의하면, 위키피디아로부터 태깅한 문장을 이용하여 개체명을 인식함으로써, 정확한 성능을 보장할 수 있다.

또한, 본 발명에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법에 의하면, 프리베이스로부터 태깅한 문장을 이용하여 개체명을 인식함으로써, 다양한 문장 형태 추출이 가능한 효과가 있다.

도 1은 본 발명의 일 실시 예에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템을 나타내는 구성도이다.
도 2는 본 발명의 바람직한 실시 예에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법을 나타내는 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 개체 타입별 개체명을 나타내는 도면이다.

본 발명은 다양한 변형 및 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

먼저 본 발명의 설명에 앞서 본 발명과 관련된 기술적 사항에 대해서 설명하겠다.

개체명 태깅은 사람의 수작업을 통한 태깅이나 소량의 태깅된 데이터로부터 태깅되지 않은 데이터를 자동 태깅시키는 부트스트래핑 태깅 방법 또는 지식베이스를 이용한 태깅 방법을 이용한다.

이러한 태깅 방법으로부터 태그가 부착된 학습 코퍼스를 얻은 후 특징을 추출하고 이를 분류기를 통해 학습시켜 개체명 인식 모델을 생성한다. 생성된 개체명 인식 모델에 새로운 데이터가 입력되면 모델은 개체명 태그가 부착된 결과를 내놓게 된다.

본 발명은 이러한 개체명 태깅을 위해 사전에 구축된 지식베이스의 정보들을 참조해 훈련 데이터 셋에 대한 정답을 반자동으로 태깅하여 학습을 진행하는 방법과 지식베이스를 이용하여 사전을 구축하는 방법을 통합하여 개체명 인식 코퍼스를 자동으로 생성한다.

이하, 본 발명의 바람직한 실시 예에 대해서 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시 예에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템을 나타내는 구성도이다. 도 1을 참조하면, 개체명 인식 코퍼스 생성 시스템(100)은 사전부(110), 제 1 추출부(120), 제 1 태깅부(130), 제 2 추출부(140), 제 2 태깅부(150), 생성부(160)를 포함하여 구성된다.

먼저, 개체명 인식 코퍼스 생성 시스템(100)은 지식베이스를 이용하여 개체명 인식 코퍼스를 생성한다. 여기서 사용되는 지식베이스는 위키피디아(Wikipedia)와 프리베이스(freebase)를 사용한다.

위키피다아는 누구나 자유롭게 글을 쓸 수 있는 사용자 참여의 온라인 백과사전으로 집단 지성을 이용한 백과사전이다. 다음으로 프리베이스는 오픈형 온라인 백과사전으로, 위키피디아, NNDB(Notable Names DataBase)를 비롯한 다양한 자원으로부터 수집한 데이터를 정리한 지식베이스이다.

이러한 지식베이스를 이용하는 개체명 인식 코퍼스 생성 시스템(100)의 사전부(110)는 위키피디아를 이용하여 개체명 컨셉 사전을 구축하고, 제 1 추출부(120)는 위키피디아의 모든 문장들을 추출한다. 여기서 컨셉 사전을 구축하고 문장을 추출하는 방법에 대해서는 후술하겠다.

제 1 태깅부(130)는 제 1 추출부(120)에서 추출한 위키피디아의 문장을 사전부(110)에서 구축한 개체명 컨셉 사전의 개체 타입과 비교하여 일치하는 문장에 대해서 태깅한다.

다음으로 제 2 추출부(140)는 프리베이스에 저장된 관계들 중 개체 타입별 인스턴스 보유량에 따라 기설정된 순위까지 관계만을 추출한다. 즉, 프리베이스에 저장된 다수의 관계들 중 개체 타입별로 인스턴스 보유량에 따라 기설정된 N 번째 순위까지 관계만을 추출한다.

제 2 태깅부(150)는 제 2 추출부(140)에서 추출한 관계 내 인스턴스를 포함하는 문장을 웹으로부터 수집하고, 수집된 문장을 프리베이스에서 정의한 개체 타입으로 태깅한다.

마지막으로 생성부(160)는 제 1 태깅부(130) 및 제 2 태깅부(150)에서 태깅한 각각의 문장을 통합하여 개체명 인식 코퍼스를 생성한다.

즉, 생성부(160)는 제 1 태깅부(130)에서 위키피디아를 이용하여 태깅한 문장과 제 2 태깅부(150)에서 프리베이스를 이용하여 태깅한 문장을 통합하여 개체명 인식 코퍼스를 생성한다.

이상으로, 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템에 대해서 설명하였다. 다음으로 도 2를 참조하여 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법에 대해서 설명하겠다.

도 2는 본 발명의 바람직한 실시 예에 따른 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법을 나타내는 순서도이다.

도 2를 참조하면, 개체명 인식 코퍼스 생성 시스템은 위키피디아를 이용하여 개체명 컨셉 사전을 구축한다(S10). 여기서 개체명 컨셉 사전은 위키피디아 각 페이지 엔트리 하단에 포함된 분류 정보를 이용하여 구축하며, 분류 정보에는 각 페이지의 특징을 표현하는 키워드를 포함하고 있다.

다음으로 개체명 컨셉 사전 구축 후 위키피디아의 문장을 추출한다(S20). 여기서 개체명 인식 코퍼스 생성 시스템은 Extracting Text from Wikipedia (wikipedia2text)를 이용하여 위키피디아의 문장을 추출한다.

XML 형태의 위키피디아 파일의 페이지에는 텍스트 이외의 그림, 표 등의 정보가 포함되어 있다. 따라서 wikipedia2text를 이용하여 설정된 페이지로부터 텍스트 이외의 정보를 제거한 데이터를 추출한다.

추출 후에는 WikiXMLSAXParser를 이용하여 텍스트를 문장 단위로 분할함으로써, 위키피디아의 문장을 추출할 수 있다.

위키피디아의 문장 추출 후 개체명 인식 코퍼스 생성 시스템은 추출된 위키피디아 문장을 구축된 개체명 컨셉 사전의 개체 타입과 비교하여 일치하는 문장에 대해서 태깅한다(S30).

여기서 개체 타입은 도 3과 같이 개체 타입별 개체명을 이용하여 분류할 수 있으며, 위키피디아 문장과 개체명 컨셉 사전을 비교하여 인명(PER), 기관명(ORG), 지명(LOC)이 일치하는 경우 태깅한다.

다음으로는 프리베이스에 저장된 관계들 중 개체 타입별 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출한다(S40). 프리베이스는 다양한 자원으로부터 수집한 데이터를 정리한 지식베이스로, 각 엔트리는 어떤 두 개체와 그 사이의 관계를 표시하고 있다.

예를 들어 'Petrus Bertius, Place of birth, Beberan' 엔트리에서 두 개체 'Petrus Bertius'와 'Beberan'은 'Place of birth'의 관계를 갖는다는 의미이고, 각 개체는 Person/Person 타입으로 표시된다.

현재 프리베이스는 인명, 기관명, 지명뿐만 아니라 영화명, 음악명 등 다양한 개체들 간의 관계가 수집되는 중이며 2015년 6월 기준으로 약 29억개의 개체로 구성되어 있다.

여기서 프리베이스는 인명, 기관명, 지명의 개체를 포함하고 있는 관계들 중 각 개체 타입별로 인스턴스 보유량 순서에 따라 기설정된 상위 N개 순위까지의 관계만을 추출한다.

상위 N개 순위까지의 관계를 추출하기 위해서는 프리베이스의 검색엔진(Freebase Easy)을 사용하며, 프리베이스의 검색엔진의 쿼리(Query)에 개체 타입을 입력하고, 입력한 개체 타입이 포함된 관계들을 결과로 얻을 수 있다.

예를 들어 프리베이스의 검색엔진에 쿼리를 인명으로 입력하면 인명 타입을 포함하고 있는 관계를 인스턴스가 많은 순으로 정렬해서 보여준다. 인명의 경우 Gender 관계 1,976,747개, Date of birth 관계 1,274,974개, Profession 관계 999,587개 Place of birth 관계 885,071개, Country of nationality 관계 775,486개의 인스턴스를 보유하고 있으므로 인명 타입을 포함한 상위 5개의 관계임을 확인할 수 있다.

다음으로 프리베이스에 저장된 관계에서 기설정된 순위까지의 관계 추출 후 개체명 인식 코퍼스 생성 시스템은 추출된 관계 내 인스턴스가 포함되어 있는 문장을 웹(Web)으로부터 수집하고(S50), 수집된 문장을 프리베이스에서 정의한 개체 타입으로 태깅한다(S60).

예를 들어 웹에서 'Microsoft is loacted in Redmond WA...' 이라는 문장이 추출되었고 추출된 관계 중 /Microsoft%ORG/-locate-/Redmond WA%LOC/ 관계가 포함되어 있다면 'Microsoft'와 'Redmond WA'는 'locate' 관계를 가질 확률이 높으므로 각각 기관명과 지명으로 태깅한다.

마지막으로, 개체명 인식 코퍼스 생성 시스템은 위키피디아를 이용하여 태깅한 문장과 프리베이스를 이용하여 태깅한 문장을 통합하여 개체명 인식 코퍼스를 생성한다(S70).

즉, 개체명 인식 코퍼스 생성 시스템은 개체명 컨셉 사전과 위키피디아에서 추출된 문장 비교를 통해 태깅한 문장과, 웹으로부터 수집하여 프리베이스에서 정의한 개체 타입으로 태깅한 문장을 서로 통합 내지 병합하여 개체명 인식 코퍼스를 생성한다.

개체명 컨셉 사전과 비교를 통해 위키

피디아를 이용하여 태깅한 문장과 프리베이스를 이용하여 태깅한 문장들에 대해서 통합 내지 병합하여 개체명 인식 코퍼스를 생성한다.

여기서 두 개의 자동 태깅 방법을 비교하면, 위키피디아 기반의 방법은 편집자들이 직접 태깅을 하였으므로 비교적 정확한 성능을 보장하는 반면, 대부분 정형화된 문장들로 이루어져 있어 다양한 문장 형태를 추출하기 어렵다.

또한, 프리베이스 기반의 방법의 경우 상대적으로 오류가 발생할 확률은 높지만 다양한 형태의 문장 수집이 가능하다.

따라서, 두 방법을 통합하여 개체명 인식 코퍼스를 생성하므로 상호 보완적으로 정확한 성능에 다양한 문장 형태 추출을 통한 개체명 인식이 가능하다.

명세서에 기재된 본 발명의 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시 예에 관한 것이고, 발명의 기술적 사상을 모두 포괄하는 것은 아니므로, 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해해야 한다. 따라서 본 발명은 상술한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 권리범위 내에 있게 된다.

100: 개체명 인식 코퍼스 시스템
110: 사전부
120: 제 1 추출부
130: 제 1 태깅부
140: 제 2 추출부
150: 제 2 태깅부
160: 생성부

Claims

위키피디아(Wikipedia)를 이용하여 개체명 컨셉 사전을 구축하는 단계;
상기 위키피디아의 문장을 추출하고, 상기 추출된 문장을 상기 개체명 컨셉 사전의 개체 타입과 비교하여 일치하는 문장에 대해서 태깅하는 단계;
프리베이스(Freebase)에 저장된 관계들 중 상기 개체 타입별 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 단계;
상기 추출된 관계 내 인스턴스를 포함하는 문장을 웹으로부터 수집하고, 상기 수집된 문장을 상기 프리베이스에서 정의한 상기 개체 타입으로 태깅하는 단계; 및
상기 위키피디아를 이용하여 태깅한 문장과 상기 프리베이스를 이용하여 태깅한 문장을 통합하여 개체명 인식 코퍼스를 생성하는 단계;를 포함하고,
상기 일치하는 문장에 대해서 태깅하는 단계는,
상기 위키피디아의 모든 문장을 추출 시 상기 위키피디아에 대한 XML 형태의 파일에서 텍스트 이외의 정보를 제거하고, 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하여 추출하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법.
제 1 항에 있어서,
상기 개체명 컨셉 사전을 구축하는 단계는,
상기 위키피디아 각각 페이지의 특징을 표현하는 키워드로 구성된 분류 정보를 이용하여 구축하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법.
삭제
제 1 항에 있어서,
상기 일치하는 문장에 대해서 태깅하는 단계는,
상기 위키피디아에 대한 XML 형태의 파일에 wikipedia2text(Extracting Text from Wikipedia)를 이용하여 텍스트 이외의 정보를 제거하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법.
제 1 항에 있어서,
상기 일치하는 문장에 대해서 태깅하는 단계는,
WikiXMLSAXParser(Wikipedia XML SAX Parser)를 이용하여 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법.
제 1 항에 있어서,
상기 개체 타입은,
인명(Person, PER), 기관명(Organization, ORG), 지명(Location, LOC)을 포함하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법.
제 1 항에 있어서,
상기 개체 타입별 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 단계는,
상기 프리베이스의 검색엔진(Freebase Easy)의 쿼리(Query)에 상기 개체 타입을 입력하고, 검색된 관계들의 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 방법.
삭제
위키피디아(Wikipedia)를 이용하여 개체명 컨셉 사전을 구축하는 사전부;
상기 위키피디아의 문장을 추출하는 제 1 추출부;
상기 제 1 추출부에서 추출한 문장을 상기 사전부의 개체명 컨셉 사전과 비교하여 일치하는 문장에 대해서 태깅하는 제 1 태깅부;
프리베이스(Freebase)에 저장된 관계들 중 개체 타입별 인스턴스 보유량에 따라 기설정된 순위까지 관계만을 추출하는 제 2 추출부;
제 2 추출부에서 추출된 관계 내 인스턴스를 포함하는 문장을 웹으로부터 수집하고, 상기 수집된 문장을 상기 프리베이스에서 정의한 상기 개체 타입으로 태깅하는 제 2 태깅부; 및
상기 제 1 태깅부 및 상기 제 2 태깅부에서 태깅한 각각의 문장을 통합하여 개체명 인식 코퍼스를 생성하는 생성부;를 포함하고,
상기 제 1 추출부는 상기 위키피디아의 모든 문장을 추출 시 상기 위키피디아에 대한 XML 형태의 파일에서 텍스트 이외의 정보를 제거하고, 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하여 추출하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템.
제 9 항에 있어서,
상기 사전부는,
상기 위키피디아 각각 페이지의 특징을 표현하는 키워드로 구성된 분류 정보를 이용하여 상기 개체명 컨셉 사전을 구축하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템.
삭제
제 9 항에 있어서,
상기 제 1 추출부는,
상기 위키피디아에 대한 XML 형태의 파일에 wikipedia2text(Extracting Text from Wikipedia)를 이용하여 텍스트 이외의 정보를 제거하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템.
제 9 항에 있어서,
상기 제 1 추출부는,
WikiXMLSAXParser(Wikipedia XML SAX Parser)를 이용하여 상기 텍스트만 남은 XML 형태의 파일을 문장 단위로 분할하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템.
제 9 항에 있어서,
상기 제 2 추출부는,
상기 프리베이스의 검색엔진(Freebase Easy)의 쿼리(Query)에 상기 개체 타입을 입력하고, 검색된 관계들의 인스턴스 보유량 순서에 따라 기설정된 순위까지 관계만을 추출하는 것을 특징으로 하는 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템.